PowerPoint Presentation by kmC5109

VIEWS: 0 PAGES: 102

									Métodos y procesos para el
desarrollo y construcción de
         exámenes
 Taller para la Universidad del Valle de Guatemala

                  Antonio Magriñá
                  Director Ejecutivo
        División de Medición e Investigación


                   12 de junio de 2007
• Somos una asociación educativa sin fines de
  lucro que aboga por la excelencia educativa
  para todos los estudiantes a través de la
  colaboración continua de sus miembros que
  incluyen las escuelas secundarias,
  instituciones universitarias, sistemas de
  educación y organizaciones educativas.
• La participación activa de los miembros en los procedimientos
  es lo que garantiza la adecuada respuesta a sus necesidades y
  constituye una de las características excepcionales de los
  programas.
• Participan:
• En la Junta de Síndicos: 28 miembros electos por los
  representantes de las instituciones que componen y rigen la
  asociación. Los síndicos designan el presidente del College
  Board.
• En las Juntas asesoras o consultivas: funcionarios directivos,
  profesores, profesionales de orientación y de ayuda económica
  procedentes de las instituciones miembros trabajan en cada
  programa de importancia.
• En las asambleas anuales y regionales en Juntas,
  congresos técnicos, conferencias, comités y grupos de
  trabajo: Los representantes de las instituciones miembros
  hacen aportaciones, evaluaciones, revisiones, y comparten sus
  experiencias y conocimientos con colegas y expertos en las
  materias.
Analizar algunos conceptos fundamentales de la evaluación
    del aprendizaje con exámenes
    - Construcciones lógicas y tipos de examen
       •   Ventajas y limitaciones de un examen estandarizado
       •   exámenes estandarizados y exámenes con referencia a criterio
           (criterion referenced)

•   Presentar un modelo de desarrollo sistemático de un
    examen
• Usos de exámenes en la evaluación de la Aptitud y el
  aprovechamiento
• Modelo de desarrollo de un examen
    – Desarrollo de especificaciones y alineamiento con los objetivos de
      enseñanza-aprendizaje
    – Redacción de ítems
• Teoría general de medición
• Uso de índices psicométricos y estadísticos
• Análisis estadísticos de ítems
• Construcción del examen: formas experimentales y formas
  operacionales
• Desarrollo de Escalas:
    – Diseños y metodos de calibracion, igualacion y equiparacion
• Interpretación de los resultados
• Estudios de validez y otras investigaciones
• APTITUD:
  – DEFINICIONES DEL DICCIONARIO DE LA
    LENGUA ESPAÑOLA DE LA REAL ACADEMIA
   (Ed.Espasa Calpe, 2001):


         “Capacidad para operar competentemente en una
          determinada actividad.”

         “ Capacidad o disposición para el buen desempeño
           o ejercicio de un negocio, de una industria, de un
           arte, etc.”
• Pruebas de:
  – APTITUD: Teoría cognoscitiva – procesos
     • Lo que la persona hace con lo que sabe, como aplica sus
       conocimientos
     • APTITUD: Capacidad para desempeñarse competentemente en
        actividad:
          – CIENTÍFICA
          – MUSICAL
          – MECÁNICA
          – Etc.
      • APTITUD ACADÉMICA
          – Razonamiento Verbal
          – Razonamiento Matemático
• Conocimiento:
  – Teoría = Currículo
• Conocimiento NO es MEMORIA unicamente
  – Taxonomía cognitiva de Bloom:
      • MEMORIA: aprendizaje y recuerdo de términos y conceptos
      • COMPRENSIÓN: comparar, extrapolar, organizar ideas
      • APLICACIÓN: uso del conocimiento
      • ANÁLISIS: extraer y organizar información para hacer inferencias y
        apoyar generalizaciones
      • SÍNTESIS: derivar relaciones abstractas, proponer planes y
        operaciones eficientes
      • EVALUACIÓN: opiniones y juicios informados; juicios sobre
        validez en función a criterios internos y externos
• Influencia excesiva en la toma de decisiones administrativas y
  educativas
• No evalúan niveles superiores de conocimiento y destrezas de
  pensamiento
• No evalúan adecuadamente la capacidad de integrar, sintetizar,
  encontrar soluciones innovadoras, crear, imaginar
• Se le da mucha importancia en perjuicio de otras formas de
  evaluar mas ligadas al proceso de enseñanza-aprendizaje
• Disonancia entre los objetivos propuestos y la realidad de los
  estudiantes
• Disonancia entre los objetivos propuestos y la realidad de la
  docencia
• La inclinación a “enseñar para el examen” puede restarle
  amplitud, espontaneidad y creatividad al proceso de
  enseñanza-aprendizaje
Modelo del proceso de desarrollo de un examen
  Justificación o necesidad para el examen
                     Por qué el examen
                     Para qué el examen
                     Para quién el examen

  Etapa de planificación
                    Recursos humanos
                    Recursos económicos
                    Calendario
                    Infraestructura
                    Consideraciones políticas, técnicas y prácticas
  Etapa de diseño
                   Fundamento teórico (validez de construcción)       Revisión
                   Criterios y estándares curriculares
                   Tipo de examen/ítems
                   Especificaciones
  Etapa experimental - prepruebas
                    Redacción de items                                Evaluación
                    Análisis Psicométricos
                    Revisión/evaluación

  Etapa operacional
                Administración
                    Análisis psicométricos (controles de calidad)
                    Desarrollo de escalas o métricas y calificación
                    Informes e implantación
  Etapa de investigación                                               Evaluación y revisión
                    Validación y Seguimiento
                    Formas nuevas, equiparación
•   Propósito educativo: ¿Por qué se quiere un examen?, ¿Cuál es
    el propósito?, ¿Cuál es la necesidad o problema que espera
    resolver?
•   Uso: ¿Para qué se usará el examen?
    –   Diagnóstico individual
    –   Diagnóstico sistémico
    –   Promoción de un nivel educativo a otro
    –   Ingreso a universidad
    –   Graduación (salida)
    –   Certificación de competencias profesionales
•   Población: ¿Para quién será el examen?
    – Población a la que va dirigido
    – Nivel que se interesa evaluar
    – Toda la población del nivel seleccionado o una muestra
• Recursos humanos disponibles
   – ¿Quiénes desarrollarán el examen?: centro profesional de
     evaluación de la institución; grupo adhoc de docentes con asesoría
     especializada; organismo externo; combinación de los
     componentes anteriores
   – Asignación y distribución de los recursos humanos
• Recursos económicos
   – Cuánto dinero habrá disponible para el desarrollo, operación y
     mantenimiento del examen
   – Quién pagará el examen: universidad, estudiantes, otros recursos
• Infraestructura
   – Equipo
   – Espacio
• Calendario:
   – Para cuándo se quiere el examen
• Políticas: Impacto y aceptación de los distintos
  sectores universitarios: recintos, administración,
  facultad, estudiantes; probabilidad de continuidad
  más allá de cambios administrativos
• Técnicas: Tipo de examen que se requiere para el
  uso; contenido; tipos de ítems; análisis estadísticos
  requeridos; nivel de dificultad; tiempo;
  comparabilidad
• Prácticas: Tiempo para el desarrollo e implantación;
  recursos económicos y humanos; infraestructura
  para el desarrollo, aplicación y calificación
• Fundamento teórico: Teorías, modelos y marco
  conceptual para fundamentar el examen; tipos de
  examen; formatos de ítems
• Criterios y estándares curriculares: en los que se
  sustentará el examen
• Determinación del tipo de examen e ítems
• Determinación de las especificaciones: contenidos,
  cantidad de ítems total y para cada área, dificultad,
  niveles de abstracción de los ítems, destrezas
  evaluadas, especificaciones estadísticas
• Selección y adiestramiento de los redactores
• Redacción de ítems
• Revisión y edición de ïtems: diversas revisiones internas y
  externas, revisión de contenido, de lenguaje, de estereotipos,
  de formato
• Construcción de prepruebas
• Administración de prepruebas: Selección de muestra
  representativa, adiestramiento, diseño de materiales
  administrativos
• Análisis estadísticos y psicométricos de los ítems:
  dificultad, discriminación, confiabilidad, ajuste, etc.
• Evaluación y revisión de los ítems
• Selección de los ítems que conformarán la versión
  operacional
• I- Selección de los comités de examinadores,
       redactores y otro personal experto
• II- Desarrollo de las pruebas
• III- Materiales de apoyo y procesos de
       aplicación de las pruebas
• IV- Controles de calidad estadísticos y
       psicométricos
• V- Controles de calidad de calificación e informes de
  resultados
   I-


• Trabajo en equipo de
   – especialistas en contenido específico, redactores y
     editores especializados

   – expertos en desarrollo de pruebas, psicómetras,
     expertos en medición, estadísticas y evaluación.

   – Personal o servicios de apoyo: sistemas de información,
     personal clerical y secretarial, artistas gráficos, personal
     de imprenta y otros
I-

• Comités de examinadores:
   – Expertos o conocedores de la materia
      • En el caso del comité de la Prueba de Aptitud Académica se
        seleccionan especialistas en diversidad de áreas:
          – Linguística o literatura
          – Filosofía
          – Matemáticas y Ciencias
          – Ingeniería
          – Psicología y psicometría
          – Educación
   – Representatividad:
      • Balancear proporcionalmente:
          – Género y edad
          – Área académica
          – Geográfica e Institucional
          – Rotación de miembros del comité
• Analizar los ofrecimientos académicos para los estudiantes a
  quienes se dirige la prueba.
   – Para la PAA, estudiantes de primer ingreso a nivel postsecundario
      y los ofrecimientos a nivel secundario, a la luz de la política de
      admisión de las instituciones postsecundarias latinoamericanas.
• Participar en el análisis de los desarrollos del programa de
  pruebas de admisión postsecundaria, así como del uso y los
  efectos de éstos en el proceso de admisión.
• Evaluar el uso de resultados de la prueba.
• Revisar las Especificaciones del contenido y nuevos enfoques
  de la Prueba.




                                                      {1 de 2}
• Recomendar y ponderar cambios que la Prueba amerite.
• Ayudar en la preparación de las guías para los redactores.
• Revisar o ayudar en la definición de los procedimientos y la
  preparación de las guías de los examinadores.
• Revisar los ejercicios que preparen los redactores y, de ser
  necesario, redactar otros para cumplir con las Especificaciones
  de la Prueba.
• Examinar el modelo de la prueba que se administrará a los
  estudiantes.
• Participar en el análisis de documentos y artículos pertinentes.
• Revisar el material de divulgación para los estudiantes y la
  Guía de Estudio para tomar las Pruebas.

                                                (2 de 2)
• Como redactores participan expertos de contenido, usualmente
  facultad universitaria.
• Se adiestran por personal especializado en el desarrollo de pruebas
  en talleres de 1 a 3 días dependiendo de la experiencia previa de
  los redactores y las necesidades operacionales.
• Se aplican criterios de representatividad análogos a los usados para
  el comite examinador (género, edad, etc.)
• La labor del redactor se evalúa mediante:
       • Evaluación del coordinador del programa de pruebas quien preselecciona
         el material para someter al comité examinador
       • La evaluación a que se somete el material nuevo en el comité de
         examinadores
       • Evaluación por editores de reactivos y de pruebas quienes han sido
         previamente redactores con experiencia y producción de calidad.
       • Evaluación estadística y psicométrica
• Desarrollo de especificaciones:
•   CONTENIDO:
     – CONCEPTUALIZACIÓN, TEORÍA O CURRÍCULO
     – Consideraciones del comité examinador
         •   AREAS
         •   IMPORTANCIA
         •   PESO
         •   DIFICULTAD
     – VALIDACIÓN DE ESPECIFICACIONES
        • Análisis de validez de contenido
•   PSICOMÉTRICAS
         • PARALELISMO
         • DISTRIBUCIÓN DE DIFICULTADES DE LOS EJERCICIOS
         • DISCRIMINACIÓN
         • AJUSTE A MODELOS DE MEDICIÓN
             – UNIDIMENSIONALIDAD
             – Independencia local
         • VALIDEZ DE CONSTRUCCIÓN LÓGICA:
             – CONSIDERACIONES ESTRUCTURALES
Análisis de sensibilidad:
   • información o descripciones que puedan afectar a algún grupo (social,
      religioso o étnico).
   • material (lecturas, vocabulario, etc.) con estereotipos
   • efectos de contexto que se pueda prestar a diferentes interpretaciones
        – El contenido de un ejercicio aparece aislado y no dentro del contexto del
          material lo cual afecta la interpretación correcta
    • material que se considere sensitivo, polémico o controvertible debe excluirse
      de la prueba
– Redactores, comités, editores y personal especializado toma en consideración
  estos aspectos al momento de desarrollar y seleccionar material para preprueba.
• Perspectiva cognoscitiva/afectiva – Estas dos
  dimensiones deben considerarse cuando se evalúan
  textos, en las pruebas, que hagan referencia a sectores
  específicos de una sociedad o cultura.
   – Ejemplo:
      • dimensión cognoscitiva: presentar datos que confirmen que un
        determinado sector social tiene un mayor índice de criminalidad
      • dimensión afectiva: información que pueda herir la sensibilidad de un
        grupo.
• Investigaciones (Englehard, et.al.,1990) sugieren que es
  más fácil identificar deficiencias o vicios culturales en los
  reactivos y más difícil estimar deficiencias técnicas
  como:
   –   Nivel de dificultad del reactivo
   –   Estimado de discriminación
   –   Dependencia o independencia del reactivo
   –   Contribución del reactivo a la estructura factorial

                       (Englehard, G,. Hansche, L., & Rutledge, K. E.
                       Accuracy of bias review judges in identifying
                       differential item functioning on teacher certification tests.
                        Applied Measurement in Education,
                       1990,3, 347-360. )
• Se requiere que los ejercicios sean independientes unos de
  otros
   – Un ejercicio no debe proveer o sugerir la solución a otro
   – Los ejercicios que forman parte de un grupo, como los ejercicios
      de lectura, tabla con datos para interpretación, etc., han de hacer
      referencia a la información presentada, pero no deben depender
      uno del otro.
• Los ejercicios han de adaptarse a las características de la
  poblacion a la que van dirigidos:
        • Vocabulario o léxico
        • Nivel de dificultad
        • Niveles de desarrollo humano (edad, etc)
•    El enunciado ha de presentar solamente un problema
     central
    – Si al leer la frase principal del enunciado, ocultando las
        opciones, se puede entender de qué trata el problema o
        pregunta, el ejercicio cumple con este requisito.
•    El problema ha de expresarse con precisión
    – El ejercicio debe redactarse con sencillez y corrección
    – No se debe incluir más información de la necesaria para
        contestar.
•       Un ejercicio se puede presentar tanto de forma
        negativa como positiva, es preferible la forma
        positiva. Los ejercicios con situaciones o
        problemas presentados en forma negativa
        tienden a confundir al examinando
    –     Si es necesario emplear una forma negativa, la palabra
          negativa debe presentarse en mayúsculas, es decir,
          MENOS, EXCEPTO, NO, etc.
•   Las opciones han de ser tan breves como
    sea posible. Cuando las opciones son
    excesivamente largas, casi siempre
    incluyen problemas adicionales al expuesto
    en el enunciado.
    –   Las opciones que son mucho más cortas o más largas
        que las demás tienden a ser obviamente correctas o
        incorrectas
• Selección de ejercicios de acuerdo a especificaciones de contenido
  y psicométricas
   – Contenido
        • ÁREAS
        • IMPORTANCIA
        • PESO
   – Características estadísticas y psicométricas en la selección de los
      reactivos o ejercicios individuales
        • Dificultad y su distribución
             – Observada y calibrada
        • Discriminación
        • Ajuste estadístico (INFIT y OUTFIT)
        • Tiempos asignados a las secciones y por ejercicio
        • ESTRUCTURA FACTORIAL
        • PARALELISMO con formas anteriores
• Es necesario que distintas versiones midan la
  misma construcción lógica
  – Estructuras factoriales similares
  – Procedimiento: creación de especificaciones que detallen
    las construcciones lógicas representadas en la prueba
     • Identificar los reactivos por construcción lógica ayuda a desarrollar
       versiones paralelas
•   Desarrollo de hojas de claves de respuesta
     – Descripción de contenido y estadísticas de ejercicios que consituirán la
       prueba
     – Edición de claves
     – Mascarillas de respuesta
         • controles de calidad mediante calificación manual
              – Contraste con calificación computadorizada
•   Consideraciones de estilo y formatos de presentación
         • Uso de mayúsculas, tipos (fonts), tamaño de letra, etc.

•   INSTRUCCIONES A LOS ESTUDIANTES EN EL EXAMEN
          • FORMATOS DE INSTRUCCIONES
          • DESARROLLO DE EJEMPLOS DE TIPOS DE EJERCICIO EN CADA SECCIÓN
•   INSTRUCCIONES EN EL MANUAL DEL EXAMINADOR
               – CONCORDANCIA ENTRE MANUAL, EXÁMEN y HOJA DE RESPUESTA
  III-

• Desarrollo y controles de calidad de las hojas de
  respuesta
    – Diseño concorde a estructura del examen
    – Campos de identificación
         • Número único de identificación, códigos de barra, etc.
             – Coordinación con sistemas de información
• INSTRUCCIONES
   – En el manual del examinador:
      • Funciones del examinador y examinador auxiliar
      • Desarrollo de instrucciones específicas ‘verbatim’
           – A ser leídas a los estudiantes en la administración del examen
           – A ser leídas y estudiadas por los examinadores previo a la
             administración de examen
     III-


• Desarrollo de Guías para el estudiante con
  pruebas o ejemplos de ejercicios
• Desarrollo o revisión de materiales de
  inscripción con información de:
  – Calendario de pruebas
  – Costos o cuotas
  – Formularios de inscripción, cuestionarios, etc.
• Lectura y controles de calidad de las hojas de
  inscripción para tomar la prueba
   – Preparación y envío de boletos de inscripción

• Directores de Centros de Examen:
          – Organización administrativa mediante reuniones de
            orientación
              Reciben adiestramiento que a su vez transmitirán,
                junto a materiales de apoyo (manuales,
                instrucciones, etc) a los examinadores y sus
                auxiliares
• Procesos de control de distribución de
  exámenes
  – Diseño de ‘spiralling’
     • Representatividad de subformas de preprueba y subformas de
       calibración
         – Implicaciones para impresión y distribución de folletos
• Desarrollo y controles de calidad de matriculados o inscritos en el
  examen
      • Métodos de corroboración de identidad
      • Preparación y distribución de boletos de admisión individual al
         salón de examen
      • Desarrollo y distribución de listas de inscritos para los centros de
         examen:
           – Para el Director de Centro
           – Para los examinadores (por salón, etc.)
• Materiales para el control de distribución y recogido de exámenes
    – Hojas de cotejo y conteo para el director de centro de examen
      Hojas de cotejo y conteo para los examinadores
      Informes de examinadores y hojas de irregularidades
        • Control extricto de distribución y recopilación de folletos de examen y
          otros materiales
   IV-

• Los resultados de análisis estadísticos y psicométricos
  se utilizan para:
   – La evaluación de las características y calidad de versiones nuevas de
     las pruebas y de los nuevos ejercicios de preprueba
   – El desarrollo del banco de ejercicios y de pruebas nuevas
   – Operacionalización de los procesos de calificación
       • Controles de calidad de los procesos de calificación
       • Calibración, equiparación y desarrollo de escalas
   – Ensamblar pruebas nuevas
       • Controles de calidad de los reactivos o ejercicios que consituyen las
         nuevas versiones de prueba
       • Calidad de la prueba como unidad total de medición
       • Desarrollo de versiones paralelas
• AREA ESPECIALIZADA DE INVESTIGACIÓN
   PARA EL ANÁLISIS DEL DESARROLLO,
     CONFIABILIDAD Y VALIDACIÓN DE
      INSTRUMENTOS DE MEDICIÓN
• Dos objetivos principales de los procesos de
  desarrollo psicométrico de las pruebas son
  lograr:
   – Confiabilidad
   – Validez
     • Para que un instrumento sea válido tiene que ser confiable
             » Validez < (confiabilidad) 2
             » Ej: confiab.=0.80: validez < 0.64
• una VARIABLE que define cuantitavamente
  una propiedad o característica
• medir es asignar numeros a las cantidades
  de las propiedades de los objetos
• se mide de acuerdo a reglas cuya validez
  puede ser sometida a prueba empírica
• Medición: asignación de símbolos a eventos
  de acuerdo a reglas
  – Las reglas varían en complejidad
  – cada nivel de complejidad lleva implícito un nivel de
    medición distinto
  – la complejidad difiere con respecto a la CANTIDAD de
    INFORMACION que representan los números
  – una escala de medición consiste de:
     • un conjunto de reglas de acuerdo al nivel de medición
     • una definición operacional de los atributos o eventos a
       medirse
– Nominal- clases discretas de eventos
– Ordinal- clases discretas ordenadas por rango; provee
  el orden de los objetos en la escala (mayor que, menor
  que)
– Intervalo- medición ordinal con distancias iguales
  entre las clases discretas; provee información de las
  magnitudes de las diferencias y no solo del orden o
  rango
– Razón- medición de intervalo con un cero no arbitrario;
  tiene unidades iguales a traves de la variable; NO
  necesita referencias externas a la medida misma ya que
  utiliza el cero como referencia
Nivel de      Tendencia                  Posición
Medición      Central     Variabilidad   Individual

Intervalo y   Promedio    Varianza       Puntuaciones
Razón                     Desviación     Estándar
                          Estándar
                                         Rangos y
Ordinal       Mediana     Alcance        Porcentiles

                           Número de
Nominal       Moda        clases         Unicidad
• requiere localizar un objeto en un punto de un
  continuo abstracto
• reducción de la experiencia a una abstracción de una
  sola dimensión
• comparación de más (+) o menos (-)
  entre A y B (B=personas; A=ítemes)
   – interacción de personas e ítemes para producir información útil
• magnitud y dirección linear inherente en la ubicación
  de objetos en una línea
•   aditividad- significa que personas e ítemes se definen linealmente y
    se puede diferenciar entre habilidad de las personas y dificultad de los
    ítemes
      – para lograr aditividad es necesario separar parámetros de ítemes y
        parámetros de personas
•   suficiencia estadística- implica separabilidad: capacidad del modelo
    para factorizar como producto (multiplicación) cada parámetro y las
    estadísticas asociadas al mismo- debe resumir la información relevante
    que suple la muestra
•    objetividad específica: requiere que las diferencias entre pares de
    objetos o medidas (calibraciones) sean independientes de las
    muestras;
      – la medida provee la localización de objetos en el continuo
      – la misma escala (métrica) se usa para definir la localización de diversos
        objetos (ítemes o personas en el modelo Rasch)
     De los ítemes                  De la prueba
• dificultad observada y       • confiabilidad alpha de
  calibrada                      Cronbach y de Teoría de
• discriminación de cada         Respuesta al Ítem
  opción
                               • dificultad observada y
• factor de corrección por
                                 calibrada
  respuestas al azar
• ajuste del ítem al modelo    • discriminación de la prueba
  psicométrico                   total
• curvas características del   • error de medición
  ítem                         • análisis factorial
• Estimados de dificultad
  – Modelos clasicos
  – Modelos IRT


• Estimados de discriminación
  – Biserial
  – “Infit”
  – Otros
• Porcientos de respuesta correcta por ítem o ejercicio presenta
  limitaciones por ser medidas ORDINALES, no lineales
• PARA ESTIMAR DIFICULTAD SE UTILIZA UNA ESCALA
   – ALCANCE: 6 A 20
   – ALCANCE OPERACIONAL: 8 A 18
   – PROMEDIO 13.0
• NIVELES DE DIFICULTAD:
       • FÁCIL: 10.9 o menos (más de 67% )
       • MEDIANA: 11 a 13.9 (67% a 43%)
       • DIFICIL: 14+ (menos de 43% )
• Definición- estimado de la capacidad del ítem para separar
  personas por niveles del constructo (por niveles de habilidad o
  conocimiento)
   – Se estima mediante la correlación del ítem con la prueba total
       • (en TRI : correlación del ítem con el constructo)
   – Métodos de estimación:
       • Correlación biserial
       • Métodos iterativos –modelos TRI-
   – discriminación considerada adecuada: entre 0.30 y 0.65
• Correlación Biserial (índice de discriminación): El índice de
  discriminación provee una correlación entre los ejercicios o
  ítemes y la prueba total. El alcance de la correlación biserial
  es de -1 a +1.
   – Este índice debe estar entre .30 y .60 para proveer
     información adecuada.
   – Un índice biserial menor de .30:
      • indica que los ejercicios o ítemes de la prueba NO diferencian
        significativamente entre los distintos niveles de habilidad de la población
        examinada
      • reduce la confiabilidad del instrumento de medición y añade error a los
        estimados de las puntuaciones
      • Una correlación biserial extremadamente baja (menor de .10) o negativa
        es índice de problemas significativos en los ítemes
Una correlación biserial mayor a .65 puede
                indicar que:
 – existe una distribución irregular (ej. bimodal, sesgada por
   variables extrínsecas a las pruebas, etc.)
 – las respuestas pueden estar diferenciadas por variables
   externas a la prueba o a lo que se intenta medir con la
   misma
 – los ítemes de la prueba resultan extremadamente
   redundantes en lo que miden
• Dificultad
   – ALCANCE 0 A 100
      • Ensamblaje
          – 10% dificultad máxima
          – 90% dificultad mínima
   – DELTA: ALCANCE 6 A 20
      • Ensamblaje:
          – Máxima 18
          – Mínima 8
   – Biserial : ALCANCE -1.0 A +1.0
      • Ensamblaje:
          – Máxima 0.65
          – Mínima 0.30
              » (0.25 para bancos nuevos o con recursos escasos)
     GEMA 1200
               Item Statistics             Alternative Statistics
           -----------------------   -----------------------------------
Seq. Scale Pcnt     Disc.                   Pcnt Endorsing
No. -Item Correct Index Biser.       Alt. Total Low High Biser. Key
---- ----- ------- ------ ------     ----- ----- ---- ---- ------ ---

22    1-22       53   .51    .42       A     10    12     5   -.26
                                       B     19    26     6   -.35
                                       C     53    33    84    .42   *
                                       D     15    25     6   -.43
                                     Other    2     0     0   -.44

23    1-23       24   .29    .30       A     20    23    15   -.23
                                       B     23    29    18   -.22
                                       C     31    31    25   -.17
                                       D     24    12    41    .30   *
                                     Other    3     0     0   -.44
                                              ESPAÑOL
Statistics             Alternative Statistics
        ----------------------- -----------------------------------
 Scale Pcnt      Disc.                   Pcnt Endorsing
 -Item Correct Index Biser. Alt. Total Low High Biser. Key
 ----- ------- ------ ------ ----- ----- ---- ---- ------ ---

 1-22     83      .29    .45       A     10    18     4   -.46
                                   B     83    66    96    .45   *
                                   C      1     3     0   -.47
                                   D      5    12     0   -.58
                                 Other    0     0     0   -.42

 1-23     40      .37    .32       A     18    28     7   -.44
                                   B     25    22    29   -.04
                                   C     16    28     7   -.45
                                   D     40    20    57    .32   *
                                 Other    1     0     0   -.61
        Dos ejercicios de preprueba rechazados:

            Item Statistics             Alternative Statistics
        -----------------------   -----------------------------------
Scale    Pcnt    Disc.                   Pcnt Endorsing
-Item   Correct Index    Biser.   Alt. Total Low     High Biser. Key
-----   ------- ------ ------     ----- ----- ---- ---- ------ ---

 1-22     22      .05   -.04        A      22    19    23   -.04   *
                                    B      18    24    13   -.24
                                    C      13    14    11   -.19
                                    D      46    40    50   -.02
                                  Other     2     0     0   -.26

 1-23     67      .28    .20        A      67    51    80    .20   *
                                    B      25    40    14   -.42
                                    C       6     7     5   -.17
                                    D       1     1     1   -.04
                                  Other     0     0     0   -.38
                         n=10 bajos    n=10
                                      altos
# item:   TOTAL          25% bajo     25% alto
     2       36              9             9
     1       36              7            10
     4       28              2             9
     3       20              6             7
     5       12              1             6


                          CUARTILES
                    PORCIENTOS
                          :
# item:   % total        25% bajo     25% alto
     2        90            89           91
     1        90            65          100
     4        70            20           85
     3        50            60           65
     5        30            10           60
•   los estimados de dificultad y discriminación dependen de las
    características de las muestras o poblaciones de las que fueron
    obtenidos
•   la confiabilidad queda definida en terminos de formas paralelas y esta
    igualmente atada a las características de las muestras o poblaciones
    examinadas
•   no provee fundamento para establecer el nivel de ejecución del
    examinado con respecto al reactivo o ítem
•   asume que los errores de medición son iguales para todos los
    examinados (el error de medición es un promedio de error en el
    análisis clásico)
•   no provee información de la localización de los ítemes en la escala
    total
• La TRI usa modelos matemáticos para desarrollar funciones
  matemáticas que relacionan razgos o estimados de habilidad
  con la ejecución en los ítemes y en las pruebas como unidades
  de medición
   – los modelos de TRI especifican una relación entre la ejecución
     observable y las habilidades subyacentes a la ejecución en la
     prueba
   – los razgos se estiman de la ejecución que se observa en un
     conjunto de ítemes que cumplan con unos supuestos del modelo
     matemático
   – la TRI basa sus modelos en supuestos estadísticos robustos
    • Proveer estadísticas de ítemes invariantes
    • Proveer estimados de habilidad invariantes



.
EJ:LA DIFICULTAD DE CADA ITEM CON RESPECTO A LOS DEMAS ITEMES
DE LA MISMA DIFICULTAD, EN UN BANCO CALIBRADO
EJ: SI 2 ITEMES DIFIEREN ENTRE SI EN 3 DELTAS, ESTA DIFERENCIA ES
COMPARABLE A LA DE OTROS 2 ITEMES CON DIFERENCIA DE 3 DELTAS.
• UNIDIMENSIONALIDAD
      – UN COMPONENTE O FACTOR DOMINANTE EN LA
        EJECUCION
 INDEPENDENCIA LOCAL
      – LAS RESPUESTAS A LOS ITEMES SON
        ESTADISTICAMENTE INDEPENDIENTES
      – PUEDE EXISTIR CORRELACION ENTRE
        PATRONES DE RESPUESTA A ITEMES DE UNA
        MISMA PRUEBA PERO NO EN EL MISMO NIVEL
        DE HABILIDAD
• para someter a prueba la validez y adecuación del modelo de
  TRI se le aplican pruebas de ajuste (“fit”)
• si los datos corroboran ajuste al modelo TRI:
   – los parámetros de los ítemes son independientes del grupo de
       examinados para el cual se diseña la prueba
   – los estimados de habilidad de los examinados son independientes
       de los ítemes particulares debidamente calibrados
   – la precisión y el error de los estimados de habilidad se obtienen
       para cada puntuación
• La relación de la ejecución en el ítem y el razgo o
  característica que mide el ítem es descrita por una función
  de incremento monotónica llamada función característica
  del ítem (“item characteristic function” que genera una
  “curva característica del ítem” o ICC):
   – ICC: especifica la probabilidad de responder correctamente
      en función a la habilidad en los distintos puntos de la escala
        • función no-linear de regresión del ítem en la habilidad
          medida por la prueba
• CURVA CARACTERISTICA DE LA PRUEBA (“Test
  Characteristic Curve” - TCC)
• CURVA DE INFORMACION DEL ITEM            (
  “ITEM INFORMATION CURVE”)
   – capacidad del item para reducir error en los distintos
     niveles de habilidad
• CURVA DE INFORMACION DE LA PRUEBA Y
  ERROR ESTANDAR CONDICIONAL (TEST
  INFORMATION CURVE - TIF)
   – suma de la información de los ítemes
• modelo iterativo que separa la variación y error de las
  personas de la variación y error de los ítemes
   – estima independientemente los parámetros de ítemes y personas
   – al calibrar ítemes se remueve toda la variación que proviene de las
      personas
   – al calibrar las personas se remueve toda la variación que proviene
      de los ítemes
• las puntuaciones totales que se derivan del modelo para las
  personas y para los ítemes, contienen toda la información
  modelada de las personas y las calibraciones de los ítemes
• el patrón de respuestas de los ítemes se
  calibra y se somete a pruebas de ajuste
• el patrón de respuestas de las personas se
  calibra y se somete a pruebas de ajuste
                      DIFICULTAD
      TRADICIONALES                     Rasch
• expresa la dificultad      • transforma p a un
  como una proporción,         valor lineal (ln(1-p)/p)
  porciento o punteo           este nuevo valor tiene
  estandarizado atado a        propiedades de escala
  una población particular     de intervalo-
  en una escala ordinal        equidistancia entre
• error estándar es            magnitudes iguales
  binomial                       b=M+((1+S2/2.89).5 (ln(1-p)p))
                             •   error estándar se corrige
                                 utilizando la muestra de
                                 calibración
                             •   estima el error de calibración
• Biserial : correlaciona el item con los
  resultados de la población en la prueba total

• “ Infit” y ‘outfit’ : contrasta los patrones de
  respuesta observados contra los supuestos
  del modelo de medición
• Dificultad calibrada
   – Curvas características del item
      • Punto de inflexión = dificultad
      • RESIDUAL E ‘INFIT’
          – “MEJOR” ESTIMADO QUE LA DISCRIMINACIÓN
          – ‘MEAN SQR DEL RESIDUAL ESTANDARIZADO:
              » PROVEE INFORMACIÓN DE AJUSTE DEL ITEM AL
                MODELO DE MEDICIÓN SIN AFECTARSE POR LAS
                CARACTERÍSTICAS DE LA POBLACIÓN
                PARTICULAR EXAMINADA
      • “Displace” (“targeting”) – para estimar efectos del ‘guessing’ en el
        estimado de dificultad
• Dificultad
   – ALCANCE -4.0 A +4.0 (delta 6 a 20)
       • Ensamblaje
           – Máxima 18
           – Mínima 8
   – MNSQ INFIT: ALCANCE 0 a 9.9
       • Ensamblaje:
           – Máxima 1.20
           – Mínima .80
               » (0.75 para bancos nuevos o con recursos escasos)

       • Mientras más cerca de 1.0 esté el valor de INFIT mejor estimado (más se
         cumplen los supuestos del modelo de la TRI)
Nov 19 14:39 2004   INPUT: 25713 PERSONS    60 ITEMS    ANALYZED: 25707 PERSONS    60 ITEMS
2 CATEGORIES
-----------------------------------------------------------------------------------------------
-------------           RAZONAMIENTO VERBAL
                           MAP OF PERSONS AND ITEMS
MEASURE                                 |                             MEASURE
         --------------------- PERSONS-+- ITEMS ---------------------
   21.0                               . +                                 21.0
                                      . |
   20.0                               . +                                 20.0
                                      . |
   19.0                               . +                                 19.0
                                     .# | X
   18.0                             .## + X                               18.0
                                   .### | X
   17.0                          .##### + X                               17.0
                              .######## | XX
   16.0                   .############ + XXXX                            16.0
                      ################# | XXX
   15.0         .###################### + XXX                             15.0
             .######################### | XXXX
   14.0    .########################### + XXXXX                           14.0
         .############################# | XX
   13.0     .########################## + XXXXXXXX                        13.0
              .######################## | XXXXX
   12.0            .################### + XXXXX                           12.0
                         .############# | XXX
   11.0                      .######### + XXXXX                           11.0
                                 .##### | X
   10.0                            .### + XXXX                            10.0
                                     .# | X
    9.0                               . + X                                9.0
                                      . |
    8.0                               . +                                  8.0
                                      . |
    7.0                               . +                                  7.0
                                      . |
    6.0                                 +                                  6.0
         --------------------- PERSONS-+- ITEMS ---------------------
 EACH '#' IN THE PERSON COLUMN IS 97 PERSONS; EACH '.' IS 1 TO 96 PERSONS
TABLE 3.1 AOPR15V-Aptitud Verbal-Oct.2004
Nov 19 14:39 2004 INPUT: 25713 PERSONS      60 ITEMS   ANALYZED: 25707 PERSONS

     SUMMARY OF 25707 MEASURED (NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|          SCORE     COUNT     MEASURE ERROR        MNSQ INFIT MNSQ OUTFIT |
|-----------------------------------------------------------------------------|
| MEAN      30.6      55.3       13.73     .65      1.02     .0 1.08       .0 |
| S.D.       9.6       7.0        1.87     .09       .18     .9    .44     .8 |
|-----------------------------------------------------------------------------|
| RMSE    .66 ADJ.S.D.     1.75 PERSON SEP      2.66 PERSON SEP REL. .88 |
+-----------------------------------------------------------------------------+
      LACKING RESPONSES:    6 PERSONS

     SUMMARY OF    60 MEASURED (NON-EXTREME) ITEMS
+-----------------------------------------------------------------------------+
|          SCORE     COUNT     MEASURE ERROR        MNSQ INFIT MNSQ OUTFIT |
|-----------------------------------------------------------------------------|
| MEAN 13108.0 23678.7           13.30     .03      1.01     .1 1.08       .4 |
| S.D.    5358.3    1900.1        2.23     .00       .09    1.0    .21     .8 |
-----------------------------------------------------------------------------
Nov 19 14:35 2004   INPUT: 25712 PERSONS    50 ITEMS    ANALYZED: 25678 PERSONS    50 ITEMS
2 CATEGORIES
---------------------------------------------------------------------------------------------
-------------         RAZONAMIENTO MATEMÁTICO
                           MAP OF PERSONS AND ITEMS
MEASURE                                 |                             MEASURE
         --------------------- PERSONS-+- ITEMS ---------------------
   21.0                              .# +                                 21.0
                                     .# |
   20.0                               . +                                 20.0
                                     .# | X
   19.0                              .# +                                 19.0
                                    .## |
   18.0                            .### + X                               18.0
                                  .#### | X
   17.0                         .###### + X                               17.0
                              .######## | X
   16.0                    .########### + XX                              16.0
                        .############## | X
   15.0              .################# + XXX                             15.0
                  .#################### | XXX
   14.0       .######################## + XXXXXXX                         14.0
          .############################ | XXXXX
   13.0 .############################# +                                  13.0
         .############################# | XXXXXXX
   12.0   .############################ + XXX                             12.0
             .######################### | XX
   11.0            .################### + XXXXXX                          11.0
                        .############## | X
   10.0                      .######### + X                               10.0
                                .###### |
    9.0                            .### +                                  9.0
                                    .## | XX
    8.0                              .# + X                                8.0
                                      . | X
    7.0                               . +                                  7.0
                                      . |
    6.0                               . +                                  6.0
         --------------------- PERSONS-+- ITEMS ---------------------
 EACH '#' IN THE PERSON COLUMN IS 80 PERSONS; EACH '.' IS 1 TO 79 PERSONS
AOPR15M Aptitud Matem.-Oct.2004
Nov 19 14:35 2004   INPUT: 25712 PERSONS    50 ITEMS    ANALYZED: 25678 PERSONS
-------------------------------------------------------------------------------
     SUMMARY OF 25678 MEASURED (NON-EXTREME) PERSONS
+-----------------------------------------------------------------------------+
|          SCORE     COUNT     MEASURE   ERROR      MNSQ INFIT    MNSQ OUTFIT |
|-----------------------------------------------------------------------------|
| MEAN      24.1      45.5       13.22     .74      1.05     .1   1.20     .1 |
| S.D.       8.9       5.1        2.32     .14       .28     .9    .85     .7 |
|-----------------------------------------------------------------------------|
| RMSE    .76 ADJ.S.D.     2.20   PERSON SEP    2.91   PERSON SEP REL.   .89 |
+-----------------------------------------------------------------------------+
  MAXIMUM EXTREME SCORE:   23 PERSONS
      LACKING RESPONSES:   11 PERSONS

     SUMMARY OF    50 MEASURED (NON-EXTREME) ITEMS
+-----------------------------------------------------------------------------+
|          SCORE     COUNT     MEASURE   ERROR      MNSQ INFIT    MNSQ OUTFIT |
|-----------------------------------------------------------------------------|
| MEAN   12369.8   23386.8       13.10     .03      1.03     .2   1.23     .5 |
| S.D.    5379.0    2709.1        2.48     .01       .10     .9    .40     .7 |
|-----------------------------------------------------------------------------|
• Porciento que completa la prueba o sección
   – debe ser mayor al 80%
• Porciento que completa el 75% de la prueba o sección
   – debe ser mayor al 95%
• Número de ítemes alcanzados por el 80% de los
  candidatos
   – el 80% o + de los candidatos debe contestar la totalidad ( el
     100%) de los ítemes
• INDICA LA PRECISIÓN O CONSISTENCIA DE UN
  INSTRUMENTO DE MEDICIÓN
• MAYOR CONFIABILIDAD SIGNIFICA MENOR ERROR EN LA
  PUNTUACIÓN
• EL ÍNDICE DE CONFIABILIDAD TIENE UN ALCANCE 0 A 1 (-
  1 a +1 si se usan correlaciones)
   – 0.75+ : ADECUADO PARA LA MAYOR PARTE DE LAS
      PRUEBAS DE HABILIDAD O CONOCIMIENTO
   – .80 A .95 : MUY BUEN ESTIMADO
   – MAS DE 0.97 : PUEDE INDICAR DEMASIADA
      UNIDIMENSIONALIDAD EN UNA PRUEBA DE HABILIDAD
      O CONOCIMIENTO
      • DEMASIADO ESPECÍFICO PARA SER UNA MEDIDA UTIL COMO
        INSTRUMENTO VÁLIDO DE CONOCIMIENTO O HABILIDAD
•   EXTENSIÓN Y TIEMPO DE LA PRUEBA
•   PROPIEDADES DE MEDICIÓN DE LOS ITEMES
•   DISTRIBÚCIÓN DE LA DIFICULTAD
•   VICIOS DE CONSTRUCCIÓN (“ITEM BIAS”)
•   COMPLEJIDAD DE CONSTRUCCIÓN LÓGICA
•   VARIABILIDAD EN LA POBLACIÓN
•   FALTA DE ESTANDARIZACIÓN ADMINISTRATIVA
•   OTRAS VARIABLES EXTERNAS A LA PRUEBA
Error estándar de medición: Este índice ofrece un
  estimado del error en la puntuación observada. La
  puntuación verdadera ("true score") del candidato se
  encuentra a más o menos puntos del error de medición.
  Por ejemplo, si una prueba tiene un ERROR DE
  MEDICIÓN de 7 puntos y un candidato obtiene 104 en la
  puntuación a escala, podemos esperar que su
  puntuación fluctúe entre 97 y 111 puntos. Si el candidato
  repite la prueba en diversas ocasiones bajo las mismas
  condiciones, se puede esperar que su puntuación fluctúe
  alrededor de ese intervalo. El error estándar de
  medición tiende a ser mucho más estable que la
  confiabilidad.
• CONFIABILIDAD:             rtt= 1 - (S2e / S2t)
•   VARIANZA ATRIBUIBLE A ERROR:

       S2 e= S2t (1 - rtt)
• ERROR ESTANDAR DE MEDICION:
       Se = St       1 - rtt
                  CONFIABILIDAD
      TRADICIONAL                      Rasch
• Coeficiente alpha (Vi/Vt)   • Indice de separación
  o KR20                        (“person/item separation index”:
                                PSI=1-(MSE/SDp2)
• provee un “promedio” de
                              • permite un estimado de
  confiabilidad y un solo
                                confiabilidad y de error
  error de medición
                                para cada puntuación y
                                para cada ítem
• Distribución de la dificultad
    – Representar el alcance de los niveles de dificultad (cada nivel delta o cada
      nivel de la escala)
    – Incluir mayor número de ejercicios con los niveles de dificultad adecuada
      a los niveles de habilidad correspondientes a la población
    – Para cada area principal del bosquejo de especificaciones de contenido
      deben proveerse diversos niveles de dificultad
    – Si se van a informar puntuaciones por areas, además de la puntuación
      total, debera representarse el alcance de los niveles de dificultad de dicha
      area
    – Informar las medidas de tendencia central y de dispersión de las
      dificultades, tanto para la prueba total como para las puntuaciones por area
    – Si no es la primera versión, el ensamblaje se realiza con dificultades
      calibradas
•   Distribución de la discriminación
     – proveer los alcances de la discriminación para cada nivel de dificultad
     – observar niveles de discriminación apropiados en los límites de dificultad
     – computar medidas de tendencia central de las discriminaciones para la
        prueba total y las areas de contenido
•   De usarse un modelo de TRI:
     – proveer los parámetros de ajuste al modelo
     – proveer curva de las característica de la prueba (TCC)
     – proveer curvas de información de la unidad total de medición (TIC)
•   Una vez aplicada la prueba corroborar los parámetros de ensamblaje
    con los parámetros observados
                                                           DELTA
                           N       %        DELTA OBSERV   CALIBR
FECHA Versión      N
                           Items   CORREC   PROM     DE    PROM DE        BISER.

Oct-99   AJPR25   27,708     60     53.7    12.6    2.6    13.0     2.4    0.49




Oct-00   AKPR15   27,270     60     52.9    12.7    2.5    13.0     2.4    0.52




Oct-01   ALPR15   25,155     60     53.0    12.7    2.5    13.0     2.5    0.44




Oct-02   AMPR15   26,218     60     52.0    12.8    2.6    13.0     2.4    0.40
                                                               DELTA
                              N       %        DELTA OBSERV    CALIBR
FECHA Versión        N
                              Items   CORREC   PROM     DE     PROM DE       BISER.


   Oct-99   AJPR25   27,708     50    49.4     13.1   2.7     13.1   2.8   0.54




   Oct-00   AKPR15   27,270     50    43.9     13.8   2.5     13.5   2.5   0.49




   Oct-01   ALPR15   25,155     50    47.8     13.3   2.3     13.1   2.1   0.47




   Oct-02   AMPR15   26,218     50    45.9     13.5   2.2     13.1   2.1   0.44
RAZONAMIENTO VERBAL
CONFIABILIDAD Y ERROR DE MEDICIÓN

Fecha de Examen:     Confiabilidad*        Error
                                           de Med.
 octubre 1999        0.91                  3.28
 octubre 2000        0.92                  3.27
 octubre 2001        0.91                  3.28
 octubre 2002        0.90                  3.31
 octubre 2003        0.91                  3.35
 octubre 2004        0.90                  3.32
 octubre 2005        0.91                  3.34

                       *Coeficiente Alfa
                       de Cronbach
 RAZONAMIENTO MATEMÁTICO
CONFIABILIDAD Y ERROR DE MEDICIÓN

Fecha Examen:     Confiabilidad*          Error
                                          deMed.
 octubre 1999     0.91                    2.92
 octubre 2000     0.89                    2.98
 octubre 2001     0.91                    3.02
 octubre 2002     0.90                    3.06
 octubre 2003     0.90                    2.99
 octubre 2004     0.91                    2.98
 octubre 2005     0.90                    3.01
                          *Coeficiente Alfa
                          de Cronbach
• Formas nuevas
• Formas paralelas
• Formas equivalentes
  Desarrollo y mantenimiento de escalas
• Equiparación (equatings)
• Deseabilidad de expresar las puntuaciones
  en una escala común

• Las puntuaciones a escala se estandarizan,
  calibran y equiparan mediante procesos
  estadísticos
            – Promedio Teórico = 500
            – Desviación Estándar = 100
            – Puntuación Máxima = 800
            – Puntuación Mínima = 200

• Las puntuaciones a escala son estandarizadas,
  calibradas y equiparadas mediante procesos
  estadísticos.
• Algunos problemas que resuelve el proceso de
  calibración y equiparación de escalas:
   – DIFERENCIAS EN EXTENSIÓN DE LAS PRUEBAS
   – DIFERENCIAS EN DIFICULTAD
   – DIFERENCIAS EN HABILIDAD O CONOCIMIENTO DE LAS
     POBLACIONES
   – ERROR DE MEDICIÓN COMPARABLE PARA DIFERENTES
     VERSIONES
   – INTERPRETACIÓN DE RESULTADOS
      • CONSISTENCIA
      • COMPARACIÓN DE PUNTUACIONES
• PRODUCCIÓN DE INFORMES DE RESULTADOS:
  – INDIVIDUALES
  – INSTITUCIONALES
     • RESÚMENES ESTADÍSTICOS
         – POR UNIDAD ACADÉMICA
            » ESCUELA DE PROCEDENCIA
            » UNIVERSIDAD O INSTITUCIÓN
              POSTSECUNDARIA
         – GÉNERO
         – OTRAS VARIABLES
– Las investigaciones de validez como criterio de calidad
   • ESTUDIO DE VALIDEZ PREDICTIVA
       – INSTITUCIÓN PROVEE CALIFICACIONES,
         USUALMENTE DE PRIMER AÑO UNIVERSITARIO
           » CALIFICACIONES = VARIABLE DEPENDIENTE
       – PARA PAA: SE CORRELACIONAN LAS
         CALIFICACIONES DE ÚLTIMO AÑO DE
         PREPARATORIA Y LOS RESULTADOS DE LAS
         PRUEBAS (PAA) DE RAZONAMIENTO (VARIABLES
         INDEPENDIENTES) CON LAS CALIFICACIONES DE
         PRIMER AÑO UNIVERSITARIO (VARIABLE
         DEPENDIENTE)
– EL GRADO EN QUE LA EVIDENCIA EMPÍRICA Y LOS
  RAZONAMIENTOS TEÓRICOS APOYAN LA
  ADECUACIDAD Y PROPIEDAD DE LAS CONCLUSIONES
  QUE SE DERIVAN DE UNA EVALUACIÓN, MEDICIÓN O
  INSTRUMENTO
   •    (“ THE DEGREE TO WHICH EMPIRICAL EVIDENCE AND THEORETICAL
       RATIONALES SUPPORT THE ADEQUACY AND APPROPRIATENESS OF
       CONCLUSIONS DRAWN FROM AN ASSESSMENT, MEASURE OR
       INSTRUMENT”)
         – (VEA: MESSICK, S. (1995) . Validity of Psychological
           Assessment: Validation of inferences from persons’ responses
           and performance as scientific inquiry into score meaning.
           American Psychologist, 50 p741-749)
    –          TIPO
                                          – PROBLEMA QUE INVESTIGA
•   CONSTRUCCIÓN LÓGICA:
                                             • SIGNIFICADO
    –    Convergente
                                                 – RED NOMOLÓGICA
•        Discriminante
•
    – CONTENIDO........................   – REPRESENTATIVIDAD
    – CRITERIO.........................   – PREDICCIÓN
    – APARENTE                            – APARIENCIA
• Seguimiento a los resultados: alumnos,
  recintos, grupos; reflexión crítica sobre
  proceso de enseñanza-aprendizaje,
  cambios curriculares y metodológicos,
  estudios de validez, etc.

								
To top