Teoría de la prueba. Principios básicos de la teoría clásica de las pruebas.

conceptos básicos de la teoría de las pruebas

Conceptos básicos de la teoría de las pruebas.

Se llama una medición o prueba realizada para determinar la condición o capacidad de un atleta. prueba .

No todas las mediciones pueden usarse como pruebas, sino sólo aquellas que responden requisitos especiales. Éstas incluyen:

1. estandarización (el procedimiento y las condiciones de la prueba deben ser los mismos en todos los casos de aplicación de la prueba);
2. confiabilidad;
3. contenido de la información;
4. Disponibilidad de un sistema de calificación.

Las pruebas que cumplen con los requisitos de confiabilidad y contenido de información se denominan sólido o auténtico (Griego auténtico - de manera confiable).

El proceso de prueba se llama pruebas ; el valor numérico obtenido como resultado de la medición - resultado de la prueba (o resultado de la prueba). Por ejemplo, una carrera de 100 m es una prueba, el procedimiento para realizar la carrera y el cronometraje es una prueba y el tiempo de la carrera es el resultado de la prueba.

Las pruebas basadas en tareas motoras se denominan motor o motor . Sus resultados pueden ser logros motores (tiempo para completar la distancia, número de repeticiones, distancia recorrida, etc.) o indicadores fisiológicos y bioquímicos.

A veces se utilizan no una, sino varias pruebas que tienen un común meta final(por ejemplo, evaluar la condición del atleta durante el período de entrenamiento competitivo). Este grupo de pruebas se llama complejo o batería de pruebas .

La misma prueba, aplicada a los mismos sujetos, debería dar resultados idénticos en las mismas condiciones (a menos que los propios sujetos hayan cambiado). Sin embargo, incluso con la estandarización más estricta y el equipo más preciso, los resultados de las pruebas siempre varían algo. Por ejemplo, un sujeto que acaba de mostrar un resultado de 215 kg en una prueba de dinamometría de peso muerto, muestra sólo 190 kg cuando se repite.

2. Fiabilidad de la prueba y formas de determinarla.

Fiabilidad Prueba es el grado de concordancia entre los resultados cuando se realizan pruebas repetidas a las mismas personas (u otros objetos) en las mismas condiciones.

La variación en los resultados de una prueba y otra se denomina dentro del individuo, dentro del grupo o dentro de la clase.

Cuatro razones principales causan esta variación:

1. Cambio en el estado de los sujetos (fatiga, entrenamiento, aprendizaje, cambio de motivación, concentración, etc.).
2. Cambios incontrolados Condiciones externas y equipos (temperatura, viento, humedad, tensión de alimentación, presencia de personas no autorizadas, etc.), es decir. todo lo que está unido por el término “error aleatorio de medición”.
3. Cambiar el estado de la persona que realiza o evalúa la prueba (y, por supuesto, sustituir un experimentador o juez por otro).
4. Imperfección de la prueba (hay pruebas que obviamente no son fiables. Por ejemplo, si los sujetos lanzan tiros libres a una canasta de baloncesto, incluso un jugador de baloncesto con un alto porcentaje de aciertos puede cometer accidentalmente un error en los primeros tiros). ).

La principal diferencia entre la teoría de la confiabilidad de las pruebas y la teoría del error de medición es que en la teoría del error se supone que el valor medido es constante, mientras que en la teoría de la confiabilidad de las pruebas se supone que cambia de una medición a otra. Por ejemplo, si es necesario medir el resultado de un intento completado en un salto de longitud en carrera, entonces es bastante definitivo y no puede cambiar significativamente con el tiempo. Por supuesto, debido a razones aleatorias (por ejemplo, tensión desigual de la cinta métrica), es imposible medir este resultado con la precisión ideal (digamos, hasta 0,0001 mm). Sin embargo, utilizando una herramienta de medición más precisa (como un medidor láser), su precisión se puede aumentar al nivel requerido. Al mismo tiempo, si la tarea es determinar la preparación de un saltador en las etapas individuales del ciclo de entrenamiento anual, entonces la medición más precisa de los resultados mostrados por él será de poca ayuda: después de todo, cambiarán de intento. intentar.

Para comprender la idea de los métodos utilizados para juzgar la confiabilidad de las pruebas, veamos un ejemplo simplificado. Supongamos que es necesario comparar los resultados del salto de longitud en pie de dos atletas basándose en dos intentos realizados. Supongamos que los resultados de cada uno de los atletas varían dentro de ± 10 cm de tamaño promedio y son iguales a 230 ± 10 cm (es decir, 220 y 240 cm) y 280 ± 10 cm (es decir, 270 y 290 cm), respectivamente. En este caso, la conclusión, por supuesto, será completamente inequívoca: el segundo atleta es superior al primero (las diferencias entre los promedios de 50 cm son claramente mayores que las fluctuaciones aleatorias de ± 10 cm). Si, con la misma variación intragrupo (± 10 cm), la diferencia entre los valores medios de los sujetos (variación intergrupal) es pequeña, será mucho más difícil sacar una conclusión. Supongamos que los valores medios serán de aproximadamente 220 cm (en un intento - 210, en el otro - 230 cm) y 222 cm (212 y 232 cm). En este caso, el primer sujeto en el primer intento salta 230 cm, y el segundo, sólo 212 cm; y parece que el primero es significativamente más fuerte que el segundo. De este ejemplo queda claro que el significado principal no es la variabilidad intraclase en sí misma, sino su relación con las diferencias entre clases. La misma variabilidad intraclase da diferente confiabilidad cuando diferencias iguales entre clases (en el caso particular entre las estudiadas, Fig. 14).

Arroz. 14. La proporción de variación entre clases e intraclases con confiabilidad alta (arriba) y baja (abajo):

trazos verticales cortos: datos de intentos individuales;

Resultados medios de tres materias.

La teoría de la confiabilidad de las pruebas se basa en el hecho de que el resultado de cualquier medición realizada a una persona es la suma de dos valores:

donde: - el llamado resultado verdadero que quieren registrar;

Un error causado por cambios incontrolados en el estado del sujeto y errores aleatorios mediciones.

Se entiende por resultado verdadero el valor medio de x para un número infinitamente grande de observaciones en las mismas condiciones (por este motivo el signo se pone en x).

Si los errores son aleatorios (su suma es cero y en intentos iguales no dependen unos de otros), entonces de estadística matemática sigue:

aquellos. La varianza de los resultados registrados en el experimento es igual a la suma de las varianzas de los resultados verdaderos y los errores.

Factor de confiabilidad se llama relación entre la dispersión real y la dispersión registrada en el experimento:

Además del coeficiente de confiabilidad, también utilizan índice de confiabilidad:

el cual se considera como un coeficiente de correlación teórico entre los valores de prueba registrados y los verdaderos.

El concepto de resultado de prueba verdadero es una abstracción (no se puede medir experimentalmente). Por lo tanto tenemos que usar métodos indirectos. Más preferible para la evaluación de confiabilidad Análisis de variación seguido del cálculo de los coeficientes de correlación intraclase. El análisis de varianza permite descomponer la variación registrada experimentalmente en los resultados de las pruebas en componentes determinados por la influencia de factores individuales. Por ejemplo, si registras los resultados de los sujetos en algún test, repitiendo este test en dias diferentes, y haga varios intentos todos los días, cambiando periódicamente de experimentadores, luego se producirán variaciones:

a) de un tema a otro;

b) día a día;

c) de experimentador a experimentador;

d) de intento en intento.

El análisis de varianza permite aislar y evaluar estas variaciones.

Por tanto, para evaluar la fiabilidad práctica de la prueba, es necesario, en primer lugar, realizar un análisis de varianza y, en segundo lugar, calcular el coeficiente de correlación intraclase (coeficiente de fiabilidad).

Con dos intentos, el valor del coeficiente de correlación intraclase prácticamente coincide con los valores del coeficiente de correlación habitual entre los resultados del primer y segundo intento. Por lo tanto, en tales situaciones, se puede utilizar el coeficiente de correlación habitual para evaluar la confiabilidad (estima la confiabilidad de uno en lugar de dos intentos).

Hablando de confiabilidad de las pruebas, es necesario distinguir entre su estabilidad (reproducibilidad), consistencia y equivalencia.

Bajo estabilidad prueba comprender la reproducibilidad de los resultados cuando se repiten tiempo específico bajo las mismas condiciones. La repetición de la prueba generalmente se llama volver a probar.

Consistencia La prueba se caracteriza por la independencia de los resultados de la prueba de las cualidades personales de la persona que realiza o evalúa la prueba.

Al seleccionar una prueba entre un cierto número de pruebas similares (por ejemplo, carreras de velocidad a 30, 60 y 100 m), el grado de coincidencia de los resultados se evalúa mediante el método de formas paralelas. El coeficiente de correlación calculado entre los resultados se llama coeficiente de equivalencia.

Si todas las pruebas incluidas en un conjunto de pruebas son altamente equivalentes, se llama homogéneo. Todo este complejo mide una propiedad particular de las habilidades motoras humanas (por ejemplo, un complejo que consiste en saltos largos, verticales y triples; se evalúa el nivel de desarrollo de las cualidades velocidad-fuerza). Si no hay pruebas equivalentes en el complejo, entonces las pruebas incluidas en él miden diferentes propiedades, entonces se llama heterogéneo (por ejemplo, un complejo que consta de dinamometría de peso muerto, salto Abalakov, carrera de 100 m).

La confiabilidad de la prueba se puede aumentar a hasta cierto punto por:

a) una estandarización más estricta de las pruebas;

b) aumentar el número de intentos;

c) aumentar el número de evaluadores (jueces, experimentos) y aumentar la coherencia de sus opiniones;

d) aumentar el número de pruebas equivalentes;

e) mejor motivación de los sujetos.

Ejemplo 10.1.

Para determinar la confiabilidad de los resultados del triple salto de pie al evaluar las capacidades de velocidad-fuerza de los velocistas, si los datos de la muestra son los siguientes:

Solución:

1. Ingrese los resultados de la prueba en la hoja de trabajo:

2. Sustituya los resultados obtenidos en la fórmula para calcular el coeficiente de correlación de rango:

3. Determine el número de grados de libertad usando la fórmula:

Conclusión: el valor calculado obtenido Por lo tanto, con confianza en 99% podemos decir que la prueba del triple salto en pie es fiable.

CAPÍTULO 3. TRATAMIENTO ESTADÍSTICO DE LOS RESULTADOS DE LAS PRUEBAS

El procesamiento estadístico de los resultados de las pruebas permite, por un lado, determinar objetivamente los resultados de los sujetos y, por otro lado, evaluar la calidad de la prueba en sí, las tareas de la prueba, en particular, evaluar su confiabilidad. El problema de la confiabilidad ha recibido mucha atención en teoría clásica pruebas. Esta teoría no ha perdido su relevancia hoy. A pesar del surgimiento de teorías más modernas, la teoría clásica sigue manteniendo su posición.

3.1. DISPOSICIONES BÁSICAS DE LA TEORÍA CLÁSICA DE PRUEBAS

3.2. MATRIZ DE RESULTADOS DE PRUEBAS

3.3. REPRESENTACIÓN GRÁFICA DE LA PUNTUACIÓN DEL TEST

3.4. MEDIDAS DE TENDENCIA CENTRAL

3.5. DISTRIBUCIÓN NORMAL

3.6. VARIACIÓN DE PUNTUACIONES DE PRUEBAS DE SUJETOS

3.7. MATRIZ DE CORRELACIÓN

3.8. CONFIABILIDAD DE LA PRUEBA

3.9. VALIDEZ DE LA PRUEBA

LITERATURA

DISPOSICIONES BÁSICAS DE LA TEORÍA CLÁSICA DE PRUEBAS

El creador de la Teoría Clásica de las pruebas mentales es el famoso psicólogo británico, autor del análisis factorial, Charles Edward Spearman (1863-1945) 1. Nació el 10 de septiembre de 1863 y sirvió en el ejército durante una cuarta parte de su vida. Armada británica. Por esta razón, obtuvo su doctorado a la edad de 41 años 2. investigación de tesis Charles Spearman actuó en el Laboratorio de Psicología Experimental de Leipzig bajo la dirección de Wilhelm Wundt. En ese momento, en Ch. Spearman. fuerte influencia Contribuyó al trabajo de Francis Galton sobre las pruebas de la inteligencia humana. Los alumnos de Charles Spearman fueron R. Cattell y D. Wechsler. Entre sus seguidores se encuentran A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) hizo una contribución importante al desarrollo de la teoría de pruebas clásica.

La teoría clásica de las pruebas se presentó por primera vez de manera integral y completa en trabajo fundamental Harold Gulliksen (Gulliksen H., 1950) 4. Desde entonces, la teoría se ha modificado algo y, en particular, se ha mejorado el aparato matemático. La teoría clásica de las pruebas en una presentación moderna se presenta en el libro Crocker L., Aligna J. (1986) 5. Entre los investigadores nacionales, V. Avanesov (1989) 6 fue el primero en describir esta teoría. En la obra de Chelyshkova M.B. (2002) 7 proporciona información sobre la justificación estadística de la calidad de la prueba.

La teoría clásica de las pruebas se basa en los siguientes cinco principios básicos.

1. El resultado de la medición obtenido empíricamente (X) es la suma del resultado de la medición real (T) y el error de medición (E) 8:

X = T + E (3.1.1)

Los valores de T y E suelen ser desconocidos.

2. El verdadero resultado de la medición se puede expresar como valor esperado EX):

3. La correlación de los componentes verdadero y falso en el conjunto de sujetos es igual a cero, es decir, ρ TE = 0.

4. Los componentes erróneos de dos pruebas cualesquiera no se correlacionan:

5. Los componentes erróneos de una prueba no se correlacionan con los componentes verdaderos de ninguna otra prueba:

Además, la base de la teoría clásica de las pruebas está formada por dos definiciones: pruebas paralelas y equivalentes.

Las pruebas PARALELAS deben cumplir con los requisitos (1-5), los componentes verdaderos de una prueba (T 1) deben ser iguales a los componentes verdaderos de la otra prueba (T 2) en cada muestra de sujetos que respondan ambas pruebas. Se supone que T 1 =T 2 y, además, las varianzas son iguales a s 1 2 = s 2 2.

Las pruebas equivalentes deben cumplir todos los requisitos de las pruebas paralelas con una excepción: los componentes verdaderos de una prueba no tienen que ser iguales a los componentes verdaderos de otra prueba paralela, pero deben diferir en la misma constante. Con.

La condición para la equivalencia de dos pruebas se escribe de la siguiente manera:

donde c 12 es la constante entre los resultados de la primera y la segunda prueba.

Sobre la base de las disposiciones anteriores, se ha construido una teoría de la confiabilidad de las pruebas 9,10.

es decir, la varianza de las puntuaciones de las pruebas resultantes es igual a la suma de las varianzas de los componentes verdadero y error.

Reescribamos esta expresión de la siguiente manera:

(3.1.3)

parte derecha esta igualdad representa la confiabilidad de la prueba ( r). Por tanto, la confiabilidad de la prueba se puede escribir como:

A partir de esta fórmula propusieron posteriormente varias expresiones para encontrar el coeficiente de confiabilidad de la prueba. La confiabilidad de una prueba es su la característica más importante. Si se desconoce la confiabilidad, los resultados de la prueba no se pueden interpretar. La confiabilidad de una prueba caracteriza su precisión como instrumento de medición. Una alta confiabilidad significa una alta repetibilidad de los resultados de las pruebas en las mismas condiciones.

En la teoría clásica de los exámenes, el problema más importante es determinar la verdadera puntuación del sujeto (T). La puntuación de la prueba empírica (X) depende de muchas condiciones: el nivel de dificultad de las tareas, el nivel de preparación de los examinados, el número de tareas, las condiciones de la prueba, etc. En un grupo de sujetos fuertes y bien preparados, los resultados de las pruebas suelen ser mejores. que en un grupo de sujetos mal entrenados. En este sentido, queda abierta la pregunta sobre la magnitud de la medida de dificultad de las tareas en población asignaturas. El problema es que no se obtienen datos empíricos reales en absoluto. muestras aleatorias asignaturas. Normalmente esto es grupos de estudio, que representa una multitud de estudiantes que interactúan fuertemente entre sí en el proceso de aprendizaje y estudian en condiciones que a menudo no se repiten en otros grupos.

Lo encontraremos s mi de la ecuación (3.1.4)

Aquí en forma explícita muestra la dependencia de la precisión de la medición del valor Desviación Estándar s X y sobre la fiabilidad de la prueba r.

Fundamentos matemáticos de la teoría de la construcción de pruebas.

Tipos de elementos de prueba

Hay dos formas de tareas significativamente diferentes: cerradas (cuando al examinado se le ofrecen opciones de respuesta para elegir) y abiertas (el examinado debe obtener la respuesta por sí solo). Misiones abiertas, a su vez, se puede dividir en dos grupos:

tareas con respuesta breve y regulada, cuya formulación debe generar una sola respuesta, planificada por el desarrollador;

Tareas con respuesta construida libremente, sin restricciones en el contenido y forma de presentación de las respuestas.

Hay cinco tipos principales de tareas. Todos los demás tipos son variaciones o combinaciones de estos cinco tipos.

Tarea de elección. El texto del trabajo consta de una pregunta. Hay varias opciones de respuesta para elegir, una o más de las cuales son correctas.

Tarea de suma. En la redacción de la tarea falta un determinado fragmento de texto, que se indica mediante un guión bajo (o varios guiones bajos de la misma longitud, si faltan varias palabras). El hueco puede estar en cualquier parte del texto, pero se recomienda hacerlo al final. En la respuesta, el examinado debe escribir las palabras que faltan.

La tarea es establecer la secuencia correcta.

Tarea de cumplimiento. La redacción de la tarea contiene dos listas. A la izquierda, por regla general, están los elementos del conjunto que contiene el planteamiento del problema, a la derecha están los elementos a seleccionar. Los elementos del conjunto izquierdo están numerados, los elementos del conjunto derecho están designados con letras. Es deseable que el segundo conjunto contenga una mayor cantidad de elementos en comparación con el primer conjunto. En este caso, cada elemento del primer conjunto corresponde a uno o más elementos del segundo conjunto.

Una tarea con una respuesta detallada.

Etapas del desarrollo de la prueba.

Formulación del propósito y objeto de la investigación.

¿Quién, qué y por qué debería hacerse la prueba?

Desarrollo de contenidos de prueba.

Estudio de requisitos estándar educativo, contenidos de los libros de texto.

Escribir una especificación de prueba:

Seleccionar secciones (temas) y su contenido porcentual en la prueba

Seleccionar tipos de trabajo

Determinación de niveles de dominio de conocimientos y habilidades:

Nivel 1	Conocimiento de definiciones de conceptos básicos de la disciplina, así como enunciados básicos sobre los métodos de la disciplina.
Nivel 2	Conocimiento de fórmulas y algoritmos básicos; Capacidad para aplicarlos al resolver problemas estándar.
Nivel 3	Aplicación de los conocimientos adquiridos a la resolución de problemas atípicos.

Definición cantidad aproximada tareas en la prueba y la distribución de este número por tipo de tareas.

Desarrollo de tareas.

Dado que la primera versión de la prueba debería revelar las deficiencias de las tareas (incluidos los distractores propuestos), se propuso el mayor número posible de distractores en cada tarea, de modo que cuando se descartaran, quedara un número suficiente de ellos.

Examen de masa cruda.

El propósito del examen es identificar y corregir formulaciones incorrectas y poco claras. Como resultado, es posible que algunas tareas se eliminen de la prueba (por lo tanto, se recomiendan las tareas).

Aprobación.

Cálculo de características de tareas y pruebas.

Con base en los resultados de las pruebas, se realizan los siguientes cálculos: características estadísticas tareas y pruebas.

Rango de puntuaciones individuales Mide la distancia dentro de la cual cambian todos los valores de los indicadores en la distribución (puntuaciones individuales).

CON muestra promedio(promedio) para el agregado de puntuaciones individuales X 1 , X 2 , …, X k grupos k los sujetos se calculan mediante la fórmula

Contar variaciones se basa en calcular las desviaciones de cada valor de indicador de la media aritmética en la distribución:

La baja variación indica baja calidad prueba, porque variación débil Los resultados indican una débil diferenciación de sujetos por nivel de formación. Una dispersión excesivamente alta es típica cuando todos los estudiantes difieren en el número de tareas realizadas, lo que también requiere reelaborar la prueba.

El cálculo de las características de la prueba se completa evaluando la fiabilidad de la prueba. Para calcular el coeficiente de confiabilidad, puede usar la fórmula Coeficiente de Kuder-Richardson(solo en el caso de que todos los pesos de las tareas sean iguales a uno):

Para dar una evaluación cualitativa de la confiabilidad de la prueba basada en el valor del coeficiente, utilice la siguiente tabla:

Valor del coeficiente de confiabilidad	Evaluación de confiabilidad
	insatisfactorio
	satisfactorio

	excelente

Estimación de la dificultad de la j-ésima tarea. calculado por la fórmula

Tenga en cuenta que cuanto más fácil sea la tarea, mayor será la proporción de respuestas correctas ( pag j), por lo que sería más natural interpretar esta proporción como la facilidad de la tarea. Una prueba bien equilibrada en términos de dificultad debería tener varias tareas difíciles, varias fáciles, pero la mayor parte de las tareas debería tener una dificultad de 0,3 a 0,7; en este caso, es deseable que las tareas se organicen en orden de dificultad creciente.

Validez de los ítems de prueba. determinado por el grado de cumplimiento de la tarea con el objetivo de diferenciación de los sujetos. Para ello se determinan los coeficientes de correlación de la evaluación de la tarea con la puntuación de toda la prueba. Esto se hace utilizando el coeficiente de correlación según la fórmula.

Dónde X i puntuación de la prueba i-ésimo sujeto, Y i- punto i-ésimo sujeto de la tarea. Tenga en cuenta que en el caso de una evaluación dicotómica de una tarea, el cálculo del coeficiente se simplifica algo. Si r< 0, то задание следует удалить из теста, т. к. в нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Valores positivos, pero cercano a cero (insignificante), indican una baja capacidad predictiva del ítem de prueba; Estas tareas requieren una modificación del contenido.

La capacidad de diferenciar sujetos como los mejores y los peores espectáculos. coeficiente de diferenciación(o índice de discriminabilidad) tareas. La forma más sencilla de calcular dicho índice se denomina método del grupo de contraste y es la siguiente. De todo el grupo de sujetos, se identifican algunos de los mejores sujetos según los resultados de las pruebas (los llamaremos subgrupo fuerte) y el mismo número de los peores (subgrupo débil). Luego se calcula la proporción de respuestas correctas en el subgrupo para cada uno de estos subgrupos. Denotemos por pag 1 j proporción de respuestas correctas a j-ésima tarea en un subgrupo fuerte, y después pag 0 j– la proporción de respuestas correctas en el subgrupo débil. Entonces el índice de discriminatividad i-la tarea está determinada por la fórmula:

(r des) j =p 1 j – pag 0 j .

Para una tarea que todos los sujetos fuertes realizaron y ninguno de los débiles, el índice de discriminatividad r dis será igual a 1; en este caso, la tarea tiene el máximo efecto diferenciador. Para una tarea que realizaron todos los sujetos débiles y ninguno de los fuertes, el índice de discriminatividad será igual a –1. En otros casos, el índice tomará valores entre –1 y 1. Trabajos con cero y valor negativo El índice de discriminación no diferencia bien a los estudiantes y, por lo tanto, debe eliminarse de la prueba. Si el índice es positivo, pero menor que 0,2, entonces dicha tarea requiere análisis exhaustivo contenido.

De acuerdo con estas características, algunas tareas pueden eliminarse de la prueba, mientras que otras deben corregirse. Después de esto, se deben repetir los pasos 5 y 6.

Fórmulas para calcular la probabilidad de adivinar.

Al diseñar una prueba, es necesario determinar cuántas respuestas se deben ofrecer para cada pregunta, de modo que la probabilidad de aprobar la prueba simplemente adivinando las respuestas correctas sea inferior a 0,05 (es decir, menos del 5%). La prueba se considerará completada con éxito si el examinado responde correctamente no menos de q% de preguntas. Si la prueba incluye norte preguntas, luego para calcular la probabilidad de "adivinar con éxito" se utiliza siguiente fórmula :

Dónde metro- el número de respuestas ofrecidas para cada pregunta.

En el caso de que el número de respuestas propuestas a las preguntas en diferentes tareas diferente, la fórmula tiene más mirada compleja:

Dónde - probabilidad de adivinar las respuestas a j preguntas, que se calcula de la siguiente manera. Divida todas las preguntas del examen en r grupos para que las preguntas con la misma probabilidad de adivinar se combinen en un solo grupo. denotemos pag i , 0< pag i <1 - вероятность угадывания и k i - número de preguntas en i- ese grupo (
), y

Entonces para j de
a norte:

Dónde t r = j  (t 1 + t 2 +…+ t r-1), y si t r > k r, entonces asumiremos
= 0 .

Ejemplos.

N=10, Q=2/3: m=2, P<0,2; m=3, P<0,02; m=4, P<0,004

Literatura

Chelyshkova M. B. Teoría y práctica de la construcción de pruebas pedagógicas: libro de texto. – M.: Logos, 2002. – 432 p.

Malygin A. A., Svetsov V. I., Shchanitsina S. V. Recomendaciones prácticas para la preparación de materiales de control y medición: Método. subsidio / Iván. estado chem.-technol. univ. – Ivánovo, 2005. – 30 p.

Cómo escribir una prueba // Sloyer K. Fantasías matemáticas. - M.: Mir, 1993. - págs. 116-118.

Se llama una medición o prueba realizada para determinar la condición o capacidad de un atleta. prueba. No todas las mediciones pueden utilizarse como pruebas, sino solo aquellas que cumplen requisitos especiales: estandarización, presencia de un sistema de calificación, confiabilidad, contenido de la información, objetividad. Las pruebas que cumplen con los requisitos de confiabilidad, contenido de información y objetividad se denominan sólido.

El proceso de prueba se llama pruebas, y los valores numéricos resultantes son resultado de la prueba.

Las pruebas basadas en tareas motoras se denominan motor o motor. Dependiendo de la tarea a la que se enfrenta el sujeto, se distinguen tres grupos de pruebas motoras.

Tipos de pruebas motoras

Nombre de la prueba	Tarea para el atleta	Resultado de la prueba
ejercicio de control		Logros motores	1500 m de tiempo de carrera
Pruebas funcionales estándar	Lo mismo para todos, dosificado: 1) según la cantidad de trabajo realizado; 2) por la magnitud de los cambios fisiológicos	Indicadores fisiológicos o bioquímicos durante el trabajo estándar Indicadores motores durante una cantidad estándar de cambios fisiológicos	Registro de frecuencia cardíaca durante el trabajo estándar 1000 kgm/min Velocidad de carrera a frecuencia cardíaca 160 latidos/min
Pruebas funcionales máximas	Mostrar resultado máximo	Indicadores fisiológicos o bioquímicos.	Determinación de la deuda máxima de oxígeno o consumo máximo de oxígeno.

En ocasiones se utilizan no una, sino varias pruebas que tienen un objetivo final común. Este grupo de pruebas se llama batería de pruebas.

Se sabe que incluso con la estandarización más estricta y el equipamiento más preciso, los resultados de las pruebas siempre varían algo. Por tanto, una de las condiciones importantes para seleccionar buenas pruebas es su confiabilidad.

Fiabilidad de la prueba. Es el grado de concordancia entre los resultados cuando las mismas personas son evaluadas repetidamente en las mismas condiciones. Hay cuatro razones principales que causan variaciones intraindividuales o intragrupales en los resultados de las pruebas:

cambio en la condición de los sujetos (fatiga, cambio de motivación, etc.); cambios incontrolados en las condiciones y equipos externos;

cambio en el estado de la persona que realiza o evalúa la prueba (bienestar, cambio de experimentador, etc.);

imperfección de la prueba (por ejemplo, pruebas obviamente imperfectas y poco confiables: tiros libres a una canasta de baloncesto antes del primer fallo, etc.).

El criterio de confiabilidad para la prueba puede ser factor de confiabilidad, calculado como la relación entre la dispersión verdadera y la dispersión registrada en el experimento: r = verdadero s 2 / registrado s 2, donde el valor verdadero se entiende como la dispersión obtenida de un número infinitamente grande de observaciones en las mismas condiciones; la varianza registrada se deriva de estudios experimentales. En otras palabras, el coeficiente de confiabilidad es simplemente la proporción de variación verdadera en la variación que se registra en el experimento.

Además de este coeficiente, también utilizan índice de confiabilidad, el cual se considera como un coeficiente teórico de correlación o relación entre los valores registrados y verdaderos de una misma prueba. Este método es más común como criterio para evaluar la calidad (confiabilidad) de una prueba.

Una de las características de la confiabilidad de la prueba es su equivalencia, que refleja el grado de concordancia entre los resultados de probar la misma calidad (por ejemplo, física) mediante diferentes pruebas. La actitud hacia la equivalencia de las pruebas depende de la tarea específica. Por un lado, si dos o más pruebas son equivalentes, su uso combinado aumenta la confiabilidad de las estimaciones; por otro lado, parece posible utilizar sólo una prueba equivalente, lo que simplificará las pruebas.

Si todas las pruebas incluidas en una batería de pruebas son altamente equivalentes, se denominan homogéneo(por ejemplo, para evaluar la calidad de la capacidad de salto, se debe suponer que los saltos de longitud, los saltos de altura y los saltos triples serán homogéneos). Por el contrario, si no existen pruebas equivalentes en el complejo (por ejemplo, para evaluar la aptitud física general), entonces todas las pruebas incluidas en él miden propiedades diferentes, es decir, esencialmente el complejo es heterogéneo.

La fiabilidad de las pruebas se puede aumentar hasta cierto punto mediante:

una estandarización más estricta de las pruebas;

aumentar el número de intentos;

aumentar el número de evaluadores y aumentar la coherencia de sus opiniones;

aumentar el número de pruebas equivalentes;

Mejor motivación de los sujetos.

Objetividad de la prueba Hay un caso especial de confiabilidad, es decir. independencia de los resultados de la prueba de la persona que realiza la prueba.

Contenido informativo de la prueba.– este es el grado de precisión con el que mide la propiedad (la calidad del atleta) que se utiliza para evaluar. En diferentes casos, las mismas pruebas pueden tener diferente contenido informativo. La cuestión del contenido informativo de la prueba se divide en dos preguntas específicas:

¿Qué cambia esta prueba? ¿Cómo mide exactamente?

Por ejemplo, ¿es posible utilizar un indicador como el MPC para juzgar la preparación de los corredores de larga distancia y, de ser así, con qué grado de precisión? ¿Se puede utilizar esta prueba en el proceso de control?

Si la prueba se utiliza para determinar el estado del deportista en el momento del examen, entonces se habla de diagnóstico Contenido informativo de la prueba. Si, basándose en los resultados de las pruebas, quieren sacar una conclusión sobre el posible rendimiento futuro del deportista, hablan de pronóstico contenido de informacion. Una prueba puede ser informativa para el diagnóstico, pero no para el pronóstico, y viceversa.

El grado de contenido de la información se puede caracterizar cuantitativamente, basándose en datos experimentales (los llamados empírico contenido de la información) y cualitativamente, basado en un análisis significativo de la situación ( lógico contenido de informacion). Aunque en el trabajo práctico, el análisis lógico o significativo siempre debe preceder al análisis matemático. Un indicador del contenido informativo de una prueba es el coeficiente de correlación calculado para la dependencia del criterio del resultado de la prueba, y viceversa (el criterio se considera un indicador que refleja obviamente la propiedad que se va a medir utilizando la prueba).

En los casos en que el contenido informativo de cualquier prueba sea insuficiente, se utiliza una batería de pruebas. Sin embargo, este último, incluso con criterios de alto contenido de información separada (a juzgar por los coeficientes de correlación), no nos permite obtener un número único. Aquí puede venir al rescate un método más complejo de estadística matemática: análisis factorial. Lo que le permite determinar cuántas y cuáles pruebas funcionan juntas en un factor separado y cuál es el grado de su contribución a cada factor. Entonces es fácil seleccionar pruebas (o combinaciones de ellas) que evalúen con mayor precisión los factores individuales.

1 ¿Cómo se llama una prueba?
2 ¿Qué son las pruebas?	Cuantificar una cualidad o condición de un atleta Una medición o prueba realizada para determinar la condición o capacidad de un atleta Proceso de prueba que evalúa cuantitativamente una calidad o condición de un atleta No se necesita definición
3 ¿Cómo se llama el resultado de la prueba?	Cuantificar una cualidad o condición de un atleta Una medición o prueba realizada para determinar la condición o capacidad de un atleta Proceso de prueba que evalúa cuantitativamente una calidad o condición de un atleta No se necesita definición
4 ¿Qué tipo de pruebas son estas? carrera de 100 m?
5 ¿Qué tipo de pruebas son estas? dinamometría manual?	Ejercicio de control Prueba funcionalPrueba funcional máxima
6 ¿A qué tipo de pruebas pertenece la muestra? IPC?	Ejercicio de control Prueba funcionalPrueba funcional máxima
7 ¿Qué tipo de pruebas son estas? carrera de tres minutos con metrónomo?	Ejercicio de control Prueba funcionalPrueba funcional máxima
8 ¿Qué tipo de pruebas son estas? número máximo de dominadas en la barra?	Ejercicio de control Prueba funcionalPrueba funcional máxima
9 ¿En qué casos una prueba se considera informativa?
10 ¿Cuándo se considera confiable una prueba?	La capacidad de la prueba para ser reproducible cuando se vuelve a realizar la prueba. La capacidad de la prueba para medir la cualidad de interés del atleta. La independencia de los resultados de la prueba de la persona que la administra.
11 ¿En qué caso la prueba se considera objetiva?	La capacidad de la prueba para ser reproducible cuando se vuelve a realizar la prueba. La capacidad de la prueba para medir la cualidad de interés del atleta. La independencia de los resultados de la prueba de la persona que la administra.
12 ¿Qué criterio es necesario a la hora de evaluar una prueba de contenido informativo?
13 ¿Qué criterio se necesita al evaluar una prueba de confiabilidad?	Prueba T de Student Prueba F de Fisher Coeficiente de correlación Coeficiente de determinación Dispersión
14 ¿Qué criterio se necesita al evaluar una prueba de objetividad?	Prueba T de Student Prueba F de Fisher Coeficiente de correlación Coeficiente de determinación Dispersión
15 ¿Cómo se llama el contenido informativo de una prueba si se utiliza para evaluar el grado de condición física de un deportista?
16 ¿Qué contenido informativo de los ejercicios de control se guía el entrenador al seleccionar a los niños para su sección deportiva?	Diagnóstico empírico predictivo lógico
17 ¿Es necesario el análisis de correlación para evaluar el contenido de información de las pruebas?
18 ¿Es necesario el análisis factorial para evaluar el contenido informativo de las pruebas?
19 ¿Es posible evaluar la confiabilidad de una prueba mediante análisis de correlación?
20 ¿Es posible evaluar la objetividad de una prueba mediante el análisis de correlación?
21 ¿Serán equivalentes las pruebas diseñadas para evaluar la aptitud física general?
22 Cuando se mide la misma calidad con diferentes pruebas, se utilizan pruebas...	Diseñados para medir la misma calidad. Tienen una alta correlación entre sí. Tienen una baja correlación entre sí.

FUNDAMENTOS DE LA TEORÍA DE LA VALORACIÓN

Para evaluar los resultados deportivos se suelen utilizar tablas de puntos especiales. El propósito de dichas tablas es convertir el resultado deportivo mostrado (expresado en medidas objetivas) en puntos condicionales. La ley de convertir resultados deportivos en puntos se llama escala de valoración. La escala se puede especificar como una expresión matemática, tabla o gráfico. Hay 4 tipos principales de escalas utilizadas en deportes y educación física.

Escalas proporcionales

Escalas regresivas

Escalas progresivas.

Escalas proporcionales sugerir otorgar la misma cantidad de puntos por un aumento igual en los resultados (por ejemplo, por cada 0,1 s de mejora en el resultado en la carrera de 100 m, se otorgan 20 puntos). Estas básculas se utilizan en el pentatlón moderno, el patinaje de velocidad, las carreras de esquí, la combinación nórdica, el biatlón y otros deportes.

Escalas regresivas sugieren que por el mismo aumento en los resultados a medida que aumentan los logros deportivos, se otorga un número cada vez menor de puntos (por ejemplo, por una mejora en el resultado en la carrera de 100 m de 15,0 a 14,9 s, se suman 20 puntos, y por 0,1 s en el rango 10,0-9,9 s – sólo 15 puntos).

Escalas progresivas. Aquí, cuanto mayor sea el resultado atlético, mayor será el aumento de puntos por mejorarlo (por ejemplo, para mejorar el tiempo de carrera de 15,0 a 14,9 s, se suman 10 puntos, y de 10,0 a 9,9 s, 100 puntos). Las básculas progresivas se utilizan en natación, ciertos tipos de atletismo y levantamiento de pesas.

escalas sigmoideas rara vez se utilizan en los deportes, pero se utilizan ampliamente para evaluar la aptitud física (por ejemplo, así es como se ve la escala de estándares de aptitud física para la población de EE. UU.). En estas escalas, las mejoras en los resultados en la zona de logros muy bajos y muy altos son escasamente recompensadas; El aumento de resultados en la zona media de logros aporta la mayor cantidad de puntos.

Los principales objetivos de la evaluación son:

comparar diferentes logros en la misma tarea;

comparar logros en diferentes tareas;

definir estándares.

La norma en metrología deportiva se denomina valor límite del resultado, que sirve de base para asignar a un deportista a uno de los grupos de clasificación. Hay tres tipos de normas: comparativas, individuales, debidas.

Estándares comparativos Se basan en una comparación de personas pertenecientes a la misma población. Por ejemplo, dividir a las personas en subgrupos según el grado de resistencia (alta, media, baja) o reactividad (hiperreactiva, normoreactiva, hiporeactiva) a la hipoxia.

Diferentes gradaciones de evaluaciones y normas.

			Porcentaje de sujetos	Normas en escalas.
Verbal	en puntos				percentil
Muy bajo		Por debajo de M - 2
		De M - 2 a M - 1
Por debajo del promedio		De M-1 a M–0,5
		De M–0,5 a M+0,5
Por encima del promedio		De M+0,5 a M+1
		De M+1 a M+2
Muy alto		Por encima de M+2

Estas normas caracterizan sólo los éxitos comparativos de los sujetos de una población determinada, pero no dicen nada sobre la población en su conjunto (o en promedio). Por lo tanto, las normas comparativas deben compararse con datos obtenidos de otras poblaciones y usarse en combinación con normas individuales y apropiadas.

Normas individuales se basan en comparar el rendimiento de un mismo deportista en diferentes condiciones. Por ejemplo, en muchos deportes no existe relación entre el propio peso corporal y el rendimiento deportivo. Cada deportista tiene un peso óptimo individualmente correspondiente a su estado de forma atlética. Esta norma se puede controlar en diferentes etapas del entrenamiento deportivo.

Normas debidas se basan en un análisis de lo que una persona debe ser capaz de hacer para afrontar con éxito las tareas que la vida le plantea. Un ejemplo de esto pueden ser los estándares de los complejos de entrenamiento físico individuales, los valores adecuados de capacidad vital, tasa metabólica basal, peso y altura corporal, etc.

1 ¿Es posible medir directamente la calidad de la resistencia?
2 ¿Es posible medir directamente la calidad de la velocidad?
3 ¿Es posible medir directamente la calidad de la destreza?
4 ¿Es posible medir directamente la calidad de la flexibilidad?
5 ¿Es posible medir directamente la fuerza de músculos individuales?
6 ¿Se puede expresar la evaluación en una característica cualitativa (buena, satisfactoria, mala, aprobada, etc.)?
7 ¿Existe alguna diferencia entre una escala de medición y una escala de calificación?
8 ¿Qué es una escala de calificación?	Sistema de medición de resultados deportivos La ley de conversión de resultados deportivos en puntos Sistema de evaluación de normas
9 La escala supone otorgar el mismo número de puntos por un aumento igual en los resultados. Este …
10 Por el mismo aumento en los resultados, se otorgan cada vez menos puntos a medida que aumentan los logros deportivos. Este …	Escala progresiva Escala regresiva Escala proporcional Escala sigmoidea
11 Cuanto mayor sea el resultado deportivo, mayor será el aumento de puntos, se valora la mejora. Este …	Escala progresiva Escala regresiva Escala proporcional Escala sigmoidea
12 La mejora del desempeño en las zonas de logros muy bajos y muy altos se recompensa con moderación; El aumento de resultados en la zona media de logros aporta la mayor cantidad de puntos. Este …	Escala progresiva Escala regresiva Escala proporcional Escala sigmoidea
13 Las normas basadas en la comparación de personas pertenecientes a una misma población se llaman...
14 Normas basadas en comparar el rendimiento de un mismo deportista en diferentes condiciones se denominan...	Estándares individuales Estándares debidos Estándares comparativos
15 Normas basadas en un análisis de lo que una persona debería poder hacer para hacer frente a las tareas que se le asignan se denominan ...	Estándares individuales Estándares debidos Estándares comparativos

CONCEPTOS BÁSICOS DE CUALIMETRÍA

cualimetria(Latín qualitas - calidad, metron - medida) estudia y desarrolla métodos cuantitativos para evaluar características cualitativas.

La cualimetría se basa en varios puntos de partida:

Cualquier cualidad se puede medir;

La calidad depende de una serie de propiedades que forman el "árbol de calidad" (por ejemplo, el árbol de calidad del rendimiento del ejercicio en patinaje artístico consta de tres niveles: más alto, medio y más bajo);

Cada propiedad está determinada por dos números: indicador relativo y peso; la suma de las ponderaciones de las propiedades en cada nivel es igual a uno (o 100%).

Las técnicas metodológicas de cualimetría se dividen en dos grupos:

Heurístico (intuitivo), basado en evaluaciones y cuestionarios de expertos;

Instrumental.

Experto Es una valoración que se obtiene buscando la opinión de expertos. Ejemplos típicos de experiencia: juzgar en gimnasia y patinaje artístico, competencia por el mejor trabajo científico, etc.

La realización de un examen incluye las siguientes etapas principales: formular su propósito, seleccionar expertos, elegir una metodología, realizar una encuesta y procesar la información recibida, incluida la evaluación de la coherencia de las evaluaciones de los expertos individuales. Durante un examen, el grado de coherencia de las opiniones de los expertos, evaluado por el valor, es de gran importancia. coeficiente de correlación de rango(en caso de varios peritos). Cabe señalar que la correlación de rangos subyace en la solución de muchos problemas de cualimetría, ya que permite cálculos matemáticos con características cualitativas.

En la práctica, un indicador de las calificaciones de un experto es a menudo la desviación de sus calificaciones con respecto a las calificaciones promedio de un grupo de expertos.

Cuestionario Es un método de recogida de opiniones mediante la cumplimentación de cuestionarios. Los cuestionarios, junto con las entrevistas y las conversaciones, son métodos de encuesta. A diferencia de las entrevistas y conversaciones, las preguntas implican respuestas escritas de la persona que completa el cuestionario (el encuestado) a un sistema de preguntas estandarizadas. Permite estudiar motivos de comportamiento, intenciones, opiniones, etc.

Con la ayuda de cuestionarios se pueden resolver muchos problemas prácticos en el deporte: evaluar el estado psicológico de un deportista; su actitud ante la naturaleza y dirección de las sesiones de entrenamiento; relaciones interpersonales en el equipo; propia evaluación de la preparación técnica y táctica; evaluación dietética y muchos otros.

1 ¿Qué estudia la cualimetría?	Estudiar la calidad de las pruebas Estudiar las propiedades cualitativas de un rasgo Estudiar y desarrollar métodos cuantitativos para evaluar la calidad
2 ¿Métodos matemáticos utilizados en cualimetría?	Correlación de pares Correlación de rango Análisis de varianza
3 ¿Qué métodos se utilizan para evaluar el nivel de desempeño?
4 ¿Qué métodos se utilizan para evaluar la diversidad de elementos técnicos?	Método del cuestionario Método de evaluación de expertos Método no especificado
5 ¿Qué métodos se utilizan para evaluar la complejidad de los elementos técnicos?	Método del cuestionario Método de evaluación de expertos Método no especificado
6 ¿Qué métodos se utilizan para evaluar el estado psicológico de un deportista?	Método del cuestionario Método de evaluación de expertos Método no especificado

El primer componente, la teoría de las pruebas, contiene una descripción de modelos estadísticos para procesar datos de diagnóstico. Contiene modelos para analizar respuestas en tareas de prueba y modelos para calcular los resultados totales de la prueba. Mullenberg (1980, 1990) llamó a esto “psicometría”. La teoría de pruebas clásica, la teoría de pruebas moderna (o el modelo de Análisis de respuesta al ítem - TRI) y la

Las muestras de ítems constituyen los tres tipos más importantes de modelos de teoría de pruebas. El tema de consideración del psicodiagnóstico son los dos primeros modelos.

Teoría clásica de las pruebas. La mayoría de los tests intelectuales y de personalidad se han desarrollado sobre la base de esta teoría. El concepto central de esta teoría es el concepto de “fiabilidad”. La confiabilidad se refiere a la consistencia de los resultados en evaluaciones repetidas. En los libros de referencia, este concepto suele presentarse de forma muy breve y luego se ofrece una descripción detallada del aparato de la estadística matemática. En este capítulo introductorio presentaremos una descripción concisa del significado básico del concepto señalado. En la teoría de pruebas clásica, la confiabilidad se refiere a la repetibilidad de los resultados de varios procedimientos de medición (principalmente mediciones mediante pruebas). El concepto de confiabilidad implica el cálculo del error de medición. Los resultados obtenidos durante el proceso de prueba se pueden presentar como la suma del resultado real y el error de medición:

Xi = Ti+ ej

Dónde Xi es una evaluación de los resultados obtenidos, Ti es el resultado verdadero, y ej- Error de medición.

La evaluación de los resultados obtenidos es, por regla general, el número de respuestas correctas a las tareas de la prueba. Un resultado verdadero puede considerarse como una evaluación verdadera en el sentido platónico (Gulliksen, 1950). El concepto de resultados esperados está muy extendido, es decir ideas sobre puntuaciones que se pueden obtener como resultado de un gran número de repeticiones de procedimientos de medición (Lord & Novich, 1968). Pero no es posible realizar el mismo procedimiento de evaluación con una sola persona. Por tanto, es necesario buscar otras opciones para solucionar el problema (Witlman, 1988).

Este concepto hace ciertas suposiciones sobre resultados verdaderos y errores de medición. Estos últimos se toman como un factor independiente, lo que, por supuesto, es una suposición bastante razonable, ya que las fluctuaciones aleatorias en los resultados no dan covarianzas: r EE = 0.

Se supone que no existe correlación entre las puntuaciones verdaderas y los errores de medición: rEE = 0.

El error total es 0, porque La media aritmética se toma como estimación verdadera:

Estos supuestos nos llevan en última instancia a la conocida definición de confiabilidad como la relación entre el resultado verdadero y la varianza total o la expresión: 1 menos la relación, cuyo numerador es el error de medición y el denominador es la varianza total:

, O

De esta fórmula para determinar la confiabilidad obtenemos que la varianza del error T 2 (E) igual a la varianza total en el número de casos (1 – r XX "); por lo tanto, el error estándar de medición está determinado por la fórmula:

Luego de una justificación teórica de la confiabilidad y sus derivadas, es necesario determinar el índice de confiabilidad de una prueba en particular. Existen procedimientos prácticos para evaluar la confiabilidad de las pruebas, como el uso de formularios intercambiables (pruebas paralelas), la división de elementos en dos partes, la repetición de pruebas y la medición de la consistencia interna. Cada libro de referencia contiene índices de coherencia de los resultados de las pruebas:

rXX’ =r(x 1 , x 2)

Dónde rXX' - coeficiente de estabilidad, y x1 Y x2 - resultados de dos mediciones.

El concepto de confiabilidad de formas intercambiables fue introducido y desarrollado por Gulliksen (1950). Este procedimiento requiere bastante mano de obra, ya que está asociado con la necesidad de crear una serie paralela de tareas.

rXX’ =r(x 1 , x 2)

Dónde rXX' - coeficiente de equivalencia, y x1 Y x2 - dos pruebas paralelas.

El siguiente procedimiento, dividir la masa principal en dos partes A y B, es más fácil de utilizar. Las puntuaciones obtenidas en ambas partes de la prueba están correlacionadas. Utilizando la fórmula de Spearman-Brown se evalúa la fiabilidad de la prueba en su conjunto:

donde A y B son dos partes paralelas de la prueba.

El siguiente método consiste en determinar la coherencia interna de las tareas de prueba. Este método se basa en determinar las covarianzas de tareas individuales. Sg es la varianza de una tarea seleccionada al azar y Sgh es la covarianza de dos tareas seleccionadas al azar. El coeficiente más utilizado para determinar la consistencia interna es el alfa de Cronbach. La fórmula también se utiliza KR20 y λ-2(lambda-2).

El concepto clásico de confiabilidad define los errores de medición que surgen tanto durante las pruebas como durante las observaciones. Las fuentes de estos errores son diferentes: pueden ser características personales y características de las condiciones de prueba y las tareas de prueba en sí. Existen métodos específicos para calcular errores. Sabemos que nuestras observaciones pueden resultar erróneas, nuestras herramientas metodológicas son imperfectas, como las personas mismas son imperfectas. (Cómo no recordar a Shakespeare: “Indigno de confianza eres tú, cuyo nombre es hombre”). El hecho de que en la teoría clásica de las pruebas los errores de medición se hagan explícitos y se expliquen es un punto positivo importante.

La teoría clásica de las pruebas tiene una serie de características importantes que también pueden considerarse desventajas. Algunas de estas características se señalan en los libros de referencia, pero no se suele enfatizar su importancia (desde un punto de vista cotidiano), ni se señala que desde un punto de vista teórico o metodológico deban considerarse deficiencias.

Primero. La teoría clásica de las pruebas y el concepto de confiabilidad se centran en calcular los indicadores totales de las pruebas, que son el resultado de sumar las puntuaciones obtenidas en las tareas individuales. Si, cuando trabajas

Segundo. El coeficiente de confiabilidad implica evaluar la cantidad de dispersión de los indicadores medidos. De ello se deduce que el coeficiente de confiabilidad será menor si (en igualdad de condiciones con otros indicadores) la muestra es más homogénea. No existe un coeficiente único de consistencia interna de los ítems de la prueba; este coeficiente es siempre "contextual". Crocker y Algina (1986), por ejemplo, proponen una fórmula especial de “corrección de muestra homogénea” diseñada para las puntuaciones más altas y más bajas obtenidas por los examinados. Es importante que el diagnosticador conozca las características de variación en la población de la muestra; de lo contrario, no podrá utilizar los coeficientes de consistencia interna especificados en el manual para esta prueba.

Tercero. El fenómeno de la reducción a una media aritmética es una consecuencia lógica del concepto clásico de confiabilidad. Si la puntuación de la prueba fluctúa (es decir, no es lo suficientemente fiable), entonces es posible que cuando se repita el procedimiento, los sujetos con puntuaciones bajas reciban puntuaciones más altas y, a la inversa, los sujetos con puntuaciones altas obtengan puntuaciones bajas. Este artefacto del procedimiento de medición no debe confundirse con un verdadero cambio o manifestación de procesos de desarrollo. Pero al mismo tiempo, no es fácil diferenciarlos, porque... Nunca se puede descartar la posibilidad de cambios durante el desarrollo. Para estar completamente seguro, es necesaria una comparación con un grupo de control.

La cuarta característica de las pruebas desarrolladas de acuerdo con los principios de la teoría clásica es la presencia de datos normativos. El conocimiento de las normas de las pruebas permite al investigador interpretar adecuadamente los resultados de los examinados. Fuera de las normas, los resultados de los exámenes no tienen sentido. Desarrollar estándares de pruebas es una tarea bastante costosa, ya que el psicólogo debe obtener los resultados de las pruebas de una muestra representativa.

2 Ya ter Laak

Si hablamos de las deficiencias del concepto clásico de confiabilidad, entonces es apropiado citar la afirmación de Siytsma (1992, pp. 123-125). Señala que el primer y principal supuesto de la teoría clásica de las pruebas es que las puntuaciones de las pruebas siguen el principio de intervalo. Sin embargo, no existen estudios que respalden esta suposición. En esencia, se trata de “medición según una regla arbitrariamente establecida”. Esta característica coloca a la teoría de pruebas clásica en desventaja en comparación con las escalas de medición de actitudes y, por supuesto, en comparación con la teoría de pruebas moderna. Muchos métodos de análisis de datos (análisis de varianza). análisis de regresión, correlación y análisis factorial) se basan en el supuesto de la existencia de una escala de intervalo. Sin embargo, no tiene una base sólida. Trate la escala de resultados verdaderos como una escala de valores. características psicológicas(por ejemplo, capacidad aritmética, inteligencia, neuroticismo) sólo se puede dar por sentado.

La segunda observación se refiere al hecho de que los resultados de las pruebas no son indicadores absolutos de una u otra característica psicológica de la persona examinada; deben considerarse sólo como resultados de una u otra prueba; Dos pruebas pueden pretender examinar las mismas características psicológicas (p. ej., inteligencia, capacidad verbal, extraversión), pero esto no significa que las dos pruebas sean equivalentes o tengan las mismas capacidades. Comparar el desempeño de dos personas evaluadas con pruebas diferentes es incorrecto. Lo mismo se aplica al completar dos diferentes pruebas un sujeto de prueba. El tercer punto se refiere al supuesto de que el error estándar de medición es el mismo para cualquier nivel de habilidad individual que se mida. Sin embargo, no existe ninguna prueba empírica de esta suposición. Por ejemplo, no hay garantía de que un examinado con buenas habilidades matemáticas obtenga una puntuación alta en una prueba de aritmética relativamente simple. En este caso, una persona con capacidades bajas o medias tiene más probabilidades de recibir una calificación alta.

En el marco de la teoría de pruebas moderna o la teoría del análisis de respuestas, los ítems de la prueba contienen una descripción de una gran cantidad

número de modelos de posibles respuestas de los encuestados. Estos modelos difieren en los supuestos subyacentes, así como en los requisitos de los datos obtenidos. El modelo de Rasch a menudo se considera sinónimo de teorías del análisis de respuesta al ítem (1RT). De hecho, este es sólo uno de los modelos. La fórmula que se presenta en él para describir la curva característica de la tarea g es la siguiente:

Dónde gramo- tarea de prueba separada; Exp- función exponencial (dependencia no lineal); δ (“delta”): el nivel de dificultad de la prueba.

Otros elementos de prueba, p. h, También obtienen sus propias curvas características. Condición cumplida δ h > δ g (g significa que h- una tarea más difícil. Por lo tanto, para cualquier valor del indicador Θ (“theta” - propiedades latentes de las habilidades de los examinados) probabilidad de completar con éxito la tarea h menos. Este modelo se llama estricto porque es obvio que con un bajo grado de expresión del rasgo, la probabilidad de completar la tarea es cercana a cero. En este modelo no hay lugar para conjeturas ni conjeturas. Para las tareas de opción múltiple, no es necesario hacer suposiciones sobre la probabilidad de éxito. Además, este modelo es estricto en el sentido de que todos los ítems de la prueba deben tener la misma capacidad discriminativa (la alta discriminatividad se refleja en la inclinación de la curva; aquí es posible construir la escala de Guttman, según la cual en cada punto de la curva característica la probabilidad de completar la tarea varía de O a 1). Debido a esta condición, no todos los ítems pueden incluirse en las pruebas basadas en el modelo de Rasch.

Existen varias variantes de este modelo (p. ej., Birnbaura, 1968; véase Lord y Novik). Permite la existencia de tareas con diferentes criterios discriminativos.

capacidad.

El investigador holandés Mokken (1971) desarrolló dos modelos para analizar las respuestas a los ítems de una prueba que son menos estrictos que el modelo de Rasch y, por lo tanto, quizás más realistas. Como condición básica

Via Mokken propone que la curva característica de una tarea debe seguirse de forma monótona, sin interrupciones. Todas las tareas de prueba tienen como objetivo estudiar la misma característica psicológica, que debe medirse. v. Cualquier forma de esta dependencia está permitida hasta que se interrumpa. Por tanto, la forma de la curva característica no está determinada por ninguna función específica. Esta "libertad" le permite utilizar más elementos de la prueba y el nivel de evaluación no es más alto de lo habitual.

La metodología de los patrones de respuesta al ítem (TRI) difiere de la de la mayoría de los estudios experimentales y correlacionales. El modelo matemático está diseñado para estudiar el comportamiento, cognitivo, características emocionales, así como fenómenos de desarrollo. Estos fenómenos en cuestión a menudo se limitan a respuestas a ítems, lo que llevó a Mellenberg (1990) a llamar a la TRI una “miniteoría del comportamiento”. Los resultados del estudio pueden, hasta cierto punto, presentarse como curvas de consistencia, especialmente en los casos en los que falta una comprensión teórica de las características que se estudian. Hasta ahora sólo disponemos de unos pocos tests de inteligencia, aptitud y personalidad creados a partir de numerosos modelos de la teoría TRI. Las variantes del modelo de Rasch se utilizan con mayor frecuencia en el desarrollo de pruebas de rendimiento (Verhelst, 1993), mientras que los modelos de Mokken son más adecuados para fenómenos de desarrollo (ver también el Capítulo 6).

La respuesta del examinado a los ítems del examen es la unidad básica de los modelos IRT. El tipo de respuesta está determinado por el grado de expresión de la característica que se estudia en una persona. Una característica de este tipo podría ser, por ejemplo, la capacidad aritmética o espacial. En la mayoría de los casos, este es uno u otro aspecto de la inteligencia, características de logros o rasgos de personalidad. Se supone que entre la posición de un determinado persona concreta en un cierto rango de las características que se estudian y la probabilidad de completar con éxito una tarea en particular, existe una relación no lineal. La no linealidad de esta dependencia es en cierto sentido intuitiva. Frases célebres“Todo comienzo es difícil” (lento y no-

inicio lineal) y “Convertirse en santo no es tan fácil” significan que es difícil seguir mejorando después de alcanzar un cierto nivel. La curva se acerca lentamente, pero casi nunca alcanza una tasa de éxito del 100%.

Algunos modelos contradicen nuestra comprensión intuitiva. Tomemos este ejemplo. Una persona con un índice de gravedad. características arbitrarias igual a 1,5 tiene un 60 por ciento de probabilidad de éxito en completar la tarea. Esto contradice nuestra comprensión intuitiva de tal situación, porque se puede afrontar con éxito la tarea o no afrontarla en absoluto. Tomemos este ejemplo: una persona intenta 100 veces alcanzar una altura de 1 m 50 cm. El éxito lo acompaña 60 veces, es decir. tiene una tasa de éxito del 60 por ciento.

Para evaluar la gravedad de una característica, se requieren al menos dos tareas. El modelo de Rasch implica determinar la gravedad de las características independientemente de la dificultad de la tarea. Esto también va en contra de nuestra intuición: supongamos que una persona tiene un 80% de posibilidades de saltar por encima de 1,30 m. Si este es el caso, entonces, según la curva característica de la tarea, tiene un 60% de posibilidades de saltar por encima de 1,50 m y un 40% de posibilidades. de saltar por encima de 1,50 m. probabilidad de saltar por encima de 1,70 m Por lo tanto, independientemente del valor de la variable independiente (altura), es posible estimar la capacidad de una persona para saltar alto.

Existen alrededor de 50 modelos TRI (Goldstein & Wood, 1989). Hay muchas funciones no lineales que describen (explican) la probabilidad de éxito al completar una tarea o grupo de tareas. Los requisitos y limitaciones de estos modelos son diferentes y estas diferencias pueden revelarse comparando el modelo de Rasch y la escala de Mokken. Los requisitos de estos modelos incluyen:

1) la necesidad de determinar la característica en estudio y evaluar la posición de la persona dentro del rango de este rasgo;

2) evaluación de la secuencia de tareas;

3) comprobar modelos específicos. En psicometría, se han desarrollado muchos procedimientos para probar el modelo.

Algunos libros de referencia analizan la teoría TRI como una forma de análisis de ítems de prueba (ver, por ejemplo,

Croker y Algina, J 986). Sin embargo, se podría argumentar que la TRI es una “miniteoría sobre el minicomportamiento”. Los defensores de la teoría TRI señalan que si los conceptos (modelos) de nivel intermedio son imperfectos, ¿qué se puede decir entonces de constructos más complejos en psicología?

Teorías de pruebas clásicas y modernas. La gente no puede evitar comparar cosas que parecen casi iguales. (Quizás el equivalente cotidiano de la psicometría consista principalmente en comparar personas según sus características significativas y elegir entre ellos). Cada una de las teorías presentadas (la teoría de la medición de los errores de estimación y el modelo matemático de las respuestas a las pruebas) tiene sus partidarios (Goldstein y Wood, 1986).

Los modelos TRI no han sido acusados de ser "evaluaciones basadas en reglas" como la teoría de pruebas clásica. El modelo TRI se centra en el análisis de las características que se evalúan. Las características de personalidad y las características de la tarea se evalúan mediante escalas (ordinales o de intervalo). Además, es posible comparar los indicadores de desempeño de diferentes pruebas destinadas a estudiar características similares. Finalmente, la confiabilidad no es la misma para cada valor de una escala y las puntuaciones promedio son generalmente más confiables que las puntuaciones al principio y al final de la escala. Por tanto, los modelos TRI parecen ser teóricamente más superiores. También hay diferencias en uso práctico teoría de pruebas moderna y teoría clásica (Sijstma, 1992, págs. 127-130). La teoría de pruebas moderna es más compleja en comparación con la clásica, por lo que los no especialistas la utilizan con menos frecuencia. Además, la TRI presenta requisitos especiales a las tareas. Esto significa que los artículos deben excluirse de la prueba si no cumplen con los requisitos del modelo. Esta regla Se refiere además a aquellas tareas que formaban parte de pruebas ampliamente utilizadas basadas en los principios de la teoría clásica. La prueba se vuelve más corta y, por tanto, su fiabilidad disminuye.

IRT proporciona modelos matemáticos para estudiar fenómenos del mundo real. Los modelos deberían ayudarnos a comprender aspectos clave de estos fenómenos. Sin embargo, aquí radica la principal pregunta teorica. Se pueden considerar modelos.

como aproximación al estudio de la compleja realidad en la que vivimos. Pero modelo y realidad no son lo mismo. Según la visión pesimista, sólo es posible modelar tipos de comportamiento aislados (y no los más interesantes). También puede encontrarse con la afirmación de que la realidad no se puede modelar en absoluto, porque obedece a algo más que simples leyes de causa y efecto. EN en el mejor de los casos es posible modelar fenómenos de comportamiento individuales (ideales). Existe otra visión, más optimista, de las posibilidades del modelado. La posición anterior bloquea la posibilidad de una comprensión profunda de la naturaleza de los fenómenos del comportamiento humano. La aplicación de un modelo u otro plantea algunas cuestiones generales y fundamentales. En nuestra opinión, no hay duda de que la TRI es un concepto teórica y técnicamente superior a la teoría clásica de los tests.

El propósito práctico de las pruebas, sin importar sobre qué base teórica se creen, es determinar criterios significativos y establecer a partir de ellos las características de determinados constructos psicológicos. ¿Tiene el modelo TRI ventajas también en este sentido? Es posible que las pruebas basadas en este modelo no predigan con mayor precisión que las pruebas basadas en la teoría clásica, y es posible que su contribución al desarrollo de constructos psicológicos no sea más significativa. Los diagnosticadores prefieren criterios que sean directamente relevantes para el individuo, institución o comunidad. Un modelo científicamente más avanzado “ipso facto”* no define un criterio más apropiado y, hasta cierto punto, está limitado a la hora de explicar constructos científicos. Es obvio que se continuará el desarrollo de tests basados en la teoría clásica, pero al mismo tiempo se crearán nuevos modelos TRI que se extiendan al estudio. más fenómenos psicológicos.

En la teoría de pruebas clásica, se distinguen los conceptos de "fiabilidad" y "validez". Los resultados de las pruebas deben ser fiables, es decir Los resultados de la prueba inicial y de la repetición deben ser consistentes. Además,

* ipso facto(barniz) - por sí solo (aprox. traducción).

los resultados deben estar libres (en la medida de lo posible) de errores de estimación. La validez es uno de los requisitos de los resultados obtenidos. Al mismo tiempo, la fiabilidad se considera necesaria, pero aún no condición suficiente validez de la prueba.

El concepto de validez sugiere que los hallazgos se relacionan con algo importante en términos prácticos o teóricos. Las conclusiones extraídas de los resultados de las pruebas deben ser válidas. La mayoría de las veces se habla de dos tipos de validez: predictiva (de criterio) y constructiva. También existen otros tipos de validez (ver Capítulo 3). Además, se puede determinar la validez en el caso de cuasi-experimentos (Cook & Campbell, 1976, Cook & Sádish, 1994). Sin embargo, el tipo principal de validez sigue siendo la validez predictiva, lo que significa la capacidad de predecir mediante resultado de la prueba algo significativo sobre el comportamiento futuro, así como la posibilidad de una comprensión más profunda de esto o aquello propiedades psicológicas o calidad.

Los tipos de validez presentados se analizan en cada libro de referencia y van acompañados de una descripción de los métodos para analizar la validez de las pruebas. El análisis factorial es más adecuado para determinar la validez de constructo, y las Ecs. regresión lineal Se utiliza para analizar la validez predictiva. Ciertas características (rendimiento académico, efectividad de la terapia) se pueden predecir sobre la base de uno o más indicadores obtenidos cuando se trabaja con intelectuales o pruebas de personalidad. Para determinar la validez predictiva de una prueba se utilizan técnicas de procesamiento de datos como correlación, regresión, análisis de varianza, análisis de correlaciones parciales y varianzas.

También se describe a menudo la validez del contenido. Se supone que todas las tareas y tareas de la prueba deben pertenecer a un área específica (propiedades mentales, comportamiento, etc.). El concepto de validez de contenido caracteriza la correspondencia de cada ítem de la prueba con el dominio medido. La validez de contenido a veces se considera parte de la confiabilidad o la "generalización" (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Sin embargo cuando

Al elegir tareas para las pruebas de rendimiento en un área temática específica, también es importante prestar atención a las reglas para incluir tareas en la prueba.

En la teoría clásica de las pruebas, la confiabilidad y la validez se tratan de manera relativamente independiente entre sí. Pero hay otra comprensión de la relación entre estos conceptos. teoría moderna Las pruebas se basan en el uso de modelos. Los parámetros se estiman dentro de un modelo determinado. Si una tarea no cumple con los requisitos del modelo, dentro del marco de este modelo se considera inválida. La validación de constructo es parte de la verificación del modelo en sí. Esta validación se refiere principalmente a probar la existencia de un rasgo de interés latente unidimensional con características de escala conocidas. Las puntuaciones de escala ciertamente pueden usarse para determinar medidas apropiadas y pueden correlacionarse con medidas de otros constructos para recopilar información sobre la validez convergente y divergente del constructo.

El psicodiagnóstico es similar al lenguaje, descrito como la unidad de cuatro componentes presentados en tres niveles. El primer componente, la teoría de las pruebas, es análogo a la sintaxis, la gramática de un idioma. La gramática generativa es, por un lado, un modelo ingenioso y, por otro, un sistema que obedece reglas. Con la ayuda de estas reglas, se construyen oraciones complejas a partir de oraciones afirmativas simples. Al mismo tiempo, sin embargo, Este modelo deja de lado una descripción de cómo se organiza el proceso comunicativo (qué se transmite y qué se percibe), y con qué fines se lleva a cabo. Comprender esto requiere conocimientos adicionales. Lo mismo puede decirse de la teoría de los tests: es necesaria en el psicodiagnóstico, pero no es capaz de explicar qué hace un psicodiagnosticador y cuáles son sus objetivos.

1.3.2. Teorías psicológicas y constructos psicológicos

El psicodiagnóstico es siempre un diagnóstico de algo específico: características personales, comportamiento, pensamiento, emociones. Las pruebas están diseñadas para evaluar las diferencias individuales. Hay varios conceptos

diferencias individuales, cada una de las cuales tiene sus propias características distintivas. Si se reconoce que el psicodiagnóstico no se limita únicamente a la evaluación de las diferencias individuales, entonces otras teorías se vuelven esenciales para el psicodiagnóstico. Un ejemplo es la evaluación de las diferencias en los procesos de desarrollo mental y las diferencias en el entorno social. Aunque la evaluación de las diferencias individuales no es un atributo indispensable del psicodiagnóstico, existen ciertas tradiciones de investigación en esta área. El psicodiagnóstico comenzó con la evaluación de las diferencias de inteligencia. El objetivo principal de las pruebas era “determinar la transmisión hereditaria del genio” (Gallon) o la selección de niños para la formación (Binet, Simon). La medición del coeficiente intelectual recibió comprensión teórica y desarrollo práctico en los trabajos de Spearman (Gran Bretaña) y Thurstone (Estados Unidos). Raymond B. Cattell hizo algo similar para evaluar las características de personalidad. El psicodiagnóstico queda indisolublemente ligado a teorías e ideas sobre las diferencias individuales en logros (evaluación de capacidades máximas) y formas de comportamiento (nivel de funcionamiento típico). Esta tradición continúa siendo efectiva hoy en día. EN libros de texto En el psicodiagnóstico, las diferencias en el entorno social se evalúan con mucha menos frecuencia que las características de los propios procesos de desarrollo. No hay una explicación razonable para esto. Por un lado, el diagnóstico no se limita a determinadas teorías y conceptos. Por otro lado, necesita teorías, ya que es en ellas donde se determina el contenido que se diagnostica (es decir, “qué” se diagnostica). Así, por ejemplo, la inteligencia puede considerarse como características generales, y como base para muchas habilidades independientes. Si el psicodiagnóstico intenta "escapar" de tal o cual teoría, entonces la base del proceso de psicodiagnóstico se convierte en ideas. sentido común. La investigación utiliza diferentes métodos de análisis de datos y lógica general La investigación determina la elección de uno u otro. modelo matemático y determina la estructura de los conceptos psicológicos utilizados. Tales métodos de estadística matemática.

ki, como el análisis de varianza, el análisis de regresión, el análisis factorial y el cálculo de correlaciones, suponen la existencia de dependencias lineales. Si estos métodos se utilizan incorrectamente, “introducen” su estructura en los datos obtenidos y en los constructos utilizados.

Las ideas sobre las diferencias en el entorno social y el desarrollo de la personalidad casi no tuvieron impacto en el psicodiagnóstico. Los libros de texto (ver, por ejemplo, Murphy y Davidshofer, 1988) examinan la teoría clásica de las pruebas y discuten métodos relevantes de procesamiento estadístico, describen pruebas bien conocidas y discuten el uso de psicodiagnósticos en la práctica: en psicología de la gestión, en la selección de personal, en la evaluación. características psicológicas humanas.

Las teorías de las diferencias individuales (así como las ideas sobre las diferencias entre entornos sociales y desarrollo mental) son análogas al estudio de la semántica del lenguaje. Este es el estudio de la esencia, el contenido y el significado. Los significados se estructuran de cierta manera (similar a las construcciones psicológicas), por ejemplo, por similitud o contraste (analogía, convergencia, divergencia).

1.3.3. Tests psicológicos y otras herramientas metodológicas

El tercer componente del esquema propuesto son las pruebas, procedimientos y medios metodológicos con cuya ayuda se recopila información sobre las características de la personalidad. Drene y Sijtsma (1990, p. 31) definen las pruebas de la siguiente manera: “Una prueba psicológica se considera como una clasificación según un determinado sistema o como un procedimiento de medición que permite emitir un determinado juicio sobre uno o más empíricamente aislados o teóricamente. características basadas en un aspecto específico del comportamiento humano (dentro de la situación de prueba). Al mismo tiempo, la reacción de los encuestados ante Cierto número estímulos cuidadosamente seleccionados y las respuestas obtenidas se comparan con las normas de las pruebas”.

El diagnóstico requiere pruebas y técnicas para recopilar información confiable, precisa y válida sobre las características.

Y rasgos característicos personalidad, sobre el pensamiento, las emociones y el comportamiento humanos. Además de desarrollar procedimientos de prueba, este componente también incluye siguientes preguntas: cómo se crean las pruebas, cómo se formulan y seleccionan las tareas, cómo avanza el proceso de prueba, cuáles son los requisitos para las condiciones de prueba, cómo se tienen en cuenta los errores de medición, cómo se calculan e interpretan los resultados de las pruebas.

El proceso de desarrollo de pruebas distingue entre estrategias racionales y empíricas. La aplicación de una estrategia racional comienza con la definición de conceptos básicos (por ejemplo, el concepto de inteligencia, extraversión) y las tareas de prueba se formulan de acuerdo con estos conceptos. Un ejemplo de tal estrategia es el concepto análisis de aspectos(la teoría de las facetas) Guttman (1957, 1968, 1978). Primero determinamos varios aspectos constructos básicos, luego las tareas y asignaciones se seleccionan de tal manera que se tenga en cuenta cada uno de estos aspectos. La segunda estrategia es que las tareas se seleccionan sobre una base empírica. Por ejemplo, si un investigador intenta crear una prueba intereses profesionales, lo que nos permitiría diferenciar a los médicos de los ingenieros, entonces el procedimiento debería ser así. Ambos grupos de encuestados deben responder todos los ítems de la prueba, y aquellos ítems para los cuales se encuentran diferencias estadísticamente significativas se incluyen en la prueba final. Si, por ejemplo, hay diferencias entre los grupos en las respuestas a la afirmación “Me gusta pescar”, entonces esa afirmación se convierte en un elemento de la prueba. La premisa central de este libro es que la prueba está vinculada a una teoría conceptual o taxonómica que define estas características.

El objetivo de la prueba suele estar definido en las instrucciones de uso. La prueba debe estar estandarizada para que pueda evaluar diferencias entre individuos y no entre condiciones de prueba. Sin embargo, existen desviaciones de la estandarización en los procedimientos llamados “prueba de límites” y “pruebas de potencial de aprendizaje”. En estas condiciones, el demandado es asistido en el proceso.

pruebas y luego evaluar el efecto de dicho procedimiento en el resultado. La puntuación de las respuestas a las tareas es objetiva, es decir. llevado a cabo de acuerdo con el procedimiento estándar. La interpretación de los resultados obtenidos también está estrictamente definida y se lleva a cabo según estándares de prueba.

El tercer componente del psicodiagnóstico (pruebas, instrumentos y procedimientos psicológicos) contiene ciertas tareas que son las unidades más pequeñas del psicodiagnóstico y, en este sentido, las tareas son similares a los fonemas de una lengua. El número de combinaciones posibles de fonemas es limitado. solo ciertos estructuras fonémicas Puede formar palabras y oraciones que transmiten información al oyente. También Y Tareas de prueba: sólo en una determinada combinación entre sí pueden convertirse medios eficaces evaluación del constructo relevante.