Calculando chi cuadrado. Preguntas de autoevaluación para estudiantes.

). La formulación específica de la hipótesis que se está probando variará de un caso a otro.

En esta publicación describiré cómo funciona el criterio \(\chi^2\) utilizando un ejemplo (hipotético) de inmunología. Imaginemos que hemos realizado un experimento para determinar la eficacia de suprimir el desarrollo de una enfermedad microbiana cuando se introducen en el organismo los anticuerpos adecuados. En el experimento participaron un total de 111 ratones, que dividimos en dos grupos, incluidos 57 y 54 animales, respectivamente. El primer grupo de ratones recibió inyecciones de bacterias patógenas, seguidas de la introducción de suero sanguíneo que contenía anticuerpos contra estas bacterias. Los animales del segundo grupo sirvieron de control: solo recibieron inyecciones bacterianas. Después de un tiempo de incubación, resultó que 38 ratones murieron y 73 sobrevivieron. De los muertos, 13 pertenecían al primer grupo y 25 al segundo (control). La hipótesis nula probada en este experimento se puede formular de la siguiente manera: la administración de suero con anticuerpos no tiene ningún efecto sobre la supervivencia de los ratones. En otras palabras, sostenemos que las diferencias observadas en la supervivencia de los ratones (77,2% en el primer grupo frente a 53,7% en el segundo grupo) son completamente aleatorias y no están relacionadas con el efecto de los anticuerpos.

Los datos obtenidos en el experimento se pueden presentar en forma de tabla:

Total

Bacterias + suero

Solo bacterias

Total

Tablas como la que se muestra se denominan tablas de contingencia. En el ejemplo que estamos considerando, la tabla tiene una dimensión de 2x2: hay dos clases de objetos (“Bacterias + suero” y “Solo bacterias”), que se examinan según dos criterios (“Muertos” y “Sobrevivientes”). Este es el caso más simple de una tabla de contingencia: por supuesto, tanto el número de clases que se estudian como el número de características pueden ser mayores.

Para probar la hipótesis nula expuesta anteriormente, necesitamos saber cuál sería la situación si los anticuerpos en realidad no tuvieran ningún efecto sobre la supervivencia de los ratones. En otras palabras, es necesario calcular frecuencias esperadas para las celdas correspondientes de la tabla de contingencia. ¿Cómo hacerlo? En el experimento murieron un total de 38 ratones, lo que supone el 34,2% del número total de animales implicados. Si la administración de anticuerpos no afecta a la supervivencia de los ratones, debería observarse el mismo porcentaje de mortalidad en ambos grupos experimentales, concretamente un 34,2%. Calculando cuánto es el 34,2% de 57 y 54, obtenemos 19,5 y 18,5. Estas son las tasas de mortalidad esperadas en nuestros grupos experimentales. Las tasas de supervivencia esperadas se calculan de manera similar: dado que sobrevivieron un total de 73 ratones, o el 65,8% del número total, las tasas de supervivencia esperadas serán 37,5 y 35,5. Creemos una nueva tabla de contingencia, ahora con las frecuencias esperadas:

Muerto

Sobrevivientes

Total

Bacterias + suero

Solo bacterias

Total

Como podemos ver, las frecuencias esperadas son bastante diferentes a las observadas, es decir La administración de anticuerpos parece tener un efecto sobre la supervivencia de ratones infectados con el patógeno. Podemos cuantificar esta impresión utilizando la prueba de bondad de ajuste de Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


donde \(f_o\) y \(f_e\) son las frecuencias observadas y esperadas, respectivamente. La suma se realiza en todas las celdas de la tabla. Entonces, para el ejemplo que estamos considerando tenemos

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

¿Es el valor resultante de \(\chi^2\) lo suficientemente grande como para rechazar la hipótesis nula? Para responder a esta pregunta es necesario encontrar el valor crítico correspondiente del criterio. El número de grados de libertad para \(\chi^2\) se calcula como \(df = (R - 1)(C - 1)\), donde \(R\) y \(C\) son el número de filas y columnas en la tabla de conjugación. En nuestro caso \(df = (2 -1)(2 - 1) = 1\). Conociendo el número de grados de libertad, ahora podemos encontrar fácilmente el valor crítico \(\chi^2\) usando la función estándar de R qchisq() :


Así, con un grado de libertad, sólo en el 5% de los casos el valor del criterio \(\chi^2\) supera 3,841. El valor que obtuvimos, 6,79, supera significativamente este valor crítico, lo que nos da derecho a rechazar la hipótesis nula de que no existe conexión entre la administración de anticuerpos y la supervivencia de los ratones infectados. Al rechazar esta hipótesis, corremos el riesgo de equivocarnos con una probabilidad inferior al 5%.

Cabe señalar que la fórmula anterior para el criterio \(\chi^2\) da valores ligeramente inflados cuando se trabaja con tablas de contingencia de tamaño 2x2. La razón es que la distribución del criterio \(\chi^2\) en sí es continua, mientras que las frecuencias de las características binarias (“murieron” / “sobrevivieron”) son, por definición, discretas. En este sentido, a la hora de calcular el criterio, se acostumbra introducir el llamado corrección de continuidad, o enmienda de Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

Datos de corrección de continuidad de la prueba de Chi-cuadrado con Yates: ratones X-cuadrado = 5,7923, df = 1, valor de p = 0,0161


Como podemos ver, R aplica automáticamente la corrección de continuidad de Yates ( Prueba Chi-cuadrado de Pearson con corrección de continuidad de Yates). El valor de \(\chi^2\) calculado por el programa fue 5,79213. Podemos rechazar la hipótesis nula de que no hay efecto de los anticuerpos con el riesgo de equivocarnos con una probabilidad de poco más del 1% (valor p = 0,0161).

La prueba de independencia chi-cuadrado se utiliza para determinar la relación entre dos variables categóricas. Ejemplos de pares de variables categóricas son: Estado civil vs. Nivel de empleo del encuestado; Raza de perro vs. Profesión del propietario, nivel salarial vs. Especialización de un ingeniero, etc. Al calcular el criterio de independencia se prueba la hipótesis de que no existe relación entre las variables. Realizaremos cálculos utilizando la función CHI2.TEST() de MS EXCEL 2010 y fórmulas convencionales.

Supongamos que tenemos muestra datos que representan el resultado de una encuesta realizada a 500 personas. A las personas se les hicieron 2 preguntas: sobre su estado civil (casado, pareja de hecho, sin pareja) y su nivel de empleo (a tiempo completo, a tiempo parcial, sin trabajar temporalmente, en casa, jubilado, estudiando). Todas las respuestas se colocaron en la tabla:

Esta tabla se llama tabla de contingencia de características(o tabla de factores, tabla de contingencia inglesa). Los elementos en la intersección de filas y columnas de la tabla generalmente se denominan O ij (del inglés Observado, es decir, frecuencias reales observadas).

Nos interesa la pregunta “¿El estado civil afecta el empleo?”, es decir, ¿Existe una dependencia entre los dos métodos de clasificación? muestras?

En evaluación de la hipótesis de esta forma se suele aceptar que hipótesis nula afirma que no existe dependencia de los métodos de clasificación.

Consideremos los casos límite. Un ejemplo de la completa dependencia de dos variables categóricas es el siguiente resultado de la encuesta:

En este caso, el estado civil determina claramente el empleo (ver. hoja de archivo de ejemplo Explicación). Por el contrario, un ejemplo de total independencia es otro resultado de la encuesta:

Tenga en cuenta que la tasa de empleo en este caso no depende del estado civil (lo mismo para personas casadas y solteras). Esto coincide exactamente con la redacción. hipótesis nula. Si hipótesis nula es justo, entonces los resultados de la encuesta deberían distribuirse de tal manera que el porcentaje de personas empleadas fuera el mismo independientemente del estado civil. Usando esto, calculamos los resultados de la encuesta que corresponden a hipótesis nula(cm. ejemplo de archivo de hoja Ejemplo).

Primero, calculamos la estimación de probabilidad de que el elemento muestras tendrá una ocupación determinada (ver columna u i):

Dónde Con– el número de columnas (columnas) igual al número de niveles de la variable “Estado civil”.

Luego calculamos la estimación de probabilidad de que el elemento muestras tendrá un determinado estado civil (ver línea v j).

Dónde r– el número de filas igual al número de niveles de la variable “Ocupación”.

La frecuencia teórica para cada celda E ij (del inglés Expected, es decir, frecuencia esperada) en el caso de independencia de variables se calcula mediante la fórmula:
E ij =n* u i * v j

Se sabe que la estadística X 2 0 para n grande tiene aproximadamente (r-1)(c-1) grados de libertad (df – grados de libertad):

Si se calcula en base a muestras el valor de esta estadística es "demasiado grande" (mayor que el umbral), entonces hipótesis nula rechazado. El valor umbral se calcula en función de, por ejemplo, utilizando la fórmula =HI2.OBR.PH(0,05; df).

Nota: Nivel significativo generalmente se toma igual a 0,1; 0,05; 0,01.

En evaluación de la hipótesis también es conveniente calcular , que comparamos con nivel de significancia. pag-significado calculado usando (r-1)*(c-1)=gl grados de libertad.

Si la probabilidad de que una variable aleatoria tenga c (r-1)(c-1) grados de libertad tomará un valor mayor que las estadísticas calculadas X 2 0, es decir P(Х 2 (r-1)*(c-1) >Х 2 0 ), menos Nivel significativo, Eso hipótesis nula rechazado.

En MS EXCEL valor p se puede calcular usando la fórmula =HI2.DIST.PH(X 2 0 ;df), por supuesto, habiendo calculado el valor de las estadísticas X 2 0 inmediatamente antes de esto (esto se hace en el archivo de ejemplo). Sin embargo, lo más conveniente es utilizar la función CH2.TEST(). Como argumentos para esta función, se especifican referencias a rangos que contienen frecuencias reales (Observadas) y teóricas calculadas (Esperadas).

Si Nivel significativo > pag-valores, entonces esto significa las frecuencias reales y teóricas calculadas a partir del supuesto de equidad hipótesis nula, son seriamente diferentes. Es por eso, hipótesis nula debe ser rechazado.

El uso de la función CH2.TEST() le permite acelerar el procedimiento evaluación de la hipótesis, porque no es necesario calcular el valor Estadísticas. Ahora basta con comparar el resultado de la función CH2.TEST() con el dado nivel de significancia.

Nota: La función CHISQ.TEST(), nombre en inglés CHISQ.TEST, apareció en MS EXCEL 2010. Su versión anterior CHISQEST(), disponible en MS EXCEL 2007, tiene la misma funcionalidad. Pero, en cuanto a CH2.TEST(), debes calcular las frecuencias teóricas tú mismo.

El uso de este criterio se basa en el uso de dicha medida (estadística) de la discrepancia entre los valores teóricos. F(X) y distribución empírica F* PAG (X) , que obedece aproximadamente a la ley de distribución χ 2 . Hipótesis norte 0 La coherencia de las distribuciones se comprueba analizando la distribución de estas estadísticas. La aplicación del criterio requiere la construcción de una serie estadística.

Entonces, dejemos que la muestra se presente estadísticamente junto al número de dígitos. METRO. Tasa de aciertos observada i- décimo rango norte i. De acuerdo con la ley de distribución teórica, la frecuencia esperada de aciertos en i-ésima categoría es F i. La diferencia entre la frecuencia observada y esperada será ( norte iF i). Para encontrar el grado general de discrepancia entre F(X) Y F* PAG (X) es necesario calcular la suma ponderada de las diferencias al cuadrado en todos los dígitos de la serie estadística

Valor χ 2 con aumento ilimitado norte tiene una distribución χ 2 (distribuida asintóticamente como χ 2). Esta distribución depende del número de grados de libertad. k, es decir. el número de valores independientes de los términos en la expresión (3.7). El número de grados de libertad es igual al número y menos el número de relaciones lineales impuestas a la muestra. Una conexión existe debido al hecho de que cualquier frecuencia se puede calcular a partir de la totalidad de las frecuencias en el resto. METRO–1 dígitos. Además, si los parámetros de distribución no se conocen de antemano, existe otra limitación debido al ajuste de la distribución a la muestra. Si la muestra determina S parámetros de distribución, entonces el número de grados de libertad será k= METROS–1.

Área de aceptación de hipótesis norte 0 está determinada por la condición χ 2 < χ 2 (k; a) , donde χ 2 (k; a) – punto crítico de la distribución χ2 con nivel de significancia a. La probabilidad de cometer un error tipo I es a, la probabilidad de un error tipo II no se puede definir claramente, porque hay un número infinitamente grande de formas diferentes en las que las distribuciones pueden no coincidir. El poder de la prueba depende del número de dígitos y del tamaño de la muestra. Se recomienda aplicar el criterio cuando norte>200, se permite su uso cuando norte>40, es en tales condiciones que el criterio es válido (por regla general, rechaza la hipótesis nula incorrecta).

Algoritmo de verificación por criterio.

1. Construya un histograma usando un método de igual probabilidad.

2. Basándose en la apariencia del histograma, plantee una hipótesis.

h 0: F(X) = F 0 (X),

h 1: F(X) ¹ F 0 (X),

Dónde F 0 (X) - densidad de probabilidad de una ley de distribución hipotética (por ejemplo, uniforme, exponencial, normal).

Comentario. La hipótesis sobre la ley de distribución exponencial se puede plantear si todos los números de la muestra son positivos.

3. Calcule el valor del criterio usando la fórmula.

,

Dónde
tasa de aciertos i-ésimo intervalo;

pag i- probabilidad teórica de que una variable aleatoria caiga en i- ésimo intervalo siempre que la hipótesis h 0 es correcto.

Fórmulas para el cálculo. pag i en el caso de las leyes exponencial, uniforme y normal, son respectivamente iguales.

ley exponencial

. (3.8)

Donde A 1 = 0, B metro = +¥.

Ley uniforme

Ley Normal

. (3.10)

Donde A 1 = -¥, BM = +¥.

Notas. Después de calcular todas las probabilidades. pag i comprobar si la relación de referencia se cumple

Función Ф( X) - extraño. Ф(+¥) = 1.

4. De la tabla Chi-cuadrado en el Apéndice, seleccione el valor
, donde a es el nivel de significancia especificado (a = 0,05 o a = 0,01), y k- el número de grados de libertad, determinado por la fórmula

k = METRO - 1 - S.

Aquí S- el número de parámetros de los que depende la hipótesis elegida h 0 ley de distribución. Valores S para la ley uniforme es 2, para la ley exponencial es 1, para la ley normal es 2.

5. Si
, entonces la hipótesis h 0 es rechazado. De lo contrario, no hay razón para rechazarlo: con probabilidad 1 - b es verdadero, y con probabilidad - b es incorrecto, pero se desconoce el valor de b.

Ejemplo3 . 1. Utilizando el criterio c 2, plantee y pruebe una hipótesis sobre la ley de distribución de una variable aleatoria. X, cuyas series de variación, tablas de intervalos e histogramas de distribución se dan en el ejemplo 1.2. El nivel de significancia a es 0,05.

Solución . Basándonos en la aparición de histogramas, planteamos la hipótesis de que la variable aleatoria X distribuido según la ley normal:

h 0: F(X) = norte(metro, s);

h 1: F(X) ¹ norte(metro, s).

El valor del criterio se calcula mediante la fórmula:

(3.11)

Como se señaló anteriormente, al probar una hipótesis, es preferible utilizar un histograma de igual probabilidad. En este caso

Probabilidades teóricas pag i Calculamos usando la fórmula (3.10). Al mismo tiempo, creemos que

pag 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

pag 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

pag 3 = 0,094; pag 4 = 0,135; pag 5 = 0,118; pag 6 = 0,097; pag 7 = 0,073; pag 8 = 0,059; pag 9 = 0,174;

pag 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Posteriormente comprobamos el cumplimiento del ratio de control.

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Después de esto, seleccione el valor crítico de la tabla "Chi-cuadrado"

.

Porque
entonces la hipótesis h Se acepta 0 (no hay motivo para rechazarlo).

La prueba de chi-cuadrado es un método universal para comprobar la concordancia entre los resultados de un experimento y el modelo estadístico utilizado.

Distancia de Pearson X 2

Piatnitsky A.M.

Universidad Médica Estatal de Rusia

En 1900, Karl Pearson propuso una forma sencilla, universal y eficaz de probar la concordancia entre las predicciones de los modelos y los datos experimentales. La “prueba de chi-cuadrado” que propuso es la prueba estadística más importante y más utilizada. La mayoría de los problemas asociados con la estimación de parámetros desconocidos del modelo y la verificación de la concordancia entre el modelo y los datos experimentales se pueden resolver con su ayuda.

Sea un modelo a priori (“preexperimental”) del objeto o proceso en estudio (en estadística se habla de la “hipótesis nula” H 0), y los resultados de un experimento con este objeto. ¿Es necesario decidir si el modelo es adecuado (se corresponde con la realidad)? ¿Los resultados experimentales contradicen nuestras ideas sobre cómo funciona la realidad o, en otras palabras, debería rechazarse H0? A menudo, esta tarea se puede reducir a comparar las frecuencias promedio observadas (O i = Observado) y esperadas según el modelo (E i = Esperado) de ocurrencia de ciertos eventos. Se cree que las frecuencias observadas se obtuvieron en una serie de N observaciones independientes (!) realizadas en condiciones constantes (!). Como resultado de cada observación, se registra uno de M eventos. Estos eventos no pueden ocurrir simultáneamente (son incompatibles en pares) y uno de ellos necesariamente ocurre (su combinación forma un evento confiable). La totalidad de todas las observaciones se reduce a una tabla (vector) de frecuencias (O i )=(O 1 ,… O M ), que describe completamente los resultados del experimento. El valor O 2 =4 significa que el evento número 2 ocurrió 4 veces. Suma de frecuencias O 1 +… O M =N. Es importante distinguir entre dos casos: N – fijo, no aleatorio, N – variable aleatoria. Para un número total fijo de experimentos N, las frecuencias tienen una distribución polinómica. Ilustremos este esquema general con un ejemplo sencillo.

Usar la prueba de chi-cuadrado para probar hipótesis simples.

Sea el modelo (hipótesis nula H 0) que el dado es justo: todas las caras aparecen con la misma frecuencia con probabilidad p i =1/6, i =, M=6. Se realizó un experimento en el que se lanzó el dado 60 veces (se realizaron N = 60 ensayos independientes). Según el modelo, esperamos que todas las frecuencias observadas O i de ocurrencia 1,2,... 6 puntos estén cerca de sus valores promedio E i =Np i =60∙(1/6)=10. Según H 0, el vector de frecuencias medias (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Las hipótesis en las que las frecuencias promedio se conocen completamente antes del inicio del experimento se llaman simples). Si el vector observado (O i ) fuera igual a (34,0,0,0,0,26), entonces es inmediatamente claro que el modelo es incorrecto: el hueso no puede ser correcto, ya que solo se lanzaron 60 veces 1 y 6. La probabilidad de que ocurra tal evento para un dado correcto es insignificante: P = (2/6) 60 =2.4*10 -29. Sin embargo, la aparición de discrepancias tan obvias entre el modelo y la experiencia es una excepción. Sea el vector de frecuencias observadas (O i ) igual a (5, 15, 6, 14, 4, 16). ¿Es esto consistente con H0? Entonces, necesitamos comparar dos vectores de frecuencia (E i) y (O i). En este caso, el vector de frecuencias esperadas (Ei) no es aleatorio, pero el vector de frecuencias observadas (Oi) sí lo es; durante el próximo experimento (en una nueva serie de 60 lanzamientos) resultará ser diferente. Es útil introducir una interpretación geométrica del problema y suponer que en el espacio de frecuencias (en este caso de 6 dimensiones) se dan dos puntos con coordenadas (5, 15, 6, 14, 4, 16) y (10, 10, 10, 10, 10, 10). ¿Están lo suficientemente separados como para considerar esto incompatible con H 0 ? En otras palabras, necesitamos:

  1. aprender a medir distancias entre frecuencias (puntos en el espacio de frecuencias),
  2. tener un criterio sobre qué distancia debe considerarse demasiado (“inverosímil”) grande, es decir, inconsistente con H 0 .

El cuadrado de la distancia euclidiana ordinaria sería igual a:

X 2 Euclides = S(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

En este caso, las superficies X 2 Euclides = const siempre son esferas si fijamos los valores de E i y cambiamos O i . Karl Pearson señaló que no debería utilizarse el uso de la distancia euclidiana en el espacio de frecuencias. Por tanto, es incorrecto suponer que los puntos (O = 1030 y E = 1000) y (O = 40 y E = 10) están a distancias iguales entre sí, aunque en ambos casos la diferencia es O -E = 30. Después de todo, cuanto mayor sea la frecuencia esperada, mayores desviaciones deben considerarse posibles. Por lo tanto, los puntos (O =1030 y E =1000) deben considerarse “cercanos” y los puntos (O =40 y E =10) “lejos” entre sí. Se puede demostrar que si la hipótesis H 0 es cierta, entonces las fluctuaciones de frecuencia O i en relación con E i son del orden de la raíz cuadrada (!) de E i. Por tanto, Pearson propuso, al calcular la distancia, elevar al cuadrado no las diferencias (O i -E i), sino las diferencias normalizadas (O i -E i)/E i 1/2. Aquí está la fórmula para calcular la distancia de Pearson (en realidad es el cuadrado de la distancia):

X 2 Pearson = S((O yo -E yo )/E yo 1/2) 2 = S(O yo -E yo ) 2 /E yo

En nuestro ejemplo:

X 2 Pearson = (5-10) 2/10+(15-10) 2/10 +(6-10) 2/10+(14-10) 2/10+(4-10) 2/10+( 16-10) 2/10=15,4

Para un dado normal, todas las frecuencias esperadas E i son iguales, pero normalmente son diferentes, de modo que las superficies en las que la distancia de Pearson es constante (X 2 Pearson =const) resultan ser elipsoides, no esferas.

Ahora que se ha elegido la fórmula para calcular las distancias, es necesario averiguar qué distancias deben considerarse “no demasiado grandes” (consistentes con H 0). Entonces, ¿qué podemos decir sobre la distancia que calculamos 15,4? ? ¿En qué porcentaje de casos (o con qué probabilidad) obtendríamos una distancia mayor que 15,4 al realizar experimentos con un dado normal? Si este porcentaje es pequeño (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Explicación. El número de mediciones O i que caen en la celda de la tabla con el número i tiene una distribución binomial con los parámetros: m =Np i =E i,σ =(Np i (1-p i)) 1/2, donde N es el número de mediciones (N " 1), p i es la probabilidad de que una medición caiga en una celda determinada (recuerde que las mediciones son independientes y se llevan a cabo en condiciones constantes). Si p i es pequeño, entonces: σ≈(Np i ) 1/2 =E i y la distribución binomial es cercana a Poisson, en la que el número promedio de observaciones E i =λ, y la desviación estándar σ=λ 1/2 = E yo 1/ 2. Para λ≥5, la distribución de Poisson está cerca de la normal N (m =E i =λ, σ=E i 1/2 =λ 1/2), y el valor normalizado (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearson definió la variable aleatoria χ 2 n – “chi-cuadrado con n grados de libertad”, como la suma de los cuadrados de n variables aleatorias normales estándar independientes:

χ 2 norte = T 1 2 + T 2 2 + …+ T norte 2 , donde está todo el mundo Ti = norte(0,1) - norte. o. r. Con. v.

Intentemos comprender claramente el significado de esta variable aleatoria más importante en estadística. Para ello, en el plano (con n = 2) o en el espacio (con n = 3) presentamos una nube de puntos cuyas coordenadas son independientes y tienen una distribución normal estándarf T (x) ~exp (-x 2 /2 ). En un plano, según la regla “dos sigma”, que se aplica independientemente a ambas coordenadas, el 90% (0,95*0,95≈0,90) de los puntos están contenidos dentro de un cuadrado (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Con un número suficientemente grande de grados de libertad n (n > 30), la distribución chi-cuadrado se acerca a la normal: N (m = n; σ = (2n) ½). Esto es una consecuencia del “teorema del límite central”: la suma de cantidades distribuidas idénticamente con varianza finita se acerca a la ley normal a medida que aumenta el número de términos.

En la práctica, es necesario recordar que el cuadrado promedio de la distancia es igual a m (χ 2 n) = n, y su varianza es σ 2 (χ 2 n) = 2n. A partir de aquí es fácil concluir qué valores de chi-cuadrado deben considerarse demasiado pequeños y demasiado grandes: la mayor parte de la distribución se encuentra en el rango de n -2∙(2n) ½ a n +2∙(2n) ½.

Por lo tanto, las distancias de Pearson que exceden significativamente n +2∙ (2n) ½ deben considerarse inverosímilmente grandes (inconsistentes con H 0). Si el resultado es cercano a n +2∙(2n) ½, entonces conviene utilizar tablas en las que pueda averiguar exactamente en qué proporción de casos pueden aparecer valores de chi-cuadrado tan grandes y tan grandes.

Es importante saber elegir el valor correcto para el número de grados de libertad (abreviado n.d.f.). Parecía natural suponer que n era simplemente igual al número de dígitos: n =M. En su artículo, Pearson así lo sugirió. En el ejemplo de los dados, esto significaría que n =6. Sin embargo, varios años después se demostró que Pearson estaba equivocado. El número de grados de libertad es siempre menor que el número de dígitos si existen conexiones entre las variables aleatorias O i. Para el ejemplo de los dados, la suma O i es 60 y solo se pueden cambiar 5 frecuencias de forma independiente, por lo que el valor correcto es n = 6-1 = 5. Para este valor de n obtenemos n +2∙(2n) ½ =5+2∙(10) ½ =11.3. Dado que 15.4>11.3, entonces la hipótesis H 0 - el dado es correcto, debe rechazarse.

Después de aclarar el error, hubo que complementar las tablas χ 2 existentes, ya que inicialmente no tenían el caso n = 1, ya que el número más pequeño de dígitos = 2. Ahora resulta que puede haber casos en los que la distancia de Pearson tenga la distribución χ 2 n =1.

Ejemplo. Con 100 lanzamientos de moneda, el número de caras es O 1 = 65 y cruces O 2 = 35. El número de dígitos es M = 2. Si la moneda es simétrica, entonces las frecuencias esperadas son E 1 =50, E 2 =50.

X 2 Pearson = S(O yo -E yo) 2 /E yo = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

El valor resultante debe compararse con los que puede tomar la variable aleatoria χ 2 n =1, definida como el cuadrado del valor normal estándar χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 o T 1 ≤-3. La probabilidad de tal evento es muy baja P (χ 2 n =1 ≥9) = 0,006. Por tanto, la moneda no puede considerarse simétrica: H 0 debe rechazarse. El hecho de que el número de grados de libertad no puede ser igual al número de dígitos se desprende del hecho de que la suma de las frecuencias observadas es siempre igual a la suma de las esperadas, por ejemplo O 1 +O 2 =65+ 35 = mi 1 + mi 2 =50+50=100. Por tanto, puntos aleatorios con coordenadas O 1 y O 2 se ubican en línea recta: O 1 +O 2 =E 1 +E 2 =100 y la distancia al centro resulta ser menor que si esta restricción no existiera y estaban ubicados en todo el avión. De hecho, para dos variables aleatorias independientes con expectativas matemáticas E 1 =50, E 2 =50, la suma de sus realizaciones no siempre debería ser igual a 100; por ejemplo, los valores O 1 =60, O 2 =55 serían estar bien visto.

Explicación. Comparemos el resultado del criterio de Pearson en M = 2 con lo que da la fórmula de Moivre-Laplace al estimar fluctuaciones aleatorias en la frecuencia de ocurrencia de un evento ν =K /N que tiene una probabilidad p en una serie de N pruebas independientes de Bernoulli ( K es el número de éxitos):

χ 2 norte =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Valor T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) con σ(K)=(Npq) ½ ≥3. Vemos que en este caso el resultado de Pearson coincide exactamente con lo que da la aproximación normal para la distribución binomial.

Hasta ahora hemos considerado hipótesis simples para las cuales las frecuencias promedio esperadas E i se conocen completamente de antemano. Para obtener información sobre cómo elegir el número correcto de grados de libertad para hipótesis complejas, consulte a continuación.

Uso de la prueba de chi-cuadrado para probar hipótesis complejas

En los ejemplos con un dado y una moneda normales, las frecuencias esperadas se podrían determinar antes (!) del experimento. Estas hipótesis se denominan "simples". En la práctica, las “hipótesis complejas” son más comunes. Además, para encontrar las frecuencias esperadas E i es necesario estimar primero una o varias cantidades (parámetros del modelo), y esto sólo puede hacerse utilizando datos experimentales. Como resultado, para “hipótesis complejas” las frecuencias esperadas E i resultan depender de las frecuencias observadas O i y, por lo tanto, se convierten en variables aleatorias, que varían según los resultados del experimento. En el proceso de selección de parámetros, la distancia de Pearson disminuye; los parámetros se seleccionan para mejorar la concordancia entre el modelo y el experimento. Por tanto, el número de grados de libertad debería disminuir.

¿Cómo estimar los parámetros del modelo? Existen muchos métodos de estimación diferentes: "método de máxima verosimilitud", "método de momentos", "método de sustitución". Sin embargo, no puede utilizar fondos adicionales y encontrar estimaciones de parámetros minimizando la distancia de Pearson. En la era anterior a la informática, este enfoque rara vez se utilizaba: resulta inconveniente para los cálculos manuales y, por regla general, no se puede resolver analíticamente. Cuando se calcula en una computadora, la minimización numérica suele ser fácil de realizar y la ventaja de este método es su versatilidad. Entonces, de acuerdo con el "método de minimización de chi-cuadrado", seleccionamos los valores de los parámetros desconocidos para que la distancia de Pearson sea la más pequeña. (Por cierto, al estudiar los cambios en esta distancia con pequeños desplazamientos en relación con el mínimo encontrado, se puede estimar la medida de precisión de la estimación: construya intervalos de confianza). Una vez que se hayan encontrado los parámetros y esta distancia mínima en sí, es Nuevamente es necesario responder a la pregunta de si es lo suficientemente pequeño.

La secuencia general de acciones es la siguiente:

  1. Selección de modelo (hipótesis H 0).
  2. Selección de bits y determinación del vector de frecuencias observadas O i .
  3. Estimación de parámetros desconocidos del modelo y construcción de intervalos de confianza para ellos (por ejemplo, buscando la distancia mínima de Pearson).
  4. Cálculo de frecuencias esperadas E i .
  5. Comparación del valor encontrado de la distancia de Pearson X 2 con el valor crítico de chi-cuadrado χ 2 crit, el más grande, que todavía se considera plausible, compatible con H 0. Encontramos el valor χ 2 crit de las tablas resolviendo la ecuación

P (χ 2 n > χ 2 crítico)=1-α,

donde α es el “nivel de significancia” o “tamaño del criterio” o “magnitud del error de primer tipo” (valor típico α = 0,05).

Por lo general, el número de grados de libertad n se calcula mediante la fórmula

n = (número de dígitos) – 1 – (número de parámetros a estimar)

Si X 2 > χ 2 crit, entonces se rechaza la hipótesis H 0, en caso contrario se acepta. En α∙100% de los casos (es decir, muy raramente), este método de comprobar H 0 conducirá a un “error del primer tipo”: la hipótesis H 0 será rechazada erróneamente.

Ejemplo. Al estudiar 10 series de 100 semillas, se contó el número de las infectadas por la mosca de ojos verdes. Datos recibidos: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Aquí el vector de frecuencias esperadas se desconoce de antemano. Si los datos son homogéneos y se obtienen para una distribución binomial, entonces se desconoce un parámetro: la proporción p de semillas infectadas. Tenga en cuenta que en la tabla original en realidad no hay 10 sino 20 frecuencias que satisfacen 10 conexiones: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Combinando términos por pares (como en el ejemplo de una moneda), obtenemos la forma de escribir el criterio de Pearson, que suele escribirse inmediatamente:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Ahora bien, si se utiliza la distancia mínima de Pearson como método para estimar p, entonces es necesario encontrar un p para el cual X 2 = min. (El modelo intenta, si es posible, “ajustarse” a los datos experimentales).

El criterio de Pearson es el más universal de todos los utilizados en estadística. Se puede aplicar a datos univariados y multivariados, características cuantitativas y cualitativas. Sin embargo, precisamente por su versatilidad, hay que tener cuidado de no cometer errores.

Puntos importantes

1.Selección de categorías.

  • Si la distribución es discreta, normalmente no hay arbitrariedad en la elección de los dígitos.
  • Si la distribución es continua, entonces la arbitrariedad es inevitable. Se pueden utilizar bloques estadísticamente equivalentes (todos O son iguales, por ejemplo =10). Sin embargo, la duración de los intervalos es diferente. Al hacer cálculos manuales, intentaron que los intervalos fueran iguales. ¿Deberían ser iguales los intervalos al estudiar la distribución de un rasgo univariado? No.
  • Los dígitos deben combinarse de tal manera que las frecuencias esperadas (¡no observadas!) no sean demasiado pequeñas (≥5). ¡Recordemos que son ellos (E i) los que están en los denominadores al calcular X 2! Al analizar características unidimensionales, se permite violar esta regla en los dos dígitos extremos E 1 =E max =1. Si el número de dígitos es grande y las frecuencias esperadas son cercanas, entonces X 2 es una buena aproximación de χ 2 incluso para E i =2.

Estimación de parámetros. El uso de métodos de estimación “caseros” e ineficaces puede llevar a valores inflados de la distancia de Pearson.

Elegir el número correcto de grados de libertad. Si las estimaciones de los parámetros no se hacen a partir de frecuencias, sino directamente a partir de los datos (por ejemplo, la media aritmética se toma como una estimación de la media), entonces se desconoce el número exacto de grados de libertad n. Sólo sabemos que satisface la desigualdad:

(número de dígitos – 1 – número de parámetros que se están evaluando)< n < (число разрядов – 1)

Por tanto, es necesario comparar X 2 con los valores críticos de χ 2 crit calculados en todo este rango de n.

¿Cómo interpretar valores de chi-cuadrado inverosímilmente pequeños?¿Debería considerarse simétrica una moneda si, después de 10.000 lanzamientos, cae 5.000 veces sobre el escudo de armas? Anteriormente, muchos estadísticos creían que H 0 también debería rechazarse. Ahora se propone otro enfoque: aceptar H 0, pero someter los datos y la metodología para su análisis a una verificación adicional. Hay dos posibilidades: o una distancia de Pearson demasiado pequeña significa que el aumento en el número de parámetros del modelo no estuvo acompañado por una disminución adecuada en el número de grados de libertad, o los datos en sí fueron falsificados (quizás ajustados involuntariamente al resultado esperado).

Ejemplo. Dos investigadores A y B calcularon la proporción de homocigotos recesivos aa en la segunda generación de un cruce monohíbrido AA * aa. Según las leyes de Mendel, esta fracción es 0,25. Cada investigador realizó 5 experimentos y en cada experimento se estudiaron 100 organismos.

Resultados A: 25, 24, 26, 25, 24. Conclusión del investigador: la ley de Mendel es verdadera(?).

Resultados B: 29, 21, 23, 30, 19. Conclusión del investigador: la ley de Mendel no es justa (?).

Sin embargo, la ley de Mendel es de naturaleza estadística y el análisis cuantitativo de los resultados revierte las conclusiones. Combinando cinco experimentos en uno, llegamos a una distribución chi-cuadrado con 5 grados de libertad (se prueba una hipótesis simple):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Valor promedio m [χ 2 n =5 ]=5, desviación estándar σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Por lo tanto, sin referencia a las tablas, está claro que el valor de X 2 B es típico y el valor de X 2 A es inverosímilmente pequeño. Según tablas P (χ 2 n =5<0.16)<0.0001.

Este ejemplo es una adaptación de un caso real ocurrido en la década de 1930 (ver la obra de Kolmogorov “Sobre otra prueba de las leyes de Mendel”). Curiosamente, el investigador A era partidario de la genética, mientras que el investigador B estaba en contra.

Confusión en la notación. Es necesario distinguir la distancia de Pearson, que requiere convenciones adicionales en su cálculo, del concepto matemático de variable aleatoria chi-cuadrado. La distancia de Pearson bajo ciertas condiciones tiene una distribución cercana a chi-cuadrado con n grados de libertad. Por lo tanto, es aconsejable NO denotar la distancia de Pearson con el símbolo χ 2 n, sino utilizar una notación similar pero diferente X 2. .

El criterio de Pearson no es omnipotente. Hay un número infinito de alternativas para H 0 que no puede tener en cuenta. Supongamos que está probando la hipótesis de que la característica tenía una distribución uniforme, tiene 10 dígitos y el vector de frecuencias observadas es igual a (130,125,121,118,116,115,114,113,111,110). El criterio de Pearson no puede “observar” que las frecuencias están disminuyendo monótonamente y H 0 no será rechazada. Si se complementara con un criterio de serie, ¡entonces sí!

23. Concepto de chi-cuadrado y distribución de Student, y vista gráfica

1) Una distribución (chi-cuadrado) con n grados de libertad es la distribución de la suma de cuadrados de n variables aleatorias normales estándar independientes.

Distribución (chi-cuadrado)– distribución de una variable aleatoria (y la expectativa matemática de cada una de ellas es 0 y la desviación estándar es 1)

donde estan las variables aleatorias independientes y tienen la misma distribución. En este caso, el número de términos, es decir, se denomina "número de grados de libertad" de la distribución chi-cuadrado. El número de chi-cuadrado está determinado por un parámetro, el número de grados de libertad. A medida que aumenta el número de grados de libertad, la distribución se acerca lentamente a la normalidad.

Entonces la suma de sus cuadrados

es una variable aleatoria distribuida según la llamada ley de chi-cuadrado con k = n grados de libertad; si los términos están relacionados por alguna relación (por ejemplo, ), entonces el número de grados de libertad k = n – 1.

La densidad de esta distribución.

Aquí - función gamma; en particular, Г(n + 1) = n! .

Por lo tanto, la distribución chi-cuadrado está determinada por un parámetro: el número de grados de libertad k.

Observación 1. A medida que aumenta el número de grados de libertad, la distribución chi-cuadrado se acerca gradualmente a la normalidad.

Observación 2. Utilizando la distribución chi-cuadrado, se determinan muchas otras distribuciones que se encuentran en la práctica, por ejemplo, la distribución de una variable aleatoria: la longitud de un vector aleatorio (X1, X2,..., Xn), las coordenadas de que son independientes y están distribuidas según la ley normal.

La distribución χ2 fue considerada por primera vez por R. Helmert (1876) y K. Pearson (1900).

Matemáticas.esperanza.=n; D=2norte

2) Distribución de estudiantes

Considere dos variables aleatorias independientes: Z, que tiene una distribución normal y está normalizada (es decir, M(Z) = 0, σ(Z) = 1), y V, que se distribuye según la ley de chi-cuadrado con k grados de libertad. Entonces el valor

tiene una distribución llamada distribución t o distribución de Student con k grados de libertad. En este caso, k se denomina “número de grados de libertad” de la distribución de Student.

A medida que aumenta el número de grados de libertad, la distribución de Student rápidamente se acerca a la normal.

Esta distribución fue introducida en 1908 por el estadístico inglés W. Gosset, que trabajaba en una fábrica de cerveza. En esta fábrica se utilizaban métodos probabilísticos y estadísticos para tomar decisiones económicas y técnicas, por lo que su dirección prohibió a V. Gosset publicar artículos científicos bajo su propio nombre. De esta manera se protegieron los secretos comerciales y el "know-how" en forma de métodos probabilísticos y estadísticos desarrollados por V. Gosset. Sin embargo, tuvo la oportunidad de publicar bajo el seudónimo de "Estudiante". La historia de Gosset-Student muestra que incluso hace cien años, los directivos del Reino Unido eran conscientes de la mayor eficiencia económica de los métodos probabilísticos y estadísticos de toma de decisiones.



¿Te gustó el artículo? ¡Compartir con tus amigos!