Fórmula de probabilidad total: teoría y ejemplos de resolución de problemas. Determinación de la probabilidad del evento y distribución estadística.

El uso de este criterio se basa en el uso de dicha medida (estadística) de la discrepancia entre los valores teóricos. F(X) y distribución empírica F* PAG (X) , que obedece aproximadamente a la ley de distribución χ 2 . Hipótesis norte 0 La coherencia de las distribuciones se comprueba analizando la distribución de estas estadísticas. La aplicación del criterio requiere la construcción de una serie estadística.

Entonces, dejemos que la muestra se presente estadísticamente junto al número de dígitos. METRO. Tasa de aciertos observada i- décimo rango norte i. De acuerdo con la ley de distribución teórica, la frecuencia esperada de aciertos en i-ésima categoría es F i. La diferencia entre la frecuencia observada y esperada será ( norte iF i). Encontrar grado general discrepancias entre F(X) Y F* PAG (X) es necesario calcular la suma ponderada de las diferencias al cuadrado en todos los dígitos de la serie estadística

Valor χ 2 con aumento ilimitado norte tiene una distribución χ 2 (distribuida asintóticamente como χ 2). Esta distribución depende del número de grados de libertad. k, es decir. el número de valores independientes de los términos en la expresión (3.7). El número de grados de libertad es igual al número y número negativo conexiones lineales, superpuesto a la muestra. Una conexión existe debido al hecho de que cualquier frecuencia se puede calcular a partir de la totalidad de las frecuencias en el resto. METRO–1 dígitos. Además, si los parámetros de distribución no se conocen de antemano, existe otra limitación debido al ajuste de la distribución a la muestra. Si la muestra determina S parámetros de distribución, entonces el número de grados de libertad será k= METROS–1.

Área de aceptación de hipótesis norte 0 está determinada por la condición χ 2 < χ 2 (k; a) , donde χ 2 (k; a) – punto crítico de la distribución χ2 con nivel de significancia a. La probabilidad de cometer un error tipo I es a, la probabilidad de un error tipo II no se puede definir claramente, porque hay un número infinitamente grande de formas diferentes en las que las distribuciones pueden no coincidir. La potencia de la prueba depende del número de dígitos y del tamaño de la muestra. Se recomienda aplicar el criterio cuando norte>200, se permite su uso cuando norte>40, es en tales condiciones que el criterio es válido (por regla general, rechaza la hipótesis nula incorrecta).

Algoritmo de verificación por criterio.

1. Construya un histograma usando un método de igual probabilidad.

2. Basándose en la apariencia del histograma, plantee una hipótesis.

h 0: F(X) = F 0 (X),

h 1: F(X) ¹ F 0 (X),

Dónde F 0 (X) - densidad de probabilidad de una ley de distribución hipotética (por ejemplo, uniforme, exponencial, normal).

Comentario. La hipótesis sobre la ley de distribución exponencial se puede plantear si todos los números de la muestra son positivos.

3. Calcule el valor del criterio usando la fórmula.

,

Dónde
tasa de aciertos i-ésimo intervalo;

pag i- probabilidad teórica de que una variable aleatoria caiga en i- ésimo intervalo siempre que la hipótesis h 0 es correcto.

Fórmulas para el cálculo. pag i en el caso de exponencial, uniforme y leyes normales respectivamente iguales.

ley exponencial

. (3.8)

Donde A 1 = 0, B metro = +¥.

Ley uniforme

Ley Normal

. (3.10)

Donde A 1 = -¥, BM = +¥.

Notas. Después de calcular todas las probabilidades. pag i comprobar si la relación de referencia se cumple

Función Ф( X) - extraño. Ф(+¥) = 1.

4. De la tabla Chi-cuadrado en el Apéndice, seleccione el valor
, donde a es el nivel de significancia especificado (a = 0,05 o a = 0,01), y k- el número de grados de libertad, determinado por la fórmula

k = METRO - 1 - S.

Aquí S- el número de parámetros de los que depende la hipótesis elegida h 0 ley de distribución. Valores S Para ley uniforme es igual a 2, para exponencial - 1, para normal - 2.

5. Si
, entonces la hipótesis h 0 es rechazado. De lo contrario, no hay razón para rechazarlo: con probabilidad 1 - b es verdadero, y con probabilidad - b es incorrecto, pero se desconoce el valor de b.

Ejemplo3 . 1. Utilizando el criterio c 2, plantee y pruebe una hipótesis sobre la ley de distribución de una variable aleatoria. X, cuyas series de variación, tablas de intervalos e histogramas de distribución se dan en el ejemplo 1.2. El nivel de significancia a es 0,05.

Solución . Basándonos en la apariencia de los histogramas, planteamos la hipótesis de que valor aleatorio X distribuido según la ley normal:

h 0: F(X) = norte(metro, s);

h 1: F(X) ¹ norte(metro, s).

El valor del criterio se calcula mediante la fórmula:

(3.11)

Como se señaló anteriormente, al probar una hipótesis, es preferible utilizar un histograma de igual probabilidad. En este caso

Probabilidades teóricas pag i Calculamos usando la fórmula (3.10). Al mismo tiempo, creemos que

pag 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

pag 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

pag 3 = 0,094; pag 4 = 0,135; pag 5 = 0,118; pag 6 = 0,097; pag 7 = 0,073; pag 8 = 0,059; pag 9 = 0,174;

pag 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Posteriormente comprobamos el cumplimiento del ratio de control.

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Después de esto, de la tabla “Chi-cuadrado” seleccionamos valor crítico

.

Porque
entonces la hipótesis h Se acepta 0 (no hay motivo para rechazarlo).

La prueba de χ 2 de Pearson es método no paramétrico, que le permite evaluar la importancia de las diferencias entre el número real (revelado como resultado del estudio) de resultados o características de calidad muestras que pertenecen a cada categoría y el número teórico que se esperaría en los grupos estudiados si la hipótesis nula fuera cierta. En pocas palabras, el método le permite estimar significancia estadística diferencias entre dos o más indicadores relativos(frecuencias, acciones).

1. Historia del desarrollo del criterio χ 2

La prueba de chi-cuadrado para analizar tablas de contingencia fue desarrollada y propuesta en 1900 por el matemático, estadístico, biólogo y filósofo inglés, fundador de estadística matemática y uno de los fundadores de la biometría Carlos Pearson(1857-1936).

2. ¿Por qué se utiliza la prueba χ 2 de Pearson?

La prueba de chi-cuadrado se puede utilizar en el análisis. tablas de contingencia que contiene información sobre la frecuencia de los resultados dependiendo de la presencia de un factor de riesgo. Por ejemplo, tabla de contingencia de cuatro campos como sigue:

Hay un resultado (1) Sin resultado (0) Total
Hay un factor de riesgo (1) A B A+B
Sin factor de riesgo (0) C D C+D
Total A+C B+D A+B+C+D

¿Cómo llenar tal tabla de contingencia? Veamos un pequeño ejemplo.

Se está realizando un estudio sobre el efecto del tabaquismo sobre el riesgo de desarrollar hipertensión arterial. Para ello se seleccionaron dos grupos de sujetos: en el primero estaban 70 personas que fumaban al menos 1 paquete de cigarrillos al día y en el segundo 80 no fumadores de la misma edad. En el primer grupo, 40 personas tenían presión arterial alta. En el segundo, se observó hipertensión arterial en 32 personas. En consecuencia, la presión arterial normal en el grupo de fumadores se encontraba en 30 personas (70 - 40 = 30) y en el grupo de no fumadores, en 48 (80 - 32 = 48).

Rellenamos la tabla de contingencia de cuatro campos con los datos iniciales:

En la tabla de contingencia resultante, cada línea corresponde a un grupo específico de sujetos. Columnas: muestran el número de personas con hipertensión arterial o normal. presión arterial.

La tarea que se plantea al investigador es: ¿existen diferencias estadísticamente significativas entre la frecuencia de personas con presión arterial entre fumadores y no fumadores? Esta pregunta se puede responder calculando la prueba chi-cuadrado de Pearson y comparando el valor resultante con el crítico.

3. Condiciones y limitaciones para utilizar la prueba chi-cuadrado de Pearson

  1. Los indicadores comparables deben medirse en escala nominal(por ejemplo, el sexo del paciente es masculino o femenino) o en ordinal(por ejemplo, el grado de hipertensión arterial, tomando valores de 0 a 3).
  2. Este método permite analizar no solo tablas de cuatro campos, cuando tanto el factor como el resultado son variables binarias, es decir, tienen solo dos valores posibles(por ejemplo, género masculino o femenino, presencia o ausencia de una determinada enfermedad en la anamnesis…). La prueba de chi-cuadrado de Pearson también se puede utilizar en el caso de analizar tablas de campos múltiples, cuando un factor y (o) resultado toma tres o más valores.
  3. Los grupos que se comparan deben ser independientes, es decir, no se debe utilizar la prueba de chi-cuadrado al comparar observaciones de antes y después. prueba de McNemar(al comparar dos poblaciones relacionadas) o calculado Prueba Q de Cochran(en caso de comparación de tres o más grupos).
  4. Al analizar tablas de cuatro campos Valores esperados en cada celda debe haber al menos 10. Si en al menos una celda el fenómeno esperado toma un valor de 5 a 9, se debe calcular la prueba de chi-cuadrado con la enmienda de Yates. Si en al menos una celda el fenómeno esperado es menor que 5, entonces el análisis debe utilizar Prueba exacta de Fisher.
  5. Al analizar tablas multicampo, el número esperado de observaciones no debe ser inferior a 5 en más del 20% de las celdas.

4. ¿Cómo calcular la prueba chi-cuadrado de Pearson?

Para calcular la prueba de chi-cuadrado necesitas:

Este algoritmo es aplicable tanto para tablas de cuatro campos como para tablas de varios campos.

5. ¿Cómo interpretar el valor de la prueba chi-cuadrado de Pearson?

Si el valor obtenido del criterio χ 2 es mayor que el valor crítico, concluimos que existe una relación estadística entre el factor de riesgo estudiado y el resultado en el nivel apropiado de significación.

6. Ejemplo de cálculo de la prueba chi-cuadrado de Pearson

Determinemos la significancia estadística de la influencia del factor tabaquismo en la incidencia de hipertensión arterial utilizando la tabla discutida anteriormente:

  1. Calculamos los valores esperados para cada celda:
  2. Encuentre el valor de la prueba chi-cuadrado de Pearson:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. El número de grados de libertad f = (2-1)*(2-1) = 1. Usando la tabla, encontramos el valor crítico de la prueba chi-cuadrado de Pearson, que en el nivel de significancia p=0,05 y el número de grados de libertad 1 es 3,841.
  4. Comparamos el valor obtenido de la prueba de chi-cuadrado con el crítico: 4,396 > 3,841, por lo que la dependencia de la incidencia de hipertensión arterial de la presencia de tabaquismo es estadísticamente significativa. El nivel de significancia de esta relación corresponde a p<0.05.

Esta publicación no responde cómo calcular el criterio de Chi cuadrado en principio, su propósito es mostrar cómo automatizar calculo de chi cuadrado en excel, qué funciones existen para calcular el criterio de Chi cuadrado. Porque no siempre tienes a mano el programa SPSS o R.
En cierto sentido, esto es un recordatorio y una pista para los participantes del seminario Analytics for HR. Espero que utilicen estos métodos en su trabajo, esta publicación será otra pista.
No proporciono el archivo con un enlace de descarga, pero puedes copiar fácilmente las tablas de ejemplo que te proporcioné y seguir los datos y fórmulas que te proporcioné.

Introductorio

Por ejemplo, queremos verificar la independencia (aleatoriedad / no aleatoriedad) de la distribución de los resultados de una encuesta corporativa, donde en las filas están las respuestas a cualquier pregunta del cuestionario y en las columnas está la distribución por longitud de servicio.

Vas a calcular Chi cuadrado a través de una tabla dinámica cuando tus datos se resumen en una tabla de conjugación, por ejemplo en este formulario.
Cuadro No. 1

menos de 1 año

Suma por líneas

Suma por columnas

Para calcular Chi cuadrado en Excel, existen las siguientes fórmulas

PRUEBA CHI2

La fórmula CH2.TEST calcula la probabilidad de independencia (aleatoriedad/no aleatoriedad) de la distribución

La sintaxis es así.

CHI2.TEST(intervalo_actual, intervalo_esperado)

En nuestro caso, el intervalo real es el contenido de la tabla, es decir

Aquellos. Habiendo recibido dos tablas, frecuencias empíricas y esperadas (o teóricas), en realidad nos liberamos del trabajo de obtener la diferencia, la elevación al cuadrado y otros cálculos, así como de verificar con la tabla de valores críticos.

En nuestro caso, CHI2.DIST.PH = 0.000466219908895455, como en el ejemplo con CHI2.TEST

Nota

Esta fórmula para calcular el Chi cuadrado en Excel te vendrá bien para calcular tablas de dimensiones 2X2, ya que tú mismo consideras el Chi cuadrado empírico y puedes introducir una corrección de continuidad en los cálculos.

Nota 2

También hay una fórmula CHI2.DIST (inevitablemente la verá en Excel): calcula la probabilidad del lado izquierdo (en términos simples, la probabilidad del lado izquierdo se considera 1, la del lado derecho, es decir, simplemente giramos La fórmula terminó, por eso no la doy en los cálculos Chi cuadrado, en nuestro ejemplo CHI2.DIST = 0,999533780091105.
Total DISTR.CH2 + DISTR.CH2.PH = 1.

CH2.OBR.PH

Devuelve el inverso de la probabilidad de cola derecha de una distribución chi-cuadrado (o simplemente el valor de chi-cuadrado para un nivel de probabilidad y un número de grados de libertad específicos)

Sinaxis

CH2.OBR.PH(probabilidad;grados_de_libertad)

Conclusión

Para ser honesto, no tengo información precisa sobre en qué medida los resultados obtenidos Cálculos de chi cuadrado en excel difieren de los resultados de Chi cuadrado en SPSS. Entiendo exactamente. que difieren, aunque sólo sea porque al calcular el Chi cuadrado de forma independiente, los valores se redondean y se pierde un cierto número de decimales. Pero no creo que esto sea crítico. Sólo recomiendo asegurarse en el caso de que la probabilidad de la distribución Chi cuadrado esté cerca del umbral (valor p) de 0,05.

No es muy bueno que no se tenga en cuenta la corrección de continuidad: calculamos mucho en tablas 2X2. Por lo tanto, casi no logramos optimización en el caso de calcular tablas 2X2.

Bueno, sin embargo, creo que el conocimiento anterior es suficiente para hacer el cálculo de Chi cuadrado en Excel un poco más rápido y así ahorrar tiempo en cosas más importantes.

Si el valor obtenido del criterio χ 2 es mayor que el valor crítico, concluimos que existe una relación estadística entre el factor de riesgo estudiado y el resultado en el nivel apropiado de significación.

Ejemplo de cálculo de la prueba chi-cuadrado de Pearson

Determinemos la significancia estadística de la influencia del factor tabaquismo en la incidencia de hipertensión arterial utilizando la tabla discutida anteriormente:

1. Calcule los valores esperados para cada celda:

2. Encuentre el valor de la prueba chi-cuadrado de Pearson:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Número de grados de libertad f = (2-1)*(2-1) = 1. Usando la tabla encontramos el valor crítico de la prueba chi-cuadrado de Pearson, que en el nivel de significancia p=0.05 y el El número de grados de libertad 1 es 3,841.

4. Comparamos el valor obtenido de la prueba de chi-cuadrado con el crítico: 4,396 > 3,841, por tanto, la dependencia de la incidencia de hipertensión arterial de la presencia de tabaquismo es estadísticamente significativa. El nivel de significancia de esta relación corresponde a p<0.05.

Además, la prueba de chi-cuadrado de Pearson se calcula mediante la fórmula

Pero para una tabla de 2x2, se obtienen resultados más precisos mediante el criterio de corrección de Yates.

Si Eso norte(0) aceptado,

Cuando aceptado H(1)

Cuando el número de observaciones es pequeño y las celdas de la tabla contienen una frecuencia inferior a 5, la prueba de chi-cuadrado no es aplicable y se utiliza para probar hipótesis. Prueba exacta de Fisher . El procedimiento para calcular este criterio requiere bastante mano de obra y, en este caso, es mejor utilizar programas informáticos de análisis estadístico.

Usando la tabla de contingencia, puede calcular la medida de conexión entre dos características cualitativas: este es el coeficiente de asociación de Yule. q (análogo al coeficiente de correlación)

q se encuentra en el rango de 0 a 1. Un coeficiente cercano a uno indica una fuerte conexión entre las características. Si es igual a cero, no hay conexión. .

El coeficiente phi-cuadrado (φ 2) se usa de manera similar

TAREA DE REFERENCIA

La tabla describe la relación entre la frecuencia de mutaciones en grupos de Drosophila con y sin alimentación.



Análisis de tablas de contingencia

Para analizar la tabla de contingencia se plantea la hipótesis H 0, es decir, la ausencia de influencia de la característica en estudio sobre el resultado del estudio. Para ello se calcula la frecuencia esperada y se construye una tabla de expectativas.

mesa de espera

grupos cultivos chilos Total
Dio mutaciones No dio mutaciones
Frecuencia real Frecuencia esperada Frecuencia real Frecuencia esperada
Con alimentación
sin alimentar
Total

Método número 1

Determinar la frecuencia de espera:

2756 – X ;

2. 3561 – 3124

Si el número de observaciones en grupos es pequeño, al usar X 2, en el caso de comparar frecuencias reales y esperadas con distribuciones discretas, se asocia cierta inexactitud. Para reducir la inexactitud se utiliza la corrección de Yates.

El estudio cuantitativo de los fenómenos biológicos requiere necesariamente la creación de hipótesis con las que explicar estos fenómenos. Para probar una hipótesis particular, se llevan a cabo una serie de experimentos especiales y los datos reales obtenidos se comparan con los teóricamente esperados según esta hipótesis. Si hay una coincidencia, ésta puede ser razón suficiente para aceptar la hipótesis. Si los datos experimentales no concuerdan con los teóricamente esperados, surgen grandes dudas sobre la exactitud de la hipótesis propuesta.

El grado en que los datos reales corresponden a los esperados (hipotéticos) se mide mediante la prueba de chi-cuadrado:

- valor real observado de la característica en i- eso; número o signo (indicador) teóricamente esperado para un grupo determinado, k-número de grupos de datos.

El criterio fue propuesto por K. Pearson en 1900 y a veces se le llama criterio de Pearson.

Tarea. Entre 164 niños que heredaron un factor de un padre y un factor del otro, había 46 niños con el factor, 50 con el factor y 68 con ambos. Calcule las frecuencias esperadas para una relación 1:2:1 entre grupos y determine el grado de concordancia de los datos empíricos utilizando la prueba de Pearson.

Solución: La proporción de frecuencias observadas es 46:68:50, teóricamente esperada 41:82:41.

Establezcamos el nivel de significancia en 0,05. El valor de la tabla del criterio de Pearson para este nivel de significancia con el número de grados de libertad igual resultó ser 5,99. Por tanto, se puede aceptar la hipótesis sobre la correspondencia de los datos experimentales con los datos teóricos, ya que, .

Tenga en cuenta que al calcular la prueba de chi-cuadrado, ya no establecemos las condiciones para la indispensable normalidad de la distribución. La prueba de chi-cuadrado se puede utilizar para cualquier distribución que seamos libres de elegir en nuestros supuestos. Hay cierta universalidad en este criterio.

Otra aplicación de la prueba de Pearson es comparar la distribución empírica con la distribución normal gaussiana. Además, se puede clasificar como un grupo de criterios para comprobar la normalidad de la distribución. La única limitación es el hecho de que el número total de valores (opciones) cuando se utiliza este criterio debe ser lo suficientemente grande (al menos 40) y el número de valores en clases individuales (intervalos) debe ser al menos 5. De lo contrario, se deben combinar intervalos adyacentes. El número de grados de libertad al comprobar la normalidad de la distribución debe calcularse como:.

    1. Criterio de Fisher.

Esta prueba paramétrica se utiliza para probar la hipótesis nula de que las varianzas de poblaciones distribuidas normalmente son iguales.

O.

Con tamaños de muestra pequeños, el uso de la prueba de Student sólo puede ser correcto si las varianzas son iguales. Por lo tanto, antes de probar la igualdad de medias muestrales, es necesario garantizar la validez del uso de la prueba t de Student.

Dónde norte 1 , norte 2 tamaños de muestra, 1 , 2 número de grados de libertad para estas muestras.

Al utilizar tablas, debe prestar atención a que el número de grados de libertad para una muestra con una dispersión mayor se seleccione como el número de columna de la tabla y para una dispersión menor como el número de fila de la tabla.

Para el nivel de significancia , encontramos el valor de la tabla de las tablas de estadística matemática. Si, entonces se rechaza la hipótesis de igualdad de varianzas para el nivel de significancia seleccionado.

Ejemplo. Se estudió el efecto del cobalto sobre el peso corporal de los conejos. El experimento se llevó a cabo en dos grupos de animales: experimentales y de control. Los sujetos del experimento recibieron un complemento dietético en forma de una solución acuosa de cloruro de cobalto. Durante el experimento, el aumento de peso fue en gramos:

Control



¿Te gustó el artículo? ¡Compartir con tus amigos!