Calcul du chi carré. Questions d'auto-test pour les étudiants

). La formulation spécifique de l’hypothèse testée variera d’un cas à l’autre.

Dans cet article, je décrirai le fonctionnement du critère \(\chi^2\) en utilisant un exemple (hypothétique) issu de l'immunologie. Imaginons que nous ayons mené une expérience pour déterminer l’efficacité de la suppression du développement d’une maladie microbienne lorsque des anticorps appropriés sont introduits dans l’organisme. Au total, 111 souris ont été impliquées dans l’expérience, que nous avons divisées en deux groupes, comprenant respectivement 57 et 54 animaux. Le premier groupe de souris a reçu des injections de bactéries pathogènes, suivies de l'introduction de sérum sanguin contenant des anticorps contre ces bactéries. Les animaux du deuxième groupe ont servi de témoins : ils n'ont reçu que des injections bactériennes. Après un certain temps d'incubation, il s'est avéré que 38 souris sont mortes et 73 ont survécu. Parmi les morts, 13 appartenaient au premier groupe et 25 au deuxième (témoin). L'hypothèse nulle testée dans cette expérience peut être formulée ainsi : l'administration de sérum contenant des anticorps n'a aucun effet sur la survie des souris. En d’autres termes, nous soutenons que les différences observées dans la survie des souris (77,2 % dans le premier groupe contre 53,7 % dans le deuxième groupe) sont totalement aléatoires et ne sont pas liées à l’effet des anticorps.

Les données obtenues lors de l'expérience peuvent être présentées sous forme de tableau :

Total

Bactéries + sérum

Bactéries uniquement

Total

Les tableaux comme celui présenté sont appelés tableaux de contingence. Dans l'exemple considéré, le tableau a une dimension de 2x2 : il existe deux classes d'objets (« Bactéries + sérum » et « Bactéries uniquement »), qui sont examinées selon deux critères (« Morts » et « Survivants »). Il s’agit du cas le plus simple de tableau de contingence : bien entendu, tant le nombre de classes étudiées que le nombre de fonctionnalités peuvent être plus importants.

Pour tester l’hypothèse nulle énoncée ci-dessus, il faut savoir quelle serait la situation si les anticorps n’avaient effectivement aucun effet sur la survie des souris. En d'autres termes, il faut calculer fréquences attendues pour les cellules correspondantes du tableau de contingence. Comment faire? Au cours de l'expérience, 38 souris au total sont mortes, soit 34,2 % du nombre total d'animaux impliqués. Si l'administration d'anticorps n'affecte pas la survie des souris, le même pourcentage de mortalité devrait être observé dans les deux groupes expérimentaux, soit 34,2 %. En calculant combien représentent 34,2 % de 57 et 54, nous obtenons 19,5 et 18,5. Ce sont les taux de mortalité attendus dans nos groupes expérimentaux. Les taux de survie attendus sont calculés de la même manière : puisqu'un total de 73 souris ont survécu, soit 65,8 % du nombre total, les taux de survie attendus seront de 37,5 et 35,5. Créons un nouveau tableau de contingence, maintenant avec les fréquences attendues :

Mort

Survivants

Total

Bactéries + sérum

Bactéries uniquement

Total

Comme nous pouvons le constater, les fréquences attendues sont assez différentes de celles observées, c'est-à-dire l'administration d'anticorps semble effectivement avoir un effet sur la survie des souris infectées par l'agent pathogène. Nous pouvons quantifier cette impression à l'aide du test d'adéquation de Pearson \(\chi^2\) :

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


où \(f_o\) et \(f_e\) sont respectivement les fréquences observées et attendues. La sommation est effectuée sur toutes les cellules du tableau. Ainsi, pour l’exemple considéré, nous avons

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

La valeur résultante de \(\chi^2\) est-elle suffisamment grande pour rejeter l'hypothèse nulle ? Pour répondre à cette question, il est nécessaire de trouver la valeur critique correspondante du critère. Le nombre de degrés de liberté pour \(\chi^2\) est calculé comme \(df = (R - 1)(C - 1)\), où \(R\) et \(C\) sont le nombre de lignes et de colonnes dans la conjugaison du tableau. Dans notre cas \(df = (2 -1)(2 - 1) = 1\). Connaissant le nombre de degrés de liberté, nous pouvons désormais facilement connaître la valeur critique \(\chi^2\) en utilisant la fonction R standard qchisq() :


Ainsi, avec un degré de liberté, seulement dans 5 % des cas la valeur du critère \(\chi^2\) dépasse 3,841. La valeur que nous avons obtenue, 6,79, dépasse largement cette valeur critique, ce qui nous donne le droit de rejeter l'hypothèse nulle selon laquelle il n'y aurait aucun lien entre l'administration d'anticorps et la survie des souris infectées. En rejetant cette hypothèse, on risque de se tromper avec une probabilité inférieure à 5 %.

Il convient de noter que la formule ci-dessus pour le critère \(\chi^2\) donne des valeurs légèrement gonflées lorsque l'on travaille avec des tableaux de contingence de taille 2x2. La raison en est que la distribution du critère \(\chi^2\) lui-même est continue, alors que les fréquences des caractéristiques binaires (« morts » / « survécus ») sont par définition discrètes. À cet égard, lors du calcul du critère, il est d'usage d'introduire ce qu'on appelle correction de continuité, ou Amendement Yates :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

Données de correction de continuité « Test du chi carré avec Yates » : souris X-carré = 5,7923, df = 1, valeur p = 0,0161


Comme on peut le voir, R applique automatiquement la correction de continuité de Yates ( Test du chi carré de Pearson avec correction de continuité "Yates"). La valeur de \(\chi^2\) calculée par le programme était de 5,79213. On peut rejeter l’hypothèse nulle d’absence d’effet anticorps au risque de se tromper avec une probabilité d’un peu plus de 1 % (valeur p = 0,0161).

Le test d'indépendance du chi carré est utilisé pour déterminer la relation entre deux variables catégorielles. Des exemples de paires de variables catégorielles sont : État matrimonial vs. Le niveau d'emploi du répondant ; Race de chien vs. Profession du propriétaire, niveau de salaire vs. Spécialisation d'un ingénieur, etc. Lors du calcul du critère d'indépendance, on teste l'hypothèse qu'il n'y a pas de relation entre les variables. Nous effectuerons des calculs en utilisant la fonction MS EXCEL 2010 CHI2.TEST() et des formules conventionnelles.

Supposons que nous ayons échantillon données représentant le résultat d’une enquête auprès de 500 personnes. On a posé 2 questions aux personnes : sur leur état civil (marié, en union libre, hors relation) et sur leur niveau d'emploi (à temps plein, à temps partiel, sans travail temporaire, à la maison, à la retraite, aux études). Toutes les réponses ont été placées dans le tableau :

Ce tableau s'appelle tableau de contingence des caractéristiques(ou table de facteurs, table de contingence anglaise). Les éléments à l'intersection des lignes et des colonnes du tableau sont généralement désignés O ij (de l'anglais Observed, c'est-à-dire observé, fréquences réelles).

Nous nous intéressons à la question « L'état civil affecte-t-il l'emploi ? », c'est-à-dire y a-t-il une dépendance entre les deux méthodes de classification échantillons?

À tests d'hypothèses de cette forme, il est généralement admis que hypothèse nulle déclare qu’il n’y a aucune dépendance des méthodes de classification.

Considérons des cas limites. Un exemple de la dépendance complète de deux variables catégorielles est le résultat d'enquête suivant :

Dans ce cas, l’état civil détermine clairement l’emploi (voir. exemple de fiche de fichier Explication). À l’inverse, un autre résultat d’enquête constitue un exemple d’indépendance totale :

Attention, le taux d'emploi dans ce cas ne dépend pas de la situation matrimoniale (idem pour les personnes mariées et non mariées). Cela correspond exactement au libellé hypothèse nulle. Si hypothèse nulle est juste, alors les résultats de l’enquête devraient être distribués de telle manière que le pourcentage de personnes employées soit le même quel que soit l’état civil. Grâce à cela, nous calculons les résultats de l'enquête qui correspondent à hypothèse nulle(cm. exemple de fichier de feuille Exemple).

Tout d’abord, nous calculons l’estimation de probabilité que l’élément échantillons aura une certaine occupation (voir colonne u i) :

Avec– le nombre de colonnes (colonnes) égal au nombre de niveaux de la variable « État civil ».

Ensuite, nous calculons l'estimation de probabilité que l'élément échantillons aura un certain état civil (voir ligne v j).

r– le nombre de lignes égal au nombre de niveaux de la variable « Occupation ».

La fréquence théorique pour chaque cellule E ij (de l'anglais Expected, c'est-à-dire fréquence attendue) en cas d'indépendance des variables est calculée par la formule :
E ij =n* u i * v j

On sait que la statistique X 2 0 pour n grand a environ (r-1)(c-1) degrés de liberté (df – degrés de liberté) :

Si calculé sur la base échantillons la valeur de cette statistique est « trop grande » (supérieure au seuil), alors hypothèse nulle rejeté. La valeur seuil est calculée en fonction de , par exemple à l'aide de la formule =HI2.OBR.PH(0.05; df) .

Note: Niveau de signification généralement pris égal à 0,1 ; 0,05 ; 0,01.

À tests d'hypothèses il est également pratique de calculer , que l'on compare avec niveau de signification. p-signification calculé en utilisant (r-1)*(c-1)=df degrés de liberté.

Si la probabilité qu'une variable aléatoire ayant c (r-1)(c-1) degrés de liberté prendra une valeur supérieure aux statistiques calculées X 2 0, c'est-à-dire P(Х 2 (r-1)*(c-1) >Х 2 0 ), moins niveau de signification, Que hypothèse nulle rejeté.

Dans MS EXCEL valeur p peut être calculé à l'aide de la formule =HI2.DIST.PH(X 2 0 ;df), bien sûr, après avoir calculé la valeur des statistiques X 2 0 juste avant cela (cela est fait dans le fichier exemple). Cependant, il est plus pratique d’utiliser la fonction CH2.TEST(). Comme arguments de cette fonction, des références à des plages contenant des fréquences réelles (Observées) et théoriques calculées (Attendues) sont spécifiées.

Si niveau de signification > p-valeurs, cela signifie alors les fréquences réelles et théoriques calculées à partir de l'hypothèse d'équité hypothèse nulle, sont sérieusement différents. C'est pourquoi, hypothèse nulle doit être rejeté.

L'utilisation de la fonction CH2.TEST() permet d'accélérer la procédure tests d'hypothèses, parce que pas besoin de calculer la valeur statistiques. Il suffit maintenant de comparer le résultat de la fonction CH2.TEST() avec celui donné niveau de signification.

Note: La fonction CHISQ.TEST(), nom anglais CHISQ.TEST, est apparue dans MS EXCEL 2010. Sa version antérieure CHISQEST(), disponible dans MS EXCEL 2007, possède la même fonctionnalité. Mais comme pour CH2.TEST(), vous devez calculer vous-même les fréquences théoriques.

L'utilisation de ce critère repose sur l'utilisation d'une telle mesure (statistiques) de l'écart entre les valeurs théoriques F(X) et distribution empirique F* P. (X) , qui obéit approximativement à la loi de distribution χ 2 . Hypothèse N 0 La cohérence des répartitions est vérifiée par l'analyse de la répartition de ces statistiques. L'application du critère nécessite la construction d'une série statistique.

Alors, laissez l'échantillon être présenté statistiquement à côté du nombre de chiffres M.. Taux de réussite observé je- ème rang n je. Conformément à la loi théorique de distribution, la fréquence attendue des hits dans je-la catégorie est F je. La différence entre la fréquence observée et attendue sera ( n jeF je). Pour déterminer le degré global de divergence entre F(X) Et F* P. (X) il est nécessaire de calculer la somme pondérée des carrés des différences sur tous les chiffres de la série statistique

Valeur χ 2 avec un grossissement illimité n a une distribution χ 2 (distribuée asymptotiquement comme χ 2). Cette répartition dépend du nombre de degrés de liberté k, c'est à dire. le nombre de valeurs indépendantes des termes dans l'expression (3.7). Le nombre de degrés de liberté est égal au nombre oui moins le nombre de relations linéaires imposées à l'échantillon. Une connexion existe du fait que n'importe quelle fréquence peut être calculée à partir de la totalité des fréquences des autres fréquences. M.–1 chiffres. De plus, si les paramètres de distribution ne sont pas connus à l’avance, il existe alors une autre limitation due à l’ajustement de la distribution à l’échantillon. Si l'échantillon détermine S paramètres de distribution, alors le nombre de degrés de liberté sera k= M.S–1.

Zone d’acceptation des hypothèses N 0 est déterminé par la condition χ 2 < χ 2 (k; un) , où χ 2 (k; un) – point critique de la distribution χ2 avec seuil de signification un. La probabilité d'une erreur de type I est un, la probabilité d’une erreur de type II ne peut pas être clairement définie, car il existe un nombre infini de façons différentes pour lesquelles les distributions peuvent ne pas correspondre. La puissance du test dépend du nombre de chiffres et de la taille de l'échantillon. Il est recommandé d'appliquer ce critère lorsque n>200, l'utilisation est autorisée lorsque n>40, c'est dans ces conditions que le critère est valable (en règle générale, il rejette l'hypothèse nulle incorrecte).

Algorithme de vérification par critère

1. Construisez un histogramme en utilisant une méthode de probabilité égale.

2. Sur la base de l'apparence de l'histogramme, émettre une hypothèse

H 0: F(X) = F 0 (X),

H 1: F(X) ¹ F 0 (X),

F 0 (X) - densité de probabilité d'une loi de distribution hypothétique (par exemple, uniforme, exponentielle, normale).

Commentaire. L'hypothèse sur la loi de distribution exponentielle peut être émise si tous les nombres de l'échantillon sont positifs.

3. Calculez la valeur du critère à l'aide de la formule

,


taux de succès je-ième intervalle ;

p je- probabilité théorique qu'une variable aléatoire tombe dans je- ème intervalle à condition que l'hypothèse H 0 est correct.

Formules de calcul p je dans le cas de lois exponentielles, uniformes et normales, elles sont respectivement égales.

loi exponentielle

. (3.8)

UN 1 = 0, B m = +¥.

Loi uniforme

Loi normale

. (3.10)

UN 1 = -¥, BM = +¥.

Remarques. Après avoir calculé toutes les probabilités p je vérifier si la relation de référence est satisfaite

Fonction Ф( X) - impair. Ф(+¥) = 1.

4. Dans le tableau du Chi carré en annexe, sélectionnez la valeur
, où a est le niveau de signification spécifié (a = 0,05 ou a = 0,01), et k- le nombre de degrés de liberté, déterminé par la formule

k = M. - 1 - S.

Ici S- le nombre de paramètres dont dépend l'hypothèse choisie H 0 loi de distribution. Valeurs S pour la loi uniforme c'est 2, pour la loi exponentielle c'est 1, pour la loi normale c'est 2.

5. Si
, alors l'hypothèse H 0 est rejeté. Sinon, il n'y a aucune raison de le rejeter : avec une probabilité 1 - b c'est vrai, et avec une probabilité - b c'est incorrect, mais la valeur de b est inconnue.

Exemple3 . 1. À l'aide du critère c 2, émettre et tester une hypothèse sur la loi de distribution d'une variable aléatoire X, dont les séries de variations, les tableaux d'intervalles et les histogrammes de distribution sont donnés dans l'exemple 1.2. Le niveau de signification a est de 0,05.

Solution . En nous basant sur l'apparition des histogrammes, nous émettons l'hypothèse que la variable aléatoire X distribué selon la loi normale :

H 0: F(X) = N(m, s);

H 1: F(X) ¹ N(m, s).

La valeur du critère est calculée à l'aide de la formule :

(3.11)

Comme indiqué ci-dessus, lors du test d’une hypothèse, il est préférable d’utiliser un histogramme à probabilité égale. Dans ce cas

Probabilités théoriques p je Nous calculons à l'aide de la formule (3.10). En même temps, nous pensons que

p 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

p 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Après cela, nous vérifions le respect du ratio de contrôle

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Après cela, sélectionnez la valeur critique dans le tableau « Chi carré »

.

Parce que
alors l'hypothèse H 0 est accepté (il n’y a aucune raison de le rejeter).

Le test du Chi carré est une méthode universelle permettant de vérifier la concordance entre les résultats d'une expérience et le modèle statistique utilisé.

Distance Pearson X2

Piatnitski A.M.

Université médicale d'État de Russie

En 1900, Karl Pearson a proposé une manière simple, universelle et efficace de tester la concordance entre les prédictions du modèle et les données expérimentales. Le « test du chi carré » qu’il a proposé est le test statistique le plus important et le plus couramment utilisé. La plupart des problèmes liés à l'estimation des paramètres inconnus du modèle et à la vérification de la concordance entre le modèle et les données expérimentales peuvent être résolus avec son aide.

Soit un modèle a priori (« pré-expérimental ») de l'objet ou du processus étudié (en statistique on parle de « l'hypothèse nulle » H 0), et les résultats d'une expérience avec cet objet. Il faut décider si le modèle est adéquat (correspond-il à la réalité) ? Les résultats expérimentaux contredisent-ils nos idées sur le fonctionnement de la réalité ou, en d’autres termes, faut-il rejeter H0 ? Souvent, cette tâche peut être réduite à comparer les fréquences moyennes observées (O i = Observed) et attendues selon le modèle (E i = Expected) d'occurrence de certains événements. On pense que les fréquences observées ont été obtenues dans une série de N observations indépendantes (!) effectuées dans des conditions constantes (!). À la suite de chaque observation, l’un des M événements est enregistré. Ces événements ne peuvent pas se produire simultanément (ils sont incompatibles deux à deux) et l'un d'eux se produit nécessairement (leur combinaison forme un événement fiable). La totalité de toutes les observations est réduite à un tableau (vecteur) de fréquences (O i )=(O 1 ,… O M ), qui décrit complètement les résultats de l'expérience. La valeur O 2 =4 signifie que l'événement numéro 2 s'est produit 4 fois. Somme des fréquences O 1 +… O M =N. Il est important de distinguer deux cas : N – fixe, non aléatoire, N – variable aléatoire. Pour un nombre total d'expériences N fixé, les fréquences ont une distribution polynomiale. Illustrons ce schéma général par un exemple simple.

Utiliser le test du chi carré pour tester des hypothèses simples.

Supposons que le modèle (hypothèse nulle H 0) soit que le dé est juste - tous les visages apparaissent également souvent avec une probabilité p i = 1/6, i =, M = 6. Une expérience a été menée dans laquelle le dé a été lancé 60 fois (N = 60 essais indépendants ont été menés). Selon le modèle, nous nous attendons à ce que toutes les fréquences observées O i d'occurrence 1,2,... 6 points soient proches de leurs valeurs moyennes E i =Np i =60∙(1/6)=10. D'après H 0, le vecteur de fréquences moyennes (E i ) = (Np i ) = (10, 10, 10, 10, 10, 10). (Les hypothèses dans lesquelles les fréquences moyennes sont complètement connues avant le début de l'expérience sont dites simples.) Si le vecteur observé (O i ) était égal à (34,0,0,0,0,26), alors il est immédiatement il est clair que le modèle est incorrect - l'os ne peut pas être correct, puisque seuls 1 et 6 ont été lancés 60 fois. La probabilité d'un tel événement pour un dé correct est négligeable : P = (2/6) 60 =2,4*10 -29. Toutefois, l’apparition de divergences aussi évidentes entre le modèle et l’expérience constitue une exception. Soit le vecteur des fréquences observées (O i ) égal à (5, 15, 6, 14, 4, 16). Est-ce cohérent avec H0 ? Nous devons donc comparer deux vecteurs de fréquence (E i) et (O i). Dans ce cas, le vecteur des fréquences attendues (Ei) n'est pas aléatoire, mais le vecteur des fréquences observées (Oi) est aléatoire - lors de la prochaine expérience (dans une nouvelle série de 60 lancers), il s'avérera différent. Il est utile d'introduire une interprétation géométrique du problème et de supposer que dans l'espace fréquentiel (dans ce cas à 6 dimensions) deux points sont donnés avec les coordonnées (5, 15, 6, 14, 4, 16) et (10, 10, 10, 10, 10, 10 ). Sont-ils suffisamment éloignés pour considérer cela incompatible avec H 0 ? En d’autres termes, nous avons besoin de :

  1. apprendre à mesurer les distances entre les fréquences (points dans l'espace fréquentiel),
  2. avoir un critère pour déterminer quelle distance doit être considérée comme trop (« invraisemblablement ») grande, c'est-à-dire incompatible avec H 0 .

Le carré de la distance euclidienne ordinaire serait égal à :

X 2 Euclide = S(O je -E je) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Dans ce cas, les surfaces X 2 Euclide = const sont toujours des sphères si l'on fixe les valeurs de E i et change O i . Karl Pearson a noté que l'utilisation de la distance euclidienne dans l'espace fréquentiel ne devrait pas être utilisée. Ainsi, il est incorrect de supposer que les points (O = 1030 et E = 1000) et (O = 40 et E = 10) sont à égale distance les uns des autres, bien que dans les deux cas la différence soit O -E = 30. En effet, plus la fréquence attendue est élevée, plus des écarts importants doivent être considérés comme possibles. Par conséquent, les points (O =1030 et E =1000) doivent être considérés comme « proches », et les points (O =40 et E =10) « éloignés » les uns des autres. On peut montrer que si l'hypothèse H 0 est vraie, alors les fluctuations de fréquence O i par rapport à E i sont de l'ordre de la racine carrée (!) de E i . Par conséquent, Pearson a proposé, lors du calcul de la distance, de mettre au carré non pas les différences (O i -E i), mais les différences normalisées (O i -E i)/E i 1/2. Voici donc la formule pour calculer la distance de Pearson (c'est en fait le carré de la distance) :

X 2 Pearson = S((O je -E je )/E je 1/2) 2 = S(O je -E je ) 2 /E je

Dans notre exemple :

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Pour un dé ordinaire, toutes les fréquences attendues E i sont les mêmes, mais généralement elles sont différentes, donc les surfaces sur lesquelles la distance de Pearson est constante (X 2 Pearson = const) se révèlent être des ellipsoïdes et non des sphères.

Maintenant que la formule de calcul des distances a été choisie, il faut savoir quelles distances doivent être considérées comme « pas trop grandes » (cohérentes avec H 0). Ainsi, par exemple, que dire de la distance que nous avons calculée 15,4. ? Dans quel pourcentage de cas (ou avec quelle probabilité) obtiendrons-nous une distance supérieure à 15,4 en effectuant des expériences avec un dé ordinaire ? Si ce pourcentage est faible (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Explication. Le nombre de mesures O i entrant dans la cellule du tableau portant le numéro i a une distribution binomiale avec les paramètres : m =Np i =E i,σ =(Np i (1-p i)) 1/2, où N est le nombre de mesures (N » 1), p i est la probabilité qu'une mesure tombe dans une cellule donnée (rappelons que les mesures sont indépendantes et sont effectuées dans des conditions constantes). Si p i est petit, alors : σ≈(Np i ) 1/2 =E i et la distribution binomiale est proche de Poisson, dans laquelle le nombre moyen d'observations E i =λ, et l'écart type σ=λ 1/2 = E je 1/ 2. Pour λ≥5, la distribution de Poisson est proche de la normale N (m =E i =λ, σ=E i 1/2 =λ 1/2), et la valeur normalisée (O i - E i )/E i 1 /2 ≈ N (0,1).

Pearson a défini la variable aléatoire χ 2 n – « chi carré avec n degrés de liberté », comme la somme des carrés de n variables aléatoires normales standard indépendantes :

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , Où est tout le monde T je = N(0,1) - n. O. R. Avec. V.

Essayons de comprendre clairement la signification de cette variable aléatoire la plus importante en statistique. Pour ce faire, dans le plan (avec n = 2) ou dans l'espace (avec n = 3) on présente un nuage de points dont les coordonnées sont indépendantes et ont une distribution normale standardf T (x) ~exp (-x 2 /2 ). Sur un plan, selon la règle des « deux sigma », appliquée indépendamment aux deux coordonnées, 90 % (0,95*0,95≈0,90) des points sont contenus dans un carré (-2

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Avec un nombre suffisamment grand de degrés de liberté n (n > 30), la distribution du chi carré se rapproche de la normale : N (m = n ; σ = (2n) ½). C'est une conséquence du « théorème central limite » : la somme de quantités identiquement distribuées avec une variance finie se rapproche de la loi normale à mesure que le nombre de termes augmente.

En pratique, il faut se rappeler que le carré moyen de la distance est égal à m (χ 2 n) = n, et sa variance est σ 2 (χ 2 n) = 2n. À partir de là, il est facile de conclure quelles valeurs du chi carré doivent être considérées comme trop petites et trop grandes : la majeure partie de la distribution se situe dans la plage de n -2∙(2n) ½ à n +2∙(2n) ½.

Ainsi, les distances de Pearson dépassant significativement n +2∙ (2n) ½ doivent être considérées comme invraisemblablement grandes (incohérentes avec H 0). Si le résultat est proche de n +2∙(2n) ½, vous devez alors utiliser des tableaux dans lesquels vous pouvez savoir exactement dans quelle proportion de cas de telles et grandes valeurs du chi carré peuvent apparaître.

Il est important de savoir choisir la bonne valeur du nombre de degrés de liberté (en abrégé n.d.f.). Il semblait naturel de supposer que n était simplement égal au nombre de chiffres : n = M. Dans son article, Pearson le suggère. Dans l’exemple des dés, cela signifierait que n =6. Cependant, plusieurs années plus tard, il s’est avéré que Pearson s’était trompé. Le nombre de degrés de liberté est toujours inférieur au nombre de chiffres s'il existe des connexions entre variables aléatoires O i. Pour l'exemple des dés, la somme O i est 60, et seules 5 fréquences peuvent être modifiées indépendamment, donc la valeur correcte est n = 6-1 = 5. Pour cette valeur de n, nous obtenons n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Depuis 15.4>11.3, alors l'hypothèse H 0 - le dé est correct doit être rejetée.

Après avoir clarifié l'erreur, les tableaux χ 2 existants ont dû être complétés, puisqu'au départ ils n'avaient pas le cas n = 1, puisque le plus petit nombre de chiffres = 2. Il s'avère maintenant qu'il peut y avoir des cas où la distance de Pearson a la distribution χ 2 n =1.

Exemple. Avec 100 lancers de pièces, le nombre de faces est O 1 = 65 et face O 2 = 35. Le nombre de chiffres est M = 2. Si la pièce est symétrique, alors les fréquences attendues sont E 1 =50, E 2 =50.

X 2 Pearson = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

La valeur résultante doit être comparée à celles que peut prendre la variable aléatoire χ 2 n =1, définie comme le carré de la valeur normale standard χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 ou T 1 ≤-3. La probabilité d'un tel événement est très faible P (χ 2 n =1 ≥9) = 0,006. Par conséquent, la pièce ne peut pas être considérée comme symétrique : H 0 doit être rejetée. Le fait que le nombre de degrés de liberté ne peut pas être égal au nombre de chiffres ressort clairement du fait que la somme des fréquences observées est toujours égale à la somme des fréquences attendues, par exemple O 1 +O 2 =65+ 35 = E1 +E2 =50+50=100. Ainsi, des points aléatoires de coordonnées O 1 et O 2 sont situés sur une droite : O 1 +O 2 =E 1 +E 2 =100 et la distance au centre s'avère moindre que si cette restriction n'existait pas et ils étaient situés dans tout l'avion. En effet, pour deux variables aléatoires indépendantes avec des attentes mathématiques E 1 =50, E 2 =50, la somme de leurs réalisations ne doit pas toujours être égale à 100 - par exemple, les valeurs O 1 =60, O 2 =55 seraient être acceptable.

Explication. Comparons le résultat du critère de Pearson à M = 2 avec ce que donne la formule de Moivre-Laplace lors de l'estimation des fluctuations aléatoires de la fréquence d'apparition d'un événement ν =K /N ayant une probabilité p dans une série de N tests de Bernoulli indépendants ( K est le nombre de réussites) :

χ2n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T2

Valeur T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1) avec σ(K)=(Npq) ½ ≥3. On voit que dans ce cas le résultat de Pearson coïncide exactement avec ce que donne l'approximation normale pour la distribution binomiale.

Jusqu'à présent, nous avons considéré des hypothèses simples pour lesquelles les fréquences moyennes attendues E i sont parfaitement connues à l'avance. Pour plus d’informations sur la façon de choisir le nombre correct de degrés de liberté pour des hypothèses complexes, voir ci-dessous.

Utiliser le test du chi carré pour tester des hypothèses complexes

Dans les exemples avec un dé et une pièce de monnaie ordinaires, les fréquences attendues pourraient être déterminées avant (!) l'expérience. De telles hypothèses sont dites « simples ». En pratique, les « hypothèses complexes » sont plus courantes. De plus, pour trouver les fréquences attendues E i, il faut d'abord estimer une ou plusieurs grandeurs (paramètres du modèle), et cela ne peut se faire qu'à partir de données expérimentales. De ce fait, pour les « hypothèses complexes », les fréquences attendues E i s'avèrent dépendre des fréquences observées O i et deviennent donc elles-mêmes des variables aléatoires, variant en fonction des résultats de l'expérience. Lors du processus de sélection des paramètres, la distance de Pearson diminue : les paramètres sont sélectionnés de manière à améliorer l'accord entre le modèle et l'expérience. Le nombre de degrés de liberté devrait donc diminuer.

Comment estimer les paramètres du modèle ? Il existe de nombreuses méthodes d'estimation différentes - « méthode du maximum de vraisemblance », « méthode des moments », « méthode de substitution ». Cependant, vous ne pouvez pas utiliser de fonds supplémentaires et trouver des estimations de paramètres en minimisant la distance de Pearson. À l'ère pré-informatique, cette approche était rarement utilisée : elle est peu pratique pour les calculs manuels et, en règle générale, ne peut pas être résolue de manière analytique. Lors du calcul sur ordinateur, la minimisation numérique est généralement facile à réaliser, et l'avantage de cette méthode est sa polyvalence. Ainsi, selon la « méthode de minimisation du chi carré », nous sélectionnons les valeurs des paramètres inconnus de manière à ce que la distance de Pearson devienne la plus petite. (D'ailleurs, en étudiant les changements de cette distance avec de petits déplacements par rapport au minimum trouvé, vous pouvez estimer la mesure de l'exactitude de l'estimation : construire des intervalles de confiance.) Une fois que les paramètres et cette distance minimale elle-même ont été trouvés, il est encore une fois, il est nécessaire de répondre à la question de savoir si elle est suffisamment petite.

La séquence générale des actions est la suivante :

  1. Sélection du modèle (hypothèse H 0).
  2. Sélection des chiffres et détermination du vecteur des fréquences observées O i .
  3. Estimation des paramètres inconnus du modèle et construction d'intervalles de confiance pour ceux-ci (par exemple, en recherchant la distance minimale de Pearson).
  4. Calcul des fréquences attendues E i .
  5. Comparaison de la valeur trouvée de la distance de Pearson X 2 avec la valeur critique du chi carré χ 2 crit - la plus grande, qui est encore considérée comme plausible, compatible avec H 0. On retrouve la valeur χ 2 crit à partir des tableaux en résolvant l'équation

P (χ 2 n > χ 2 critique) = 1-α,

où α est le « niveau de signification » ou « la taille du critère » ou « l’ampleur de l’erreur de premier type » (valeur typique α = 0,05).

Habituellement, le nombre de degrés de liberté n est calculé à l'aide de la formule

n = (nombre de chiffres) – 1 – (nombre de paramètres à estimer)

Si X 2 > χ 2 crit, alors l'hypothèse H 0 est rejetée, sinon elle est acceptée. Dans α∙100 % des cas (c'est-à-dire assez rarement), cette méthode de vérification de H 0 conduira à une « erreur de première espèce » : l'hypothèse H 0 sera rejetée par erreur.

Exemple. Dans une étude de 10 séries de 100 graines, le nombre de personnes infectées par la mouche aux yeux verts a été compté. Données reçues : O i = (16, 18, 11, 18, 21, 10, 20, 18, 17, 21) ;

Ici, le vecteur des fréquences attendues est inconnu à l’avance. Si les données sont homogènes et obtenues pour une distribution binomiale, alors un paramètre est inconnu : la proportion p de graines infectées. A noter que dans le tableau d'origine il y a en réalité non pas 10 mais 20 fréquences qui satisfont 10 connexions : 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

En combinant les termes par paires (comme dans l'exemple avec une pièce de monnaie), on obtient la forme d'écriture du critère de Pearson, qui s'écrit généralement immédiatement :

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Maintenant, si la distance minimale de Pearson est utilisée comme méthode d'estimation de p, alors il est nécessaire de trouver un p pour lequel X 2 = min. (Le modèle essaie, si possible, de « s’ajuster » aux données expérimentales.)

Le critère de Pearson est le plus universel de tous ceux utilisés en statistique. Il peut être appliqué aux données univariées et multivariées, aux caractéristiques quantitatives et qualitatives. Cependant, précisément en raison de sa polyvalence, il faut faire attention à ne pas commettre d’erreurs.

Les points importants

1.Sélection des catégories.

  • Si la distribution est discrète, il n'y a généralement pas d'arbitraire dans le choix des chiffres.
  • Si la distribution est continue, l’arbitraire est inévitable. Des blocs statistiquement équivalents peuvent être utilisés (tous les O sont identiques, par exemple = 10). Cependant, les longueurs des intervalles sont différentes. Lors des calculs manuels, ils ont essayé de rendre les intervalles identiques. Les intervalles lors de l'étude de la distribution d'un trait univarié doivent-ils être égaux ? Non.
  • Les chiffres doivent être combinés de manière à ce que les fréquences attendues (non observées !) ne soient pas trop petites (≥5). Rappelons que ce sont eux (E i) qui sont aux dénominateurs lors du calcul de X 2 ! Lors de l'analyse des caractéristiques unidimensionnelles, il est permis de violer cette règle dans les deux chiffres extrêmes E 1 =E max =1. Si le nombre de chiffres est grand et les fréquences attendues sont proches, alors X 2 est une bonne approximation de χ 2 même pour E i =2.

Estimation des paramètres. L’utilisation de méthodes d’estimation « faites maison » et inefficaces peut conduire à des valeurs de distance de Pearson gonflées.

Choisir le bon nombre de degrés de liberté. Si les estimations des paramètres ne sont pas effectuées à partir de fréquences, mais directement à partir des données (par exemple, la moyenne arithmétique est prise comme estimation de la moyenne), alors le nombre exact de degrés de liberté n est inconnu. On sait seulement qu'il satisfait l'inégalité :

(nombre de chiffres – 1 – nombre de paramètres évalués)< n < (число разрядов – 1)

Il est donc nécessaire de comparer X 2 avec les valeurs critiques de χ 2 crit calculées sur toute cette plage de n.

Comment interpréter des valeurs du Chi carré invraisemblablement petites ? Une pièce de monnaie doit-elle être considérée comme symétrique si, après 10 000 lancers, elle atterrit 5 000 fois sur les armoiries ? Auparavant, de nombreux statisticiens pensaient que H 0 devait également être rejeté. Maintenant, une autre approche est proposée : accepter H 0, mais soumettre les données et la méthodologie de leur analyse à une vérification supplémentaire. Il existe deux possibilités : soit la distance de Pearson étant trop petite, cela signifie que l'augmentation du nombre de paramètres du modèle ne s'est pas accompagnée d'une diminution appropriée du nombre de degrés de liberté, soit les données elles-mêmes ont été falsifiées (peut-être involontairement ajustées à la valeur attendue). résultat).

Exemple. Deux chercheurs A et B ont calculé la proportion d'homozygotes récessifs aa dans la deuxième génération d'un croisement monohybride AA*aa. Selon les lois de Mendel, cette fraction est de 0,25. Chaque chercheur a mené 5 expériences et 100 organismes ont été étudiés dans chaque expérience.

Résultats A : 25, 24, 26, 25, 24. Conclusion du chercheur : la loi de Mendel est vraie (?).

Résultats B : 29, 21, 23, 30, 19. Conclusion du chercheur : la loi de Mendel n’est pas juste (?).

Or, la loi de Mendel est de nature statistique, et l'analyse quantitative des résultats renverse les conclusions ! En combinant cinq expériences en une seule, nous arrivons à une distribution du Chi carré à 5 degrés de liberté (une hypothèse simple est testée) :

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75)=0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75)=5,17

Valeur moyenne m [χ 2 n =5 ]=5, écart type σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Par conséquent, sans référence aux tableaux, il est clair que la valeur de X 2 B est typique et que la valeur de X 2 A est invraisemblablement petite. D'après les tableaux P (χ 2 n =5<0.16)<0.0001.

Cet exemple est une adaptation d’un cas réel survenu dans les années 1930 (voir l’ouvrage de Kolmogorov « Sur une autre preuve des lois de Mendel »). Il est intéressant de noter que le chercheur A était un partisan de la génétique et que le chercheur B y était opposé.

Confusion dans la notation. Il faut distinguer la distance de Pearson, qui nécessite des conventions supplémentaires dans son calcul, du concept mathématique de variable aléatoire chi carré. La distance de Pearson, sous certaines conditions, a une distribution proche du chi carré avec n degrés de liberté. Par conséquent, il est conseillé de NE PAS désigner la distance de Pearson par le symbole χ 2 n, mais d'utiliser une notation similaire mais différente X 2. .

Le critère de Pearson n’est pas omnipotent. Il existe un nombre infini d'alternatives pour H 0 qu'il est incapable de prendre en compte. Supposons que vous testiez l'hypothèse selon laquelle l'entité avait une distribution uniforme, que vous disposiez de 10 chiffres et que le vecteur des fréquences observées est égal à (130,125,121,118,116,115,114,113,111,110). Le critère de Pearson ne peut pas « remarquer » que les fréquences diminuent de façon monotone et H 0 ne sera pas rejeté. S’il était complété par un critère de série, alors oui !

23. Concept de chi carré et de distribution de Student, et vue graphique

1) Une distribution (chi carré) avec n degrés de liberté est la distribution de la somme des carrés de n variables aléatoires normales standard indépendantes.

Distribution (chi carré)– distribution d'une variable aléatoire (et l'espérance mathématique de chacune d'elles est 0, et l'écart type est 1)

où sont les variables aléatoires indépendants et ont la même répartition. Dans ce cas, le nombre de termes, c'est-à-dire, est appelé « nombre de degrés de liberté » de la distribution du chi carré. Le nombre du Chi carré est déterminé par un paramètre, le nombre de degrés de liberté. À mesure que le nombre de degrés de liberté augmente, la distribution se rapproche lentement de la normale.

Alors la somme de leurs carrés

est une variable aléatoire distribuée selon la loi dite du chi carré avec k = n degrés de liberté ; si les termes sont liés par une relation (par exemple, ), alors le nombre de degrés de liberté k = n – 1.

La densité de cette distribution

Ici - fonction gamma ; en particulier, Г(n + 1) = n! .

Par conséquent, la distribution du Chi carré est déterminée par un paramètre : le nombre de degrés de liberté k.

Remarque 1. À mesure que le nombre de degrés de liberté augmente, la distribution du chi carré se rapproche progressivement de la normale.

Remarque 2. A l'aide de la distribution du Chi carré, de nombreuses autres distributions rencontrées en pratique sont déterminées, par exemple la distribution d'une variable aléatoire - la longueur d'un vecteur aléatoire (X1, X2,..., Xn), les coordonnées de qui sont indépendants et répartis selon la loi normale.

La distribution χ2 a été étudiée pour la première fois par R. Helmert (1876) et K. Pearson (1900).

Math.attendre.=n; D=2n

2) Répartition des étudiants

Considérons deux variables aléatoires indépendantes : Z, qui a une distribution normale et est normalisée (c'est-à-dire M(Z) = 0, σ(Z) = 1), et V, qui est distribuée selon la loi du chi carré avec k degrés de liberté. Alors la valeur

a une distribution appelée distribution t ou distribution de Student avec k degrés de liberté. Dans ce cas, k est appelé le « nombre de degrés de liberté » de la distribution de Student.

À mesure que le nombre de degrés de liberté augmente, la distribution de Student se rapproche rapidement de la normale.

Cette répartition a été introduite en 1908 par le statisticien anglais W. Gosset, qui travaillait dans une fabrique de bière. Des méthodes probabilistes et statistiques étaient utilisées pour prendre des décisions économiques et techniques dans cette usine, c'est pourquoi sa direction interdit à V. Gosset de publier des articles scientifiques sous son propre nom. Ainsi étaient protégés les secrets des affaires et les « savoir-faire » sous forme de méthodes probabilistes et statistiques développés par V. Gosset. Il a cependant eu l'opportunité de publier sous le pseudonyme « Student ». L’histoire de Gosset et Student montre qu’il y a cent ans déjà, les dirigeants britanniques étaient conscients de la plus grande efficacité économique des méthodes de prise de décision probabilistes et statistiques.



Avez-vous aimé l'article? Partage avec tes amis!