Qu'est-ce que le chi carré dans les statistiques. Utiliser le test du chi carré pour tester des hypothèses complexes

​ Le test χ 2 de Pearson est une méthode non paramétrique qui nous permet d'évaluer l'importance des différences entre le nombre réel (révélé) de résultats ou de caractéristiques qualitatives de l'échantillon qui entrent dans chaque catégorie, et le nombre théorique auquel on peut s'attendre dans l'étude. groupes si l’hypothèse nulle est vraie. Pour faire simple, la méthode permet d'évaluer la signification statistique des différences entre deux ou plusieurs indicateurs relatifs (fréquences, proportions).

1. Historique du développement du critère χ 2

Le test du chi carré pour analyser les tableaux de contingence a été développé et proposé en 1900 par un mathématicien, statisticien, biologiste et philosophe anglais, fondateur de la statistique mathématique et l'un des fondateurs de la biométrie. Karl Pearson(1857-1936).

2. Pourquoi le test χ 2 de Pearson est-il utilisé ?

Le test du chi carré peut être utilisé dans l'analyse tableaux de contingence contenant des informations sur la fréquence des résultats en fonction de la présence d’un facteur de risque. Par exemple, tableau de contingence à quatre champsça ressemble à ça :

Il y a un résultat (1) Aucun résultat (0) Total
Il existe un facteur de risque (1) UN B A+B
Aucun facteur de risque (0) C D C+D
Total A+C B+D A+B+C+D

Comment remplir un tel tableau de contingence ? Regardons un petit exemple.

Une étude est en cours sur l'effet du tabagisme sur le risque de développer une hypertension artérielle. A cet effet, deux groupes de sujets ont été sélectionnés : le premier comprenait 70 personnes fumant au moins 1 paquet de cigarettes par jour, le second comprenait 80 non-fumeurs du même âge. Dans le premier groupe, 40 personnes souffraient d’hypertension. Dans la seconde, une hypertension artérielle a été observée chez 32 personnes. En conséquence, la tension artérielle normale dans le groupe des fumeurs était de 30 personnes (70 - 40 = 30) et dans le groupe des non-fumeurs - de 48 (80 - 32 = 48).

Nous remplissons le tableau de contingence à quatre champs avec les données initiales :

Dans le tableau de contingence qui en résulte, chaque ligne correspond à un groupe spécifique de sujets. Les colonnes indiquent le nombre de personnes souffrant d'hypertension artérielle ou de tension artérielle normale.

La tâche qui se pose au chercheur est la suivante : existe-t-il des différences statistiquement significatives entre la fréquence des personnes souffrant de tension artérielle chez les fumeurs et les non-fumeurs ? On peut répondre à cette question en calculant le test du chi carré de Pearson et en comparant la valeur résultante avec la valeur critique.

3. Conditions et limites d'application du test du Chi carré de Pearson

  1. Des indicateurs comparables doivent être mesurés échelle nominale(par exemple, le sexe du patient est un homme ou une femme) ou dans ordinal(par exemple, le degré d'hypertension artérielle, en prenant des valeurs de 0 à 3).
  2. Cette méthode vous permet d'analyser non seulement des tableaux à quatre champs, lorsque le facteur et le résultat sont des variables binaires, c'est-à-dire qu'ils n'ont que deux valeurs possibles (par exemple, le sexe masculin ou féminin, la présence ou l'absence d'un certaine maladie dans l'anamnèse...). Le test du Chi carré de Pearson peut également être utilisé dans le cas de l'analyse de tableaux multi-champs, lorsqu'un facteur et (ou) un résultat prend trois valeurs ou plus.
  3. Les groupes comparés doivent être indépendants, c'est-à-dire que le test du chi carré ne doit pas être utilisé pour comparer les observations avant-après. Test de McNemar(lors de la comparaison de deux populations apparentées) ou calculé Test Q de Cochran(en cas de comparaison de trois groupes ou plus).
  4. Lors de l'analyse de tables à quatre champs valeurs attendues dans chaque cellule il doit y en avoir au moins 10. Si dans au moins une cellule le phénomène attendu prend une valeur de 5 à 9, le test du chi carré doit être calculé avec l'amendement de Yates. Si dans au moins une cellule le phénomène attendu est inférieur à 5, alors l'analyse doit utiliser Test exact de Fisher.
  5. Lors de l'analyse de tableaux multichamps, le nombre attendu d'observations ne doit pas être inférieur à 5 dans plus de 20 % des cellules.

4. Comment calculer le test du Chi carré de Pearson ?

Pour calculer le test du chi carré, vous devez :

Cet algorithme est applicable aux tables à quatre champs et à plusieurs champs.

5. Comment interpréter la valeur du test du Chi carré de Pearson ?

Si la valeur obtenue du critère χ 2 est supérieure à la valeur critique, nous concluons qu'il existe une relation statistique entre le facteur de risque étudié et le résultat au niveau de signification approprié.

6. Exemple de calcul du test du Chi carré de Pearson

Déterminons la signification statistique de l'influence du facteur tabagisme sur l'incidence de l'hypertension artérielle à l'aide du tableau discuté ci-dessus :

  1. Nous calculons les valeurs attendues pour chaque cellule :
  2. Trouvez la valeur du test du chi carré de Pearson :

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Nombre de degrés de liberté f = (2-1)*(2-1) = 1. A l'aide du tableau, on trouve la valeur critique du test du chi carré de Pearson, qui au niveau de signification p=0,05 et le nombre de les degrés de liberté 1 sont 3,841.
  4. Nous comparons la valeur obtenue du test du chi carré avec la valeur critique : 4,396 > 3,841, par conséquent, la dépendance de l'incidence de l'hypertension artérielle sur la présence de tabagisme est statistiquement significative. Le niveau de signification de cette relation correspond à p<0.05.

L'utilisation de ce critère repose sur l'utilisation d'une telle mesure (statistiques) de l'écart entre les valeurs théoriques F(x) et distribution empirique F* n (x) , qui obéit approximativement à la loi de distribution χ 2 . Hypothèse N 0 La cohérence des répartitions est vérifiée par l'analyse de la répartition de ces statistiques. L'application du critère nécessite la construction d'une série statistique.

Alors, laissez l'échantillon être présenté statistiquement à côté du nombre de chiffres M. Taux de réussite observé je- ème rang n je. Conformément à la loi théorique de distribution, la fréquence attendue des hits dans je-la catégorie est F je. La différence entre la fréquence observée et attendue sera ( n jeF je). Pour déterminer le degré global de divergence entre F(x) Et F* n (x) il est nécessaire de calculer la somme pondérée des carrés des différences sur tous les chiffres de la série statistique

Valeur χ 2 avec un grossissement illimité n a une distribution χ 2 (distribuée asymptotiquement comme χ 2). Cette répartition dépend du nombre de degrés de liberté k, c'est-à-dire le nombre de valeurs indépendantes des termes dans l'expression (3.7). Le nombre de degrés de liberté est égal au nombre oui moins le nombre de relations linéaires imposées à l'échantillon. Une connexion existe du fait que n'importe quelle fréquence peut être calculée à partir de la totalité des fréquences des autres fréquences. M–1 chiffres. De plus, si les paramètres de distribution ne sont pas connus à l’avance, il existe alors une autre limitation due à l’ajustement de la distribution à l’échantillon. Si l'échantillon détermine S paramètres de distribution, alors le nombre de degrés de liberté sera k= MS–1.

Zone d’acceptation des hypothèses N 0 est déterminé par la condition χ 2 < χ 2 (k; un) , où χ 2 (k; un) – point critique de la distribution χ2 avec niveau de signification un. La probabilité d'une erreur de type I est un, la probabilité d’une erreur de type II ne peut pas être clairement définie, car il existe un nombre infini de façons différentes pour lesquelles les distributions peuvent ne pas correspondre. La puissance du test dépend du nombre de chiffres et de la taille de l'échantillon. Il est recommandé d'appliquer ce critère lorsque n>200, l'utilisation est autorisée lorsque n>40, c'est dans ces conditions que le critère est valable (en règle générale, il rejette l'hypothèse nulle incorrecte).

Algorithme de vérification par critère

1. Construisez un histogramme en utilisant une méthode de probabilité égale.

2. Sur la base de l'apparence de l'histogramme, émettre une hypothèse

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

f 0 (x) - densité de probabilité d'une loi de distribution hypothétique (par exemple, uniforme, exponentielle, normale).

Commentaire. L'hypothèse sur la loi de distribution exponentielle peut être émise si tous les nombres de l'échantillon sont positifs.

3. Calculez la valeur du critère à l'aide de la formule

,


taux de réussite je-ième intervalle ;

p je- probabilité théorique qu'une variable aléatoire tombe dans je- ème intervalle à condition que l'hypothèse H 0 est correct.

Formules de calcul p je dans le cas de lois exponentielles, uniformes et normales, elles sont respectivement égales.

loi exponentielle

. (3.8)

En même temps UN 1 = 0, B m = +¥.

Loi uniforme

Loi normale

. (3.10)

En même temps UN 1 = -¥, BM = +¥.

Remarques. p je Après avoir calculé toutes les probabilités

vérifier si la relation de référence est satisfaite Fonction Ф( X

) - impair. Ф(+¥) = 1.
4. Dans le tableau du Chi carré en annexe, sélectionnez la valeur k, où a est le niveau de signification spécifié (a = 0,05 ou a = 0,01), et

k = M - 1 - S.

- le nombre de degrés de liberté, déterminé par la formule S Ici H- le nombre de paramètres dont dépend l'hypothèse choisie S 0 loi de distribution. Valeurs

pour la loi uniforme c'est 2, pour la loi exponentielle c'est 1, pour la loi normale c'est 2.
5. Si H, alors l'hypothèse

0 est rejeté. Sinon, il n'y a aucune raison de le rejeter : avec une probabilité 1 - b c'est vrai, et avec une probabilité - b c'est incorrect, mais la valeur de b est inconnue. . Exemple3 1. À l'aide du critère c 2, émettre et tester une hypothèse sur la loi de distribution d'une variable aléatoire X

, dont les séries de variations, les tableaux d'intervalles et les histogrammes de distribution sont donnés dans l'exemple 1.2. Le niveau de signification a est de 0,05. Solution 1. À l'aide du critère c 2, émettre et tester une hypothèse sur la loi de distribution d'une variable aléatoire. En nous basant sur l'apparition des histogrammes, nous émettons l'hypothèse que la variable aléatoire

H 0: f(x) = distribué selon la loi normale :(m N

H 1: f(x) ¹ distribué selon la loi normale :(m, s);

, s).

(3.11)

La valeur du critère est calculée à l'aide de la formule :

Comme indiqué ci-dessus, lors du test d’une hypothèse, il est préférable d’utiliser un histogramme à probabilité égale. Dans ce cas p je Probabilités théoriques

p Nous calculons à l'aide de la formule (3.10). En même temps, nous pensons que

0,5(-0,845+1) = 0,078.

p 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Après cela, sélectionnez la valeur critique dans le tableau « Chi carré »

.

Parce que
alors l'hypothèse H 0 est accepté (il n’y a aucune raison de le rejeter).

Si la valeur obtenue du critère χ 2 est supérieure à la valeur critique, nous concluons qu'il existe une relation statistique entre le facteur de risque étudié et le résultat au niveau de signification approprié.

Exemple de calcul du test du Chi carré de Pearson

Déterminons la signification statistique de l'influence du facteur tabagisme sur l'incidence de l'hypertension artérielle à l'aide du tableau discuté ci-dessus :

1. Calculez les valeurs attendues pour chaque cellule :

2. Trouvez la valeur du test du chi carré de Pearson :

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Nombre de degrés de liberté f = (2-1)*(2-1) = 1. À l'aide du tableau, nous trouvons la valeur critique du test du chi carré de Pearson, qui au niveau de signification p=0,05 et le le nombre de degrés de liberté 1 est 3,841.

4. Nous comparons la valeur obtenue du test du chi carré avec la valeur critique : 4,396 > 3,841, par conséquent, la dépendance de l'incidence de l'hypertension artérielle sur la présence de tabagisme est statistiquement significative. Le niveau de signification de cette relation correspond à p<0.05.

De plus, le test du Chi carré de Pearson est calculé à l'aide de la formule

Mais pour un tableau 2x2, des résultats plus précis sont obtenus par le critère de correction de Yates

Si Que N(0) accepté,

Au cas où accepté H(1)

Lorsque le nombre d'observations est faible et que les cellules du tableau contiennent une fréquence inférieure à 5, le test du chi carré n'est pas applicable et est utilisé pour tester des hypothèses. Test exact de Fisher . La procédure de calcul de ce critère demande beaucoup de travail et, dans ce cas, il est préférable d'utiliser des programmes informatiques d'analyse statistique.

À l'aide du tableau de contingence, vous pouvez calculer la mesure du lien entre deux caractéristiques qualitatives - c'est le coefficient d'association de Noël Q (analogue au coefficient de corrélation)

Q est compris entre 0 et 1. Un coefficient proche de un indique un lien fort entre les caractéristiques. S'il est égal à zéro, il n'y a pas de connexion .

Le coefficient phi carré (φ 2) est utilisé de la même manière

TÂCHE DE RÉFÉRENCE

Le tableau décrit la relation entre la fréquence de mutation dans les groupes de drosophiles avec et sans alimentation.



Analyse du tableau de contingence

Pour analyser le tableau de contingence, une hypothèse H 0 est avancée, c'est-à-dire l'absence d'influence de la caractéristique étudiée sur le résultat de l'étude. Pour cela, la fréquence attendue est calculée et un tableau d'espérance est construit.

Table d'attente

groupes Cultures Chilo Total
A donné des mutations N'a pas donné de mutations
Fréquence réelle Fréquence attendue Fréquence réelle Fréquence attendue
Avec alimentation
Sans alimentation
total

Méthode n°1

Déterminez la fréquence d’attente :

2756-X ;

2. 3561 – 3124

Si le nombre d'observations dans les groupes est faible, lors de l'utilisation de X 2, dans le cas de la comparaison des fréquences réelles et attendues pour des distributions discrètes, une certaine inexactitude est associée. Pour réduire l'inexactitude, la correction de Yates est utilisée.

Dans la pratique de la recherche biologique, il est souvent nécessaire de tester telle ou telle hypothèse, c'est-à-dire de savoir dans quelle mesure le matériel factuel obtenu par l'expérimentateur confirme l'hypothèse théorique et dans quelle mesure les données analysées coïncident avec les données théoriquement attendues. ceux. Il s'agit d'évaluer statistiquement la différence entre les données réelles et les attentes théoriques, en établissant dans quels cas et avec quel degré de probabilité cette différence peut être considérée comme fiable et, à l'inverse, quand elle doit être considérée comme insignifiante, insignifiante, dans les limites du hasard. Dans ce dernier cas, une hypothèse est retenue, sur la base de laquelle sont calculés des données ou des indicateurs théoriquement attendus. Une telle technique statistique variationnelle pour tester une hypothèse est la méthode chi carré (χ 2). Cette mesure est souvent appelée « critère d’ajustement » ou « test d’adéquation de Pearson ». Avec son aide, on peut, avec une probabilité variable, juger du degré de correspondance des données obtenues empiriquement avec celles théoriquement attendues.

D'un point de vue formel, deux séries de variations, deux populations sont comparées : l'une est une distribution empirique, l'autre est un échantillon avec les mêmes paramètres ( n, M, S etc.) est la même que la loi empirique, mais sa distribution de fréquence est construite en stricte conformité avec la loi théorique choisie (normale, Poisson, binomiale, etc.), à laquelle est censé obéir le comportement de la variable aléatoire étudiée .

De manière générale, la formule du critère de conformité peut s'écrire comme suit :

un - fréquence réelle des observations,

UN - fréquence théoriquement attendue pour une classe donnée.

L'hypothèse nulle suppose qu'il n'y a pas de différences significatives entre les distributions comparées. Pour évaluer l'importance de ces différences, vous devez vous référer à un tableau spécial des valeurs critiques du chi carré (tableau 9 P.) et, en comparant la valeur calculée χ 2 avec le tableau, décidez si la distribution empirique s'écarte de manière fiable ou non fiable de la distribution théorique. Ainsi, l’hypothèse de l’absence de ces différences sera soit réfutée, soit maintenue. Si la valeur calculée χ 2 est égal ou supérieur au tableau χ ² ( α , df), décident que la distribution empirique diffère significativement de la distribution théorique. Ainsi, l’hypothèse de l’absence de ces différences sera réfutée. Si χ ² < χ ² ( α , df), l'hypothèse nulle reste valable. Il est généralement admis que le niveau de signification acceptable α = 0,05, car dans ce cas, il n'y a que 5 % de chances que l'hypothèse nulle soit correcte et, par conséquent, il y a suffisamment de raisons (95 %) pour la rejeter.


Un certain problème est la détermination correcte du nombre de degrés de liberté ( df), pour lequel les valeurs des critères sont extraites du tableau. Déterminer le nombre de degrés de liberté à partir du nombre total de classes k il faut soustraire le nombre de contraintes (c'est-à-dire le nombre de paramètres utilisés pour calculer les fréquences théoriques).

Selon le type de distribution de la caractéristique étudiée, la formule de calcul du nombre de degrés de liberté changera. Pour alternative distributions ( k= 2) un seul paramètre (taille de l'échantillon) intervient dans les calculs, donc le nombre de degrés de liberté est df= k−1=2−1=1. Pour polynôme La formule de répartition est similaire : df= k−1. Pour vérifier la correspondance de la série de variations avec la distribution Poisson deux paramètres sont déjà utilisés : la taille de l'échantillon et la valeur moyenne (coïncidant numériquement avec la dispersion) ; nombre de degrés de liberté df= k−2. Lors de la vérification de la cohérence de la distribution empirique, l'option normale ou binôme Selon la loi, le nombre de degrés de liberté est égal au nombre de classes réelles moins trois conditions de construction de séries - taille de l'échantillon, moyenne et variance, df= k−3. Il convient de noter immédiatement que le critère χ² ne fonctionne que pour les échantillons volume d'au moins 25 variantes, et les fréquences des cours individuels devraient être pas inférieur à 4.

Tout d’abord, nous illustrons l’utilisation du test du Chi carré à l’aide d’un exemple d’analyse variabilité alternative. Dans une expérience visant à étudier l'hérédité des tomates, 3 629 fruits rouges et 1 176 fruits jaunes ont été trouvés. Le rapport théorique des fréquences pour la division des caractères dans la deuxième génération hybride devrait être de 3:1 (75 % à 25 %). Est-il mis en œuvre ? En d’autres termes, cet échantillon est-il issu d’une population dans laquelle le rapport de fréquence est de 3 : 1 ou de 0,75 : 0,25 ?

Créons un tableau (Tableau 4), en remplissant les valeurs des fréquences empiriques et les résultats du calcul des fréquences théoriques à l'aide de la formule :

UNE = n∙p,

p– les fréquences théoriques (fractions d'un type donné),

n – taille de l’échantillon.

Par exemple, UN 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Dans cette note, la distribution χ 2 est utilisée pour tester la cohérence d'un ensemble de données avec une distribution de probabilité fixe. Le critère d’accord est souvent Ô Votre appartenance à une catégorie particulière est comparée aux fréquences théoriquement attendues si les données avaient réellement la distribution spécifiée.

Les tests utilisant le critère d'adéquation χ 2 sont effectués en plusieurs étapes. Tout d’abord, une distribution de probabilité spécifique est déterminée et comparée aux données originales. Deuxièmement, une hypothèse est émise sur les paramètres de la distribution de probabilité sélectionnée (par exemple, son espérance mathématique) ou leur évaluation est effectuée. Troisièmement, sur la base de la distribution théorique, la probabilité théorique correspondant à chaque catégorie est déterminée. Enfin, la statistique du test χ2 est utilisée pour vérifier la cohérence des données et de la distribution :

f 0- fréquence observée, f e- fréquence théorique ou attendue, k- nombre de catégories restantes après fusion, r- nombre de paramètres à estimer.

Téléchargez la note au format ou, exemples au format

Utilisation du test d'adéquation χ2 pour la distribution de Poisson

Pour calculer à l'aide de cette formule dans Excel, il est pratique d'utiliser la fonction =SUMPRODUCT() (Fig. 1).

Pour estimer le paramètre λ vous pouvez utiliser l'estimation . Fréquence théorique 1. À l'aide du critère c 2, émettre et tester une hypothèse sur la loi de distribution d'une variable aléatoire succès (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 et plus) correspondant au paramètre λ = 2,9 peut être déterminé à l'aide de la fonction =POISSON.DIST(X;;FALSE). Multiplier la probabilité de Poisson par la taille de l'échantillon n, on obtient la fréquence théorique f e(Fig.2).

Riz. 2. Taux d'arrivée réels et théoriques par minute

Comme il ressort de la Fig. 2, la fréquence théorique de neuf arrivées ou plus ne dépasse pas 1,0. Pour garantir que chaque catégorie contient une fréquence de 1,0 ou plus, la catégorie « 9 ou plus » doit être combinée avec la catégorie « 8 ». Autrement dit, il reste neuf catégories (0, 1, 2, 3, 4, 5, 6, 7, 8 et plus). Puisque l’espérance mathématique de la distribution de Poisson est déterminée sur la base d’échantillons de données, le nombre de degrés de liberté est égal à k – p – 1 = 9 – 1 – 1 = 7. En utilisant un niveau de signification de 0,05, nous trouvons la valeur critique des statistiques χ 2, qui a 7 degrés de liberté selon la formule =CHI2.OBR(1-0,05;7) = 14,067. La règle de décision est formulée comme suit : hypothèse H 0 est rejetée si χ 2 > 14,067, sinon l'hypothèse H 0 ne s'écarte pas.

Pour calculer χ 2, nous utilisons la formule (1) (Fig. 3).

Riz. 3. Calcul du critère d'adéquation χ 2 pour la distribution de Poisson

Puisque χ 2 = 2,277< 14,067, следует, что гипотезу H 0 ne peut être rejeté. En d’autres termes, nous n’avons aucune raison d’affirmer que l’arrivée des clients à la banque n’obéit pas à la distribution de Poisson.

Application du test d'adéquation du χ 2 pour la distribution normale

Dans les notes précédentes, lors du test des hypothèses sur les variables numériques, nous avons supposé que la population étudiée était normalement distribuée. Pour vérifier cette hypothèse, vous pouvez utiliser des outils graphiques, par exemple une boîte à moustaches ou un graphique de distribution normale (pour plus de détails, voir). Pour les échantillons de grande taille, le test d'ajustement χ 2 pour une distribution normale peut être utilisé pour tester ces hypothèses.

Considérons, à titre d'exemple, les données sur les rendements sur 5 ans de 158 fonds d'investissement (Fig. 4). Supposons que vous souhaitiez savoir si les données sont normalement distribuées. Les hypothèses nulle et alternative sont formulées comme suit : H 0: le rendement à 5 ans suit une distribution normale, H1: Le rendement à 5 ans ne suit pas une distribution normale. La distribution normale a deux paramètres : l'espérance mathématique μ et l'écart type σ, qui peuvent être estimés sur la base de données d'échantillon. Dans ce cas = 10,149 et S = 4,773.

Riz. 4. Un tableau ordonné contenant des données sur le rendement annuel moyen sur cinq ans de 158 fonds

Les données sur les rendements des fonds peuvent par exemple être regroupées en classes (intervalles) d'une largeur de 5 % (Fig. 5).

Riz. 5. Distribution de fréquence pour les rendements annuels moyens sur cinq ans de 158 fonds

La distribution normale étant continue, il est nécessaire de déterminer l'aire des figures délimitée par la courbe de distribution normale et les limites de chaque intervalle. De plus, puisque la distribution normale s'étend théoriquement de –∞ à +∞, il est nécessaire de prendre en compte l'aire des formes qui se situent en dehors des limites de classe. Ainsi, l'aire sous la courbe normale à gauche du point –10 est égale à l'aire de la figure située sous la courbe normale normalisée à gauche de la valeur Z égale à

Z = (–10 – 10,149) / 4,773 = –4,22

L'aire de la figure située sous la courbe normale normalisée à gauche de la valeur Z = –4,22 est déterminée par la formule =NORM.DIST(-10;10.149;4.773;TRUE) et est approximativement égale à 0,00001. Afin de calculer l'aire de la figure située sous la courbe normale entre les points –10 et –5, vous devez d'abord calculer l'aire de la figure située à gauche du point –5 : =NORM.DIST( -5,10.149,4.773,VRAI) = 0.00075 . Ainsi, l'aire de la figure située sous la courbe normale entre les points –10 et –5 est 0,00075 – 0,00001 = 0,00074. De même, vous pouvez calculer l'aire de la figure limitée par les limites de chaque classe (Fig. 6).

Riz. 6. Zones et fréquences attendues pour chaque classe de retours sur 5 ans

On peut voir que les fréquences théoriques dans les quatre classes extrêmes (deux minimum et deux maximum) sont inférieures à 1, nous allons donc combiner les classes, comme le montre la figure 7.

Riz. 7. Calculs associés à l'utilisation du test d'adéquation χ 2 pour la distribution normale

Nous utilisons le test χ 2 pour vérifier l'accord entre les données et la distribution normale en utilisant la formule (1). Dans notre exemple, après la fusion, il reste six classes. Puisque la valeur attendue et l’écart type sont estimés à partir de données d’échantillon, le nombre de degrés de liberté est kp – 1 = 6 – 2 – 1 = 3. En utilisant un niveau de signification de 0,05, nous constatons que la valeur critique des statistiques χ 2, qui a trois degrés de liberté = CI2.OBR(1-0,05;F3) = 7,815. Les calculs associés à l'utilisation du critère d'adéquation χ 2 sont présentés dans la Fig. 7.

On peut voir que χ 2 -statistique = 3,964< χ U 2 7,815, следовательно гипотезу H 0 ne peut être rejeté. En d’autres termes, nous n’avons aucune raison de croire que les rendements sur 5 ans des fonds d’investissement à forte croissance ne sont pas normalement distribués.

Plusieurs articles récents ont exploré différentes approches d’analyse des données catégorielles. L'invention concerne des méthodes permettant de tester des hypothèses sur des données catégorielles obtenues à partir de l'analyse de deux échantillons indépendants ou plus. En plus des tests du chi carré, des procédures non paramétriques sont prises en compte. Le test de rang de Wilcoxon est décrit, qui est utilisé dans les situations où les conditions d'application ne sont pas remplies. t-des critères pour tester l'hypothèse d'égalité des attentes mathématiques de deux groupes indépendants, ainsi que le test de Kruskal-Wallis, qui est une alternative à l'analyse de variance à un facteur (Fig. 8).

Riz. 8. Schéma fonctionnel des méthodes de test des hypothèses sur les données catégorielles

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 763-769



Avez-vous aimé l'article? Partagez avec vos amis !