Lors de l'analyse série de variations distribution grande valeur a combien distribution empirique le signe correspond normale. Pour ce faire, les fréquences de la distribution réelle doivent être comparées aux fréquences théoriques, caractéristiques d'une distribution normale. Cela signifie que, sur la base de données réelles, il est nécessaire de calculer les fréquences théoriques de la courbe de distribution normale, qui sont fonction des écarts normalisés.
En d’autres termes, la courbe de distribution empirique doit être alignée sur la courbe de distribution normale.
Caractéristiques objectives de la conformité théorique Et empirique fréquences peut être obtenu en utilisant des indicateurs statistiques qui sont appelés critères de consentement.
Critère d'accord appelé un critère qui vous permet de déterminer si l'écart est empirique Et théorique les distributions sont aléatoires ou significatives, c'est-à-dire si les données d'observation sont en accord ou non avec l'hypothèse statistique avancée. Distribution population, qu'elle possède en raison de l'hypothèse avancée, est dite théorique.
Il est nécessaire d'installer critère(règle) qui permettrait de juger si l’écart entre les données empiriques et distributions théoriques aléatoire ou significatif. Si l'écart s'avère être aléatoire, alors ils pensent que les données d'observation (échantillon) sont cohérentes avec l'hypothèse avancée sur la loi de répartition de la population générale et, par conséquent, l'hypothèse est acceptée ; si l'écart s'avère être significatif, alors les données d'observation ne sont pas d'accord avec l'hypothèse et celle-ci est rejetée.
Généralement, les fréquences empiriques et théoriques diffèrent parce que :
- l'écart est aléatoire et dû à quantité limitée observations;
- l'écart n'est pas aléatoire et s'explique par le fait que l'hypothèse statistique selon laquelle la population est normalement distribuée est erronée.
Ainsi, critères de consentement permettre de rejeter ou de confirmer la justesse de l'hypothèse avancée lors de l'alignement des séries sur la nature de la distribution dans la série empirique.
Fréquences empiriques obtenu à la suite de l’observation. Fréquences théoriques calculé à l'aide de formules.
Pour loi de distribution normale ils peuvent être trouvés comme suit :
- Σƒ je - somme des fréquences empiriques accumulées (cumulatives)
- h - différence entre deux options voisines
- σ - écart type de l'échantillon
- écart t-normalisé (standardisé)
- φ(t) – fonction de densité de probabilité de distribution normale (trouvée pour la valeur correspondante de t)
Il existe plusieurs tests d'adéquation, dont les plus courants sont : le test du chi carré (Pearson), le test de Kolmogorov, le test de Romanovsky.
Test d'adéquation de Pearson χ 2– l'une des principales, qui peut être représentée comme la somme des rapports des carrés des différences entre les fréquences théoriques (f T) et empiriques (f) aux fréquences théoriques :
- k est le nombre de groupes en lesquels la distribution empirique est divisée,
- f je –fréquence observée du trait dans le i-ème groupe,
- fT – fréquence théorique.
Pour la distribution χ 2, des tableaux ont été compilés qui indiquent la valeur critique du critère d'adéquation χ 2 pour le niveau de signification sélectionné α et les degrés de liberté df (ou ν).
Le niveau de signification α est la probabilité de rejeter par erreur l'hypothèse proposée, c'est-à-dire la probabilité qu'une hypothèse correcte soit rejetée. R- signification statistique
acceptation hypothèse correcte. En statistique, trois niveaux de signification sont le plus souvent utilisés :
α=0,10, puis P=0,90 (dans 10 cas sur 100)
α=0,05, puis P=0,95 (dans 5 cas sur 100)
α=0,01, puis P=0,99 (dans 1 cas sur 100) l'hypothèse correcte peut être rejetée
Le nombre de degrés de liberté df est défini comme le nombre de groupes dans la série de distribution moins le nombre de connexions : df = k –z. Le nombre de connexions s'entend comme le nombre d'indicateurs des séries empiriques utilisées dans le calcul des fréquences théoriques, c'est-à-dire indicateurs reliant les fréquences empiriques et théoriques.Par exemple, lorsqu'il est aligné sur une courbe en cloche, il existe trois relations.Par conséquent, lorsqu’il est aligné parcourbe en clochele nombre de degrés de liberté est défini par df =k–3.Pour évaluer la signification, la valeur calculée est comparée au tableau χ 2 tableaux
Avec coïncidence complète des distributions théorique et empirique χ 2 =0, sinon χ 2 >0. Si χ 2 calc > χ 2 tab , alors pour un niveau de signification et un nombre de degrés de liberté donnés, nous rejetons l'hypothèse de l'insignifiance (caractère aléatoire) des écarts. Si χ 2 calculé< χ 2 табл то nous acceptons l'hypothèse et avec une probabilité P = (1-α), on peut affirmer que l'écart entre théorique et fréquences empiriques accidentellement. Il y a donc lieu d’affirmer que la distribution empirique obéit répartition normale. Le test d'adéquation de Pearson est utilisé si la taille de la population est suffisamment grande (N>50) et que la fréquence de chaque groupe doit être d'au moins 5.
Basé sur la détermination de l'écart maximal entre les fréquences empiriques et théoriques accumulées :
où D et d sont respectivement la différence maximale entre les fréquences cumulées et les fréquences cumulées des distributions empiriques et théoriques.
À l'aide du tableau de distribution des statistiques de Kolmogorov, la probabilité est déterminée, qui peut varier de 0 à 1. Lorsque P(λ) = 1, il y a une coïncidence complète des fréquences, P(λ) = 0 - une divergence complète. Si la valeur de probabilité P est significative par rapport à la valeur trouvée λ, alors nous pouvons supposer que les écarts entre les distributions théorique et empirique sont insignifiants, c'est-à-dire qu'ils sont aléatoires.
La principale condition pour utiliser le critère de Kolmogorov est que grand nombre observations.
Test d'ajustement de Kolmogorov
Considérons comment le critère de Kolmogorov (λ) est appliqué lorsque tester l'hypothèse de distribution normale population générale.L'alignement de la distribution réelle sur la courbe en cloche comprend plusieurs étapes :
- Comparez les fréquences réelles et théoriques.
- Sur la base de données réelles, les fréquences théoriques de la courbe de distribution normale, qui sont fonction de l'écart normalisé, sont déterminées.
- Ils vérifient dans quelle mesure la distribution de la caractéristique correspond à la normale.
PourIVcolonnes du tableau :
Dans MS Excel, l'écart normalisé (t) est calculé à l'aide de la fonction NORMALISATION. Il est nécessaire de sélectionner une plage de cellules libres par le nombre d'options (lignes tableur). Sans supprimer la sélection, appelez la fonction NORMALIZE. Dans la boîte de dialogue qui apparaît, précisez les cellules suivantes, qui contiennent respectivement les valeurs observées (X i), la moyenne (X) et l'écart type Ϭ. L'opération doit être terminée simultané en appuyant sur Ctrl+Maj+Entrée
PourVcolonnes du tableau :
La fonction de densité de probabilité de la distribution normale φ(t) se trouve à partir du tableau des valeurs de la fonction de Laplace locale pour la valeur correspondante de l'écart normalisé (t)
PourVIcolonnes du tableau :
Test d'ajustement de Kolmogorov (λ) déterminé en divisant le moduledifférence maximaleentre les fréquences cumulées empiriques et théoriques par la racine carrée du nombre d'observations :
En utilisant une table de probabilité spéciale pour le critère d'accord λ, nous déterminons que la valeur λ = 0,59 correspond à une probabilité de 0,88 (λ
Distribution des fréquences empiriques et théoriques, densité de probabilité de la distribution théorique
Lors de l'application de tests d'adéquation pour vérifier si la distribution observée (empirique) correspond à la distribution théorique, il convient de faire la distinction entre le test d'hypothèses simples et complexes.
Le test de normalité de Kolmogorov-Smirnov sur un échantillon est basé sur différence maximale entre cumulatif distribution empiriqueéchantillon et la distribution cumulative supposée (théorique). Si la statistique D de Kolmogorov-Smirnov est significative, alors l’hypothèse selon laquelle la distribution correspondante est normale doit être rejetée.
Voir aussi
Critères pour tester le caractère aléatoire et évaluer les observations aberrantes Littérature Introduction En pratique analyse statistique données expérimentales, l’intérêt principal n’est pas le calcul lui-même de certaines statistiques, mais les réponses à des questions de ce type. Ainsi, de nombreux critères ont été élaborés pour vérifier les arguments avancés. hypothèses statistiques. Tous les critères permettant de tester les hypothèses statistiques sont divisés en deux grands groupes: paramétrique et non paramétrique.
Partagez votre travail sur les réseaux sociaux
Si cette œuvre ne vous convient pas, en bas de page se trouve une liste d’œuvres similaires. Vous pouvez également utiliser le bouton de recherche
Utiliser les critères de consentement
Introduction
Littérature
Introduction
Dans la pratique de l'analyse statistique de données expérimentales, l'intérêt principal n'est pas le calcul de certaines statistiques lui-même, mais les réponses à des questions de ce type. La moyenne de la population est-elle vraiment égale à un certain nombre ? Le coefficient de corrélation est-il significativement différent de zéro ? Les variances des deux échantillons sont-elles égales ? Et de nombreuses questions de ce type peuvent se poser, en fonction du problème de recherche spécifique. Ainsi, de nombreux critères ont été développés pour tester les hypothèses statistiques proposées. Nous examinerons certains des plus courants. Ceux-ci porteront principalement sur les moyennes, les variances, les coefficients de corrélation et les distributions d'abondance.
Tous les critères permettant de tester les hypothèses statistiques sont divisés en deux grands groupes : paramétriques et non paramétriques. Les tests paramétriques reposent sur l'hypothèse que les données de l'échantillon sont tirées d'une population dont la distribution est connue, et la tâche principale est d'estimer les paramètres de cette distribution. Les tests non paramétriques ne nécessitent aucune hypothèse sur la nature de la distribution, autre que l'hypothèse selon laquelle elle est continue.
Regardons d'abord critères paramétriques. La séquence de test comprendra la formulation de l'hypothèse nulle et de l'hypothèse alternative, la formulation des hypothèses à formuler, la détermination des statistiques d'échantillon utilisées dans le test et la formation de la distribution d'échantillon des statistiques testées, la identification des régions critiques pour le critère sélectionné et construction d'un intervalle de confiance pour les statistiques de l'échantillon.
1 Critères d'adéquation des moyens
Supposons que l'hypothèse testée soit celle du paramètre de population. La nécessité d’un tel contrôle peut survenir, par exemple, dans la situation suivante. Supposons que, sur la base de recherches approfondies, le diamètre de la coquille d'un mollusque fossile dans les sédiments d'un emplacement fixe ait été établi. Disposons également d'un certain nombre de coquilles trouvées à un autre endroit, et nous faisons l'hypothèse qu'un endroit précis n'affecte pas le diamètre de la coquille, c'est-à-dire que la valeur moyenne du diamètre de la coquille pour l'ensemble de la population de mollusques qui vivaient autrefois dans un nouvel endroit est égale à la valeur connue obtenue précédemment lors de l'étude de ce type de mollusque dans le premier habitat.
Si ceci valeur connue est égale, alors l'hypothèse nulle et l'hypothèse alternative s'écrivent comme suit : Supposons que la variable x dans la population considérée a répartition normale, et l'ampleur de la variance de la population est inconnue.
Nous testerons l’hypothèse à l’aide de statistiques :
, (1)
où est l’écart type de l’échantillon.
Il a été montré que si c'est vrai, alors t dans l'expression (1) a une distribution t de Student avec n-1 degrés de liberté. Si nous choisissons le niveau de signification (la probabilité de rejeter l'hypothèse correcte) égal, alors conformément à ce qui a été discuté dans chapitre précédent, vous pouvez définir des valeurs critiques pour vérifier =0.
DANS dans ce cas, puisque la distribution de Student est symétrique, alors (1-) une partie de l'aire sous la courbe de cette distribution avec n-1 degrés de liberté sera contenue entre les points et, qui sont égaux les uns aux autres dans valeur absolue. Par conséquent, toutes les valeurs sont inférieures à une valeur négative et supérieures à une valeur positive pour une distribution t avec numéro donné les degrés de liberté au niveau de signification choisi constitueront la région critique. Si la valeur t de l'échantillon se situe dans cette région, l'hypothèse alternative est acceptée.
Intervalle de confiance for est construit selon la méthode décrite précédemment et est déterminé à partir de l'expression suivante
(2)
Sachons donc dans notre cas que le diamètre de la coquille d'un mollusque fossile est de 18,2 mm. Nous avions à notre disposition un échantillon de 50 coquilles nouvellement trouvées, pour lesquelles mm, a = 2,18 mm. Vérifions : =18,2 contre On a
Si le niveau de signification est choisi =0,05 alors valeur critique. Il s’ensuit qu’il peut être rejeté en faveur au niveau de signification =0,05. Ainsi, pour notre exemple hypothétique, on peut affirmer (avec une certaine probabilité, bien sûr) que le diamètre de la coquille des mollusques fossiles certain type cela dépend des endroits dans lesquels ils ont vécu.
Étant donné que la distribution t est symétrique, seulement valeurs positives t de cette distribution à des niveaux de signification sélectionnés et en nombre de degrés de liberté. De plus, non seulement la part de l'aire sous la courbe de distribution à droite de la valeur t est prise en compte, mais également à gauche de la valeur -t. Cela est dû au fait que dans la plupart des cas, lors du test d'hypothèses, nous nous intéressons à la signification des écarts en eux-mêmes, que ces écarts soient plus grands ou plus petits, c'est-à-dire on vérifie par rapport, et non par : >a ou : Revenons maintenant à notre exemple. L'intervalle de confiance de 100(1-) % pour est 18,92,01
Considérons maintenant le cas où il est nécessaire de comparer les moyennes de deux populations générales. L'hypothèse testée ressemble à ceci : : =0, : 0. On suppose également qu'elle a une distribution normale avec une moyenne et une variance, et - une distribution normale avec une moyenne et la même variance. De plus, nous supposons que les échantillons à partir desquels les populations générales sont estimées sont extraits indépendamment les uns des autres et ont respectivement un volume et. De l'indépendance des échantillons, il s'ensuit que si nous en prenons un plus grand nombre et calculons la moyenne valeurs pour chaque paire, alors l'ensemble de ces paires de moyennes sera complètement décorrélé. Les tests d'hypothèse nulle sont effectués à l'aide de statistiques (3)
où et sont des estimations de variance pour le premier et le deuxième échantillons, respectivement. Il est facile de voir que (3) est une généralisation de (1). Il a été montré que les statistiques (3) ont une distribution t de Student avec degrés de liberté. Si et sont égaux, c'est-à-dire = = la formule (3) est simplifiée et a la forme (4)
Regardons un exemple. Supposons qu’en mesurant les feuilles caulinaires d’une même population végétale sur deux saisons, on obtienne les résultats suivants : Nous supposons que les conditions d’utilisation du test de Student, c’est-à-dire la normalité des populations dans lesquelles sont prélevés les échantillons, l'existence d'une variance inconnue mais identique pour ces populations et l'indépendance des échantillons sont satisfaites. Estimons au niveau de signification =0,01. Nous avons Valeur du tableau t = 2,58. Par conséquent, l'hypothèse de l'égalité des valeurs moyennes de la longueur des feuilles de la tige pour une population végétale sur deux saisons doit être rejetée au niveau de signification choisi. Attention! L'hypothèse nulle en statistique mathématique est l'hypothèse selon laquelle il n'y a pas de différences significatives entre les indicateurs comparés, qu'il s'agisse de moyennes, de variances ou d'autres statistiques. Et dans tous ces cas, si la valeur empirique (calculée par formule) du critère est supérieure à la valeur théorique (sélectionnée dans les tableaux), il est rejeté. Si la valeur empirique est inférieure à la valeur tabulée, alors elle est acceptée. Afin de construire un intervalle de confiance pour la différence entre les moyennes de ces deux populations, prêtons attention au fait que le test de Student, comme le montre la formule (3), évalue la significativité de la différence entre les moyennes relatives à l'erreur type de cette différence. Il est facile de vérifier que le dénominateur de (3) représente précisément cette erreur type en utilisant les relations et les hypothèses évoquées précédemment. En fait, nous savons qu'en général Si x et y sont indépendants, alors le sont aussi En prenant des valeurs d'échantillon et au lieu de x et y, et en rappelant l'hypothèse faite selon laquelle les deux populations ont la même variance, on obtient (5)
L'estimation de la variance peut être obtenue à partir de la relation suivante (6)
(Nous divisons par car deux quantités sont estimées à partir des échantillons et, par conséquent, le nombre de degrés de liberté doit être réduit de deux.) Si nous remplaçons maintenant (6) dans (5) et prenons la racine carrée, nous obtenons le dénominateur dans l'expression (3). Après cette digression, revenons à la construction d'un intervalle de confiance pour travers -. Nous avons Faisons quelques commentaires liés aux hypothèses utilisées dans la construction du test t. Tout d'abord, il a été montré que les violations de l'hypothèse de normalité pour ont un effet insignifiant sur le niveau de signification et la puissance du test pour 30. Les violations de l'hypothèse d'homogénéité des variances des deux populations à partir desquelles les échantillons sont prélevés sont également insignifiant, mais seulement dans le cas où les tailles d’échantillon sont égales. Si les variances des deux populations diffèrent les unes des autres, alors les probabilités d'erreurs des premier et deuxième types différeront considérablement de celles attendues. Dans ce cas, le critère doit être utilisé pour vérifier (7)
avec le nombre de degrés de liberté . (8)
En règle générale, il s'avère qu'il s'agit d'un nombre fractionnaire. Par conséquent, lors de l'utilisation de tableaux de distribution t, il est nécessaire de prendre les valeurs du tableau pour les valeurs entières les plus proches et d'interpoler pour trouver le t correspondant au en a obtenu un. Regardons un exemple. Lors de l'étude de deux sous-espèces de grenouilles de lac, le rapport entre la longueur du corps et la longueur du tibia a été calculé. Deux échantillons ont été prélevés avec des volumes =49 et =27. Les moyennes et les variances de la relation qui nous intéresse se sont révélées égales, respectivement, =2,34 ; =2,08 ; =0,21 ; =0,35. Si nous testons maintenant l'hypothèse à l'aide de la formule (2), nous obtenons que Au niveau de signification =0,05, il faut rejeter l'hypothèse nulle (valeur tabulée t = 1,995) et supposer qu'il existe des différences statistiquement significatives au niveau de signification choisi entre les valeurs moyennes des paramètres mesurés pour les deux sous-espèces de grenouilles. . En utilisant les formules (6) et (7) nous avons Dans ce cas, pour le même niveau de signification =0,05, la valeur du tableau est t=2,015 et l'hypothèse nulle est acceptée. Cet exemple montre clairement que négliger les conditions acceptées lors de la dérivation d'un critère particulier peut conduire à des résultats directement opposés à ceux qui se produisent réellement. Bien entendu, dans ce cas, ayant des échantillons de tailles différentes en l'absence de fait préétabli que les variances de l'indicateur mesuré dans les deux populations sont statistiquement égales, il a fallu utiliser les formules (7) et (8), qui ont montré l’absence de différences statistiquement significatives. Par conséquent, je voudrais répéter une fois de plus que vérifier le respect de toutes les hypothèses formulées lors de l'élaboration d'un critère particulier est une condition absolument nécessaire à son utilisation correcte. L’exigence constante dans les deux modifications ci-dessus du test t était l’exigence que les échantillons soient indépendants les uns des autres. Cependant, dans la pratique, il arrive souvent que cette exigence ne puisse être satisfaite pour des raisons objectives. Par exemple, certains indicateurs sont mesurés sur un même animal ou zone de territoire avant et après l’action d’un facteur extérieur, etc. Et dans ces cas, nous pourrions être intéressés à tester l’hypothèse. Nous continuerons de supposer que les deux échantillons proviennent de populations normales présentant la même variance. Dans ce cas, nous pouvons profiter du fait que les différences entre des quantités normalement distribuées ont également une distribution normale, et donc nous pouvons utiliser le test t de Student sous la forme de (1). Ainsi, l'hypothèse sera testée selon laquelle n différences sont un échantillon d'une population normalement distribuée avec une moyenne égale à zéro. En désignant la i-ème différence par, nous avons , (9) Regardons un exemple. Ayons à notre disposition des données sur le nombre d'impulsions d'une cellule nerveuse individuelle pendant un certain intervalle de temps avant () et après () l'action du stimulus : Par conséquent, en gardant à l’esprit que (9) a une distribution t et en choisissant un niveau de signification de =0,01, dans le tableau correspondant en annexe, nous constatons que la valeur critique de t pour n-1=10-1=9 degrés de liberté est de 3,25. Une comparaison des valeurs théoriques et empiriques de la statistique t montre que l'hypothèse nulle d'absence de différences statistiquement significatives entre les taux de déclenchement avant et après le stimulus doit être rejetée. On peut conclure que le stimulus utilisé modifie statistiquement de manière significative la fréquence des impulsions. Dans les études expérimentales, comme mentionné ci-dessus, des échantillons dépendants apparaissent assez souvent. Cependant, ce fait est parfois ignoré et le test t est utilisé de manière incorrecte dans le formulaire (3). Le caractère inapproprié de cette situation peut être constaté en considérant les erreurs types de la différence entre les moyennes non corrélées et corrélées. Dans le premier cas Et dans la seconde L'erreur type de la différence d est En tenant compte de cela, le dénominateur en (9) aura la forme Faisons maintenant attention au fait que les numérateurs des expressions (4) et (9) coïncident : par conséquent, la différence de valeur de t dépend des dénominateurs. Ainsi, si la formule (3) est utilisée dans un problème avec des échantillons dépendants et que les échantillons ont une corrélation positive, alors les valeurs t résultantes seront inférieures à ce qu'elles devraient être lors de l'utilisation de la formule (9), et une situation peut survenir où l'hypothèse nulle sera acceptée lorsqu'elle est fausse. La situation inverse peut se produire lorsqu'il existe une corrélation négative entre les échantillons, c'est-à-dire dans ce cas, des différences seront reconnues comme significatives alors qu’elles ne le sont pas. Revenons à l'exemple avec l'activité impulsionnelle et calculons la valeur t pour les données données à l'aide de la formule (3), sans prêter attention au fait que les échantillons sont liés. On a : Pour le nombre de degrés de liberté égal à 18, et le niveau de signification = 0,01, la valeur du tableau est t = 2,88 et, à première vue, il semble que rien ne se soit produit, même en utilisant une formule inadaptée au conditions données. Et dans ce cas, la valeur t calculée conduit au rejet de l’hypothèse nulle, c’est-à-dire à la même conclusion que celle tirée de la formule (9), correcte dans cette situation. Cependant, reformatons les données existantes et présentons-les sous la forme suivante (2) : Ce sont les mêmes valeurs, et elles pourraient bien être obtenues dans l’une des expériences. Étant donné que toutes les valeurs des deux échantillons sont conservées, l'utilisation du test t de Student dans la formule (3) donne la valeur précédemment obtenue = 3,32 et conduit à la même conclusion que celle déjà tirée. Calculons maintenant la valeur de t à l’aide de la formule (9), qui devrait être utilisée dans ce cas. Nous avons : La valeur critique de t au niveau de signification sélectionné et à neuf degrés de liberté est de 3,25. Par conséquent, nous n'avons aucune raison de rejeter l'hypothèse nulle, nous l'acceptons, et il s'avère que cette conclusion est directement opposée à celle qui a été tirée lors de l'utilisation de la formule (3). Grâce à cet exemple, nous avons été une fois de plus convaincus de l'importance d'obtenir des conclusions correctes lors de l'analyse des données expérimentales afin de respecter strictement toutes les exigences qui ont servi de base à la détermination d'un critère particulier. Les modifications envisagées du test de Student visent à tester des hypothèses concernant la moyenne de deux échantillons. Cependant, des situations surviennent lorsqu'il devient nécessaire de tirer en même temps des conclusions sur l'égalité des k moyennes. Pour ce cas, une certaine procédure statistique a également été développée, qui sera discutée plus tard lors de l'examen des questions liées à l'analyse de la variance. 2 tests d'adéquation pour les écarts Les tests d'hypothèses statistiques concernant les variances de population sont effectués dans le même ordre que pour les moyennes. Rappelons brièvement cette séquence. 1. Une hypothèse nulle est formulée (sur l'absence de différences statistiquement significatives entre les variances comparées). 2. Certaines hypothèses sont faites concernant la distribution d'échantillonnage des statistiques avec lesquelles il est prévu d'estimer le paramètre inclus dans l'hypothèse. 3. Le niveau de signification pour tester l'hypothèse est sélectionné. 4. La valeur des statistiques qui nous intéressent est calculée et une décision est prise concernant la véracité de l'hypothèse nulle. Commençons maintenant par tester l'hypothèse selon laquelle la variance de la population =a, c'est-à-dire contre. Si nous supposons que la variable x a une distribution normale et qu'un échantillon de taille n est tiré au hasard dans la population, alors les statistiques sont utilisées pour tester l'hypothèse nulle. (10)
En nous rappelant la formule de calcul de la dispersion, nous réécrivons (10) comme suit : . (11)
De cette expression, il ressort clairement que le numérateur est la somme des carrés des écarts des valeurs normalement distribuées par rapport à leur moyenne. Chacun de ces écarts est également normalement distribué. Par conséquent, conformément à la distribution que nous connaissons, les sommes des carrés des valeurs normalement distribuées des statistiques (10) et (11) ont une distribution -avec n-1 degrés de liberté. Par analogie avec l'utilisation de la distribution t, lors de la vérification du niveau de signification sélectionné, des points critiques sont établis à partir du tableau de distribution, correspondant aux probabilités d'acceptation de l'hypothèse nulle et. L’intervalle de confiance pour at selected est construit comme suit : . (12)
Regardons un exemple. Supposons, sur la base de recherches expérimentales approfondies, que la dispersion de la teneur en alcaloïdes d'une espèce végétale d'une certaine zone est égale à 4,37 unités conventionnelles. Le spécialiste dispose d'un échantillon de n = 28 plantes de ce type, vraisemblablement originaires de la même zone. L'analyse a montré que pour cet échantillon = 5,01 et nous devons nous assurer que cette variance et les variances connues précédemment sont statistiquement impossibles à distinguer au niveau de signification = 0,1. D'après la formule (10) on a La valeur résultante doit être comparée aux valeurs critiques /2=0,05 et 1--/2=0,95. D'après le tableau de l'annexe pour 27 degrés de liberté, nous avons respectivement 40,1 et 16,2, ce qui signifie que l'hypothèse nulle peut être acceptée. L'intervalle de confiance correspondant pour est de 3,37<<8,35.
Contrairement au test des hypothèses concernant les moyennes d'échantillon à l'aide du test de Student, lorsque les erreurs des premier et deuxième types ne changeaient pas de manière significative lorsque l'hypothèse de distribution normale des populations était violée, dans le cas des hypothèses sur les variances lorsque les conditions de normalité n'étaient pas rencontrées, les erreurs ont changé de manière significative. Le problème considéré ci-dessus concernant l'égalité de la variance par rapport à une valeur fixe est d'un intérêt limité, car les situations sont assez rares lorsque la variance de la population est connue. Le cas le plus intéressant est celui où il faut vérifier si les variances de deux populations sont égales, c'est-à-dire tester une hypothèse par rapport à une alternative. On suppose que les échantillons de taille et sont tirés au hasard dans la population générale avec des variances et. Pour tester l'hypothèse nulle, le test du rapport de variance de Fisher est utilisé (13)
Étant donné que les sommes des écarts carrés des variables aléatoires normalement distribuées par rapport à leurs moyennes ont une distribution, le numérateur et le dénominateur de (13) sont des valeurs distribuées divisées par et respectivement, et leur rapport a donc une distribution F avec -1 et -1 degrés de liberté. Il est généralement admis - et c'est ainsi que sont construits les tableaux de distribution F - que la plus grande des variances est prise comme numérateur dans (13), et donc un seul point critique est déterminé, correspondant au niveau de signification choisi. Disposons de deux échantillons de volume =11 et =28 provenant de populations d'escargots de bassin communs et ovales, pour lesquels les rapports hauteur sur largeur présentent des variances =0,59 et =0,38. Il est nécessaire de tester l'hypothèse d'égalité de ces variances de ces indicateurs pour les populations étudiées au niveau de signification =0,05. Nous avons Dans la littérature, on peut parfois trouver une affirmation selon laquelle le test de l'hypothèse d'égalité des moyennes à l'aide du test t de Student doit être précédé du test de l'hypothèse d'égalité des variances. C’est une mauvaise recommandation. De plus, cela peut conduire à des erreurs qui peuvent être évitées si elles ne sont pas respectées. En effet, les résultats du test de l'hypothèse d'égalité des variances à l'aide du test de Fisher dépendent largement de l'hypothèse selon laquelle les échantillons sont tirés de populations ayant une distribution normale. Dans le même temps, le test de Student est insensible aux violations de la normalité, et s'il est possible d'obtenir des échantillons de taille égale, alors l'hypothèse d'égalité des variances n'est pas non plus significative. Dans le cas de n inégal, les formules (7) et (8) doivent être utilisées pour la vérification. Lors du test d'hypothèses sur l'égalité des variances, certaines caractéristiques apparaissent dans les calculs associés aux échantillons dépendants. Dans ce cas, les statistiques sont utilisées pour tester une hypothèse par rapport à une alternative. (14)
Si l'hypothèse nulle est vraie, alors les statistiques (14) ont une distribution t de Student avec n-2 degrés de liberté. Lors de la mesure de la brillance de 35 échantillons de revêtement, une dispersion de = 134,5 a été obtenue. Des mesures répétées deux semaines plus tard ont montré =199,1. Dans ce cas, le coefficient de corrélation entre les mesures appariées s'est avéré être égal à =0,876. Si nous ignorons le fait que les échantillons sont dépendants et utilisons le test de Fisher pour tester l'hypothèse, nous obtenons F=1,48. Si vous choisissez le niveau de signification =0,05, alors l'hypothèse nulle sera acceptée, puisque la valeur critique de la distribution F pour =35-1=34 et =35-1=34 degrés de liberté est de 1,79. Dans le même temps, si l'on utilise la formule (14) adaptée à ce cas, on obtient t = 2,35, tandis que la valeur critique de t pour 33 degrés de liberté et le niveau de signification choisi = 0,05 est égal à 2,03. Par conséquent, l’hypothèse nulle d’égalité des variances dans les deux échantillons doit être rejetée. Ainsi, à partir de cet exemple, il ressort clairement que, comme dans le cas du test de l'hypothèse d'égalité des moyennes, l'utilisation d'un critère qui ne prend pas en compte les spécificités des données expérimentales conduit à une erreur. Dans la littérature recommandée, vous pouvez trouver le test de Bartlett, qui est utilisé pour tester des hypothèses sur l'égalité simultanée de k variances. Outre le fait que le calcul statistique de ce critère est assez laborieux, le principal inconvénient de ce critère est qu'il est exceptionnellement sensible aux écarts par rapport à l'hypothèse de distribution normale des populations à partir desquelles les échantillons sont tirés. Ainsi, lorsque vous l’utilisez, vous ne pouvez jamais être sûr que l’hypothèse nulle est réellement rejetée parce que les variances sont statistiquement significativement différentes, et non parce que les échantillons ne sont pas normalement distribués. Ainsi, si le problème de la comparaison de plusieurs variances se pose, il faut rechercher une formulation du problème où il sera possible d'utiliser le critère de Fisher ou ses modifications. 3 Critères d'accord sur les actions Très souvent, il est nécessaire d'analyser des populations dans lesquelles les objets peuvent être classés dans l'une des deux catégories suivantes. Par exemple, par sexe dans une certaine population, par la présence d'un certain oligo-élément dans le sol, par la couleur foncée ou claire des œufs chez certaines espèces d'oiseaux, etc. Nous désignons la proportion d'éléments qui ont une certaine qualité par P, où P représente le rapport des objets ayant la qualité qui nous intéresse à tous les objets de l'agrégat.
Où