Le test t paramétrique de l'étudiant évalue. Distribution du test t de Student pour tester l'hypothèse sur la moyenne et calculer l'intervalle de confiance dans MS Excel

Les tests d'hypothèses statistiques nous permettent de tirer des conclusions solides sur les caractéristiques d'une population sur la base de données d'échantillonnage. Il existe différentes hypothèses. L'une d'elles est l'hypothèse sur la moyenne (espérance mathématique). Son essence est de tirer une conclusion correcte, basée uniquement sur l'échantillon disponible, sur l'endroit où l'avarie commune peut ou non se situer (nous ne connaîtrons jamais la vérité exacte, mais nous pouvons affiner la recherche).

L’approche générale pour tester les hypothèses a été décrite, allons donc droit au but. Supposons d'abord que l'échantillon soit tiré d'une population normale de variables aléatoires X avec moyenne générale μ et écart σ 2(Je sais, je sais que cela n’arrive pas, mais ne m’interrompez pas !). La moyenne arithmétique de cet échantillon est évidemment elle-même une variable aléatoire. Si vous extrayez un grand nombre de ces échantillons et calculez leurs moyennes, ils auront également une attente mathématique μ Et

Alors la variable aléatoire

La question se pose : la moyenne générale avec une probabilité de 95 % se situera-t-elle à ±1,96 s x̅. En d’autres termes, les distributions de variables aléatoires sont-elles

équivalent.

Cette question a été posée pour la première fois (et résolue) par un chimiste qui travaillait à l'usine de bière Guinness à Dublin (Irlande). Le nom du chimiste était William Seely Gossett et il a prélevé des échantillons de bière pour analyse chimique. À un moment donné, apparemment, William a commencé à être tourmenté par de vagues doutes sur la répartition des moyennes. Il s’est avéré qu’elle était un peu plus étalée qu’une distribution normale ne devrait l’être.

Après avoir rassemblé les bases mathématiques et calculé les valeurs de la fonction de distribution qu'il a découverte, le chimiste de Dublin William Gosset a écrit une note qui a été publiée dans le numéro de mars 1908 du magazine Biometrics (rédacteur en chef - Karl Pearson). Parce que La Guinness a strictement interdit de divulguer les secrets de brassage ; Gossett a signé sous le pseudonyme Student.

Malgré le fait que K. Pearson avait déjà inventé la distribution, l'idée générale de normalité dominait toujours. Personne n’allait penser que la distribution des scores des échantillons pourrait ne pas être normale. L’article de W. Gosset est donc resté pratiquement inaperçu et oublié. Et seul Ronald Fisher a apprécié la découverte de Gosset. Fischer a utilisé la nouvelle distribution dans son travail et lui a donné le nom Distribution t de Student. Le critère pour tester les hypothèses est donc devenu Test t de Student. C’est ainsi qu’une « révolution » s’est produite dans le domaine des statistiques, qui est entrée dans l’ère de l’analyse des données d’échantillonnage. Ce fut une courte excursion dans l’histoire.

Voyons ce que W. Gossett a pu voir. Générons 20 000 échantillons normaux à partir de 6 observations avec une moyenne ( ) 50 et écart type ( σ ) 10. Ensuite, nous normalisons les moyennes de l’échantillon en utilisant écart général:

Nous regrouperons les 20 000 moyennes résultantes en intervalles de longueur 0,1 et calculerons les fréquences. Représentons sur le diagramme la distribution de fréquence réelle (Norm) et théorique (ENorm) des moyennes d'échantillon.

Les points (fréquences observées) coïncident pratiquement avec la ligne (fréquences théoriques). Cela est compréhensible, car les données proviennent de la même population générale et les différences ne sont que des erreurs d’échantillonnage.

Menons une nouvelle expérience. Nous normalisons les moyennes en utilisant variance de l'échantillon.

Comptons à nouveau les fréquences et traçons-les sur le diagramme sous forme de points, en laissant une ligne de distribution normale standard pour comparaison. Désignons la fréquence empirique des moyennes, disons, par la lettre t.

On voit que les répartitions cette fois ne coïncident pas beaucoup. Proche, oui, mais pas pareil. Les queues sont devenues plus « lourdes ».

Gosset-Student ne disposait pas de la dernière version de MS Excel, mais c'est exactement l'effet qu'il a remarqué. Pourquoi cela arrive-t-il ? L'explication est que la variable aléatoire

dépend non seulement de l’erreur d’échantillonnage (numérateur), mais aussi de l’erreur type de la moyenne (dénominateur), qui est également une variable aléatoire.

Jetons un coup d'œil à la distribution qu'une telle variable aléatoire devrait avoir. Tout d’abord, vous devrez vous souvenir (ou apprendre) quelque chose des statistiques mathématiques. Il existe le théorème de Fisher, qui stipule que dans un échantillon issu d'une distribution normale :

1. moyen et variance de l'échantillon s 2 sont des quantités indépendantes ;

2. le rapport de la variance de l'échantillon et de la population, multiplié par le nombre de degrés de liberté, a une distribution χ 2(chi carré) avec le même nombre de degrés de liberté, c'est-à-dire

k– nombre de degrés de liberté (en anglais Degrees of Freedom (d.f.))

De nombreux autres résultats dans les statistiques des modèles normaux sont basés sur cette loi.

Revenons à la répartition de la moyenne. Divisez le numérateur et le dénominateur de l'expression

sur σ X̅. Nous obtenons

Le numérateur est une variable aléatoire normale standard (on note ξ (xi)). Exprimons le dénominateur du théorème de Fisher.

L’expression originale prendra alors la forme

Voilà ce qu'il en est sous forme générale (Relation d'étudiant). Vous pouvez dériver directement sa fonction de distribution, car les distributions des deux variables aléatoires dans cette expression sont connues. Laissons ce plaisir aux mathématiciens.

La fonction de distribution t de Student a une formule assez difficile à comprendre, il ne sert donc à rien de l'analyser. De toute façon, personne ne l'utilise, parce que... les probabilités sont données dans des tableaux spéciaux de distributions de Student (parfois appelés tableaux de coefficients de Student) ou sont incluses dans des formules PC.

Ainsi, armé de ces nouvelles connaissances, vous pouvez comprendre la définition officielle de la distribution Student.
Une variable aléatoire soumise à la distribution de Student avec k les degrés de liberté sont le rapport de variables aléatoires indépendantes

ξ distribué selon la loi normale standard, et χ2k obéit à la distribution χ 2 c k degrés de liberté.

Ainsi, la formule du test t de Student pour la moyenne arithmétique

Il existe un cas particulier de la relation étudiante

De la formule et de la définition, il s’ensuit que la distribution du test t de Student dépend uniquement du nombre de degrés de liberté.

À k> 30 Le test t ne diffère pratiquement pas de la distribution normale standard.

Contrairement au chi carré, le test t peut être unilatéral ou bilatéral. Habituellement, ils utilisent les deux côtés, en supposant que l'écart peut se produire dans les deux sens par rapport à la moyenne. Mais si la condition problématique autorise un écart dans une seule direction, il est alors raisonnable d’utiliser un critère unilatéral. Cela augmente légèrement la puissance, car... à un niveau de signification fixe, la valeur critique se rapproche légèrement de zéro.

Conditions d'utilisation du test t de Student

Bien que la découverte de Student ait à un moment donné révolutionné les statistiques, le test t reste encore assez limité dans ses possibilités d’application, car elle-même vient de l’hypothèse d’une distribution normale des données originales. Si les données ne sont pas normales (ce qui est généralement le cas), alors le test t n'aura plus de distribution de Student. Cependant, en raison de l'action du théorème central limite, la moyenne, même pour des données anormales, acquiert rapidement une distribution en forme de cloche.

Prenons par exemple des données clairement asymétriques vers la droite, comme une distribution du chi carré avec 5 degrés de liberté.

Créons maintenant 20 000 échantillons et observons comment la distribution des moyennes change en fonction de leur volume.

La différence est tout à fait perceptible dans les petits échantillons comprenant jusqu'à 15 à 20 observations. Mais ensuite, cela disparaît rapidement. Ainsi, la non-normalité de la distribution n’est bien sûr pas bonne, mais pas critique.

Surtout, le test t « a peur » des valeurs aberrantes, c'est-à-dire : des écarts anormaux. Prenons 20 000 échantillons normaux de 15 observations chacun et ajoutons une valeur aberrante aléatoire à certaines d'entre elles.

Le tableau s’avère sombre. Les fréquences réelles des moyennes sont très différentes des fréquences théoriques. Utiliser la distribution t dans une telle situation devient une entreprise très risquée.

Ainsi, dans des échantillons pas très petits (à partir de 15 observations), le test t est relativement résistant à la distribution non normale des données originales. Mais les valeurs aberrantes dans les données faussent considérablement la distribution du test t, ce qui, à son tour, peut conduire à des erreurs d'inférence statistique, de sorte que les observations anormales doivent être éliminées. Souvent, toutes les valeurs qui se situent à ± 2 écarts types par rapport à la moyenne sont supprimées de l'échantillon.

Un exemple de test d'une hypothèse sur l'espérance mathématique à l'aide du test t de Student dans MS Excel

Excel a plusieurs fonctions liées à la distribution t. Regardons-les.

STUDENT.DIST – Distribution t de Student « classique » du côté gauche. L'entrée est la valeur du critère t, le nombre de degrés de liberté et une option (0 ou 1) qui détermine ce qui doit être calculé : la densité ou la valeur de la fonction. En sortie, nous obtenons respectivement la densité ou la probabilité que la variable aléatoire soit inférieure au critère t spécifié dans l'argument.

STUDENT.DIST.2X – distribution bidirectionnelle. L'argument est la valeur absolue (modulo) du test t et le nombre de degrés de liberté. En conséquence, nous obtenons la probabilité d'obtenir une valeur de critère t identique ou même supérieure, c'est-à-dire niveau de signification réel (niveau p).

STUDENT.DIST.PH – distribution t du côté droit. Donc, 1-ÉTUDIANT.DIST(2;5;1) = ÉTUDIANT.DIST.PH(2;5) = 0,05097. Si le test t est positif, alors la probabilité qui en résulte est le niveau p.

STUDENT.INR – utilisé pour calculer l’inverse gauche de la distribution t. L'argument est la probabilité et le nombre de degrés de liberté. En sortie on obtient la valeur du critère t correspondant à cette probabilité. Le décompte de probabilité est à gauche. Par conséquent, la queue gauche nécessite le niveau de signification lui-même. α , et pour celui de droite 1 - α .

STUDENT.OBR.2X – la valeur inverse de la distribution bilatérale de Student, c'est-à-dire valeur du test t (modulo). Le niveau de signification est également fourni à l'entrée α . Seulement cette fois, le comptage est effectué simultanément des deux côtés, la probabilité est donc répartie sur deux queues. Donc, ÉTUDIANT.ARV(1-0.025;5) = ÉTUDIANT.ARV.2X(0.05;5) = 2.57058

STUDENT.TEST est une fonction permettant de tester l'hypothèse sur l'égalité des attentes mathématiques dans deux échantillons. Remplace un tas de calculs, car Il suffit de spécifier seulement deux plages avec des données et quelques paramètres supplémentaires. La sortie est de niveau p.

CONFIDENCE.STUDENT – calcul de l'intervalle de confiance de la moyenne en tenant compte de la distribution t.

Considérons cet exemple de formation. Dans l'entreprise, le ciment est conditionné en sacs de 50 kg. En raison du caractère aléatoire, un certain écart par rapport à la masse attendue est autorisé dans un seul sac, mais la moyenne générale doit rester de 50 kg. Le service contrôle qualité a pesé aléatoirement 9 sacs et a obtenu les résultats suivants : poids moyen ( ) était de 50,3 kg, écart type ( s) – 0,5 kg.

Le résultat obtenu est-il cohérent avec l’hypothèse nulle selon laquelle la moyenne générale est de 50 kg ? Autrement dit, est-il possible d'obtenir un tel résultat par pur hasard si l'équipement fonctionne correctement et produit un remplissage moyen de 50 kg ? Si l'hypothèse n'est pas rejetée, alors la différence résultante s'inscrit dans la plage des fluctuations aléatoires, mais si l'hypothèse est rejetée, il y a très probablement eu un dysfonctionnement dans les réglages de la machine qui remplit les sacs. Il doit être vérifié et configuré.

Une condition courte en notation généralement acceptée ressemble à ceci.

H0 : μ = 50kg

H1 : μ ≠ 50 kg

Il y a des raisons de supposer que la répartition des remplissages de sacs suit une distribution normale (ou n'en est pas très différente). Cela signifie que pour tester l'hypothèse sur l'espérance mathématique, vous pouvez utiliser le test t de Student. Des écarts aléatoires peuvent se produire dans n’importe quelle direction, ce qui signifie qu’un test t bilatéral est nécessaire.

Tout d’abord, nous utiliserons des moyens antédiluviens : calculer manuellement le critère t et le comparer avec la valeur critique du tableau. Test t calculé :

Déterminons maintenant si le nombre obtenu dépasse le niveau critique au niveau de signification. α = 0,05. Utilisons la table de distribution t de Student (disponible dans n'importe quel manuel de statistiques).

Les colonnes montrent la probabilité du côté droit de la distribution et les lignes montrent le nombre de degrés de liberté. Nous nous intéressons à un test t bilatéral avec un niveau de signification de 0,05, qui équivaut à la valeur t pour la moitié du niveau de signification à droite : 1 - 0,05/2 = 0,975. Le nombre de degrés de liberté est la taille de l'échantillon moins 1, c'est-à-dire 9 - 1 = 8. À l'intersection, nous trouvons la valeur du tableau du test t - 2,306. Si nous utilisions la distribution normale standard, alors le point critique serait de 1,96, mais ici il est plus grand, car La distribution t dans les petits échantillons a une apparence plus aplatie.

Comparons la valeur réelle (1,8) et la valeur du tableau (2,306). Le critère calculé s'est avéré inférieur à celui tabulé. Par conséquent, les données disponibles ne contredisent pas l'hypothèse H 0 selon laquelle la moyenne générale est de 50 kg (mais ne le prouvent pas non plus). C'est tout ce que nous pouvons apprendre en utilisant les tableaux. Vous pouvez bien sûr aussi essayer de trouver le niveau p, mais il sera approximatif. Et, en règle générale, c’est le niveau p qui est utilisé pour tester les hypothèses. Par conséquent, nous passons ensuite à Excel.

Il n'existe pas de fonction toute faite pour calculer le test t dans Excel. Mais ce n’est pas effrayant, car la formule du test t de Student est assez simple et peut être facilement construite directement dans une cellule Excel.

Nous avons le même 1,8. Trouvons d'abord la valeur critique. On prend alpha 0,05, le critère est bilatéral. Nous avons besoin de la fonction de distribution t inverse pour l'hypothèse bilatérale STUDENT.OBR.2X.

La valeur résultante coupe la région critique. Le test t observé n’en fait pas partie, donc l’hypothèse n’est pas rejetée.

Cependant, c'est la même manière de tester une hypothèse à l'aide d'une valeur de tableau. Il serait plus informatif de calculer le niveau p, c'est-à-dire la probabilité d'obtenir l'écart observé, voire supérieur, par rapport à la moyenne de 50 kg, si cette hypothèse est correcte. Vous aurez besoin de la fonction de distribution Student pour l'hypothèse bilatérale STUDENT.DIST.2X.

Le niveau P est de 0,1096, ce qui est supérieur au niveau de signification acceptable de 0,05 – nous ne rejetons pas l’hypothèse. Mais nous pouvons désormais juger du degré de preuve. Le niveau P s’est avéré assez proche du niveau lorsque l’hypothèse est rejetée, ce qui conduit à des réflexions différentes. Par exemple, l’échantillon était trop petit pour détecter un écart significatif.

Après un certain temps, laissez le service de contrôle décider à nouveau de vérifier comment les normes de remplissage des sacs sont respectées. Cette fois, pour plus de fiabilité, ce ne sont pas 9, mais 25 sacs qui ont été sélectionnés. Il est intuitivement clair que la dispersion de la moyenne diminuera et que, par conséquent, les chances de constater une défaillance du système augmenteront.

Disons que les mêmes valeurs de moyenne et d'écart type pour l'échantillon ont été obtenues la première fois (50,3 et 0,5, respectivement). Calculons le test t.


La valeur critique pour 24 degrés de liberté et α = 0,05 est 2,064. L'image ci-dessous montre que le test t se situe dans la plage de rejet d'hypothèse.

On peut conclure qu'avec une probabilité de confiance supérieure à 95 %, la moyenne générale diffère de 50 kg. Pour être plus convaincant, regardons le niveau p (la dernière ligne du tableau). La probabilité d'obtenir une moyenne avec un écart identique ou même plus grand par rapport à 50, si l'hypothèse est correcte, est de 0,0062, soit 0,62 %, ce qui est pratiquement impossible avec une seule mesure. En général, nous rejetons cette hypothèse comme étant peu probable.

Calcul d'un intervalle de confiance à l'aide de la distribution t de Student

Une autre méthode statistique est étroitement liée aux tests d'hypothèses : calcul des intervalles de confiance. Si l’intervalle résultant contient une valeur correspondant à l’hypothèse nulle, alors cela équivaut au fait que l’hypothèse nulle n’est pas rejetée. Dans le cas contraire, l'hypothèse est rejetée avec le niveau de confiance correspondant. Dans certains cas, les analystes ne testent pas du tout les hypothèses sous leur forme classique, mais calculent uniquement des intervalles de confiance. Cette approche vous permet d'extraire des informations encore plus utiles.

Calculons les intervalles de confiance pour la moyenne de 9 et 25 observations. Pour ce faire, nous utiliserons la fonction Excel CONFIDENT.STUDENT. Ici, curieusement, tout est assez simple. Les arguments de la fonction doivent uniquement indiquer le niveau de signification α , écart type de l'échantillon et taille de l'échantillon. En sortie, nous obtenons la demi-largeur de l'intervalle de confiance, c'est-à-dire la valeur qui doit être placée des deux côtés de la moyenne. Après avoir effectué les calculs et dessiné un diagramme visuel, nous obtenons ce qui suit.

Comme vous pouvez le constater, avec un échantillon de 9 observations, la valeur 50 entre dans l'intervalle de confiance (l'hypothèse n'est pas rejetée), et avec 25 observations, elle n'entre pas dans l'intervalle de confiance (l'hypothèse est rejetée). De plus, dans une expérience portant sur 25 sacs, on peut affirmer qu'avec une probabilité de 97,5% la moyenne générale dépasse 50,1 kg (la limite inférieure de l'intervalle de confiance est de 50,094 kg). Et ce sont des informations très précieuses.

Ainsi, nous avons résolu le même problème de trois manières :

1. En utilisant une approche ancienne, en comparant les valeurs calculées et tabulées du test t
2. Plus moderne, en calculant le niveau p, ajoutant un degré de confiance lors du rejet de l'hypothèse.
3. Encore plus informatif en calculant l'intervalle de confiance et en obtenant la valeur minimale de la moyenne générale.

Il est important de rappeler que le test t fait référence à des méthodes paramétriques, car est basé sur une distribution normale (elle a deux paramètres : la moyenne et la variance). Par conséquent, pour son application réussie, une normalité au moins approximative des données initiales et l’absence de valeurs aberrantes sont importantes.

Enfin, je suggère de regarder une vidéo sur la façon d'effectuer les calculs liés au test t de Student dans Excel.

Tout au long de l'exemple, nous utiliserons des informations fictives afin que le lecteur puisse effectuer lui-même les transformations nécessaires.

Ainsi, disons qu'au cours d'une recherche, nous avons étudié l'effet du médicament A sur la teneur en substance B (en mmol/g) dans le tissu C et la concentration de substance D dans le sang (en mmol/l) chez les patients. divisé selon un certain critère E en 3 groupes de volume égal (n = 10). Les résultats d'une telle étude fictive sont présentés dans le tableau :

Teneur en substance B, mmol/g

Substance D, mmol/l

augmentation de la concentration


Nous tenons à vous avertir que nous considérons des échantillons de taille 10 pour faciliter la présentation des données et les calculs ; en pratique, une telle taille d'échantillon n'est généralement pas suffisante pour former une conclusion statistique.

A titre d'exemple, considérons les données de la 1ère colonne du tableau.

Statistiques descriptives

Moyenne de l'échantillon

La moyenne arithmétique, souvent simplement appelée « moyenne », est obtenue en additionnant toutes les valeurs et en divisant cette somme par le nombre de valeurs de l'ensemble. Cela peut être démontré à l’aide d’une formule algébrique. Un ensemble de n observations d'une variable x peut être représenté par x 1 , x 2 , x 3 , ..., x n

La formule pour déterminer la moyenne arithmétique des observations (prononcée « X avec une ligne ») :

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Écart de l'échantillon

Une façon de mesurer la dispersion des données consiste à déterminer dans quelle mesure chaque observation s'écarte de la moyenne arithmétique. Évidemment, plus l’écart est grand, plus la variabilité, la variabilité des observations, est grande. On ne peut cependant pas utiliser la moyenne de ces écarts comme mesure de dispersion, car les écarts positifs compensent les écarts négatifs (leur somme est nulle). Pour résoudre ce problème, nous mettons au carré chaque écart et trouvons la moyenne des carrés des écarts ; cette quantité est appelée variation ou dispersion. Faisons n observations x 1, x 2, x 3, ..., x n, moyenne qui est égal à. Calcul de la variance ceci, généralement appelés2,ces observations :

La variance d'échantillon de cet indicateur est s 2 = 3,2.

Écart type

L'écart type (carré moyen) est la racine carrée positive de la variance. En utilisant n observations comme exemple, cela ressemble à ceci :

Nous pouvons considérer l’écart type comme une sorte d’écart moyen des observations par rapport à la moyenne. Elle est calculée dans les mêmes unités (dimensions) que les données originales.

s = carré (s 2) = carré (3,2) = 1,79.

Coefficient de variation

Si vous divisez l'écart type par la moyenne arithmétique et exprimez le résultat en pourcentage, vous obtenez le coefficient de variation.

CV = (1,79 / 13,1) * 100 % = 13,7

Erreur moyenne de l'échantillon

1,79/m²(10) = 0,57 ;

Coefficient t de Student (test t sur un échantillon)

Utilisé pour tester l'hypothèse sur la différence entre la valeur moyenne et une valeur connue m

Le nombre de degrés de liberté est calculé comme f=n-1.

Dans ce cas, l’intervalle de confiance de la moyenne se situe entre 11,87 et 14,39.

Pour le niveau de confiance de 95 % m=11,87 ou m=14,39, soit = ​​|13,1-11,82| = |13,1-14,38| = 1,28

Par conséquent, dans ce cas, pour le nombre de degrés de liberté f = 10 - 1 = 9 et le niveau de confiance à 95 % t = 2,26.

Statistiques et tableaux de base de la boîte de dialogue

Dans le module Statistiques et tableaux de base choisissons Statistiques descriptives.

Une boîte de dialogue s'ouvrira Statistiques descriptives.

Dans le champ Variables choisissons Groupe 1.

En cliquant sur D'ACCORD, nous obtenons des tableaux de résultats avec des statistiques descriptives des variables sélectionnées.

Une boîte de dialogue s'ouvrira Test t sur un échantillon.

Supposons que nous sachions que la teneur moyenne en substance B dans le tissu C est de 11.

Le tableau des résultats avec statistiques descriptives et test t de Student est le suivant :

Nous avons dû rejeter l’hypothèse selon laquelle la teneur moyenne en substance B dans le tissu C est de 11.

Puisque la valeur calculée du critère est supérieure à la valeur tabulée (2.26), l'hypothèse nulle est rejetée au niveau de signification sélectionné et les différences entre l'échantillon et la valeur connue sont considérées comme statistiquement significatives. Ainsi, la conclusion sur l'existence de différences tirée du test de Student est confirmée par cette méthode.

Une approche équivalente pour interpréter les résultats des tests serait de supposer que l’hypothèse nulle est vraie, nous pouvons calculer l’ampleur probabilité obtenir t- un critère égal ou supérieur à la valeur réelle que nous avons calculée à partir des échantillons de données disponibles. Si cette probabilité s'avère inférieure à un niveau de signification précédemment accepté (par exemple, P< 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Supposons que nous disposions de données sur l'apport énergétique quotidien provenant de l'alimentation (kJ/jour) pour 11 femmes (exemple tiré du livre Altman D. G. (1981) Statistiques pratiques pour la recherche médicale, Chapman & Hall, Londres):


La moyenne de ces 11 observations est :


Question : La moyenne de cet échantillon est-elle différente de la norme établie de 7 725 kJ/jour ? La différence entre la valeur de notre échantillon et cette norme est assez significative : 7725 - 6753,6 = 971,4. Mais quelle est l’ampleur statistique de cette différence ? Un seul échantillon permettra de répondre à cette question. t-test. Comme les autres options t-test, un test t sur un échantillon est effectué dans R à l'aide de la fonction t.test() :


Question : Ces moyennes sont-elles statistiquement différentes ? Vérifions l'hypothèse selon laquelle il n'y a pas de différence en utilisant t-test:

Mais dans de tels cas, comment évaluer statistiquement la présence d’un effet d’une intervention ? En général, le test de Student peut être représenté comme

Une approche équivalente pour interpréter les résultats des tests serait de supposer que l’hypothèse nulle est vraie, nous pouvons calculer l’ampleur probabilité obtenir t- un critère égal ou supérieur à la valeur réelle que nous avons calculée à partir des échantillons de données disponibles. Si cette probabilité s'avère inférieure à un niveau de signification précédemment accepté (par exemple, P< 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Supposons que nous disposions de données sur l'apport énergétique quotidien provenant de l'alimentation (kJ/jour) pour 11 femmes (exemple tiré du livre Altman D. G. (1981) Statistiques pratiques pour la recherche médicale, Chapman & Hall, Londres):


La moyenne de ces 11 observations est :


Question : La moyenne de cet échantillon est-elle différente de la norme établie de 7 725 kJ/jour ? La différence entre la valeur de notre échantillon et cette norme est assez significative : 7725 - 6753,6 = 971,4. Mais quelle est l’ampleur statistique de cette différence ? Un seul échantillon permettra de répondre à cette question. t-test. Comme les autres options t-test, un test t sur un échantillon est effectué dans R à l'aide de la fonction t.test() :


Question : Ces moyennes sont-elles statistiquement différentes ? Vérifions l'hypothèse selon laquelle il n'y a pas de différence en utilisant t-test:

Mais dans de tels cas, comment évaluer statistiquement la présence d’un effet d’une intervention ? En général, le test de Student peut être représenté comme

​ Le test t de Student apparié est l'une des modifications de la méthode de Student, utilisée pour déterminer la signification statistique des différences dans les mesures appariées (répétées).

1. Historique du développement du test t

Le test t a été développé William Gossett pour évaluer la qualité de la bière dans la société Guinness. En raison des obligations envers l'entreprise en matière de non-divulgation des secrets commerciaux, l'article de Gosset fut publié en 1908 dans la revue Biometrics sous le pseudonyme « Student ».

2. À quoi sert le test t de Student apparié ?

Le test t de Student apparié est utilisé à des fins de comparaison deux échantillons dépendants (appariés). Les mesures prises sur les mêmes patients mais à des moments différents, par exemple la tension artérielle chez les patients souffrant d'hypertension, en dépendent. avant et après prendre un médicament antihypertenseur. L'hypothèse nulle affirme qu'il n'y a pas de différences entre les échantillons comparés, l'hypothèse alternative indique qu'il existe des différences statistiquement significatives.

3. Dans quels cas peut-on utiliser le test t de Student apparié ?

La condition principale est dépendance de l'échantillon, c'est-à-dire que les valeurs comparées doivent être obtenues à partir de mesures répétées d'un paramètre.

Comme dans le cas des comparaisons d'échantillons indépendants, pour utiliser un test t apparié, il est nécessaire que les données originales aient répartition normale. Si cette condition n'est pas remplie, des méthodes doivent être utilisées pour comparer les moyennes des échantillons statistiques non paramétriques, tel que Test du signe G Et Test T de Wilcoxon.

Le test t apparié ne peut être utilisé que pour comparer deux des échantillons. Si vous avez besoin de comparer trois ou plus des mesures répétées doivent être utilisées ANOVA unidirectionnelle pour mesures répétées.

4. Comment calculer le test t de Student apparié ?

Le test t de Student apparié est calculé à l'aide de la formule suivante :

Md - moyenne arithmétique des écarts entre indicateurs mesurés avant et après, σd - écart type des différences d'indicateurs, n - nombre de sujets.

5. Comment interpréter la valeur du test t de Student ?

L'interprétation de la valeur du test t de Student appariée qui en résulte ne diffère pas de l'évaluation du test t pour des populations non apparentées. Tout d'abord, il faut trouver le nombre de degrés de liberté f selon la formule suivante :

f = n-1

Après cela, nous déterminons la valeur critique du test t de Student pour le niveau de signification requis (par exemple, p<0,05) и при данном числе степеней свободы f selon le tableau ( voir ci-dessous).

On compare les valeurs critiques et calculées du critère :

  • Si la valeur calculée du test t de Student apparié égal ou supérieur critique, trouvé dans le tableau, nous concluons que les différences entre les valeurs comparées sont statistiquement significatives.
  • Si la valeur du test t de Student apparié calculé moins tabulaire, ce qui signifie que les différences entre les valeurs comparées ne sont pas statistiquement significatives.

6. Exemple de calcul du test t de Student

Pour évaluer l'efficacité du nouvel agent hypoglycémiant, la glycémie a été mesurée chez des patients atteints de diabète sucré avant et après la prise du médicament. En conséquence, les données suivantes ont été obtenues :

Solution:

1. Calculez la différence de chaque paire de valeurs ( d):

Patient N Niveau de glycémie, mmol/l Différence (d)
avant de prendre le médicament après avoir pris le médicament
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Trouvez la moyenne arithmétique des différences à l'aide de la formule :

3. Trouvez l'écart type des différences par rapport à la moyenne à l'aide de la formule :

4. Calculez le test t de Student apparié :

5. Comparons la valeur obtenue du test t de Student 8.6 avec la valeur du tableau qui, avec le nombre de degrés de liberté fégal à 10 - 1 = 9 et le niveau de signification p=0,05 est de 2,262. Étant donné que la valeur obtenue est supérieure à la valeur critique, nous concluons qu'il existe des différences statistiquement significatives dans les taux de glycémie avant et après la prise du nouveau médicament.



Avez-vous aimé l'article? Partagez avec vos amis !