Fiabilité statistique. Évaluer la fiabilité des résultats d'une étude statistique

Les hypothèses sont testées à l’aide d’analyses statistiques. La signification statistique est trouvée à l'aide de la valeur P, qui correspond à la probabilité d'un événement donné en supposant qu'une affirmation (hypothèse nulle) est vraie. Si la valeur P est inférieure à un niveau spécifié de signification statistique (généralement 0,05), l'expérimentateur peut conclure en toute sécurité que l'hypothèse nulle est fausse et procéder à l'examen de l'hypothèse alternative. À l'aide du test t de Student, vous pouvez calculer la valeur P et déterminer la signification de deux ensembles de données.

Pas

Partie 1

Mise en place de l'expérience

    Définissez votre hypothèse. La première étape de l’évaluation de la signification statistique consiste à choisir la question à laquelle vous souhaitez répondre et à formuler une hypothèse. Une hypothèse est une déclaration sur des données expérimentales, leur distribution et leurs propriétés. Pour toute expérience, il existe à la fois une hypothèse nulle et une hypothèse alternative. De manière générale, vous devrez comparer deux ensembles de données pour déterminer si elles sont similaires ou différentes.

    • L'hypothèse nulle (H 0) stipule généralement qu'il n'y a pas de différence entre deux ensembles de données. Par exemple : les élèves qui lisent le matériel avant le cours ne reçoivent pas de notes plus élevées.
    • L'hypothèse alternative (H a) est à l'opposé de l'hypothèse nulle et constitue une affirmation qui doit être étayée par des données expérimentales. Par exemple : les élèves qui lisent le matériel avant le cours obtiennent des notes plus élevées.
  1. Définissez le niveau de signification pour déterminer dans quelle mesure la distribution des données doit différer de la normale avant de pouvoir être considérée comme un résultat significatif. Niveau de signification (également appelé α (\ displaystyle \ alpha)-level) est le seuil que vous définissez pour la signification statistique. Si la valeur P est inférieure ou égale au niveau de signification, les données sont considérées comme statistiquement significatives.

    • En règle générale, le niveau de signification (valeur α (\ displaystyle \ alpha)) est pris égal à 0,05, auquel cas la probabilité de détecter une différence aléatoire entre différents ensembles de données n'est que de 5 %.
    • Plus le niveau de signification est élevé (et, par conséquent, plus la valeur P est faible), plus les résultats sont fiables.
    • Si vous souhaitez des résultats plus fiables, réduisez la valeur P à 0,01. En règle générale, des valeurs P inférieures sont utilisées dans la fabrication lorsqu'il est nécessaire d'identifier les défauts des produits. Dans ce cas, une grande fiabilité est requise pour garantir que toutes les pièces fonctionnent comme prévu.
    • Pour la plupart des expériences d’hypothèses, un niveau de signification de 0,05 est suffisant.
  2. Décidez quel critère vous utiliserez : unilatéral ou bilatéral. L'une des hypothèses du test t de Student est que les données sont normalement distribuées. La distribution normale est une courbe en forme de cloche avec le nombre maximum de résultats au milieu de la courbe. Le test t de Student est une méthode mathématique de test des données qui vous permet de déterminer si les données se situent en dehors de la distribution normale (plus, moins ou dans les « queues » de la courbe).

    • Si vous ne savez pas si les données sont supérieures ou inférieures aux valeurs du groupe témoin, utilisez un test bilatéral. Cela vous permettra de déterminer la signification dans les deux sens.
    • Si vous savez dans quelle direction les données peuvent sortir de la distribution normale, utilisez un test unilatéral. Dans l'exemple ci-dessus, nous nous attendons à ce que les notes des élèves augmentent, un test unilatéral peut donc être utilisé.
  3. Déterminez la taille de l’échantillon à l’aide de la puissance statistique. La puissance statistique d’une étude est la probabilité que, compte tenu de la taille de l’échantillon, le résultat attendu soit obtenu. Un seuil de puissance commun (ou β) est de 80 %. Analyser la puissance statistique sans aucune donnée préalable peut être difficile car cela nécessite des informations sur les moyennes attendues dans chaque groupe de données et leurs écarts types. Utilisez un calculateur d'analyse de puissance en ligne pour déterminer la taille d'échantillon optimale pour vos données.

    • En règle générale, les chercheurs mènent une petite étude pilote qui fournit des données pour une analyse de puissance statistique et détermine la taille de l'échantillon nécessaire pour une étude plus vaste et plus complète.
    • Si vous ne parvenez pas à mener une étude pilote, essayez d'estimer les moyennes possibles en vous basant sur la littérature et les résultats d'autres personnes. Cela peut vous aider à déterminer la taille optimale de l’échantillon.

    Partie 2

    Calculer l'écart type
    1. Notez la formule de l’écart type. L'écart type montre l'étendue de la dispersion des données. Cela vous permet de conclure à quel point les données obtenues à partir d'un certain échantillon sont proches. À première vue, la formule semble assez compliquée, mais les explications ci-dessous vous aideront à la comprendre. La formule est la suivante : s = √∑((x i – µ) 2 /(N – 1)).

      • s - écart type ;
      • le signe ∑ indique que toutes les données obtenues à partir de l'échantillon doivent être additionnées ;
      • x i correspond à la ième valeur, c'est-à-dire un résultat distinct obtenu ;
      • µ est la valeur moyenne pour un groupe donné ;
      • N est le nombre total de données dans l'échantillon.
    2. Trouvez la moyenne dans chaque groupe. Pour calculer l'écart type, vous devez d'abord trouver la moyenne pour chaque groupe d'étude. La valeur moyenne est désignée par la lettre grecque µ (mu). Pour trouver la moyenne, additionnez simplement toutes les valeurs obtenues et divisez-les par la quantité de données (taille de l'échantillon).

      • Par exemple, pour trouver la note moyenne d’un groupe d’élèves qui étudient avant les cours, considérez un petit ensemble de données. Pour plus de simplicité, nous utilisons un ensemble de cinq points : 90, 91, 85, 83 et 94.
      • Additionnons toutes les valeurs ensemble : 90 + 91 + 85 + 83 + 94 = 443.
      • Divisons la somme par le nombre de valeurs, N = 5 : 443/5 = 88,6.
      • Ainsi, la moyenne pour ce groupe est de 88,6.
    3. Soustrayez chaque valeur obtenue de la moyenne. L'étape suivante consiste à calculer la différence (x i – µ). Pour ce faire, soustrayez chaque valeur obtenue de la valeur moyenne trouvée. Dans notre exemple, nous devons trouver cinq différences :

      • (90 – 88,6), (91 – 88,6), (85 – 88,6), (83 – 88,6) et (94 – 88,6).
      • En conséquence, nous obtenons les valeurs suivantes : 1,4, 2,4, -3,6, -5,6 et 5,4.
    4. Mettez au carré chaque valeur obtenue et additionnez-les ensemble. Chacune des quantités que vous venez de trouver doit être mise au carré. Cette étape supprimera toutes les valeurs négatives. Si après cette étape vous avez encore des nombres négatifs, c’est que vous avez oublié de les mettre au carré.

      • Pour notre exemple, nous obtenons 1,96, 5,76, 12,96, 31,36 et 29,16.
      • On additionne les valeurs résultantes : 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Divisez par la taille de l'échantillon moins 1. Dans la formule, la somme est divisée par N – 1 car nous ne prenons pas en compte la population générale, mais prenons un échantillon de tous les étudiants pour évaluation.

      • Soustraire : N – 1 = 5 – 1 = 4
      • Diviser : 81,2/4 = 20,3
    6. Prenez la racine carrée. Après avoir divisé la somme par la taille de l’échantillon moins un, prenez la racine carrée de la valeur trouvée. C'est la dernière étape du calcul de l'écart type. Il existe des programmes statistiques qui, après avoir saisi les données initiales, effectuent tous les calculs nécessaires.

      • Dans notre exemple, l'écart type des notes des élèves qui lisent le matériel avant le cours est s =√20,3 = 4,51.

      Partie 3

      Déterminer l'importance
      1. Calculez la variance entre les deux groupes de données. Avant cette étape, nous avons examiné un exemple pour un seul groupe de données. Si vous souhaitez comparer deux groupes, vous devez évidemment prendre les données des deux groupes. Calculez l'écart type pour le deuxième groupe de données, puis trouvez la variance entre les deux groupes expérimentaux. La variance est calculée à l'aide de la formule suivante : s d = √((s 1 /N 1) + (s 2 /N 2)).

Selon vous, qu’est-ce qui rend votre « autre moitié » spéciale et significative ? Est-ce lié à sa personnalité ou à vos sentiments que vous éprouvez pour cette personne ? Ou peut-être du simple fait que l'hypothèse sur le caractère aléatoire de votre sympathie, comme le montrent les études, a une probabilité inférieure à 5 % ? Si l’on considère la dernière affirmation comme fiable, alors les sites de rencontres à succès n’existeraient en principe pas :

Lorsque vous effectuez des tests fractionnés ou toute autre analyse de votre site Web, une mauvaise compréhension de la « signification statistique » peut conduire à une mauvaise interprétation des résultats et, par conséquent, à des actions incorrectes dans le processus d'optimisation de la conversion. Cela est vrai pour les milliers d’autres tests statistiques effectués chaque jour dans tous les secteurs existants.

Pour comprendre ce qu'est la « signification statistique », vous devez plonger dans l'histoire du terme, apprendre sa véritable signification et comprendre comment cette « nouvelle » ancienne compréhension vous aidera à interpréter correctement les résultats de votre recherche.

Un peu d'histoire

Bien que l'humanité utilise les statistiques pour résoudre divers problèmes depuis de nombreux siècles, la compréhension moderne de la signification statistique, des tests d'hypothèses, de la randomisation et même des plans d'expériences (DOE) n'a commencé à prendre forme qu'au début du 20e siècle et est inextricablement liée à le nom de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962) :

Ronald Fisher était un biologiste évolutionniste et statisticien passionné par l'étude de l'évolution et de la sélection naturelle dans les règnes animal et végétal. Au cours de son illustre carrière, il a développé et popularisé de nombreux outils statistiques utiles que nous utilisons encore aujourd’hui.

Fisher a utilisé les techniques qu'il a développées pour expliquer des processus biologiques tels que la dominance, les mutations et les déviations génétiques. Nous pouvons utiliser les mêmes outils aujourd’hui pour optimiser et améliorer le contenu des ressources Web. Le fait que ces outils d’analyse puissent être utilisés pour travailler avec des objets qui n’existaient même pas au moment de leur création semble assez surprenant. Il est tout aussi surprenant que les gens effectuaient des calculs complexes sans calculatrice ni ordinateur.

Pour décrire les résultats d’une expérience statistique comme ayant une forte probabilité d’être vrais, Fisher a utilisé le mot « signification ».

En outre, l’un des développements les plus intéressants de Fisher peut être appelé l’hypothèse du « fils sexy ». Selon cette théorie, les femmes préfèrent les hommes sexuellement promiscuités (promiscuous) car cela permettra aux fils nés de ces hommes d'avoir la même prédisposition et de produire plus de progéniture (notez qu'il ne s'agit que d'une théorie).

Mais personne, même les scientifiques les plus brillants, n’est à l’abri de commettre des erreurs. Les défauts de Fisher affligent encore aujourd’hui les spécialistes. Mais souvenez-vous des paroles d’Albert Einstein : « Celui qui n’a jamais commis d’erreur n’a jamais rien créé de nouveau. »

Avant de passer au point suivant, rappelez-vous : la signification statistique se produit lorsque la différence entre les résultats des tests est si grande qu'elle ne peut pas être expliquée par des facteurs aléatoires.

Quelle est votre hypothèse ?

Pour comprendre ce que signifie « signification statistique », vous devez d’abord comprendre ce qu’est le « test d’hypothèse », puisque les deux termes sont étroitement liés.
Une hypothèse n'est qu'une théorie. Une fois que vous avez développé une théorie, vous devrez établir un processus pour collecter suffisamment de preuves et collecter réellement ces preuves. Il existe deux types d'hypothèses.

Pommes ou oranges – quel est le meilleur ?

Hypothèse nulle

En règle générale, c’est là que de nombreuses personnes éprouvent des difficultés. Une chose à garder à l’esprit est qu’une hypothèse nulle n’a pas besoin d’être prouvée, comme si vous prouviez qu’un certain changement sur un site Web entraînera une augmentation des conversions, mais vice versa. L’hypothèse nulle est une théorie selon laquelle si vous apportez des modifications au site, rien ne se passera. Et le but du chercheur est de réfuter cette théorie, pas de la prouver.

Si nous regardons l'expérience de la résolution de crimes, où les enquêteurs formulent également des hypothèses sur l'identité du criminel, l'hypothèse nulle prend la forme de ce que l'on appelle la présomption d'innocence, le concept selon lequel l'accusé est présumé innocent jusqu'à preuve du contraire. devant un tribunal.

Si l'hypothèse nulle est que deux objets sont égaux dans leurs propriétés et que vous essayez de prouver que l'un est meilleur (par exemple, A est meilleur que B), vous devez rejeter l'hypothèse nulle en faveur de l'alternative. Par exemple, vous comparez l'un ou l'autre outil d'optimisation de conversion. Dans l’hypothèse nulle, ils ont tous deux le même effet (ou aucun effet) sur la cible. Alternativement, l’effet de l’un d’eux est meilleur.

Votre hypothèse alternative peut contenir une valeur numérique, telle que B - A > 20 %. Dans ce cas, l’hypothèse nulle et l’alternative peuvent prendre la forme suivante :

Un autre nom pour une hypothèse alternative est une hypothèse de recherche, car le chercheur est toujours intéressé à prouver cette hypothèse particulière.

Signification statistique et valeur p

Revenons à nouveau à Ronald Fisher et à son concept de signification statistique.

Maintenant que vous avez une hypothèse nulle et une alternative, comment pouvez-vous prouver l’une et réfuter l’autre ?

Puisque les statistiques, de par leur nature même, impliquent l'étude d'une population spécifique (échantillon), on ne peut jamais être sûr à 100 % des résultats obtenus. Un bon exemple : les résultats des élections diffèrent souvent des résultats des sondages préliminaires et même des résultats des pools de sortie.

Le Dr Fisher souhaitait créer une ligne de démarcation qui vous permettrait de savoir si votre expérience était un succès ou non. C'est ainsi qu'est apparu l'indice de fiabilité. La crédibilité est le niveau que nous prenons pour dire ce que nous considérons comme « important » et ce que nous ne considérons pas. Si « p », l’indice de signification, est égal ou inférieur à 0,05, alors les résultats sont fiables.

Ne vous inquiétez pas, ce n’est en réalité pas aussi déroutant qu’il y paraît.

Distribution de probabilité gaussienne. Le long des bords se trouvent les valeurs les moins probables de la variable, au centre les plus probables. Le score P (zone ombrée en vert) est la probabilité que le résultat observé se produise par hasard.

La distribution de probabilité normale (distribution gaussienne) est une représentation de toutes les valeurs possibles d'une certaine variable sur un graphique (dans la figure ci-dessus) et de leurs fréquences. Si vous faites votre recherche correctement et que vous tracez ensuite toutes vos réponses sur un graphique, vous obtiendrez exactement cette distribution. Selon la distribution normale, vous recevrez un pourcentage élevé de réponses similaires et les options restantes seront situées sur les bords du graphique (les soi-disant « queues »). Cette distribution de valeurs se retrouve souvent dans la nature, c'est pourquoi elle est qualifiée de « normale ».

À l’aide d’une équation basée sur votre échantillon et les résultats de test, vous pouvez calculer ce que l’on appelle une « statistique de test », qui indiquera dans quelle mesure vos résultats s’écartent. Cela vous indiquera également à quel point vous êtes proche de la véracité de l’hypothèse nulle.

Pour vous aider à comprendre, utilisez des calculatrices en ligne pour calculer la signification statistique :

Un exemple de telles calculatrices

La lettre « p » représente la probabilité que l'hypothèse nulle soit vraie. Si le nombre est petit, cela indiquera une différence entre les groupes testés, alors que l’hypothèse nulle serait qu’ils soient identiques. Graphiquement, il semblera que votre statistique de test sera plus proche de l'une des queues de votre distribution en forme de cloche.

Le Dr Fisher a décidé de fixer le seuil de signification à p ≤ 0,05. Cette affirmation est cependant controversée, car elle entraîne deux difficultés :

1. Premièrement, le fait que vous ayez prouvé que l’hypothèse nulle était fausse ne signifie pas que vous avez prouvé l’hypothèse alternative. Toute cette signification signifie simplement que vous ne pouvez prouver ni A ni B.

2. Deuxièmement, si le score p est de 0,049, cela signifie que la probabilité de l'hypothèse nulle sera de 4,9 %. Cela peut signifier que les résultats de vos tests peuvent être à la fois vrais et faux.

Vous pouvez ou non utiliser le score p, mais vous devrez alors calculer la probabilité de l'hypothèse nulle au cas par cas et décider si elle est suffisamment grande pour vous empêcher d'apporter les modifications que vous avez planifiées et testées. .

Le scénario le plus courant pour réaliser un test statistique aujourd’hui consiste à définir un seuil de signification de p ≤ 0,05 avant d’exécuter le test lui-même. Assurez-vous simplement de regarder attentivement la valeur p lorsque vous vérifiez vos résultats.

Erreurs 1 et 2

Tant de temps a passé que les erreurs pouvant survenir lors de l’utilisation de la mesure de signification statistique ont même reçu leur propre nom.

Erreurs de type 1

Comme mentionné ci-dessus, une valeur p de 0,05 signifie qu'il y a 5 % de chances que l'hypothèse nulle soit vraie. Si vous ne le faites pas, vous commettez l'erreur numéro 1. Les résultats indiquent que votre nouveau site Web a augmenté vos taux de conversion, mais il y a 5 % de chances que ce ne soit pas le cas.

Erreurs de type 2

Cette erreur est à l’opposé de l’erreur 1 : vous acceptez l’hypothèse nulle lorsqu’elle est fausse. Par exemple, les résultats des tests vous indiquent que les modifications apportées au site n'ont apporté aucune amélioration, alors qu'il y a eu des changements. En conséquence, vous manquez l’opportunité d’améliorer vos performances.

Cette erreur est courante dans les tests avec un échantillon de taille insuffisante, alors n'oubliez pas : plus l'échantillon est grand, plus le résultat est fiable.

Conclusion

Aucun terme n’est peut-être aussi populaire parmi les chercheurs que celui de signification statistique. Lorsque les résultats des tests ne s’avèrent pas statistiquement significatifs, les conséquences vont d’une augmentation des taux de conversion à l’effondrement d’une entreprise.

Et puisque les spécialistes du marketing utilisent ce terme pour optimiser leurs ressources, vous devez savoir ce que cela signifie réellement. Les conditions des tests peuvent varier, mais la taille de l’échantillon et les critères de réussite sont toujours importants. Rappelez-vous ceci.

Tâche 3. Cinq enfants d'âge préscolaire passent un test. Le temps nécessaire pour résoudre chaque tâche est enregistré. Des différences statistiquement significatives seront-elles trouvées entre le temps nécessaire pour résoudre les trois premiers éléments du test ?

Nombre de sujets

Matériel de référence

Cette mission est basée sur la théorie de l'analyse de la variance. En général, la tâche de l'analyse de variance est d'identifier les facteurs qui ont un impact significatif sur le résultat de l'expérience. L'analyse de variance peut être utilisée pour comparer les moyennes de plusieurs échantillons s'il y a plus de deux échantillons. Une analyse de variance unidirectionnelle est utilisée à cette fin.

Afin de résoudre les tâches assignées, ce qui suit est accepté. Si les variances des valeurs obtenues du paramètre d'optimisation en cas d'influence de facteurs diffèrent des variances des résultats en l'absence d'influence de facteurs, alors un tel facteur est considéré comme significatif.

Comme le montre la formulation du problème, des méthodes de test d'hypothèses statistiques sont utilisées ici, à savoir la tâche de tester deux variances empiriques. Par conséquent, l’analyse de la variance repose sur le test des variances à l’aide du test de Fisher. Dans cette tâche, il est nécessaire de vérifier si les différences entre le moment de résolution des trois premières tâches de test par chacun des six enfants d'âge préscolaire sont statistiquement significatives.

L'hypothèse nulle (principale) est appelée hypothèse avancée H o. L'essence de e revient à l'hypothèse que la différence entre les paramètres comparés est nulle (d'où le nom de l'hypothèse - zéro) et que les différences observées sont aléatoires.

Une hypothèse concurrente (alternative) est appelée H1, qui contredit l’hypothèse nulle.

Solution:

En utilisant la méthode d'analyse de variance à un niveau de signification de α = 0,05, nous testerons l'hypothèse nulle (H o) sur l'existence de différences statistiquement significatives entre le moment de la résolution des trois premières tâches de test pour six enfants d'âge préscolaire.

Regardons le tableau des conditions des tâches, dans lequel nous trouverons le temps moyen pour résoudre chacune des trois tâches de test

Nombre de sujets

Niveaux de facteurs

Temps nécessaire pour résoudre la première tâche de test (en secondes).

Temps nécessaire pour résoudre la deuxième tâche de test (en secondes).

Il est temps de résoudre la troisième tâche de test (en secondes).

Moyenne du groupe

Trouver la moyenne globale :

Afin de prendre en compte l'importance des différences temporelles dans chaque test, la variance totale de l'échantillon est divisée en deux parties, dont la première est appelée factorielle et la seconde - résiduelle.

Calculons la somme totale des écarts au carré par rapport à la moyenne globale à l'aide de la formule

ou , où p est le nombre de mesures de temps pour résoudre les tâches de test, q est le nombre de candidats. Pour ce faire, créons un tableau de carrés

Nombre de sujets

Niveaux de facteurs

Temps nécessaire pour résoudre la première tâche de test (en secondes).

Temps nécessaire pour résoudre la deuxième tâche de test (en secondes).

Il est temps de résoudre la troisième tâche de test (en secondes).

Dans toute situation scientifique et pratique d'une expérience (enquête), les chercheurs ne peuvent pas étudier toutes les personnes (population générale, population), mais seulement un certain échantillon. Par exemple, même si nous étudions un groupe relativement restreint de personnes, comme celles qui souffrent d’une maladie particulière, il est très peu probable que nous disposions des ressources appropriées ou que nous ayons besoin de tester chaque patient. Au lieu de cela, il est courant de tester un échantillon de la population car cela est plus pratique et prend moins de temps. Si oui, comment savoir si les résultats obtenus à partir de l’échantillon sont représentatifs de l’ensemble du groupe ? Ou, pour utiliser une terminologie professionnelle, pouvons-nous être sûrs que notre recherche décrit correctement l'ensemble de la population, l'échantillon que nous avons utilisé ?

Pour répondre à cette question, il est nécessaire de déterminer la signification statistique des résultats des tests. Signification statistique (Niveau significatif, abrégé Sig.), ou niveau de signification /7 (niveau P) - est la probabilité qu'un résultat donné représente correctement la population à partir de laquelle l'étude a été échantillonnée. Notez qu'il s'agit uniquement probabilité- il est impossible d'affirmer avec une certitude absolue qu'une étude donnée décrit correctement l'ensemble de la population. Au mieux, le niveau de signification ne peut que conclure que cela est très probable. Ainsi, la question suivante se pose inévitablement : quel doit être le niveau de signification avant qu’un résultat donné puisse être considéré comme une caractérisation correcte de la population ?

Par exemple, à quelle valeur de probabilité êtes-vous prêt à dire que de telles chances sont suffisantes pour prendre un risque ? Et si les chances sont de 10 sur 100 ou de 50 sur 100 ? Et si cette probabilité était plus élevée ? Qu’en est-il des cotes comme 90 sur 100, 95 sur 100 ou 98 sur 100 ? Pour une situation à risque, ce choix est assez problématique, car il dépend des caractéristiques personnelles de la personne.

En psychologie, on considère traditionnellement qu’une chance sur 100 ou plus signifie que la probabilité que les résultats soient corrects est suffisamment élevée pour qu’ils soient généralisables à l’ensemble de la population. Ce chiffre a été établi au cours d'une activité scientifique et pratique - il n'existe aucune loi selon laquelle il devrait être choisi comme ligne directrice (et en effet, dans d'autres sciences, d'autres valeurs du niveau de signification sont parfois choisies).

En psychologie, cette probabilité fonctionne d’une manière quelque peu inhabituelle. Au lieu de la probabilité que l'échantillon représente la population, la probabilité que l'échantillon ne représente pas population. En d’autres termes, il s’agit de la probabilité que la relation ou les différences observées soient aléatoires et non une propriété de la population. Ainsi, au lieu de dire qu'il y a 95 chances sur 100 que les résultats d'une étude soient corrects, les psychologues disent qu'il y a 5 chances sur 100 que les résultats soient faux (tout comme 40 chances sur 100 que les résultats soient corrects signifie une chance sur 60 sur 100 en faveur de leur inexactitude). La valeur de probabilité est parfois exprimée en pourcentage, mais le plus souvent elle est écrite sous forme de fraction décimale. Par exemple, 10 chances sur 100 sont exprimées sous forme de fraction décimale de 0,1 ; 5 sur 100 s’écrit 0,05 ; 1 sur 100 - 0,01. Avec cette forme d'enregistrement, la valeur limite est de 0,05. Pour qu’un résultat soit considéré comme correct, son niveau de signification doit être ci-dessous ce nombre (rappelez-vous, c'est la probabilité que le résultat faux décrit la population). Pour éliminer la terminologie, ajoutons que la « probabilité que le résultat soit incorrect » (qui est plus correctement appelée niveau de signification) généralement désigné par une lettre latine R. Les descriptions des résultats expérimentaux incluent généralement une déclaration récapitulative telle que « les résultats étaient significatifs au niveau de confiance ». (R.(p) inférieur à 0,05 (soit moins de 5 %).

Ainsi, le niveau de signification ( R.) indique la probabilité que les résultats Pas représentent la population. Traditionnellement en psychologie, les résultats sont considérés comme reflétant de manière fiable la situation globale si la valeur R. inférieur à 0,05 (soit 5 %). Cependant, il ne s’agit là que d’une affirmation probabiliste et en aucun cas d’une garantie inconditionnelle. Dans certains cas, cette conclusion peut ne pas être correcte. En fait, nous pouvons calculer la fréquence à laquelle cela pourrait se produire si nous examinons l’ampleur du niveau de signification. Au niveau de signification de 0,05, 5 fois sur 100, les résultats sont susceptibles d'être incorrects. 11a à première vue, il semble que ce ne soit pas très courant, mais si vous y réfléchissez, alors 5 chances sur 100 équivaut à 1 sur 20. En d'autres termes, dans un cas sur 20, le résultat sera Incorrect. De telles probabilités ne semblent pas particulièrement favorables, et les chercheurs doivent se garder de commettre des erreurs. erreurs du premier type. C’est le nom de l’erreur qui se produit lorsque les chercheurs pensent avoir trouvé de vrais résultats, mais en réalité ils ne les ont pas trouvés. L’erreur inverse, qui consiste à faire croire aux chercheurs qu’ils n’ont pas trouvé de résultat alors qu’il y en a un, s’appelle erreurs du deuxième type.

Ces erreurs surviennent parce que la possibilité que l'analyse statistique effectuée ne puisse être exclue. La probabilité d'erreur dépend du niveau de signification statistique des résultats. Nous avons déjà noté que pour qu'un résultat soit considéré comme correct, le seuil de signification doit être inférieur à 0,05. Bien sûr, certains résultats sont inférieurs à cette valeur, et il n'est pas rare de voir des résultats aussi bas que 0,001 (une valeur de 0,001 signifie qu'il y a une chance sur 1 000 que les résultats soient erronés). Plus la valeur p est petite, plus notre confiance dans l’exactitude des résultats est forte.

Dans le tableau 7.2 montre l'interprétation traditionnelle des niveaux de signification concernant la possibilité d'inférence statistique et la justification de la décision concernant la présence d'une relation (différences).

Tableau 7.2

Interprétation traditionnelle des niveaux de signification utilisée en psychologie

Sur la base de l'expérience de la recherche pratique, il est recommandé : afin d'éviter autant que possible les erreurs du premier et du deuxième types, lors de la conclusion de conclusions importantes, des décisions doivent être prises concernant la présence de différences (connexions), en se concentrant sur le niveau R. n signe.

Test statistique(Test statistique - c'est un outil pour déterminer le niveau de signification statistique. Il s’agit d’une règle décisive qui garantit qu’une hypothèse vraie est acceptée et qu’une hypothèse fausse est rejetée avec une forte probabilité.

Les critères statistiques désignent également la méthode de calcul d'un certain nombre et le nombre lui-même. Tous les critères sont utilisés dans un seul objectif principal : déterminer niveau de signification les données qu'ils analysent (c'est-à-dire la probabilité que les données reflètent un effet réel qui représente correctement la population à partir de laquelle l'échantillon est tiré).

Certains tests ne peuvent être utilisés que pour des données normalement distribuées (et si le trait est mesuré sur une échelle d'intervalle) - ces tests sont généralement appelés paramétrique. En utilisant d'autres critères, vous pouvez analyser les données avec presque toutes les lois de distribution - on les appelle non paramétrique.

Les critères paramétriques sont des critères qui incluent des paramètres de distribution dans la formule de calcul, c'est-à-dire moyennes et variances (test t de Student, test F de Fisher, etc.).

Les critères non paramétriques sont des critères qui n'incluent pas de paramètres de distribution dans la formule de calcul des paramètres de distribution et reposent sur un fonctionnement avec des fréquences ou des rangs (critère Q Critère de Rosenbaum U Manne - Whitney

Par exemple, lorsque nous disons que la signification des différences a été déterminée par le test t de Student, nous voulons dire que la méthode du test t de Student a été utilisée pour calculer la valeur empirique, qui est ensuite comparée à la valeur (critique) tabulée.

Par le rapport des valeurs empiriques (calculées par nos soins) et critiques du critère (tabulaire), nous pouvons juger si notre hypothèse est confirmée ou réfutée. Dans la plupart des cas, pour reconnaître les différences comme significatives, il est nécessaire que la valeur empirique du critère dépasse la valeur critique, bien qu'il existe des critères (par exemple, le test de Mann-Whitney ou le test des signes) dans lesquels nous devons adhérer à la règle inverse.

Dans certains cas, la formule de calcul du critère inclut le nombre d'observations dans l'échantillon étudié, noté P. À l'aide d'un tableau spécial, nous déterminons à quel niveau de signification statistique des différences correspond une valeur empirique donnée. Dans la plupart des cas, une même valeur empirique du critère peut être significative ou non significative selon le nombre d'observations dans l'échantillon étudié ( P. ) ou de ce qu'on appelle nombre de degrés de liberté , qui est noté v (g>) ou comment df (Parfois d).

Connaissance P. ou le nombre de degrés de liberté, à l'aide de tableaux spéciaux (les principaux sont donnés en annexe 5) on peut déterminer les valeurs critiques du critère et comparer avec elles la valeur empirique obtenue. Ceci s'écrit généralement ainsi : « quand n = 22 valeurs critiques du critère sont t St = 2,07" ou "à v (d) = 2 valeurs critiques du test de Student sont = 4,30", etc.

Généralement, la préférence est toujours donnée aux critères paramétriques, et nous adhérons à cette position. Ils sont considérés comme plus fiables et peuvent fournir plus d’informations et une analyse plus approfondie. Quant à la complexité des calculs mathématiques, lors de l'utilisation de programmes informatiques, cette complexité disparaît (mais d'autres apparaissent cependant tout à fait surmontables).

  • Dans ce manuel, nous n'examinons pas en détail le problème de la statistique
  • hypothèses (nulles - R0 et alternatives - Hj) et décisions statistiques prises, puisque les étudiants en psychologie étudient cela séparément dans la discipline « Méthodes mathématiques en psychologie ». En outre, il convient de noter que lors de la préparation d'un rapport de recherche (travaux de cours ou de diplôme, publication), les hypothèses statistiques et les solutions statistiques ne sont généralement pas données. Habituellement, lors de la description des résultats, ils indiquent le critère, fournissent les statistiques descriptives nécessaires (moyennes, sigma, coefficients de corrélation, etc.), les valeurs empiriques des critères, les degrés de liberté et nécessairement le niveau p de signification. Ensuite, une conclusion significative est formulée concernant l'hypothèse testée, indiquant (généralement sous la forme d'une inégalité) le niveau de signification atteint ou non.

Le niveau de signification dans les statistiques est un indicateur important qui reflète le degré de confiance dans l'exactitude et la véracité des données obtenues (prévues). Le concept est largement utilisé dans divers domaines : de la conduite de recherches sociologiques aux tests statistiques d'hypothèses scientifiques.

Définition

Le niveau de signification statistique (ou résultat statistiquement significatif) montre la probabilité que les indicateurs étudiés se produisent par hasard. La signification statistique globale d'un phénomène est exprimée par le coefficient de valeur p (niveau p). Dans toute expérience ou observation, il est possible que les données obtenues soient dues à des erreurs d'échantillonnage. Cela est particulièrement vrai pour la sociologie.

Autrement dit, une valeur statistiquement significative est une valeur dont la probabilité d'occurrence aléatoire est extrêmement faible ou tend vers l'extrême. L'extrême dans ce contexte est le degré auquel les statistiques s'écartent de l'hypothèse nulle (une hypothèse dont la cohérence avec les échantillons de données obtenus est testée). Dans la pratique scientifique, le niveau de signification est choisi avant la collecte des données et, en règle générale, son coefficient est de 0,05 (5 %). Pour les systèmes où des valeurs précises sont extrêmement importantes, ce chiffre peut être de 0,01 (1 %) ou moins.

Arrière-plan

Le concept de niveau de signification a été introduit par le statisticien et généticien britannique Ronald Fisher en 1925, alors qu'il développait une technique permettant de tester des hypothèses statistiques. Lors de l'analyse d'un processus, il existe une certaine probabilité de certains phénomènes. Des difficultés surviennent lorsque l'on travaille avec des pourcentages de probabilités faibles (ou non évidents) qui relèvent du concept d'« erreur de mesure ».

Lorsqu’ils travaillent avec des données statistiques qui ne sont pas suffisamment précises pour les tester, les scientifiques sont confrontés au problème de l’hypothèse nulle, qui « empêche » de fonctionner avec de petites quantités. Fisher a proposé que de tels systèmes déterminent la probabilité d'événements à 5 % (0,05) comme coupe d'échantillonnage pratique, permettant de rejeter l'hypothèse nulle dans les calculs.

Introduction des cotes fixes

En 1933, les scientifiques Jerzy Neumann et Egon Pearson recommandaient dans leurs travaux qu'un certain niveau de signification soit établi à l'avance (avant la collecte des données). Des exemples d’utilisation de ces règles sont clairement visibles lors des élections. Disons qu'il y a deux candidats, dont l'un est très populaire et l'autre peu connu. Il est évident que le premier candidat remportera l'élection, et les chances du second tendent à être nulles. Ils s'efforcent - mais ne sont pas égaux : il existe toujours la possibilité d'un cas de force majeure, d'informations sensationnelles, de décisions inattendues qui peuvent modifier les résultats prévus des élections.

Neyman et Pearson ont convenu que le niveau de signification de Fisher de 0,05 (indiqué par α) était le plus approprié. Cependant, Fischer lui-même s'est opposé en 1956 à la fixation de cette valeur. Il estime que le niveau de α devrait être fixé en fonction de circonstances spécifiques. Par exemple, en physique des particules, il est de 0,01.

valeur du niveau p

Le terme valeur p a été utilisé pour la première fois par Brownlee en 1960. Le niveau P (valeur p) est un indicateur inversement lié à la véracité des résultats. Le coefficient de valeur p le plus élevé correspond au niveau de confiance le plus faible dans la relation échantillonnée entre les variables.

Cette valeur reflète la probabilité d'erreurs associées à l'interprétation des résultats. Supposons que le niveau p = 0,05 (1/20). Il montre une probabilité de cinq pour cent que la relation entre les variables trouvées dans l'échantillon soit simplement une caractéristique aléatoire de l'échantillon. Autrement dit, si cette dépendance est absente, alors avec des expériences similaires répétées, en moyenne, dans une étude sur vingt, on peut s'attendre à une dépendance identique ou supérieure entre les variables. Le niveau P est souvent considéré comme une « marge » pour le taux d’erreur.

Soit dit en passant, la valeur p peut ne pas refléter la relation réelle entre les variables, mais montre uniquement une certaine valeur moyenne dans le cadre des hypothèses. En particulier, l'analyse finale des données dépendra également des valeurs retenues pour ce coefficient. Au niveau p = 0,05, il y aura des résultats, et à un coefficient égal à 0,01, il y aura des résultats différents.

Tester des hypothèses statistiques

Le niveau de signification statistique est particulièrement important lors du test d’hypothèses. Par exemple, lors du calcul d'un test bilatéral, la région de rejet est divisée de manière égale aux deux extrémités de la distribution d'échantillonnage (par rapport à la coordonnée zéro) et la vérité des données résultantes est calculée.

Supposons que lors de la surveillance d'un certain processus (phénomène), il s'avère que de nouvelles informations statistiques indiquent de petits changements par rapport aux valeurs précédentes. Dans le même temps, les écarts dans les résultats sont faibles, pas évidents, mais importants pour l'étude. Le spécialiste est confronté à un dilemme : des changements se produisent-ils réellement ou s'agit-il d'erreurs d'échantillonnage (imprécision des mesures) ?

Dans ce cas, ils utilisent ou rejettent l’hypothèse nulle (attribuent tout à une erreur, ou reconnaissent le changement du système comme un fait accompli). Le processus de résolution de problèmes est basé sur le rapport entre la signification statistique globale (valeur p) et le niveau de signification (α). Si niveau p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valeurs utilisées

Le niveau de signification dépend du matériau analysé. En pratique, les valeurs fixes suivantes sont utilisées :

  • α = 0,1 (soit 10 %) ;
  • α = 0,05 (soit 5 %) ;
  • α = 0,01 (ou 1 %) ;
  • α = 0,001 (soit 0,1 %).

Plus les calculs sont précis, plus le coefficient α est faible. Naturellement, les prévisions statistiques en physique, chimie, pharmacie et génétique nécessitent une plus grande précision qu’en science politique et en sociologie.

Seuils de signification dans des domaines spécifiques

Dans les domaines de haute précision tels que la physique des particules et la fabrication, la signification statistique est souvent exprimée comme le rapport de l'écart type (indiqué par le coefficient sigma - σ) par rapport à une distribution de probabilité normale (distribution gaussienne). σ est un indicateur statistique qui détermine la dispersion des valeurs d'une certaine quantité par rapport aux attentes mathématiques. Utilisé pour tracer la probabilité d'événements.

Selon le domaine de connaissance, le coefficient σ varie fortement. Par exemple, lors de la prédiction de l'existence du boson de Higgs, le paramètre σ est égal à cinq (σ = 5), ce qui correspond à une valeur p = 1/3,5 million. Dans les études génomiques, le niveau de signification peut être de 5 × 10 -. 8, ce qui n'est pas rare dans cette région.

Efficacité

Il faut tenir compte du fait que les coefficients α et la valeur p ne sont pas des caractéristiques exactes. Quel que soit le niveau de signification statistique du phénomène étudié, il ne constitue pas une base inconditionnelle pour accepter l'hypothèse. Par exemple, plus la valeur de α est petite, plus grandes sont les chances que l’hypothèse établie soit significative. Il existe cependant un risque d’erreur qui réduit la puissance statistique (signification) de l’étude.

Les chercheurs qui se concentrent uniquement sur des résultats statistiquement significatifs peuvent parvenir à des conclusions erronées. Dans le même temps, il est difficile de revérifier leur travail, car ils appliquent des hypothèses (qui sont en fait les valeurs α et p). Par conséquent, il est toujours recommandé, parallèlement au calcul de la signification statistique, de déterminer un autre indicateur - l'ampleur de l'effet statistique. La taille de l’effet est une mesure quantitative de la force d’un effet.



Avez-vous aimé l'article? Partage avec tes amis!