Le concept de fiabilité statistique. Concepts de signification statistique et critère statistique

Le niveau de signification dans les statistiques est un indicateur important qui reflète le degré de confiance dans l'exactitude et la véracité des données obtenues (prévues). Le concept est largement utilisé dans divers domaines : de la conduite de recherches sociologiques aux tests statistiques d'hypothèses scientifiques.

Définition

Le niveau de signification statistique (ou résultat statistiquement significatif) montre la probabilité d'apparition fortuite des indicateurs étudiés. La signification statistique globale d'un phénomène est exprimée par le coefficient de valeur p (niveau p). Dans toute expérience ou observation, il est possible que les données obtenues soient dues à des erreurs d'échantillonnage. Cela est particulièrement vrai pour la sociologie.

Autrement dit, une valeur statistiquement significative est une valeur dont la probabilité d'occurrence aléatoire est extrêmement faible ou tend vers l'extrême. L'extrême dans ce contexte est considéré comme le degré auquel les statistiques s'écartent de l'hypothèse nulle (une hypothèse dont la cohérence avec les échantillons de données obtenus est testée). Dans la pratique scientifique, le niveau de signification est choisi avant la collecte des données et, en règle générale, son coefficient est de 0,05 (5 %). Pour les systèmes où des valeurs précises sont extrêmement importantes, ce chiffre peut être de 0,01 (1 %) ou moins.

Arrière-plan

Le concept de niveau de signification a été introduit par le statisticien et généticien britannique Ronald Fisher en 1925, alors qu'il développait une technique permettant de tester des hypothèses statistiques. Lors de l'analyse d'un processus, il existe une certaine probabilité de certains phénomènes. Des difficultés surviennent lorsque l'on travaille avec des pourcentages de probabilités faibles (ou non évidents) qui relèvent du concept d'« erreur de mesure ».

Lorsqu’ils travaillent avec des données statistiques qui ne sont pas suffisamment spécifiques pour les tester, les scientifiques sont confrontés au problème de l’hypothèse nulle, qui « empêche » de fonctionner avec de petites quantités. Fisher a proposé que de tels systèmes déterminent la probabilité d'événements à 5 % (0,05) comme coupe d'échantillonnage pratique, permettant de rejeter l'hypothèse nulle dans les calculs.

Introduction des cotes fixes

En 1933, les scientifiques Jerzy Neumann et Egon Pearson recommandaient dans leurs travaux qu'un certain niveau de signification soit établi à l'avance (avant la collecte des données). Des exemples d’utilisation de ces règles sont clairement visibles lors des élections. Disons qu'il y a deux candidats, dont l'un est très populaire et l'autre peu connu. Il est évident que le premier candidat remportera l'élection, et les chances du second tendent à être nulles. Ils s'efforcent - mais ne sont pas égaux : il existe toujours la possibilité d'un cas de force majeure, d'informations sensationnelles, de décisions inattendues qui peuvent modifier les résultats prévus des élections.

Neyman et Pearson ont convenu que le niveau de signification de Fisher de 0,05 (indiqué par α) était le plus approprié. Cependant, Fischer lui-même s'est opposé en 1956 à la fixation de cette valeur. Il estime que le niveau de α devrait être fixé en fonction de circonstances spécifiques. Par exemple, en physique des particules, il est de 0,01.

valeur du niveau p

Le terme valeur p a été utilisé pour la première fois par Brownlee en 1960. Le niveau P (valeur p) est un indicateur inversement lié à la véracité des résultats. Le coefficient de valeur p le plus élevé correspond au niveau de confiance le plus faible dans la relation échantillonnée entre les variables.

Cette valeur reflète la probabilité d'erreurs associées à l'interprétation des résultats. Supposons que le niveau p = 0,05 (1/20). Il montre une probabilité de cinq pour cent que la relation entre les variables trouvées dans l'échantillon soit simplement une caractéristique aléatoire de l'échantillon. Autrement dit, si cette dépendance est absente, alors avec des expériences similaires répétées, en moyenne, dans une étude sur vingt, on peut s'attendre à une dépendance identique ou supérieure entre les variables. Le niveau P est souvent considéré comme une « marge » pour le taux d’erreur.

Soit dit en passant, la valeur p peut ne pas refléter la relation réelle entre les variables, mais montre uniquement une certaine valeur moyenne dans le cadre des hypothèses. En particulier, l'analyse finale des données dépendra également des valeurs retenues pour ce coefficient. Au niveau p = 0,05, il y aura des résultats, et à un coefficient égal à 0,01, il y aura des résultats différents.

Tester des hypothèses statistiques

Le niveau de signification statistique est particulièrement important lors du test d’hypothèses. Par exemple, lors du calcul d'un test bilatéral, la région de rejet est divisée de manière égale aux deux extrémités de la distribution d'échantillonnage (par rapport à la coordonnée zéro) et la vérité des données résultantes est calculée.

Supposons que lors de la surveillance d'un certain processus (phénomène), il s'avère que de nouvelles informations statistiques indiquent de petits changements par rapport aux valeurs précédentes. Dans le même temps, les écarts dans les résultats sont faibles, pas évidents, mais importants pour l'étude. Le spécialiste est confronté à un dilemme : des changements se produisent-ils réellement ou s'agit-il d'erreurs d'échantillonnage (imprécision des mesures) ?

Dans ce cas, ils utilisent ou rejettent l’hypothèse nulle (attribuent tout à une erreur, ou reconnaissent le changement du système comme un fait accompli). Le processus de résolution de problèmes est basé sur le rapport entre la signification statistique globale (valeur p) et le niveau de signification (α). Si niveau p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valeurs utilisées

Le niveau de signification dépend du matériau analysé. En pratique, les valeurs fixes suivantes sont utilisées :

  • α = 0,1 (soit 10 %) ;
  • α = 0,05 (soit 5 %) ;
  • α = 0,01 (ou 1 %) ;
  • α = 0,001 (soit 0,1 %).

Plus les calculs sont précis, plus le coefficient α est faible. Naturellement, les prévisions statistiques en physique, chimie, pharmacie et génétique nécessitent une plus grande précision qu’en sciences politiques et en sociologie.

Seuils de signification dans des domaines spécifiques

Dans les domaines de haute précision tels que la physique des particules et la fabrication, la signification statistique est souvent exprimée comme le rapport de l'écart type (indiqué par le coefficient sigma - σ) par rapport à une distribution de probabilité normale (distribution gaussienne). σ est un indicateur statistique qui détermine la dispersion des valeurs d'une certaine quantité par rapport aux attentes mathématiques. Utilisé pour tracer la probabilité d'événements.

Selon le domaine de connaissance, le coefficient σ varie fortement. Par exemple, lors de la prédiction de l'existence du boson de Higgs, le paramètre σ est égal à cinq (σ = 5), ce qui correspond à une valeur p = 1/3,5 million. Dans les études génomiques, le niveau de signification peut être de 5 × 10 -. 8, ce qui n'est pas rare dans cette région.

Efficacité

Il faut tenir compte du fait que les coefficients α et la valeur p ne sont pas des caractéristiques exactes. Quel que soit le niveau de signification statistique du phénomène étudié, il ne constitue pas une base inconditionnelle pour accepter l'hypothèse. Par exemple, plus la valeur de α est petite, plus grandes sont les chances que l’hypothèse établie soit significative. Il existe cependant un risque d’erreur qui réduit la puissance statistique (signification) de l’étude.

Les chercheurs qui se concentrent uniquement sur des résultats statistiquement significatifs peuvent parvenir à des conclusions erronées. Dans le même temps, il est difficile de revérifier leur travail, car ils appliquent des hypothèses (qui sont en fait les valeurs α et p). Par conséquent, il est toujours recommandé, parallèlement au calcul de la signification statistique, de déterminer un autre indicateur - l'ampleur de l'effet statistique. La taille de l’effet est une mesure quantitative de la force d’un effet.

FONCTION PAYANTE. La fonctionnalité de signification statistique n’est disponible que sur certains forfaits. Vérifiez s'il est dans .

Vous pouvez découvrir s'il existe des différences statistiquement significatives dans les réponses reçues des différents groupes de répondants aux questions d'une enquête. Pour utiliser la fonctionnalité de signification statistique dans SurveyMonkey, vous devez :

  • Activez la fonctionnalité de signification statistique lorsque vous ajoutez une règle de comparaison à une question de votre enquête. Sélectionnez des groupes de répondants à comparer pour trier les résultats de l'enquête en groupes à des fins de comparaison visuelle.
  • Examinez les tableaux de données de vos questions d'enquête pour identifier toute différence statistiquement significative dans les réponses reçues des différents groupes de répondants.

Afficher la signification statistique

En suivant les étapes ci-dessous, vous pouvez créer une enquête qui affiche une signification statistique.

1. Ajoutez des questions fermées à votre enquête

Afin de montrer une signification statistique lors de l'analyse des résultats, vous devrez appliquer une règle de comparaison à n'importe quelle question de votre enquête.

Vous pouvez appliquer la règle de comparaison et calculer la signification statistique des réponses si vous utilisez l'un des types de questions suivants dans la conception de votre enquête :

Il est nécessaire de s'assurer que les options de réponse proposées peuvent être divisées en groupes complets. Les options de réponse que vous sélectionnez pour la comparaison lorsque vous créez une règle de comparaison seront utilisées pour organiser les données dans des tableaux croisés tout au long de l'enquête.

2. Recueillir des réponses

Une fois que vous avez terminé votre enquête, créez un collecteur pour la diffuser. Il existe plusieurs façons.

Vous devez recevoir au moins 30 réponses pour chaque option de réponse que vous envisagez d'utiliser dans votre règle de comparaison pour activer et afficher la signification statistique.

Exemple d'enquête

Vous voulez savoir si les hommes sont nettement plus satisfaits de vos produits que les femmes.

  1. Ajoutez deux questions à choix multiples à votre enquête :
    Quel est votre sexe ? (homme, femme)
    Êtes-vous satisfait ou insatisfait de notre produit? (satisfait, insatisfait)
  2. Assurez-vous qu'au moins 30 personnes interrogées sélectionnent « homme » pour la question sur le genre ET qu'au moins 30 personnes interrogées sélectionnent « femme » comme sexe.
  3. Ajoutez une règle de comparaison à la question « Quel est votre sexe ? » et sélectionnez les deux options de réponse en tant que groupes.
  4. Utilisez le tableau de données sous le tableau de questions « Êtes-vous satisfait ou insatisfait de notre produit ? » pour voir si des options de réponse montrent une différence statistiquement significative

Qu’est-ce qu’une différence statistiquement significative ?

Une différence statistiquement significative signifie que l'analyse statistique a déterminé qu'il existe des différences significatives entre les réponses d'un groupe de répondants et les réponses d'un autre groupe. La signification statistique signifie que les chiffres obtenus sont significativement différents. Ces connaissances vous aideront grandement dans l’analyse des données. Cependant, vous déterminez l'importance des résultats obtenus. C'est vous qui décidez comment interpréter les résultats de l'enquête et quelles mesures doivent être prises en fonction de ceux-ci.

Par exemple, vous recevez plus de plaintes de clientes féminines que de clients masculins. Comment déterminer si une telle différence est réelle et si des mesures doivent être prises à ce sujet ? Un excellent moyen de tester vos observations consiste à mener une enquête qui vous montrera si les clients masculins sont nettement plus satisfaits de votre produit. À l'aide d'une formule statistique, notre fonction de signification statistique vous donnera la possibilité de déterminer si votre produit est réellement beaucoup plus attrayant pour les hommes que pour les femmes. Cela vous permettra d’agir en vous basant sur des faits plutôt que sur des suppositions.

Différence statistiquement significative

Si vos résultats sont mis en évidence dans le tableau de données, cela signifie que les deux groupes de répondants sont très différents l'un de l'autre. Le terme « significatif » ne signifie pas que les chiffres obtenus ont une importance ou une signification particulière, mais simplement qu'il existe une différence statistique entre eux.

Aucune différence statistiquement significative

Si vos résultats ne sont pas mis en évidence dans le tableau de données correspondant, cela signifie que même s'il peut y avoir une différence entre les deux chiffres comparés, il n'y a pas de différence statistique entre eux.

Les réponses sans différences statistiquement significatives démontrent qu'il n'y a pas de différence significative entre les deux éléments comparés compte tenu de la taille de l'échantillon que vous utilisez, mais cela ne signifie pas nécessairement qu'elles ne sont pas significatives. Peut-être qu’en augmentant la taille de l’échantillon, vous pourrez identifier une différence statistiquement significative.

Taille de l'échantillon

Si vous disposez d’un très petit échantillon, seules les très grandes différences entre les deux groupes seront significatives. Si vous disposez d’un échantillon très grand, les différences petites et grandes seront considérées comme significatives.

Toutefois, si deux nombres sont statistiquement différents, cela ne signifie pas que la différence entre les résultats a une signification pratique pour vous. Vous devrez décider vous-même quelles différences sont significatives pour votre enquête.

Calcul de la signification statistique

Nous calculons la signification statistique en utilisant un niveau de confiance standard de 95 %. Si une option de réponse s'avère statistiquement significative, cela signifie que, par hasard ou en raison d'une erreur d'échantillonnage, il y a moins de 5 % de probabilité que la différence entre les deux groupes se produise (souvent affichée sous la forme : p<0,05).

Pour calculer les différences statistiquement significatives entre les groupes, nous utilisons les formules suivantes :

Paramètre

Description

a1Le pourcentage de participants du premier groupe qui ont répondu à la question d'une certaine manière, multiplié par la taille de l'échantillon de ce groupe.
b1Le pourcentage de participants du deuxième groupe qui ont répondu à la question d'une certaine manière, multiplié par la taille de l'échantillon de ce groupe.
Proportion de l'échantillon regroupé (p)La combinaison de deux actions des deux groupes.
Erreur standard (SE)Un indicateur de la différence entre votre part et la part réelle. Une valeur inférieure signifie que la fraction est proche de la fraction réelle, une valeur plus élevée signifie que la fraction est significativement différente de la fraction réelle.
Statistique de test (t)Statistique de test. Le nombre d'écarts types par lesquels une valeur donnée diffère de la moyenne.
Importance statistiqueSi la valeur absolue de la statistique du test est supérieure à 1,96* écart-type par rapport à la moyenne, cela est considéré comme une différence statistiquement significative.

*1,96 est la valeur utilisée pour le niveau de confiance de 95 %, car 95 % de la plage gérée par la fonction de distribution t de Student se situe à moins de 1,96 écarts types de la moyenne.

Exemple de calcul

En continuant avec l'exemple utilisé ci-dessus, voyons si le pourcentage d'hommes qui se disent satisfaits de votre produit est nettement supérieur au pourcentage de femmes.

Disons que 1 000 hommes et 1 000 femmes ont participé à votre enquête et que les résultats de l'enquête ont montré que 70 % des hommes et 65 % des femmes se disent satisfaits de votre produit. Le niveau de 70 % est-il nettement supérieur au niveau de 65 % ?

Remplacez les données suivantes de l'enquête dans les formules données :

  • p1 (% d'hommes satisfaits du produit) = 0,7
  • p2 (% de femmes satisfaites du produit) = 0,65
  • n1 (nombre d'hommes interrogés) = 1000
  • n2 (nombre de femmes interrogées) = 1000

Puisque la valeur absolue de la statistique du test est supérieure à 1,96, cela signifie que la différence entre les hommes et les femmes est significative. Comparés aux femmes, les hommes sont plus susceptibles d’être satisfaits de votre produit.

Masquage de la signification statistique

Comment masquer la signification statistique pour toutes les questions

  1. Cliquez sur la flèche vers le bas à droite de la règle de comparaison dans la barre latérale gauche.
  2. Sélectionnez un élément Modifier la règle.
  3. Désactiver la fonctionnalité Afficher la signification statistiqueà l'aide d'un interrupteur.
  4. Cliquez sur le bouton Appliquer.

Pour masquer la signification statistique d'une question, vous devez :

  1. Cliquez sur le bouton Régler au-dessus du schéma de ce problème.
  2. Ouvrir l'onglet Options d'affichage.
  3. Décochez la case à côté Importance statistique.
  4. Cliquez sur le bouton Sauvegarder.

L'option d'affichage est automatiquement activée lorsque l'affichage de la signification statistique est activé. Si vous désactivez cette option d'affichage, l'affichage de la signification statistique sera également désactivé.

Activez la fonctionnalité de signification statistique lorsque vous ajoutez une règle de comparaison à une question de votre enquête. Examinez les tableaux de données de vos questions d'enquête pour déterminer s'il existe des différences statistiquement significatives dans les réponses reçues des différents groupes de répondants.

Selon vous, qu’est-ce qui rend votre « autre moitié » spéciale et significative ? Est-ce lié à sa personnalité ou à vos sentiments que vous éprouvez pour cette personne ? Ou peut-être du simple fait que l'hypothèse sur le caractère aléatoire de votre sympathie, comme le montrent les études, a une probabilité inférieure à 5 % ? Si l’on considère la dernière affirmation comme fiable, alors les sites de rencontres à succès n’existeraient en principe pas :

Lorsque vous effectuez des tests fractionnés ou toute autre analyse de votre site Web, une mauvaise compréhension de la « signification statistique » peut conduire à une mauvaise interprétation des résultats et, par conséquent, à des actions incorrectes dans le processus d'optimisation de la conversion. Cela est vrai pour les milliers d’autres tests statistiques effectués chaque jour dans tous les secteurs existants.

Pour comprendre ce qu'est la « signification statistique », vous devez plonger dans l'histoire du terme, apprendre sa véritable signification et comprendre comment cette « nouvelle » ancienne compréhension vous aidera à interpréter correctement les résultats de votre recherche.

Un peu d'histoire

Bien que l'humanité utilise les statistiques pour résoudre divers problèmes depuis de nombreux siècles, la compréhension moderne de la signification statistique, des tests d'hypothèses, de la randomisation et même des plans d'expériences (DOE) n'a commencé à prendre forme qu'au début du 20e siècle et est inextricablement liée à le nom de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962) :

Ronald Fisher était un biologiste évolutionniste et statisticien passionné par l'étude de l'évolution et de la sélection naturelle dans les règnes animal et végétal. Au cours de son illustre carrière, il a développé et popularisé de nombreux outils statistiques utiles que nous utilisons encore aujourd’hui.

Fisher a utilisé les techniques qu'il a développées pour expliquer des processus biologiques tels que la dominance, les mutations et les déviations génétiques. Nous pouvons utiliser les mêmes outils aujourd'hui pour optimiser et améliorer le contenu des ressources Web. Le fait que ces outils d’analyse puissent être utilisés pour travailler avec des objets qui n’existaient même pas au moment de leur création semble assez surprenant. Il est tout aussi surprenant que les gens effectuaient des calculs complexes sans calculatrice ni ordinateur.

Pour décrire les résultats d’une expérience statistique comme ayant une forte probabilité d’être vrais, Fisher a utilisé le mot « signification ».

En outre, l’un des développements les plus intéressants de Fisher peut être appelé l’hypothèse du « fils sexy ». Selon cette théorie, les femmes préfèrent les hommes sexuellement promiscuités (promiscuous) car cela permettra aux fils nés de ces hommes d'avoir la même prédisposition et de produire plus de progéniture (notez qu'il ne s'agit que d'une théorie).

Mais personne, même les scientifiques les plus brillants, n’est à l’abri de commettre des erreurs. Les défauts de Fisher affligent encore aujourd’hui les spécialistes. Mais souvenez-vous des paroles d’Albert Einstein : « Celui qui n’a jamais commis d’erreur n’a jamais rien créé de nouveau. »

Avant de passer au point suivant, rappelez-vous : la signification statistique se produit lorsque la différence entre les résultats des tests est si grande qu'elle ne peut pas être expliquée par des facteurs aléatoires.

Quelle est votre hypothèse ?

Pour comprendre ce que signifie « signification statistique », vous devez d’abord comprendre ce qu’est le « test d’hypothèse », puisque les deux termes sont étroitement liés.
Une hypothèse n'est qu'une théorie. Une fois que vous avez développé une théorie, vous devrez établir un processus pour collecter suffisamment de preuves et collecter réellement ces preuves. Il existe deux types d'hypothèses.

Pommes ou oranges – quel est le meilleur ?

Hypothèse nulle

En règle générale, c’est là que de nombreuses personnes éprouvent des difficultés. Une chose à garder à l’esprit est qu’une hypothèse nulle n’a pas besoin d’être prouvée, comme par exemple prouver qu’un certain changement sur un site Web entraînera une augmentation des conversions, mais vice versa. L’hypothèse nulle est une théorie selon laquelle si vous apportez des modifications au site, rien ne se passera. Et le but du chercheur est de réfuter cette théorie, pas de la prouver.

Si nous regardons l'expérience de la résolution de crimes, où les enquêteurs formulent également des hypothèses sur l'identité du criminel, l'hypothèse nulle prend la forme de ce que l'on appelle la présomption d'innocence, le concept selon lequel l'accusé est présumé innocent jusqu'à preuve du contraire. devant un tribunal.

Si l'hypothèse nulle est que deux objets sont égaux dans leurs propriétés et que vous essayez de prouver que l'un d'eux est meilleur (par exemple, A est meilleur que B), vous devez rejeter l'hypothèse nulle en faveur de l'alternative. Par exemple, vous comparez l'un ou l'autre outil d'optimisation de conversion. Dans l’hypothèse nulle, ils ont tous deux le même effet (ou aucun effet) sur la cible. Alternativement, l’effet de l’un d’eux est meilleur.

Votre hypothèse alternative peut contenir une valeur numérique, telle que B - A > 20 %. Dans ce cas, l’hypothèse nulle et l’alternative peuvent prendre la forme suivante :

Un autre nom pour une hypothèse alternative est une hypothèse de recherche, car le chercheur est toujours intéressé à prouver cette hypothèse particulière.

Signification statistique et valeur p

Revenons à nouveau à Ronald Fisher et à son concept de signification statistique.

Maintenant que vous avez une hypothèse nulle et une alternative, comment pouvez-vous prouver l’une et réfuter l’autre ?

Parce que les statistiques, de par leur nature même, impliquent l’étude d’une population spécifique (échantillon), on ne peut jamais être sûr à 100 % des résultats obtenus. Un bon exemple : les résultats des élections diffèrent souvent des résultats des sondages préliminaires et même des résultats des pools de sortie.

Le Dr Fisher souhaitait créer une ligne de démarcation qui vous permettrait de savoir si votre expérience était un succès ou non. C'est ainsi qu'est apparu l'indice de fiabilité. La crédibilité est le niveau que nous prenons pour dire ce que nous considérons comme « important » et ce que nous ne considérons pas. Si « p », l’indice de signification, est égal ou inférieur à 0,05, alors les résultats sont fiables.

Ne vous inquiétez pas, ce n’est en réalité pas aussi déroutant qu’il y paraît.

Distribution de probabilité gaussienne. Le long des bords se trouvent les valeurs les moins probables de la variable, au centre les plus probables. Le score P (zone ombrée en vert) est la probabilité que le résultat observé se produise par hasard.

La distribution de probabilité normale (distribution gaussienne) est une représentation de toutes les valeurs possibles d'une certaine variable sur un graphique (dans la figure ci-dessus) et de leurs fréquences. Si vous faites votre recherche correctement et que vous tracez ensuite toutes vos réponses sur un graphique, vous obtiendrez exactement cette distribution. Selon la distribution normale, vous recevrez un pourcentage élevé de réponses similaires et les options restantes seront situées sur les bords du graphique (les soi-disant « queues »). Cette distribution de valeurs se retrouve souvent dans la nature, c'est pourquoi elle est qualifiée de « normale ».

À l’aide d’une équation basée sur votre échantillon et les résultats de test, vous pouvez calculer ce que l’on appelle une « statistique de test », qui indiquera dans quelle mesure vos résultats s’écartent. Cela vous indiquera également à quel point vous êtes proche de la véracité de l’hypothèse nulle.

Pour vous aider à comprendre, utilisez des calculatrices en ligne pour calculer la signification statistique :

Un exemple de telles calculatrices

La lettre « p » représente la probabilité que l'hypothèse nulle soit vraie. Si le nombre est petit, cela indiquera une différence entre les groupes testés, alors que l’hypothèse nulle serait qu’ils soient identiques. Graphiquement, il semblera que votre statistique de test sera plus proche de l'une des queues de votre distribution en forme de cloche.

Le Dr Fisher a décidé de fixer le seuil de signification à p ≤ 0,05. Cette affirmation est cependant controversée, car elle entraîne deux difficultés :

1. Premièrement, le fait que vous ayez prouvé que l’hypothèse nulle était fausse ne signifie pas que vous avez prouvé l’hypothèse alternative. Toute cette signification signifie simplement que vous ne pouvez prouver ni A ni B.

2. Deuxièmement, si le score p est de 0,049, cela signifie que la probabilité de l'hypothèse nulle sera de 4,9 %. Cela peut signifier que les résultats de vos tests peuvent être à la fois vrais et faux.

Vous pouvez ou non utiliser le score p, mais vous devrez alors calculer la probabilité de l'hypothèse nulle au cas par cas et décider si elle est suffisamment grande pour vous empêcher d'apporter les modifications que vous avez planifiées et testées. .

Le scénario le plus courant pour réaliser un test statistique aujourd’hui consiste à définir un seuil de signification de p ≤ 0,05 avant d’exécuter le test lui-même. Assurez-vous simplement de regarder attentivement la valeur p lorsque vous vérifiez vos résultats.

Erreurs 1 et 2

Tant de temps a passé que les erreurs pouvant survenir lors de l’utilisation de la mesure de signification statistique ont même reçu leur propre nom.

Erreurs de type 1

Comme mentionné ci-dessus, une valeur p de 0,05 signifie qu'il y a 5 % de chances que l'hypothèse nulle soit vraie. Si vous ne le faites pas, vous commettez l'erreur numéro 1. Les résultats indiquent que votre nouveau site Web a augmenté vos taux de conversion, mais il y a 5 % de chances que ce ne soit pas le cas.

Erreurs de type 2

Cette erreur est à l’opposé de l’erreur 1 : vous acceptez l’hypothèse nulle lorsqu’elle est fausse. Par exemple, les résultats des tests vous indiquent que les modifications apportées au site n'ont apporté aucune amélioration, alors qu'il y a eu des changements. En conséquence, vous manquez l’opportunité d’améliorer vos performances.

Cette erreur est courante dans les tests avec un échantillon insuffisant, alors n'oubliez pas : plus l'échantillon est grand, plus le résultat est fiable.

Conclusion

Aucun terme n’est peut-être aussi populaire parmi les chercheurs que celui de signification statistique. Lorsque les résultats des tests ne s’avèrent pas statistiquement significatifs, les conséquences vont d’une augmentation des taux de conversion à l’effondrement d’une entreprise.

Et puisque les spécialistes du marketing utilisent ce terme pour optimiser leurs ressources, vous devez savoir ce que cela signifie réellement. Les conditions des tests peuvent varier, mais la taille de l’échantillon et les critères de réussite sont toujours importants. Rappelez-vous ceci.

La signification statistique ou niveau de signification p est le résultat principal du test

hypothèse statistique. En termes techniques, il s'agit de la probabilité de recevoir un

le résultat d'une étude par sondage, à condition qu'en fait pour l'ensemble

Dans l’ensemble, l’hypothèse statistique nulle est vraie, c’est-à-dire qu’il n’y a aucun lien. En d'autres termes, ceci

la probabilité que la relation détectée soit aléatoire et non une propriété

totalité. C’est la signification statistique, le niveau de signification p,

évaluation quantitative de la fiabilité de la communication : plus cette probabilité est faible, plus la connexion est fiable.

Supposons que, lors de la comparaison de deux moyennes d'échantillon, une valeur de niveau soit obtenue

signification statistique p = 0,05. Cela signifie que tester l'hypothèse statistique sur

l'égalité des moyennes dans la population a montré que si c'est vrai, alors la probabilité

L'apparition aléatoire des différences détectées ne dépasse pas 5 %. Autrement dit, si

deux échantillons ont été prélevés à plusieurs reprises dans la même population, puis dans l'un des

20 cas révéleraient une différence identique ou supérieure entre les moyennes de ces échantillons.

Autrement dit, il y a 5 % de chances que les différences constatées soient dues au hasard.

caractère et ne sont pas une propriété de l’agrégat.

Par rapport à une hypothèse scientifique, le niveau de signification statistique est un paramètre quantitatif.

un indicateur du degré de méfiance dans la conclusion sur l'existence d'un lien, calculé à partir des résultats

tests sélectifs et empiriques de cette hypothèse. Plus la valeur du niveau p est faible, plus

la signification statistique d'un résultat de recherche confirmant une hypothèse scientifique.

Il est utile de savoir ce qui influence le niveau de signification. Niveau de signification, toutes choses égales par ailleurs

les conditions sont plus élevées (la valeur du niveau p est inférieure) si :

L’ampleur de la connexion (différence) est plus grande ;

La variabilité du ou des traits est moindre ;

La ou les tailles d’échantillon sont plus grandes.

Unilatéral Tests de signification bilatéraux

Si le but de l'étude est d'identifier les différences dans les paramètres de deux paramètres généraux

des granulats qui correspondent à ses différentes conditions naturelles (conditions de vie,

âge des sujets, etc.), alors on ne sait souvent pas lequel de ces paramètres sera le plus grand, et

Lequel est le plus petit ?

Par exemple, si vous êtes intéressé par la variabilité des résultats d'un test et

groupes expérimentaux, alors, en règle générale, il n'y a aucune confiance dans le signe de la différence de variances ou

écarts types des résultats par lesquels la variabilité est évaluée. Dans ce cas

l'hypothèse nulle est que les variances sont égales, et le but de l'étude est

prouver le contraire, c'est-à-dire présence de différences entre les variances. Il est permis que

la différence peut être de n'importe quel signe. De telles hypothèses sont dites bilatérales.

Mais parfois, le défi consiste à prouver une augmentation ou une diminution d’un paramètre ;

par exemple, le résultat moyen du groupe expérimental est supérieur à celui du groupe témoin. En même temps

Il n'est plus admis que la différence soit d'un signe différent. De telles hypothèses sont appelées

Unilatéral.

Les tests de signification utilisés pour tester des hypothèses bilatérales sont appelés

Double face et pour unilatéral - unilatéral.

La question se pose de savoir quel critère choisir dans un cas donné. Répondre

Cette question dépasse le cadre des méthodes statistiques formelles et est complètement

Cela dépend des objectifs de l'étude. En aucun cas vous ne devez choisir l'un ou l'autre critère après

Mener une expérience basée sur l'analyse de données expérimentales, car cela peut

Conduire à des conclusions erronées. Si, avant de mener une expérience, on suppose que la différence

Les paramètres comparés peuvent être positifs ou négatifs, vous devez alors

Les principales caractéristiques de toute relation entre variables.

Nous pouvons noter les deux propriétés les plus simples de la relation entre variables : (a) l’ampleur de la relation et (b) la fiabilité de la relation.

- Ampleur . L’ampleur de la dépendance est plus facile à comprendre et à mesurer que la fiabilité. Par exemple, si un homme de l’échantillon avait un nombre de globules blancs (WCC) supérieur à celui de n’importe quelle femme, alors on peut dire que la relation entre les deux variables (sexe et WCC) est très élevée. En d’autres termes, vous pouvez prédire les valeurs d’une variable à partir des valeurs d’une autre.

- Fiabilité ("vérité"). La fiabilité de l’interdépendance est un concept moins intuitif que l’ampleur de la dépendance, mais elle est extrêmement importante. La fiabilité de la relation est directement liée à la représentativité d'un certain échantillon sur la base duquel des conclusions sont tirées. En d’autres termes, la fiabilité fait référence à la probabilité qu’une relation soit redécouverte (en d’autres termes, confirmée) à l’aide de données provenant d’un autre échantillon tiré de la même population.

Il ne faut pas oublier que le but ultime n’est presque jamais d’étudier cet échantillon particulier de valeurs ; un échantillon n’a d’intérêt que dans la mesure où il fournit des informations sur l’ensemble de la population. Si l'étude satisfait à certains critères spécifiques, la fiabilité des relations trouvées entre les variables de l'échantillon peut être quantifiée et présentée à l'aide d'une mesure statistique standard.

L'ampleur et la fiabilité de la dépendance représentent deux caractéristiques différentes des dépendances entre variables. On ne peut cependant pas dire qu’ils soient totalement indépendants. Plus la relation (connexion) entre les variables dans un échantillon de taille normale est grande, plus elle est fiable (voir la section suivante).

La signification statistique d'un résultat (niveau p) est une mesure estimée de la confiance dans sa « vérité » (au sens de « représentativité de l'échantillon »). Plus techniquement parlant, le niveau p est une mesure qui varie par ordre de grandeur décroissant avec la fiabilité du résultat. Un niveau p plus élevé correspond à un niveau de confiance plus faible dans la relation entre les variables trouvées dans l'échantillon. À savoir, le niveau p représente la probabilité d’erreur associée à la distribution du résultat observé à l’ensemble de la population.

Par exemple, niveau p = 0,05(c'est-à-dire 1/20) indique qu'il y a 5 % de chances que la relation entre les variables trouvées dans l'échantillon soit simplement une caractéristique aléatoire de l'échantillon. Dans de nombreuses études, un niveau p de 0,05 est considéré comme une « marge acceptable » pour le niveau d’erreur.

Il n'y a aucun moyen d'éviter l'arbitraire lorsqu'il s'agit de décider quel niveau d'importance doit véritablement être considéré comme « significatif ». Le choix d’un certain seuil de signification au-dessus duquel les résultats sont rejetés comme faux est tout à fait arbitraire.



En pratique, la décision finale dépend généralement du fait que le résultat ait été prédit a priori (c'est-à-dire avant la réalisation de l'expérience) ou découvert a posteriori à la suite de nombreuses analyses et comparaisons effectuées sur diverses données, ainsi que sur la tradition du domaine d’études.

Généralement, dans de nombreux domaines, un résultat de p 0,05 constitue un seuil acceptable de signification statistique, mais gardez à l'esprit que ce niveau comprend toujours une marge d'erreur assez importante (5 %).

Les résultats significatifs au niveau p .01 sont généralement considérés comme statistiquement significatifs, tandis que les résultats au niveau p .005 ou p .00 sont généralement considérés comme statistiquement significatifs. 001 comme hautement significatif. Cependant, il faut comprendre que cette classification des niveaux de signification est tout à fait arbitraire et n'est qu'un accord informel adopté sur la base de l'expérience pratique. dans un domaine d'études particulier.

Il est clair que plus le nombre d'analyses effectuées sur l'ensemble des données collectées est grand, plus le nombre de résultats significatifs (au niveau sélectionné) sera découvert par pur hasard.

Certaines méthodes statistiques qui impliquent de nombreuses comparaisons, et ont donc un risque important de répéter ce type d'erreur, effectuent un ajustement ou une correction spéciale pour le nombre total de comparaisons. Cependant, de nombreuses méthodes statistiques (en particulier les méthodes simples d’analyse exploratoire des données) n’offrent aucun moyen de résoudre ce problème.

Si la relation entre les variables est « objectivement » faible, il n’y a alors pas d’autre moyen de tester une telle relation que d’étudier un large échantillon. Même si l’échantillon est parfaitement représentatif, l’effet ne sera pas statistiquement significatif si l’échantillon est petit. De même, si une relation est « objectivement » très forte, elle peut alors être détectée avec un degré élevé de signification, même dans un très petit échantillon.

Plus la relation entre les variables est faible, plus la taille de l’échantillon requise pour la détecter de manière significative est grande.

Beaucoup de différents mesures de relation entre variables. Le choix d'une mesure particulière dans une étude particulière dépend du nombre de variables, des échelles de mesure utilisées, de la nature des relations, etc.

La plupart de ces mesures suivent cependant un principe général : elles tentent d'estimer une relation observée en la comparant à la « relation maximale concevable » entre les variables en question. Techniquement parlant, la manière habituelle de faire de telles estimations est d'examiner comment varient les valeurs des variables, puis de calculer dans quelle mesure la variation totale disponible peut être expliquée par la présence d'une variation « commune » (« conjointe ») dans deux (ou plus) variables.

La signification dépend principalement de la taille de l’échantillon. Comme nous l’avons déjà expliqué, dans les très grands échantillons, même les relations très faibles entre les variables seront significatives, tandis que dans les petits échantillons, même les relations très fortes ne sont pas fiables.

Ainsi, afin de déterminer le niveau de signification statistique, il faut une fonction qui représente la relation entre « l'ampleur » et la « signification » de la relation entre les variables pour chaque taille d'échantillon.

Une telle fonction indiquerait exactement « quelle est la probabilité d’obtenir une dépendance d’une valeur donnée (ou plus) dans un échantillon d’une taille donnée, en supposant qu’une telle dépendance n’existe pas dans la population ». En d’autres termes, cette fonction donnerait un niveau de signification
(niveau p), et donc la probabilité de rejeter par erreur l’hypothèse de l’absence de cette dépendance dans la population.

Cette hypothèse « alternative » (qu'il n'y a pas de relation dans la population) est généralement appelée hypothèse nulle.

L'idéal serait que la fonction qui calcule la probabilité d'erreur soit linéaire et n'ait que des pentes différentes pour différentes tailles d'échantillon. Malheureusement, cette fonction est beaucoup plus complexe et n’est pas toujours exactement la même. Cependant, dans la plupart des cas, sa forme est connue et peut être utilisée pour déterminer les niveaux de signification dans les études portant sur des échantillons d'une taille donnée. La plupart de ces fonctions sont associées à une classe de distributions appelée normale .



Avez-vous aimé l'article? Partagez avec vos amis !