Évaluer la fiabilité des résultats de la recherche statistique. Fiabilité et signification statistique

Importance statistique

Les résultats obtenus à l'aide d'une procédure de recherche particulière sont appelés statistiquement significatif, si la probabilité de leur apparition aléatoire est très faible. Ce concept peut être illustré par l’exemple du lancer d’une pièce de monnaie. Supposons que la pièce soit lancée 30 fois ; Les têtes sont venues 17 fois et les queues sont venues 13 fois. Est significatifécart de ce résultat par rapport à celui attendu (15 face et 15 face), ou cet écart est-il aléatoire ? Pour répondre à cette question, vous pouvez, par exemple, lancer la même pièce plusieurs fois, 30 fois de suite, et en même temps noter combien de fois le rapport « face » sur « face » égal à 17 :13 est répété. . L'analyse statistique nous épargne ce processus fastidieux. Avec son aide, après les 30 premiers lancers d'une pièce, vous pouvez estimer le nombre possible d'occurrences aléatoires de 17 « face » et 13 « face ». Une telle évaluation est appelée une déclaration probabiliste.

Dans la littérature scientifique sur la psychologie industrielle et organisationnelle, un énoncé probabiliste sous forme mathématique est désigné par l'expression r(probabilité)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (p< 0,01). Ce fait est important pour comprendre la littérature, mais ne doit pas être interprété comme signifiant qu’il est inutile de mener des observations qui ne répondent pas à ces normes. Résultats de recherche dits non significatifs (observations pouvant être obtenues par hasard) plus une à cinq fois sur 100) peut être très utile pour identifier les tendances et comme guide pour les recherches futures.

Il convient également de noter que tous les psychologues ne sont pas d'accord avec les normes et procédures traditionnelles (par exemple, Cohen, 1994 ; Sauley et Bedeian, 1989). Les questions liées à la mesure constituent elles-mêmes un sujet de travail majeur pour de nombreux chercheurs, étudiant l'exactitude des méthodes de mesure et les hypothèses qui sous-tendent les méthodes et normes existantes, ainsi que le développement de nouveaux cliniciens et instruments. Peut-être qu’à l’avenir, des recherches de ce type conduiront à des changements dans les normes traditionnelles d’évaluation de la signification statistique, et ces changements seront largement acceptés. (La Cinquième Division de l'American Psychological Association est un groupe de psychologues spécialisés dans l'étude de l'évaluation, de la mesure et des statistiques.)

Dans les rapports de recherche, une déclaration probabiliste telle que r< 0,05, en raison de certains statistiques, c'est-à-dire un nombre obtenu à la suite d'un certain ensemble de procédures de calcul mathématique. Une confirmation probabiliste est obtenue en comparant ces statistiques avec les données de tableaux spéciaux publiés à cet effet. Dans la recherche en psychologie industrielle et organisationnelle, des statistiques telles que r, F, t, r>(lire « chi carré ») et R.(lire "plusieurs" R"). Dans chaque cas, les statistiques (un chiffre) obtenues à partir de l'analyse d'une série d'observations peuvent être comparées aux chiffres d'un tableau publié. Après cela, vous pouvez formuler une déclaration probabiliste sur la probabilité d'obtenir ce nombre au hasard, c'est-à-dire tirer une conclusion sur la signification des observations.

Pour comprendre les études décrites dans cet ouvrage, il suffit d’avoir une compréhension claire de la notion de signification statistique et pas nécessairement de savoir comment sont calculées les statistiques évoquées ci-dessus. Il serait cependant utile de discuter d’une hypothèse qui sous-tend toutes ces procédures. C'est l'hypothèse selon laquelle toutes les variables observées sont à peu près normalement distribuées. De plus, lors de la lecture de rapports de recherche en psychologie industrielle et organisationnelle, trois autres concepts apparaissent souvent qui jouent un rôle important - premièrement, la corrélation et la communication corrélationnelle, deuxièmement, la variable déterminante/prédictive et « ANOVA » (analyse de variance), dans - troisièmement, un groupe de méthodes statistiques sous le nom général de « méta-analyse ».

Aujourd'hui, c'est vraiment trop simple : vous pouvez vous approcher d'un ordinateur et, avec peu ou pas de connaissance de ce que vous faites, créer de l'intelligence et des absurdités à une vitesse vraiment étonnante. (J.Boîte)

Termes et concepts de base des statistiques médicales

Dans cet article, nous présenterons quelques concepts statistiques clés pertinents lors de la conduite de recherches médicales. Les termes sont abordés plus en détail dans les articles pertinents.

Variation

Définition. Le degré de dispersion des données (valeurs d'attribut) sur la plage de valeurs

Probabilité

Définition. La probabilité est le degré de possibilité de survenance d'un certain événement dans certaines conditions.

Exemple. Expliquons la définition du terme dans la phrase « La probabilité de guérison lors de l'utilisation du médicament Arimidex est de 70 % ». L'événement est « la guérison du patient », la condition « le patient prend Arimidex », le degré de possibilité est de 70 % (en gros, sur 100 personnes prenant Arimidex, 70 se rétablissent).

Probabilité cumulée

Définition. La probabilité cumulative de survie au moment t est la même que la proportion de patients en vie à ce moment-là.

Exemple. Si l'on dit que la probabilité cumulée de survie après un traitement de cinq ans est de 0,7, cela signifie que dans le groupe de patients considéré, 70 % du nombre initial sont restés en vie et 30 % sont décédés. En d’autres termes, sur cent personnes, 30 sont décédées au cours des cinq premières années.

Temps avant l'événement

Définition. Le temps précédant un événement est le temps, exprimé en certaines unités, qui s'est écoulé depuis un moment initial jusqu'à l'apparition d'un événement.

Explication. Les unités de temps dans la recherche médicale sont les jours, les mois et les années.

Exemples typiques de temps initiaux :

    commencer à surveiller le patient

    traitement chirurgical

Exemples typiques des événements considérés :

    progression de la maladie

    apparition d'une rechute

    décès d'un patient

Échantillon

Définition. La partie d'une population obtenue par sélection.

Sur la base des résultats de l'analyse de l'échantillon, des conclusions sont tirées sur l'ensemble de la population, qui ne sont valables que si la sélection a été aléatoire. Puisqu’il est pratiquement impossible d’effectuer une sélection aléatoire dans une population, des efforts doivent être faits pour garantir que l’échantillon soit au moins représentatif de la population.

Échantillons dépendants et indépendants

Définition.Échantillons dans lesquels les sujets de l'étude ont été recrutés indépendamment les uns des autres. Une alternative aux échantillons indépendants sont les échantillons dépendants (connectés, appariés).

Hypothèse

Hypothèses bilatérales et unilatérales

Tout d’abord, expliquons l’utilisation du terme hypothèse en statistique.

Le but de la plupart des recherches est de tester la véracité d’une affirmation. Le but du dépistage des drogues est le plus souvent de tester l’hypothèse selon laquelle un médicament est plus efficace qu’un autre (par exemple, l’Arimidex est plus efficace que le tamoxifène).

Pour garantir la rigueur de l'étude, l'énoncé à vérifier est exprimé mathématiquement. Par exemple, si A est le nombre d’années de vie d’un patient prenant de l’Arimidex et T le nombre d’années de vie d’un patient prenant du Tamoxifène, alors l’hypothèse testée peut s’écrire A>T.

Définition. Une hypothèse est dite bilatérale si elle consiste en l’égalité de deux quantités.

Un exemple d’hypothèse bilatérale : A=T.

Définition. Une hypothèse est dite unilatérale (unilatérale) si elle consiste en l'inégalité de deux quantités.

Exemples d'hypothèses unilatérales :

Données dichotomiques (binaires)

Définition. Données exprimées par seulement deux valeurs alternatives valides

Exemple : Le patient est « en bonne santé » - « malade ». L'œdème « est » - « non ».

Intervalle de confiance

Définition. L'intervalle de confiance pour une quantité est la plage autour de la valeur de la quantité dans laquelle se situe la vraie valeur de cette quantité (avec un certain niveau de confiance).

Exemple. Supposons que la quantité étudiée soit le nombre de patients par an. En moyenne, leur nombre est de 500 et l'intervalle de confiance à 95 % est de (350 900). Cela signifie que, très probablement (avec une probabilité de 95 %), au moins 350 et pas plus de 900 personnes contacteront la clinique au cours de l'année.

Désignation. Une abréviation très couramment utilisée est : IC 95 % est un intervalle de confiance avec un niveau de confiance de 95 %.

Fiabilité, signification statistique (niveau P)

Définition. La signification statistique d’un résultat est une mesure de la confiance dans sa « vérité ».

Toute recherche est réalisée sur la base d'une partie seulement des objets. Une étude de l'efficacité d'un médicament n'est pas réalisée sur la base de tous les patients de la planète, mais uniquement sur un certain groupe de patients (il est tout simplement impossible de réaliser une analyse sur la base de tous les patients).

Supposons qu'à la suite de l'analyse, une certaine conclusion ait été tirée (par exemple, l'utilisation d'Arimidex comme thérapie adéquate est 2 fois plus efficace que le tamoxifène).

La question qui doit être posée est : « Dans quelle mesure pouvez-vous faire confiance à ce résultat ? »

Imaginez que nous menions une étude basée sur seulement deux patients. Bien entendu, dans ce cas, les résultats doivent être traités avec prudence. Si un grand nombre de patients ont été examinés (la valeur numérique d'un « grand nombre » dépend de la situation), alors les conclusions tirées peuvent déjà être fiables.

Ainsi, le degré de confiance est déterminé par la valeur du niveau p (valeur p).

Un niveau p plus élevé correspond à un niveau de confiance plus faible dans les résultats obtenus à partir de l’analyse de l’échantillon. Par exemple, un niveau p égal à 0,05 (5 %) indique que la conclusion tirée de l'analyse d'un certain groupe n'est qu'une caractéristique aléatoire de ces objets avec une probabilité de seulement 5 %.

En d’autres termes, avec une très forte probabilité (95 %), la conclusion peut être étendue à tous les objets.

De nombreuses études considèrent 5 % comme une valeur de niveau p acceptable. Cela signifie que si, par exemple, p = 0,01, alors les résultats peuvent être fiables, mais si p = 0,06, alors vous ne le pouvez pas.

Étude

Etude prospective est une étude dans laquelle des échantillons sont sélectionnés sur la base d'un facteur initial et un facteur résultant est analysé dans les échantillons.

Etude rétrospective est une étude dans laquelle des échantillons sont sélectionnés sur la base d'un facteur résultant et un facteur initial est analysé dans les échantillons.

Exemple. Le facteur initial est une femme enceinte plus jeune/plus de 20 ans. Le facteur qui en résulte est que l’enfant pèse plus de 2,5 kg. Nous analysons si le poids de l’enfant dépend de l’âge de la mère.

Si nous recrutons 2 échantillons, l'un avec des mères de moins de 20 ans, l'autre avec des mères plus âgées, puis analysons la masse d'enfants dans chaque groupe, alors il s'agit d'une étude prospective.

Si nous recrutons 2 échantillons, dans l'un - des mères qui ont donné naissance à des enfants de moins de 2,5 kg, dans l'autre - plus lourds, puis analysons l'âge des mères de chaque groupe, alors il s'agit d'une étude rétrospective (naturellement, une telle étude ne peut être réalisé que lorsque l'expérience est terminée, c'est-à-dire que tous les enfants sont nés).

Exode

Définition. Un phénomène cliniquement significatif, un indicateur de laboratoire ou un signe qui sert d'objet d'intérêt au chercheur. Lors de la réalisation d'essais cliniques, les résultats servent de critères pour évaluer l'efficacité d'une intervention thérapeutique ou préventive.

Épidémiologie clinique

Définition. Science qui permet de prédire un résultat particulier pour chaque patient spécifique, sur la base de l'étude de l'évolution clinique de la maladie dans des cas similaires en utilisant des méthodes scientifiques strictes d'étude des patients pour garantir l'exactitude des prédictions.

Cohorte

Définition. Un groupe de participants à une étude unis par une caractéristique commune au moment de sa formation et étudiés sur une longue période.

Contrôle

Contrôle historique

Définition. Un groupe témoin formé et examiné dans la période précédant l'étude.

Contrôle parallèle

Définition. Un groupe témoin s'est formé simultanément à la formation du groupe principal.

Corrélation

Définition. Relation statistique entre deux caractéristiques (quantitatives ou ordinales), montrant qu'une valeur plus grande d'une caractéristique dans une certaine partie des cas correspond à une valeur plus grande - dans le cas d'une corrélation positive (directe) - de l'autre caractéristique ou à une valeur plus petite. valeur - dans le cas d'une corrélation négative (inverse).

Exemple. Une corrélation significative a été trouvée entre les niveaux de plaquettes et de leucocytes dans le sang du patient. Le coefficient de corrélation est de 0,76.

Coefficient de risque (RR)

Définition. Le rapport de risque est le rapport entre la probabilité d'occurrence d'un événement (« mauvais ») pour le premier groupe d'objets et la probabilité d'occurrence du même événement pour le deuxième groupe d'objets.

Exemple. Si la probabilité de développer un cancer du poumon chez les non-fumeurs est de 20 % et chez les fumeurs de 100 %, alors le CR sera égal à un cinquième. Dans cet exemple, le premier groupe d’objets est constitué de non-fumeurs, le deuxième groupe de fumeurs et la survenue d’un cancer du poumon est considérée comme un « mauvais » événement.

Il est évident que :

1) si KR = 1, alors la probabilité qu'un événement se produise en groupe est la même

2) si KP>1, alors l'événement se produit plus souvent avec les objets du premier groupe qu'avec les objets du second

3) si KR<1, то событие чаще происходит с объектами из второй группы, чем из первой

Méta-analyse

Définition. AVEC analyse statistique qui résume les résultats de plusieurs études portant sur le même problème (généralement l'efficacité du traitement, de la prévention, des méthodes de diagnostic). Le regroupement des études fournit un échantillon plus large pour l’analyse et une plus grande puissance statistique pour les études combinées. Utilisé pour augmenter les preuves ou la confiance dans une conclusion sur l'efficacité de la méthode étudiée.

Méthode de Kaplan-Meier (estimations du multiplicateur de Kaplan-Meier)

Cette méthode a été inventée par les statisticiens E.L. Kaplan et Paul Meyer.

Le procédé est utilisé pour calculer diverses quantités associées au temps d'observation d'un patient. Exemples de telles quantités :

    probabilité de guérison dans un délai d'un an lors de l'utilisation du médicament

    risque de rechute après une intervention chirurgicale dans les trois ans suivant l'intervention chirurgicale

    probabilité cumulée de survie à cinq ans chez les patients atteints d'un cancer de la prostate après amputation d'un organe

Expliquons les avantages de l'utilisation de la méthode Kaplan-Meier.

Les valeurs des valeurs en analyse « conventionnelle » (n'utilisant pas la méthode de Kaplan-Meier) sont calculées en divisant l'intervalle de temps considéré en intervalles.

Par exemple, si nous étudions la probabilité de décès d'un patient dans un délai de 5 ans, alors l'intervalle de temps peut être divisé en 5 parties (moins de 1 an, 1-2 ans, 2-3 ans, 3-4 ans, 4- 5 ans), ainsi et pendant 10 (six mois chacun), ou pour un autre nombre d'intervalles. Les résultats pour différentes partitions seront différents.

Choisir la partition la plus appropriée n'est pas une tâche facile.

Les estimations des valeurs obtenues à l'aide de la méthode de Kaplan-Meier ne dépendent pas de la division du temps d'observation en intervalles, mais dépendent uniquement de la durée de vie de chaque patient.

Il est donc plus facile pour le chercheur de réaliser l’analyse, et les résultats sont souvent meilleurs que les résultats d’une analyse « classique ».

La courbe de Kaplan - Meier est un graphique de la courbe de survie obtenue grâce à la méthode de Kaplan-Meier.

Modèle Cox

Ce modèle a été inventé par Sir David Roxby Cox (né en 1924), célèbre statisticien anglais, auteur de plus de 300 articles et livres.

Le modèle de Cox est utilisé dans des situations où les grandeurs étudiées dans l'analyse de survie dépendent de fonctions du temps. Par exemple, la probabilité de rechute après t années (t=1,2,...) peut dépendre du logarithme du temps log(t).

Un avantage important de la méthode proposée par Cox est l'applicabilité de cette méthode dans un grand nombre de situations (le modèle n'impose pas de restrictions strictes sur la nature ou la forme de la distribution de probabilité).

Sur la base du modèle de Cox, une analyse peut être réalisée (appelée analyse de Cox), dont le résultat est la valeur du coefficient de risque et l'intervalle de confiance du coefficient de risque.

Méthodes statistiques non paramétriques

Définition. Classe de méthodes statistiques utilisées principalement pour l'analyse de données quantitatives qui ne forment pas une distribution normale, ainsi que pour l'analyse de données qualitatives.

Exemple. Pour identifier l'importance des différences de pression systolique des patients selon le type de traitement, nous utiliserons le test non paramétrique de Mann-Whitney.

Signe (variable)

Définition. X caractéristiques de l'objet d'étude (observation). Il existe des caractéristiques qualitatives et quantitatives.

Randomisation

Définition. Une méthode de distribution aléatoire d'objets de recherche dans les groupes principaux et témoins à l'aide de moyens spéciaux (tableaux ou compteur de nombres aléatoires, tirage au sort et autres méthodes d'attribution aléatoire d'un numéro de groupe à une observation incluse). La randomisation minimise les différences entre les groupes sur les caractéristiques connues et inconnues qui peuvent potentiellement influencer le résultat étudié.

Risque

Attributif- risque supplémentaire d'évolution défavorable (par exemple, maladie) en raison de la présence d'une certaine caractéristique (facteur de risque) chez le sujet de l'étude. Il s’agit de la part du risque de développer une maladie qui est associée, expliquée par et peut être éliminée si le facteur de risque est éliminé.

Risque relatif- le rapport entre le risque d'une condition défavorable dans un groupe et le risque de cette condition dans un autre groupe. Utilisé dans les études prospectives et observationnelles lorsque les groupes sont formés à l'avance et que la maladie étudiée ne s'est pas encore produite.

Examen roulant

Définition. Une méthode pour vérifier la stabilité, la fiabilité, les performances (validité) d'un modèle statistique en supprimant séquentiellement les observations et en recalculant le modèle. Plus les modèles résultants sont similaires, plus le modèle est stable et fiable.

Événement

Définition. Le résultat clinique observé dans l’étude, tel que la survenue d’une complication, d’une rechute, d’une guérison ou d’un décès.

Stratification

Définition. M. une technique d'échantillonnage dans laquelle la population de tous les participants qui répondent aux critères d'inclusion d'une étude est d'abord divisée en groupes (strates) sur la base d'une ou plusieurs caractéristiques (généralement le sexe, l'âge) susceptibles d'influencer le résultat d'intérêt, puis de chacune des caractéristiques les participants de ces groupes (strate) sont recrutés indépendamment dans les groupes expérimentaux et témoins. Cela permet au chercheur d'équilibrer les caractéristiques importantes entre les groupes expérimentaux et témoins.

Tableau de contingence

Définition. Un tableau de fréquences absolues (nombres) d'observations, dont les colonnes correspondent aux valeurs d'une caractéristique, et les lignes - aux valeurs d'une autre caractéristique (dans le cas d'un tableau de contingence bidimensionnel). Les valeurs de fréquence absolues sont situées dans les cellules à l'intersection des lignes et des colonnes.

Donnons un exemple de tableau de contingence. La chirurgie des anévrismes a été réalisée chez 194 patients. La gravité de l'œdème chez les patients avant la chirurgie est connue.

Œdème\ Résultat

pas de gonflement 20 6 26
gonflement modéré 27 15 42
œdème prononcé 8 21 29
mj 55 42 194

Ainsi, sur 26 patients sans œdème, 20 patients ont survécu après la chirurgie et 6 patients sont décédés. Sur les 42 patients présentant un œdème modéré, 27 patients ont survécu, 15 sont décédés, etc.

Test du chi carré pour les tableaux de contingence

Pour déterminer l'importance (la fiabilité) des différences d'un signe en fonction d'un autre (par exemple, l'issue d'une opération en fonction de la gravité de l'œdème), le test du chi carré est utilisé pour les tableaux de contingence :


Chance

Soit la probabilité d'un événement égal à p. La probabilité que l’événement ne se produise pas est alors de 1-p.

Par exemple, si la probabilité qu'un patient reste en vie après cinq ans est de 0,8 (80 %), alors la probabilité qu'il meure pendant cette période est de 0,2 (20 %).

Définition. Le hasard est le rapport entre la probabilité qu’un événement se produise et la probabilité que cet événement ne se produise pas.

Exemple. Dans notre exemple (à propos d'un patient), la chance est de 4, puisque 0,8/0,2=4

Ainsi, la probabilité de guérison est 4 fois supérieure à la probabilité de décès.

Interprétation de la valeur d'une quantité.

1) Si Chance=1, alors la probabilité qu'un événement se produise est égale à la probabilité que l'événement ne se produise pas ;

2) si Chance >1, alors la probabilité que l'événement se produise est supérieure à la probabilité que l'événement ne se produise pas ;

3) si Chance<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Rapport de cotes

Définition. Le rapport de cotes est le rapport de cotes du premier groupe d’objets par rapport au rapport de cotes du deuxième groupe d’objets.

Exemple. Supposons que les hommes et les femmes subissent un certain traitement.

La probabilité qu'un patient de sexe masculin reste en vie après cinq ans est de 0,6 (60 %) ; la probabilité qu'il décède pendant cette période est de 0,4 (40 %).

Des probabilités similaires pour les femmes sont de 0,8 et 0,2.

Le rapport de cotes dans cet exemple est

Interprétation de la valeur d'une quantité.

1) Si le rapport de cotes = 1, alors la chance du premier groupe est égale à la chance du deuxième groupe

2) Si le rapport de cotes est >1, alors la chance pour le premier groupe est supérieure à la chance pour le deuxième groupe.

3) Si le rapport des cotes<1, то шанс для первой группы меньше шанса для второй группы

Dans toute situation scientifique et pratique d'une expérience (enquête), les chercheurs ne peuvent pas étudier toutes les personnes (population générale, population), mais seulement un certain échantillon. Par exemple, même si nous étudions un groupe relativement restreint de personnes, comme celles qui souffrent d’une maladie particulière, il est très peu probable que nous disposions des ressources appropriées ou que nous ayons besoin de tester chaque patient. Au lieu de cela, il est courant de tester un échantillon de la population car cela est plus pratique et prend moins de temps. Si oui, comment savoir si les résultats obtenus à partir de l’échantillon sont représentatifs de l’ensemble du groupe ? Ou, pour utiliser une terminologie professionnelle, pouvons-nous être sûrs que notre recherche décrit correctement l'ensemble de la population, l'échantillon que nous avons utilisé ?

Pour répondre à cette question, il est nécessaire de déterminer la signification statistique des résultats des tests. Importance statistique (Niveau significatif, abrégé Sig.), ou niveau de signification /7 (niveau P) - est la probabilité qu'un résultat donné représente correctement la population à partir de laquelle l'étude a été échantillonnée. Notez qu'il s'agit uniquement probabilité- il est impossible d'affirmer avec une certitude absolue qu'une étude donnée décrit correctement l'ensemble de la population. Au mieux, le niveau de signification ne peut que conclure que cela est très probable. Ainsi, la question suivante se pose inévitablement : quel doit être le niveau de signification avant qu’un résultat donné puisse être considéré comme une caractérisation correcte de la population ?

Par exemple, à quelle valeur de probabilité êtes-vous prêt à dire que de telles chances sont suffisantes pour prendre un risque ? Et si les chances sont de 10 sur 100 ou de 50 sur 100 ? Et si cette probabilité était plus élevée ? Qu’en est-il des cotes comme 90 sur 100, 95 sur 100 ou 98 sur 100 ? Pour une situation à risque, ce choix est assez problématique, car il dépend des caractéristiques personnelles de la personne.

En psychologie, on considère traditionnellement qu’une chance sur 100 ou plus signifie que la probabilité que les résultats soient corrects est suffisamment élevée pour qu’ils soient généralisables à l’ensemble de la population. Ce chiffre a été établi au cours d'une activité scientifique et pratique - il n'existe aucune loi selon laquelle il devrait être choisi comme ligne directrice (et en effet, dans d'autres sciences, d'autres valeurs du niveau de signification sont parfois choisies).

En psychologie, cette probabilité fonctionne d’une manière quelque peu inhabituelle. Au lieu de la probabilité que l'échantillon représente la population, la probabilité que l'échantillon ne représente pas population. En d’autres termes, il s’agit de la probabilité que la relation ou les différences observées soient aléatoires et non une propriété de la population. Ainsi, au lieu de dire qu'il y a 95 chances sur 100 que les résultats d'une étude soient corrects, les psychologues disent qu'il y a 5 chances sur 100 que les résultats soient faux (tout comme 40 chances sur 100 que les résultats soient corrects signifie une chance sur 60 sur 100 en faveur de leur inexactitude). La valeur de probabilité est parfois exprimée en pourcentage, mais le plus souvent elle est écrite sous forme de fraction décimale. Par exemple, 10 chances sur 100 sont exprimées sous forme de fraction décimale de 0,1 ; 5 sur 100 s’écrit 0,05 ; 1 sur 100 - 0,01. Avec cette forme d'enregistrement, la valeur limite est de 0,05. Pour qu’un résultat soit considéré comme correct, son niveau de signification doit être ci-dessous ce nombre (rappelez-vous, c'est la probabilité que le résultat faux décrit la population). Pour éliminer la terminologie, ajoutons que la « probabilité que le résultat soit incorrect » (qui est plus correctement appelée niveau de signification) généralement désigné par une lettre latine r. Les descriptions des résultats expérimentaux incluent généralement une déclaration récapitulative telle que « les résultats étaient significatifs au niveau de confiance ». (p(p) inférieur à 0,05 (soit moins de 5 %).

Ainsi, le niveau de signification ( r) indique la probabilité que les résultats Pas représentent la population. Traditionnellement en psychologie, les résultats sont considérés comme reflétant de manière fiable la situation globale si la valeur r inférieur à 0,05 (soit 5 %). Cependant, il ne s’agit là que d’une affirmation probabiliste et en aucun cas d’une garantie inconditionnelle. Dans certains cas, cette conclusion peut ne pas être correcte. En fait, nous pouvons calculer la fréquence à laquelle cela pourrait se produire si nous examinons l’ampleur du niveau de signification. Au niveau de signification de 0,05, 5 fois sur 100, les résultats sont susceptibles d'être incorrects. 11a à première vue, il semble que ce ne soit pas très courant, mais si vous y réfléchissez, alors 5 chances sur 100 équivaut à 1 sur 20. En d'autres termes, dans un cas sur 20, le résultat sera incorrect. De telles probabilités ne semblent pas particulièrement favorables, et les chercheurs doivent se garder de commettre des erreurs. erreurs du premier type. C’est le nom de l’erreur qui se produit lorsque les chercheurs pensent avoir trouvé de vrais résultats, mais en réalité ils ne les ont pas trouvés. L’erreur inverse, qui consiste à faire croire aux chercheurs qu’ils n’ont pas trouvé de résultat alors qu’en réalité il y en a un, s’appelle erreurs du deuxième type.

Ces erreurs surviennent parce que la possibilité que l'analyse statistique effectuée ne puisse être exclue. La probabilité d'erreur dépend du niveau de signification statistique des résultats. Nous avons déjà noté que pour qu'un résultat soit considéré comme correct, le seuil de signification doit être inférieur à 0,05. Bien entendu, certains résultats sont d'un niveau inférieur, et il n'est pas rare de trouver des résultats aussi bas que 0,001 (une valeur de 0,001 indique que les résultats ont 1 chance sur 1 000 d'être faux). Plus la valeur p est petite, plus notre confiance dans l’exactitude des résultats est forte.

Dans le tableau 7.2 montre l'interprétation traditionnelle des niveaux de signification concernant la possibilité d'inférence statistique et la justification de la décision concernant la présence d'une relation (différences).

Tableau 7.2

Interprétation traditionnelle des niveaux de signification utilisée en psychologie

Sur la base de l'expérience de la recherche pratique, il est recommandé : afin d'éviter autant que possible les erreurs du premier et du deuxième types, lors de la conclusion de conclusions importantes, des décisions doivent être prises concernant la présence de différences (connexions), en se concentrant sur le niveau r n signe.

Test statistique(Test statistique - c'est un outil pour déterminer le niveau de signification statistique. Il s’agit d’une règle décisive qui garantit qu’une hypothèse vraie est acceptée et qu’une hypothèse fausse est rejetée avec une forte probabilité.

Les critères statistiques désignent également la méthode de calcul d'un certain nombre et le nombre lui-même. Tous les critères sont utilisés dans un seul objectif principal : déterminer niveau de signification les données qu'ils analysent (c'est-à-dire la probabilité que les données reflètent un effet réel qui représente correctement la population à partir de laquelle l'échantillon est tiré).

Certains tests ne peuvent être utilisés que pour des données normalement distribuées (et si le trait est mesuré sur une échelle d'intervalle) - ces tests sont généralement appelés paramétrique. En utilisant d'autres critères, vous pouvez analyser les données avec presque toutes les lois de distribution - on les appelle non paramétrique.

Les critères paramétriques sont des critères qui incluent des paramètres de distribution dans la formule de calcul, c'est-à-dire moyennes et variances (test t de Student, test F de Fisher, etc.).

Les critères non paramétriques sont des critères qui n'incluent pas de paramètres de distribution dans la formule de calcul des paramètres de distribution et reposent sur un fonctionnement avec des fréquences ou des rangs (critère Q Critère de Rosenbaum U Manne - Whitney

Par exemple, lorsque nous disons que la signification des différences a été déterminée par le test t de Student, nous voulons dire que la méthode du test t de Student a été utilisée pour calculer la valeur empirique, qui est ensuite comparée à la valeur (critique) tabulée.

Par le rapport des valeurs empiriques (calculées par nos soins) et critiques du critère (tabulaire), nous pouvons juger si notre hypothèse est confirmée ou réfutée. Dans la plupart des cas, pour reconnaître les différences comme significatives, il est nécessaire que la valeur empirique du critère dépasse la valeur critique, bien qu'il existe des critères (par exemple, le test de Mann-Whitney ou le test des signes) dans lesquels nous devons adhérer à la règle inverse.

Dans certains cas, la formule de calcul du critère inclut le nombre d'observations dans l'échantillon étudié, noté p. À l'aide d'un tableau spécial, nous déterminons à quel niveau de signification statistique des différences correspond une valeur empirique donnée. Dans la plupart des cas, une même valeur empirique du critère peut être significative ou non significative selon le nombre d'observations dans l'échantillon étudié ( n ) ou de ce qu'on appelle nombre de degrés de liberté , qui est noté v (g>) ou comment df (Parfois d).

Connaissance n ou le nombre de degrés de liberté, à l'aide de tableaux spéciaux (les principaux sont donnés en annexe 5) on peut déterminer les valeurs critiques du critère et comparer avec elles la valeur empirique obtenue. Ceci s'écrit généralement ainsi : « quand n = 22 valeurs critiques du critère sont t St = 2,07" ou "à v (d) = 2 valeurs critiques du test de Student sont = 4,30", etc.

Généralement, la préférence est toujours donnée aux critères paramétriques, et nous adhérons à cette position. Ils sont considérés comme plus fiables et peuvent fournir plus d’informations et une analyse plus approfondie. Quant à la complexité des calculs mathématiques, lors de l'utilisation de programmes informatiques, cette complexité disparaît (mais d'autres apparaissent cependant tout à fait surmontables).

  • Dans ce manuel, nous n'examinons pas en détail le problème de la statistique
  • hypothèses (nulles - R0 et alternatives - Hj) et décisions statistiques prises, puisque les étudiants en psychologie étudient cela séparément dans la discipline « Méthodes mathématiques en psychologie ». En outre, il convient de noter que lors de la préparation d'un rapport de recherche (travaux de cours ou de diplôme, publication), les hypothèses statistiques et les solutions statistiques ne sont généralement pas données. Habituellement, lors de la description des résultats, ils indiquent le critère, fournissent les statistiques descriptives nécessaires (moyennes, sigma, coefficients de corrélation, etc.), les valeurs empiriques des critères, les degrés de liberté et nécessairement le niveau p de signification. Ensuite, une conclusion significative est formulée concernant l'hypothèse testée, indiquant (généralement sous la forme d'une inégalité) le niveau de signification atteint ou non.

FONCTION PAYANTE. La fonctionnalité de signification statistique n’est disponible que sur certains forfaits. Vérifiez s'il est dans .

Vous pouvez découvrir s'il existe des différences statistiquement significatives dans les réponses reçues des différents groupes de répondants aux questions d'une enquête. Pour utiliser la fonctionnalité de signification statistique dans SurveyMonkey, vous devez :

  • Activez la fonctionnalité de signification statistique lorsque vous ajoutez une règle de comparaison à une question de votre enquête. Sélectionnez des groupes de répondants à comparer pour trier les résultats de l'enquête en groupes à des fins de comparaison visuelle.
  • Examinez les tableaux de données de vos questions d'enquête pour identifier toute différence statistiquement significative dans les réponses reçues des différents groupes de répondants.

Afficher la signification statistique

En suivant les étapes ci-dessous, vous pouvez créer une enquête qui affiche une signification statistique.

1. Ajoutez des questions fermées à votre enquête

Afin d'afficher une signification statistique lors de l'analyse des résultats, vous devrez appliquer une règle de comparaison à n'importe quelle question de votre enquête.

Vous pouvez appliquer la règle de comparaison et calculer la signification statistique des réponses si vous utilisez l'un des types de questions suivants dans la conception de votre enquête :

Il est nécessaire de s'assurer que les options de réponse proposées peuvent être divisées en groupes complets. Les options de réponse que vous sélectionnez pour la comparaison lorsque vous créez une règle de comparaison seront utilisées pour organiser les données dans des tableaux croisés tout au long de l'enquête.

2. Recueillir des réponses

Une fois que vous avez terminé votre enquête, créez un collecteur pour la diffuser. Il existe plusieurs façons.

Vous devez recevoir au moins 30 réponses pour chaque option de réponse que vous prévoyez d'utiliser dans votre règle de comparaison pour activer et afficher la signification statistique.

Exemple d'enquête

Vous voulez savoir si les hommes sont nettement plus satisfaits de vos produits que les femmes.

  1. Ajoutez deux questions à choix multiples à votre enquête :
    Quel est votre sexe ? (homme, femme)
    Êtes-vous satisfait ou insatisfait de notre produit? (satisfait, insatisfait)
  2. Assurez-vous qu'au moins 30 personnes interrogées sélectionnent « homme » pour la question sur le genre ET qu'au moins 30 personnes interrogées sélectionnent « femme » comme sexe.
  3. Ajoutez une règle de comparaison à la question « Quel est votre sexe ? » et sélectionnez les deux options de réponse en tant que groupes.
  4. Utilisez le tableau de données sous le tableau de questions « Êtes-vous satisfait ou insatisfait de notre produit ? » pour voir si des options de réponse montrent une différence statistiquement significative

Qu’est-ce qu’une différence statistiquement significative ?

Une différence statistiquement significative signifie que l'analyse statistique a déterminé qu'il existe des différences significatives entre les réponses d'un groupe de répondants et les réponses d'un autre groupe. La signification statistique signifie que les chiffres obtenus sont significativement différents. Ces connaissances vous aideront grandement dans l’analyse des données. Cependant, vous déterminez l'importance des résultats obtenus. C'est vous qui décidez comment interpréter les résultats de l'enquête et quelles mesures doivent être prises en fonction de ceux-ci.

Par exemple, vous recevez plus de plaintes de clientes féminines que de clients masculins. Comment déterminer si une telle différence est réelle et si des mesures doivent être prises à ce sujet ? Un excellent moyen de tester vos observations consiste à mener une enquête qui vous montrera si les clients masculins sont nettement plus satisfaits de votre produit. À l'aide d'une formule statistique, notre fonction de signification statistique vous donnera la possibilité de déterminer si votre produit est réellement beaucoup plus attrayant pour les hommes que pour les femmes. Cela vous permettra d’agir en vous basant sur des faits plutôt que sur des suppositions.

Différence statistiquement significative

Si vos résultats sont mis en évidence dans le tableau de données, cela signifie que les deux groupes de répondants sont très différents l'un de l'autre. Le terme « significatif » ne signifie pas que les chiffres obtenus ont une importance ou une signification particulière, mais simplement qu'il existe une différence statistique entre eux.

Aucune différence statistiquement significative

Si vos résultats ne sont pas mis en évidence dans le tableau de données correspondant, cela signifie que même s'il peut y avoir une différence entre les deux chiffres comparés, il n'y a pas de différence statistique entre eux.

Les réponses sans différences statistiquement significatives démontrent qu'il n'y a pas de différence significative entre les deux éléments comparés compte tenu de la taille de l'échantillon que vous utilisez, mais cela ne signifie pas nécessairement qu'elles ne sont pas significatives. Peut-être qu’en augmentant la taille de l’échantillon, vous pourrez identifier une différence statistiquement significative.

Taille de l'échantillon

Si vous disposez d’un très petit échantillon, seules les très grandes différences entre les deux groupes seront significatives. Si vous disposez d’un échantillon très grand, les différences petites et grandes seront considérées comme significatives.

Toutefois, si deux nombres sont statistiquement différents, cela ne signifie pas que la différence entre les résultats a une signification pratique pour vous. Vous devrez décider vous-même quelles différences sont significatives pour votre enquête.

Calcul de la signification statistique

Nous calculons la signification statistique en utilisant un niveau de confiance standard de 95 %. Si une option de réponse s'avère statistiquement significative, cela signifie que, par hasard ou en raison d'une erreur d'échantillonnage, il y a moins de 5 % de probabilité que la différence entre les deux groupes se produise (souvent affichée sous la forme : p<0,05).

Pour calculer les différences statistiquement significatives entre les groupes, nous utilisons les formules suivantes :

Paramètre

Description

a1Le pourcentage de participants du premier groupe qui ont répondu à la question d'une certaine manière, multiplié par la taille de l'échantillon de ce groupe.
b1Le pourcentage de participants du deuxième groupe qui ont répondu à la question d'une certaine manière, multiplié par la taille de l'échantillon de ce groupe.
Proportion de l'échantillon regroupé (p)La combinaison de deux actions des deux groupes.
Erreur standard (SE)Un indicateur de la différence entre votre part et la part réelle. Une valeur inférieure signifie que la fraction est proche de la fraction réelle, une valeur plus élevée signifie que la fraction est significativement différente de la fraction réelle.
Statistique de test (t)Statistique de test. Le nombre d'écarts types par lesquels une valeur donnée diffère de la moyenne.
Importance statistiqueSi la valeur absolue de la statistique du test est supérieure à 1,96* écart-type par rapport à la moyenne, cela est considéré comme une différence statistiquement significative.

*1,96 est la valeur utilisée pour le niveau de confiance de 95 %, car 95 % de la plage gérée par la fonction de distribution t de Student se situe à moins de 1,96 écarts types de la moyenne.

Exemple de calcul

En continuant avec l'exemple utilisé ci-dessus, voyons si le pourcentage d'hommes qui se disent satisfaits de votre produit est nettement supérieur au pourcentage de femmes.

Disons que 1 000 hommes et 1 000 femmes ont participé à votre enquête et que les résultats de l'enquête ont montré que 70 % des hommes et 65 % des femmes se disent satisfaits de votre produit. Le niveau de 70 % est-il nettement supérieur au niveau de 65 % ?

Remplacez les données suivantes de l'enquête dans les formules données :

  • p1 (% d'hommes satisfaits du produit) = 0,7
  • p2 (% de femmes satisfaites du produit) = 0,65
  • n1 (nombre d'hommes interrogés) = 1000
  • n2 (nombre de femmes interrogées) = 1000

Puisque la valeur absolue de la statistique du test est supérieure à 1,96, cela signifie que la différence entre les hommes et les femmes est significative. Comparés aux femmes, les hommes sont plus susceptibles d’être satisfaits de votre produit.

Masquage de la signification statistique

Comment masquer la signification statistique pour toutes les questions

  1. Cliquez sur la flèche vers le bas à droite de la règle de comparaison dans la barre latérale gauche.
  2. Sélectionnez un élément Modifier la règle.
  3. Désactiver la fonctionnalité Afficher la signification statistiqueà l'aide d'un interrupteur.
  4. Cliquez sur le bouton Appliquer.

Pour masquer la signification statistique d'une question, vous devez :

  1. Cliquez sur le bouton Régler au-dessus du schéma de ce problème.
  2. Ouvrir un onglet Options d'affichage.
  3. Décochez la case à côté Importance statistique.
  4. Cliquez sur le bouton Sauvegarder.

L'option d'affichage est automatiquement activée lorsque l'affichage de la signification statistique est activé. Si vous désactivez cette option d'affichage, l'affichage de la signification statistique sera également désactivé.

Activez la fonctionnalité de signification statistique lorsque vous ajoutez une règle de comparaison à une question de votre enquête. Examinez les tableaux de données de vos questions d'enquête pour déterminer s'il existe des différences statistiquement significatives dans les réponses reçues des différents groupes de répondants.

La signification statistique ou niveau de signification p est le résultat principal du test

hypothèse statistique. En termes techniques, il s'agit de la probabilité de recevoir un

le résultat d'une étude par sondage, à condition qu'en fait pour l'ensemble

Dans l’ensemble, l’hypothèse statistique nulle est vraie, c’est-à-dire qu’il n’y a aucun lien. En d'autres termes, ceci

la probabilité que la relation détectée soit aléatoire et non une propriété

totalité. C’est la signification statistique, le niveau de signification p,

évaluation quantitative de la fiabilité de la communication : plus cette probabilité est faible, plus la connexion est fiable.

Supposons que, lors de la comparaison de deux moyennes d'échantillon, une valeur de niveau soit obtenue

signification statistique p = 0,05. Cela signifie que tester l’hypothèse statistique sur

l'égalité des moyennes dans la population a montré que si c'est vrai, alors la probabilité

L'apparition aléatoire des différences détectées ne dépasse pas 5 %. Autrement dit, si

deux échantillons ont été prélevés à plusieurs reprises dans la même population, puis dans l'un des

20 cas révéleraient une différence identique ou supérieure entre les moyennes de ces échantillons.

Autrement dit, il y a 5 % de chances que les différences constatées soient dues au hasard.

caractère et ne sont pas une propriété de l’agrégat.

Par rapport à une hypothèse scientifique, le niveau de signification statistique est un paramètre quantitatif.

un indicateur du degré de méfiance dans la conclusion sur l'existence d'un lien, calculé à partir des résultats

tests sélectifs et empiriques de cette hypothèse. Plus la valeur du niveau p est faible, plus

la signification statistique d'un résultat de recherche confirmant une hypothèse scientifique.

Il est utile de savoir ce qui influence le niveau de signification. Niveau de signification, toutes choses égales par ailleurs

les conditions sont plus élevées (la valeur du niveau p est inférieure) si :

L’ampleur de la connexion (différence) est plus grande ;

La variabilité du ou des traits est moindre ;

La ou les tailles d’échantillon sont plus grandes.

Unilatéral Tests de signification bilatéraux

Si le but de l'étude est d'identifier les différences dans les paramètres de deux paramètres généraux

des granulats qui correspondent à ses différentes conditions naturelles (conditions de vie,

âge des sujets, etc.), alors on ne sait souvent pas lequel de ces paramètres sera le plus grand, et

Lequel est le plus petit ?

Par exemple, si vous êtes intéressé par la variabilité des résultats d'un test et

groupes expérimentaux, alors, en règle générale, il n'y a aucune confiance dans le signe de la différence de variances ou

écarts types des résultats par lesquels la variabilité est évaluée. Dans ce cas

l'hypothèse nulle est que les variances sont égales, et le but de l'étude est

prouver le contraire, c'est-à-dire présence de différences entre les variances. Il est permis que

la différence peut être de n'importe quel signe. De telles hypothèses sont dites bilatérales.

Mais parfois, le défi consiste à prouver une augmentation ou une diminution d’un paramètre ;

par exemple, le résultat moyen du groupe expérimental est supérieur à celui du groupe témoin. En même temps

Il n'est plus admis que la différence soit d'un signe différent. De telles hypothèses sont appelées

Unilatéral.

Les tests de signification utilisés pour tester des hypothèses bilatérales sont appelés

Double face et pour unilatéral - unilatéral.

La question se pose de savoir quel critère choisir dans un cas donné. Répondre

Cette question dépasse le cadre des méthodes statistiques formelles et est complètement

Cela dépend des objectifs de l'étude. En aucun cas vous ne devez choisir l'un ou l'autre critère après

Mener une expérience basée sur l'analyse de données expérimentales, car cela peut

Conduire à des conclusions erronées. Si, avant de mener une expérience, on suppose que la différence

Les paramètres comparés peuvent être positifs ou négatifs, vous devez alors



Avez-vous aimé l'article? Partagez avec vos amis !