Comment se construit un échantillon représentatif en psychologie. Causes des erreurs systématiques

L’un des principaux éléments d’une étude bien conçue consiste à définir l’échantillon et ce qu’est un échantillon représentatif. C'est comme l'exemple du gâteau. Après tout, il n’est pas nécessaire de manger tout le dessert pour comprendre son goût ? Une petite partie suffit.

Donc le gâteau est population (c'est-à-dire tous les répondants éligibles à l'enquête). Cela peut être exprimé géographiquement, par exemple, uniquement par les résidents de la région de Moscou. Sexe : femmes uniquement. Ou il y a des restrictions d'âge - les Russes de plus de 65 ans.

Le calcul de la population est difficile : il faut disposer des données du recensement de la population ou des enquêtes d'évaluation préliminaire. Par conséquent, la population générale est généralement « estimée » et, à partir du nombre obtenu, on calcule échantillon de population ou échantillon.

Qu’est-ce qu’un échantillon représentatif ?

Échantillon– il s’agit d’un nombre clairement défini de répondants. Sa structure doit coïncider autant que possible avec la structure de la population générale en termes de principales caractéristiques de sélection.

Par exemple, si les répondants potentiels représentent l’ensemble de la population de la Russie, où 54 % sont des femmes et 46 % des hommes, alors l’échantillon doit contenir exactement le même pourcentage. Si les paramètres coïncident, l'échantillon peut alors être qualifié de représentatif. Cela signifie que les inexactitudes et les erreurs dans l'étude sont réduites au minimum.

La taille de l'échantillon est déterminée en tenant compte des exigences de précision et d'économie. Ces exigences sont inversement proportionnelles les unes aux autres : plus la taille de l’échantillon est grande, plus le résultat est précis. De plus, plus la précision est élevée, plus les coûts nécessaires à la réalisation de l’étude sont élevés. Et vice versa, plus l'échantillon est petit, moins il coûte cher et moins les propriétés de la population générale sont reproduites de manière précise et aléatoire.

Ainsi, pour calculer le volume de choix, les sociologues ont inventé une formule et créé calculatrice spéciale:

Probabilité de confiance Et erreur de confiance

Que signifient les termes " probabilité de confiance" Et " erreur de confiance" ? La probabilité de confiance est un indicateur de l’exactitude des mesures. Et l’erreur de confiance est une erreur possible dans les résultats de la recherche. Par exemple, avec une population de plus de 500 000 personnes (disons vivant à Novokuznetsk), l'échantillon sera de 384 personnes avec une probabilité de confiance de 95 % et une erreur de 5 % OR (avec un intervalle de confiance de 95 ± 5). %).

Qu’est-ce qui en découle ? En réalisant 100 études avec un tel échantillon (384 personnes), dans 95 pour cent des cas, les réponses obtenues, selon les lois de la statistique, seront à ± 5 % de la réponse originale. Et nous recevrons un échantillon représentatif avec une probabilité minimale d’erreur statistique.

Une fois la taille de l'échantillon calculée, vous pouvez voir s'il y a un nombre suffisant de répondants dans la version démo du panel de questionnaires. Vous pouvez en savoir plus sur la manière de mener une enquête par panel.

Représentativité de l'échantillon

Nom du paramètre Signification
Sujet de l'article : Représentativité de l'échantillon
Rubrique (catégorie thématique) Psychologie

Exigences d'échantillonnage

Un certain nombre d'exigences obligatoires sont appliquées à l'échantillon, déterminées avant tout par les buts et objectifs de l'étude. La planification d'une expérience doit inclure la prise en compte à la fois de la taille de l'échantillon et d'un certain nombre de ses caractéristiques. Ainsi, dans la recherche psychologique, l'exigence est importante uniformité des échantillons. Cela signifie qu’un psychologue étudiant, par exemple, des adolescents, ne peut pas inclure des adultes dans le même échantillon. Au contraire, une étude réalisée selon la méthode des tranches d'âge suppose fondamentalement la présence de sujets d'âges différents. Parallèlement, dans ce cas, l'homogénéité de l'échantillon doit être respectée, mais selon d'autres critères, notamment l'âge et le sexe. La base pour constituer un échantillon homogène peut être constituée de diverses caractéristiques, telles que le niveau d'intelligence, la nationalité, l'absence de certaines maladies, etc., en fonction des objectifs de l'étude.

Dans les statistiques générales, il existe un concept répété Et non répétitif des échantillons, c'est-à-dire des échantillons avec et sans retour. A titre d'exemple, en règle générale, le choix d'une balle extraite d'un conteneur est donné. Dans le cas d'un retour d'échantillonnage, chaque bille sélectionnée est renvoyée dans le conteneur et doit donc être à nouveau sélectionnée. En cas de sélection non répétitive, la balle une fois sélectionnée est mise de côté et ne peut plus participer à la sélection. Dans la recherche psychologique, on peut trouver des analogues de ce type de méthodes d'organisation d'une étude par sondage, puisqu'un psychologue doit souvent tester plusieurs fois les mêmes sujets en utilisant la même technique. De plus, à proprement parler, la procédure de test est répétée dans ce cas. L'échantillon de sujets, avec une identité complète de composition, dans le cas d'études répétées, présentera toujours quelques différences dues à la variabilité fonctionnelle et liée à l'âge inhérente à toutes les personnes. En raison de la nature de la procédure, un tel échantillon est répété, bien que le sens du terme ici soit évidemment différent de celui des balles.

Il est important de souligner que toutes les exigences relatives à tout échantillon se résument au fait que, sur cette base, le psychologue doit obtenir les informations les plus complètes et non déformées sur les caractéristiques de la population générale à partir de laquelle cet échantillon a été prélevé. En d’autres termes, l’échantillon doit refléter le plus complètement possible les caractéristiques de la population étudiée.

La composition de l'échantillon expérimental doit représenter (modéliser) la population générale, puisque les conclusions obtenues dans l'expérience devraient ensuite être transférées à l'ensemble de la population. Pour cette raison, l'échantillon doit avoir une qualité particulière - représentativité, permettre d’étendre les conclusions qui en sont tirées à l’ensemble de la population.

La représentativité de l'échantillon est très importante, mais pour des raisons objectives, elle est extrêmement difficile à maintenir. Ainsi, c'est un fait bien connu que de 70 à 90 % de toutes les études psychologiques sur le comportement humain ont été menées aux États-Unis dans les années 60 du 20e siècle avec des étudiants universitaires, la plupart étant des étudiants en psychologie. Dans les recherches en laboratoire effectuées sur des animaux, le sujet d’étude le plus courant est le rat. Pour cette raison, ce n’est pas un hasard si la psychologie était autrefois appelée « la science des étudiants de deuxième année et des rats blancs ». Les étudiants universitaires en psychologie ne représentent que 3 % de la population totale des États-Unis. Il est évident que l’échantillon d’étudiants n’est pas représentatif comme un modèle qui prétend représenter l’ensemble de la population du pays.

Représentantéchantillonnage, ou, comme on dit aussi, représentant Un échantillon est un échantillon dans lequel toutes les principales caractéristiques de la population générale sont présentées approximativement dans la même proportion et avec la même fréquence avec laquelle une caractéristique donnée apparaît dans une population générale donnée. En d’autres termes, un échantillon représentatif est un modèle plus petit mais précis de la population qu’il est censé refléter. Dans la mesure où l’échantillon est représentatif, on peut raisonnablement supposer que les conclusions fondées sur l’étude de cet échantillon s’appliquent à l’ensemble de la population. Cette distribution des résultats est généralement appelée généralisabilité.

Idéalement, un échantillon représentatif devrait être tel que chacune des caractéristiques de base, traits de caractère, traits de personnalité, etc. soit étudiée par un psychologue. y seraient représentés proportionnellement aux mêmes caractéristiques dans la population générale. Selon ces exigences, la procédure d'échantillonnage doit avoir une logique interne capable de convaincre le chercheur que, par rapport à la population générale, elle sera bien représentative.

Dans son activité spécifique, le psychologue agit de la manière suivante : constitue un sous-groupe (échantillon) au sein de la population générale, étudie cet échantillon en détail (réalise un travail expérimental avec lui), puis, si les résultats de l'analyse statistique le permettent, étend les résultats. à l’ensemble de la population. Ce sont les principales étapes du travail d’un psychologue avec un échantillon.

Le psychologue en herbe doit garder à l’esprit une erreur fréquemment répétée : chaque fois qu’il collecte des données par n’importe quelle méthode et depuis n’importe quelle source, il est toujours tenté de généraliser ses conclusions à l’ensemble de la population. Afin d’éviter une telle erreur, il faut non seulement faire preuve de bon sens, mais surtout maîtriser les concepts de base de la statistique mathématique.

Représentativité de l'échantillon - concept et types. Classement et caractéristiques de la catégorie « Représentativité de l'échantillon » 2017, 2018.

La propriété d'échantillonnage, grâce à laquelle les résultats d'une étude par sondage permettent de tirer des conclusions sur la population générale et l'objet empirique dans son ensemble, est appelée représentativité.

Représentativité (représentativité) de l'échantillon est la capacité d'un échantillon à reproduire certaines caractéristiques de la population avec des erreurs acceptables. Un échantillon est dit représentatif si le résultat de la mesure d'un certain paramètre pour un échantillon donné coïncide, compte tenu de l'erreur tolérée, avec le résultat connu de la mesure de la population générale. Si la mesure d'un échantillon s'écarte d'un paramètre de population connu de plus d'un niveau d'erreur sélectionné, l'échantillon est alors considéré comme non représentatif.

La définition proposée établit tout d’abord relation entre l'échantillon et la population recherche. C'est la population générale qui est représentée par l'échantillon, et seule la population générale peut être étendue aux tendances identifiées dans l'étude par échantillon. Il devrait maintenant être clair pourquoi une telle attention a été accordée auparavant aux problèmes liés à la définition correcte de la population et à sa description dans la documentation et les publications de recherche. L'échantillon ne peut pas représenter une population autre que celle à partir de laquelle les unités de mesure ont été effectivement sélectionnées. Si le chercheur se trompe sur les limites réelles de la population, ses conclusions seront alors incorrectes. S'il élargit ou déforme par erreur ou intentionnellement les limites de la population dans des documents, des publications ou des présentations basés sur les résultats de l'étude, cela induit les utilisateurs en erreur et peut être considéré comme une falsification des résultats.

Le test de représentativité est réalisé en comparant les paramètres individuels de l'échantillon et de la population générale. Une idée fausse courante est que des échantillons représentatifs existent « du tout ».

La représentativité ou la non-représentativité d'un échantillon peut être déterminée uniquement par rapport à des variables individuelles. De plus, le même échantillon peut être représentatif à certains égards et non représentatif à d’autres.

En règle générale, dans le discours professionnel des sociologues, la représentativité est présentée comme une propriété dichotomique : un échantillon est soit représentatif, soit non. Mais ce n’est pas une approche tout à fait correcte. En réalité, un échantillon peut reproduire certains paramètres de la population avec plus de précision et d’autres avec moins de précision. Par conséquent, il est plus correct (bien que d'un point de vue pratique et moins pratique) de parler de degré de représentativitééchantillon spécifique selon des paramètres spécifiques.

Comme pour l’échantillon dans son ensemble, un point clé pour déterminer la représentativité d’un échantillon est la justification de la marge d’erreur à l’intérieur de laquelle l’échantillon est considéré comme représentatif aux fins de l’étude. L'inverse est également possible : fixer la taille des erreurs factuelles et affirmer que l'échantillon représente la population générale avec certaines erreurs. Là encore, la nature de l’utilisation des résultats de la recherche joue un rôle clé à cet égard. Par conséquent, le même échantillon peut être considéré comme suffisamment représentatif à certaines fins (par exemple, pour prédire la participation électorale lors d’élections à venir), mais pas suffisamment représentatif pour d’autres (par exemple, pour déterminer les notes des candidats et prédire les résultats du vote).

Quels paramètres utiliser pour vérifier la représentativité de l’échantillon ? Premièrement, il existe peu de paramètres de ce type dans la plupart des situations de recherche. Après tout, il n’est possible de comparer les résultats d’une mesure d’échantillon avec des données sur la population générale que si ces dernières sont disponibles. Et ces recherches sont menées parce qu’il n’existe tout simplement pas suffisamment de données de ce type. Ainsi, même au stade de la modélisation objet et du développement ultérieur des outils, il convient de prévoir la mesure d'un ou plusieurs paramètres de contrôle pour lesquels des données caractérisant la population générale sont disponibles. Cela fournira la base empirique nécessaire pour tester la représentativité.

Deuxièmement, il faut s'efforcer de vérifier la représentativité de l'échantillon en fonction de paramètres significatifs pour le domaine d'étude. Dans la pratique moderne, le contrôle de la représentativité par des paramètres démographiques de base - sexe, âge, éducation, etc. s'est généralisé. Ces données sont, en règle générale, disponibles pour tout objet territorial, puisqu'elles sont enregistrées lors des recensements de population et ensuite recalculées par des statistiques. institutions utilisant des modèles mathématiques solides. Pour cette raison, l’inclusion obligatoire de plusieurs variables démographiques dans la fiche de données est devenue une norme professionnelle généralement acceptée. Une telle pratique peut cependant être qualifiée de naïve et sujette à des critiques justifiées. Le fait est que les paramètres démographiques de base accessibles au public à des fins de comparaison ne jouent pas toujours le rôle de facteurs structurants par rapport aux objets de recherche sociologique. Leur nature en soi n’est pas sociale et leur influence sur les objets de recherche est souvent assez indirecte. Par conséquent, des échantillons démographiquement représentatifs peuvent en réalité cacher des problèmes importants sous la forme d’erreurs système et de biais incontrôlés. Au contraire, la représentativité démographique des échantillons efficaces du point de vue des buts et objectifs de l'étude peut s'avérer faible.

Voici un exemple intéressant tiré de la pratique. En 2009, l'une des sociétés de recherche travaillant dans l'Oural a mené une enquête dans la ville de Kizel, dans le territoire de Perm. Au cours du travail sur le terrain, les chercheurs ont rencontré de sérieux obstacles pour recruter l'échantillon prévu par le plan de recherche - le manque d'un nombre suffisant de répondants disponibles et la détérioration des conditions météorologiques. Apparemment, la société de recherche n'était pas tout à fait prête à mener à bien des travaux sur un projet d'une telle envergure. Ses installations de production ont fonctionné à pleine capacité pour garantir que 6 000 répondants ont été interrogés sur une zone assez vaste en une semaine. En conséquence, l'échantillon réel de nombreux sites d'enquête était, de l'aveu même des chercheurs, composé de toutes les personnes pouvant être recrutées pour participer à l'étude. Les quotas démographiques établis par les termes de référence ont été violés dans la plupart des domaines de l'enquête. Dans certaines zones, la distorsion des proportions de l'échantillon par rapport à l'objectif des quotas a atteint 2,5 fois pour certaines catégories de population, ce qui a effectivement fait douter du fait même du recours à l'échantillonnage par quotas. Il semblait que le client de l’étude avait toutes les raisons de formuler des réclamations raisonnables contre les chercheurs.

Cependant, un examen effectué pour le compte du tribunal arbitral a révélé que des distorsions aussi importantes des quotas et, par conséquent, la non-représentativité évidente de l'échantillon obtenu en termes de paramètres démographiques de base n'ont pratiquement pas conduit à une distorsion des données de recherche ! En repesant l’ensemble des données, les experts ont obtenu l’effet d’un échantillon représentatif basé sur des paramètres contrôlés. Presque toutes les distributions de fréquence des données testées par les experts ont montré des différences statistiquement insignifiantes entre les résultats du traitement des tableaux réels et repondérés. De facto, cela signifie que, malgré des violations flagrantes de la technologie d'enquête et un mépris pratique des quotas attribués, les chercheurs ont fourni au client les mêmes données sur lesquelles il aurait pu compter si les procédures d'échantillonnage avaient été pleinement suivies et si la représentativité démographique avait été assurée.

Comment cela a-t-il pu arriver ? La réponse est simple - les paramètres démographiques utilisés pour contrôler la représentativité n'avaient pratiquement aucune influence (et cela a été confirmé par l'analyse de corrélation) sur les variables sujet de l'étude - l'évaluation par la population de la situation socio-économique et les paramètres de son environnement socio-politique. activité. De plus, la taille de l'échantillon était très grande par rapport à la population générale (en fait, l'étude couvrait un quart de la population adulte de la commune), ce qui, grâce à la loi des grands nombres, a conduit à la stabilisation de les distributions observées bien avant que le nombre requis de répondants ne soit interrogé.

L’implication pratique de cette mise en garde est que les efforts et les ressources doivent être consacrés à garantir et à contrôler la représentativité des paramètres d’échantillonnage dont le chercheur s’attend à ce qu’ils aient un impact significatif sur le sujet de l’étude. Cela signifie que les paramètres permettant de contrôler la représentativité doivent être sélectionnés spécifiquement pour chaque projet de recherche, en fonction des spécificités de son sujet. Par exemple, les évaluations du statut socio-économique sont toujours fortement liées au bien-être réel de la famille du répondant, à sa position sur le marché du travail et dans la sphère des affaires. Il est donc conseillé d’utiliser ces paramètres pour contrôler la représentativité. Une autre chose est qu'il peut être difficile d'obtenir des données objectives caractérisant la population en général. Cela nécessite de la créativité et peut-être des compromis. Par exemple, le niveau de bien-être peut être surveillé par la présence d’une voiture dans la famille du répondant, car des statistiques sur les voitures immatriculées dans la région peuvent être disponibles.

Il est intéressant de noter que les rapports de recherche et les publications font presque toujours référence à des échantillons représentatifs. Les échantillons non représentatifs sont-ils vraiment si rares ? Bien sûr que non. De nombreux échantillons posent problème en termes de représentativité dans certains paramètres de la pratique de la recherche. Au contraire, ils sont encore plus nombreux que les échantillons dont la représentativité peut être évaluée non pas formellement (par des paramètres démographiques), mais essentiellement. Cependant, leur mention publique dans les cercles sociologiques professionnels est malheureusement taboue. Et aucun des chercheurs n'est prêt à admettre que la représentativité de son échantillon en termes de paramètres essentiels au domaine de mesure est problématique ou invérifiable.

En fait, découvrir des signes indiquant que l’échantillon n’est pas représentatif n’est pas une catastrophe. Premièrement, les technologies existantes de « réparation » (repesage) de l'échantillon permettent dans de nombreux cas d'éliminer complètement l'effet de non-représentativité du paramètre qui inquiète le sociologue ou son client. L'essence de la méthode de repondération est d'attribuer certaines catégories d'observations (dans le cas d'une enquête, les répondants) coefficients de pondération, compensant une représentation réelle insuffisante ou excessive de ces catégories dans l’échantillon. Par la suite, ces poids sont pris en compte lors de la réalisation de toutes les opérations de calcul avec le tableau de données, ce qui permet d'obtenir des répartitions correspondant parfaitement à un tableau de données équilibré (correspondant aux quotas de calcul). Les programmes statistiques modernes, comme BRvv, permettent d'effectuer des calculs en tenant compte des coefficients de pondération dans mode automatique, ce qui rend cette procédure assez simple à réaliser.

Deuxièmement, même s’il n’est pas possible d’obtenir un « bon » échantillon représentatif, une représentativité « modérée » peut suffire à résoudre de nombreux problèmes de recherche. Rappelons que la représentativité est une mesure d’adéquation plutôt qu’un marqueur dichotomique. Et seules certaines tâches de recherche - principalement liées à la prévision précise de certains événements - nécessitent une représentativité vraiment élevée (statistiquement prouvée) des échantillons.

Par exemple, afin de prédire la part de marché d'un nouveau produit dans une étude marketing, il faut un échantillon qui couvre et représente les clients potentiels. Cependant, le plus souvent, les spécialistes du marketing ne disposent pas de données suffisantes sur les personnes qui composent réellement leur cercle de clients, en particulier les clients potentiels. Dans cette situation, il est généralement impossible de vérifier la représentativité de l'échantillon - après tout, on ne sait pas quels paramètres il doit reproduire. Néanmoins, de nombreuses tâches de marketing sont résolues avec succès, car des échantillons statistiquement représentatifs ne sont pas nécessaires pour identifier les préférences des clients, les réactions aux supports publicitaires et analyser les avis sur un nouveau produit - il suffit d'assurer la couverture d'une clientèle typique, facile à trouver. directement dans les magasins. Les échantillons non représentatifs sont tout à fait adaptés pour résoudre des problèmes de recherche, identifier des tendances fortes, analyser les spécificités des catégories individuelles (représentées par de petits sous-échantillons indépendants), comparer ces catégories entre elles (analyse bivariée), analyser les relations entre les variables et d'autres tâches dans lesquelles la précision des distributions statistiques obtenues est limitée et revêt une importance secondaire.

4.1 Ce que dit la norme

La section 8 de la norme ISO 9001:2000 couvre « la mesure, l'analyse et l'amélioration ». Bien que l'échantillonnage ne soit pas couvert par cette norme, l'article 8.1, qui est une introduction générale à l'ensemble de la section sur les mesures, stipule que les activités de mesure, d'analyse et d'amélioration (devraient inclure l'identification des méthodes applicables, y compris les méthodes statistiques) et l'étendue de leur application. ). Une mesure précise de la satisfaction client ne peut être effectuée que si elle s’appuie sur un bon échantillon de clients. Ce chapitre donne un aperçu des méthodes d'échantillonnage utilisées pour atteindre cet objectif.

4.2 Théorie de l'échantillonnage

Le principe d'échantillonnage est simple. La plupart des organisations ont un grand nombre de clients, mais pour obtenir des résultats IEP précis, il n'est pas nécessaire de mener des recherches avec tout le monde, il suffit de le faire avec un petit échantillon, à condition que cet échantillon représente un grand groupe de personnes. Il existe plusieurs types d’échantillonnage différents, illustrés à la figure 4.1.

Riz. 4.1 Échantillons possibles

4.2.1 Échantillonnage probabiliste et non probabiliste

La différence fondamentale entre les échantillons est de savoir s’il s’agit d’échantillons probabilistes ou non probabilistes. L'échantillonnage probabiliste est également souvent appelé échantillonnage aléatoire, et ce n'est qu'avec des échantillons aléatoires ou probabilistes que vous pouvez être sûr qu'ils sont exempts de biais. Par définition, tous les membres de la population d’un échantillon aléatoire ont une chance égale d’y être représenté, et l’exemple le plus évident d’un échantillon aléatoire est la loterie ordinaire. Toutes les boules ou numéros restant dans le tirage conservent une chance égale d’être tirés au sort la prochaine fois. Il est clair qu’aucune tendance n’influence le choix des numéros à la loterie.

4.2.2 Échantillons non probabilistes

4.2.2.1 Échantillons non représentatifs

La forme d’échantillonnage la plus simple est l’échantillonnage non représentatif. Imaginez que vous menez un sondage d’opinion publique. Vous pourriez sortir dans la rue et demander aux 50 premières personnes que vous rencontrez dans quelle mesure elles sont satisfaites des actions du gouvernement. Ce sera rapide, simple et peu coûteux, mais ce ne sera pas très représentatif. Cela peut paraître anodin, mais pour des cas nettement plus complexes, comme nous le verrons plus loin, il est très facile de se glisser dans un échantillon non représentatif.

4.2.2.2 Échantillonnage ciblé

Une autre forme d’échantillonnage non probabiliste est l’échantillonnage raisonné. Il s'agit de la même forme que celle que nous avons proposée pour la recherche exploratoire, et bien que l'échantillonnage raisonné soit utile pour la recherche qualitative qui ne vise pas à obtenir de bonnes statistiques, il ne convient pas pour mener une recherche fondamentale ou toute autre recherche visant à obtenir un résultat statistique. résultat fiable.

4.2.2.3 Échantillonnage basé sur des quotas

Le troisième type d’échantillonnage non probabiliste est l’échantillonnage par quotas et est souvent utilisé pour étudier de grandes populations. Imaginez qu'un conseil municipal veuille mesurer le niveau de satisfaction de la population à l'égard des services et des installations que le conseil leur offre. Supposons que vous décidiez d’interroger dans la rue les membres d’un échantillon de quota de 500 personnes vivant en ville. Vous pouvez désigner cinq enquêteurs, chacun chargé d'interroger 100 personnes dans une zone commerçante principale. Cependant, les enquêteurs ne sont pas autorisés à utiliser un échantillonnage non représentatif, c'est-à-dire : interviewer les 100 premières personnes rencontrées. L'échantillonnage par quotas exige que chaque enquêteur adhère à de nombreuses normes soigneusement définies pour garantir que l'échantillon est représentatif de la population locale. Les normes peuvent être fondées sur les statistiques dont dispose le conseil municipal indiquant les groupes dans lesquels est répartie la population. Ainsi, par exemple, ces données peuvent indiquer que 15 % de la population est âgée de 21 à 30 ans, 18 % a de 31 à 40 ans, etc. La division peut également être basée sur d'autres caractéristiques, par exemple par sexe. , niveau de revenu , origine ethnique. Si le conseil veut que l'échantillon soit représentatif, il doit inclure tous ces groupes dans la même proportion qu'ils sont représentés dans l'ensemble de la population. Pour y parvenir, les enquêteurs doivent définir des groupes et des quotas pour eux. Dans l'exemple donné, 15 personnes interrogées sur 100 devraient avoir entre 21 et 30 ans, 18 devraient avoir entre 31 et 40 ans, et cela devrait être combiné avec des quotas pour d'autres groupes imposés par sexe, revenu, etc. .

Supposons que les enquêteurs aient travaillé toute la semaine, du lundi au vendredi, de 9 heures à 17 heures tous les jours, en interviewant dans une galerie marchande, de sorte qu'à la fin de la semaine, chacun d'eux ait réalisé 100 entretiens en répondant à toutes les normes. Le résultat sera un échantillon de 500 personnes, qui sera pleinement représentatif de la population de la ville, mais il ne sera pas sélectionné au hasard et ne sera donc pas exempt de tendances. Selon la définition de l’échantillonnage aléatoire, tous les habitants d’une ville devraient avoir une chance égale d’être représentés dans l’échantillon. Dans l'exemple donné, seules les personnes qui visitaient la galerie marchande ces jours-là de la semaine, de 9h à 17h, avaient une telle chance. Ainsi, l’échantillon sera inévitablement biaisé, peut-être en faveur des personnes âgées, des chômeurs et des personnes travaillant à proximité. En réalité, bien sûr, les chercheurs tentent de minimiser les tendances inhérentes à l'échantillonnage par quotas en interrogeant dans des lieux et des moments différents, mais ils ne peuvent jamais s'en débarrasser complètement, puisque l'échantillon ne peut représenter que les personnes qui, à un moment donné, s'est retrouvé à un endroit donné, donc théoriquement un tel échantillon ne sera jamais aléatoire, totalement exempt de tendance.

Cela ne signifie pas qu’il ne faut jamais recourir à l’échantillonnage par quotas. Si vous ne connaissez pas les personnes qui sont vos clients, vous ne pouvez pas tirer un échantillon aléatoire car il n'existe aucun moyen de répertorier l'ensemble de la population à partir de laquelle le tirer. Par exemple, de nombreux détaillants ne savent pas qui sont leurs clients. Dans de telles situations, les organisations ont recours à l'échantillonnage par quotas.

4.2.3 Échantillons probabilistes

Si vous disposez d’une base de données de vos clients, vous pouvez et devez tirer un échantillon aléatoire, et la première étape consiste à déterminer la base de l’échantillon. Le noyau est la liste des consommateurs à partir desquels vous comptez échantillonner, et définir cette liste est une décision stratégique. Les organisations mesurent généralement la satisfaction de leurs clients une fois par an, et la base de sondage est constituée des clients qui ont fait affaire avec l'organisation au cours des douze derniers mois. Toutefois, cela n’est peut-être pas acceptable pour tout le monde. Par exemple, il n'est pas très efficace, lorsqu'on étudie la satisfaction des clients à l'égard du système d'aide d'une technologie de l'information, de poser des questions sur l'expérience d'utilisation de ce système au cours des 11 derniers mois. Dans ce cas, il est préférable d'utiliser une période plus courte, par exemple en comptant tous les consommateurs qui ont utilisé le système d'aide au cours du mois dernier. Cela peut nécessiter un suivi continu, dans lequel une enquête auprès des consommateurs est menée chaque mois et les résultats sont accumulés pour produire un rapport périodique, par exemple trimestriel ou même annuel si le nombre de consommateurs au cours du trimestre est faible.

Ainsi, vous pouvez voir que les « clients » que vous étudiez peuvent être différents selon les organisations, et leur définition est une décision stratégique et vous devez les définir clairement, car ce seront les consommateurs qui constitueront la base de l'étude, c'est-à-dire les des échantillons de population.

4.2.3.1 Échantillonnage aléatoire simple

Un échantillon probabiliste ou aléatoire est sans tendance car tous les membres de la population auront la même chance d’être inclus dans l’échantillon. Comme indiqué précédemment, la loterie fournit un bon exemple d'échantillonnage aléatoire simple : chaque fois qu'un nouveau numéro est sélectionné, il est sélectionné au hasard parmi tous ceux restant dans la « population ». Cependant, il s'agit d'un processus assez long si vous avez besoin d'un large échantillon provenant d'une grande population. Ainsi, avant que les ordinateurs ne soient utilisés pour obtenir des échantillons complexes, les chercheurs en marché ont inventé une méthode moins exigeante en main-d'œuvre pour obtenir un échantillon aléatoire simple, connue sous le nom de échantillonnage aléatoire systématique.

4.2.3.2 Échantillonnage aléatoire systématique

Pour obtenir un échantillon aléatoire systématique pour réaliser un IEP, vous imprimez d’abord une liste de vos clients. Disons qu'il y a 1 000 consommateurs et que vous souhaitez en échantillonner 100, ce qui représente 1 personne sur 10 dans la population. Vous devez d'abord utiliser un générateur de nombres aléatoires pour obtenir un nombre de 1 à 10. Si vous obtenez 7, alors vous incluez dans votre liste le 7ème nom de la liste, le 17ème, le 27ème, etc., ce qui entraînera un calcul systématique. échantillon aléatoire de 100 consommateurs. Avant de recevoir un numéro aléatoire, tous les consommateurs ont une chance égale d’être inclus dans la liste. Il s’agira donc d’un échantillon aléatoire, mais il se peut qu’il ne soit pas représentatif, notamment sur le marché des entreprises. Dans ce cas, il est bon d’utiliser un échantillonnage aléatoire stratifié.

Riz. 4.2 Exemple d'échantillonnage aléatoire stratifié

4.3 Échantillonnage des consommateurs

Nous montrerons avec un exemple comment un échantillonnage pourrait être effectué pour un cas typique de marché interentreprises. La première étape pour ce marché professionnel consiste à créer une base de données clients et à la trier par valeur client, en commençant par la plus élevée et en descendant jusqu'à la plus basse. Ensuite, vous divisez généralement la liste résultante en trois parties : des segments avec une valeur client élevée, moyenne et faible, respectivement. Enfin, déterminez la taille de l’échantillon dans chaque segment. Les résultats de ce processus sont résumés dans la Fig. 4.2.

4.2.3.3 Échantillonnage aléatoire stratifié

Souvent, sur les marchés professionnels, certains clients ont beaucoup plus de valeur que d’autres. Parfois, une très grande partie des activités d'une entreprise, par exemple 40 ou 50 %, est associée aux cinq ou six premiers clients. Si un échantillonnage aléatoire simple ou systématique est utilisé, il est probable qu'aucun de ces cinq ou six consommateurs ne sera inclus dans l'échantillon. Il est clair que cela ne sert à rien de réaliser une enquête mesurant la satisfaction client si 40 ou 50 % de l'activité globale de l'entreprise est totalement ignorée. Dans un marché commercial où la plupart des entreprises ont un petit nombre de clients de grande valeur et un plus grand nombre de clients de faible valeur, un échantillon aléatoire simple ou systématique sera inévitablement dominé par des clients de faible valeur. L'échantillonnage aléatoire stratifié est utilisé pour obtenir un échantillon à la fois représentatif et exempt de tendance. L'obtention d'un échantillon aléatoire stratifié implique d'abord de diviser les consommateurs en segments, ou types, puis de sélectionner un échantillon aléatoire au sein de chaque segment. L'échantillon présenté dans la figure 4.2 sera représentatif de la base de consommateurs en fonction de la contribution commerciale apportée par chaque segment de consommateurs. Sur les marchés de consommation, la segmentation peut être différente, par exemple selon l'âge ou le sexe.

4.3.1 Échantillon d'échantillon

Dans l’exemple présenté, l’entreprise réalise 40 % de son chiffre d’affaires auprès de clients à forte valeur ajoutée. Le principe fondamental de l'échantillonnage sur un marché professionnel est que si un segment de clientèle de grande valeur représente 40 % du chiffre d'affaires (ou du bénéfice), il doit représenter 40 % de l'échantillon. Si une entreprise décide d'étudier un échantillon de 200 répondants, 40 % de l'échantillon, soit 80 répondants, doivent provenir de clients à forte valeur ajoutée. Puisqu'il y a 40 consommateurs de grande valeur, le taux d'échantillonnage sera de 2 : 1, ce qui signifie que 2 répondants du segment de grande valeur sont sélectionnés parmi chaque consommateur. Sur les marchés commerciaux, il est courant de sélectionner plusieurs répondants parmi les grands consommateurs lors de la réalisation d’une recherche.

Les clients en valeur moyenne représentent également 40 % du chiffre d’affaires, ils devraient donc également constituer 40 % de l’échantillon. Cela signifie que l'entreprise doit sélectionner 80 répondants parmi ses clients de valeur moyenne. Puisqu’il y a 160 consommateurs de ce type, la proportion de l’échantillon sera de 1 : 2, c’est-à-dire un répondant pour deux consommateurs de valeur moyenne. Cela nécessite un échantillon aléatoire d’un représentant sur deux consommateurs. Cela peut être facilement réalisé en utilisant la procédure d’échantillonnage aléatoire systématique décrite précédemment. Tout d'abord, l'un des deux nombres aléatoires est généré : 1 ou 2. Soit 2. Dans ce cas, vous sélectionnez le 2ème, le 4ème, le 6ème, etc. consommateur de valeur moyenne.

Enfin, 20% du chiffre d'affaires de l'entreprise provient de clients à faible valeur, ils devraient donc constituer 20% de l'échantillon, soit 40 répondants dans l'exemple donné. Il y a au total 400 consommateurs de faible valeur, ce qui correspond à une part sélectionnée de 1:10. Cela peut être fait en utilisant la même procédure d’échantillonnage aléatoire systématique. À la fin du processus, l'entreprise recevra un échantillon aléatoire typé de consommateurs qui sera représentatif de son activité commerciale et, grâce à une sélection aléatoire, sera exempt de tendance.

4.3.2 Échantillonnage des personnes de contact

Bien que la procédure ci-dessus produise un échantillon aléatoire et représentatif de consommateurs, après tout, la recherche n'est pas menée sur des entreprises, mais sur des individus. Ainsi, si vous travaillez sur le marché interentreprises, vous devez, avec des échantillons de consommateurs, échantillon parmi les contacts personnels. Dans la pratique, les organisations sélectionnent souvent des individus en fonction de leur convenance – des personnes avec lesquelles elles ont davantage de contacts et dont elles ont les noms sous la main. Si les individus sont sélectionnés selon ce principe, quel que soit le soin avec lequel l'échantillon typé d'entreprises est réalisé, il sera finalement réduit à un échantillon non représentatif de personnes que quelqu'un connaît. Pour éviter cette tendance, vous devez sélectionner les individus au hasard. La façon de mettre en œuvre cette sélection consiste à créer une liste d'individus associés à votre produit ou service pour chaque client, puis à sélectionner au hasard des individus dans cette liste. Si vous souhaitez effectuer une procédure plus complexe et plus précise, vous devez diviser la liste de toutes les personnes en secteurs, ce qui évitera d'inclure trop de personnes mineures. Par exemple, vous effectuez une analyse administrative et décidez que pour refléter plus précisément le processus de prise de décision, votre échantillon doit contenir 40 % de contacts d'achat, 40 % de contacts techniques et 20 % de tous les autres contacts. Dans ce cas, vous devez tirer un échantillon aléatoire d’individus dans cette proportion.

4.4 Taille de l'échantillon

Une autre question à résoudre est le nombre de consommateurs que vous devez avoir dans votre échantillon. Certaines entreprises, principalement sur les marchés interentreprises, ont un très petit nombre de clients précieux. D'autres entreprises comptent plus d'un million de consommateurs. Sur les marchés d'affaires, la taille de la population correspond exactement au nombre d'individus chez chaque client qui influencent le jugement de satisfaction de ce client, et elle n'est pas nécessairement égale au nombre d'individus avec lesquels vous avez des contacts réguliers. En règle générale, plus la valeur client est élevée, plus il convient d’inclure d’individus. Pour un fournisseur de logiciels informatiques, un seul client peut compter plusieurs centaines d’utilisateurs. Même ainsi, certaines organisations auront une population beaucoup plus importante que d’autres, mais cela n’affectera pas le nombre de consommateurs interrogés, nécessaire pour fournir un échantillon fiable.

4.4.1 Fiabilité de l'échantillon par rapport à la taille de l'échantillon

La précision statistique d’un échantillon est liée à sa taille absolue, quel que soit le nombre de personnes dans l’ensemble de la population. La question de savoir quelle proportion de consommateurs devrait être interrogée est une question trompeuse. Un échantillon plus grand est toujours plus fiable qu’un échantillon plus petit, quelle que soit la taille de la population. Ceci est mieux illustré par la courbe en cloche (voir figure 4.3), à partir de laquelle nous pouvons conclure que lorsque nous examinons un ensemble de données, elles ont tendance à suivre une distribution normale. Cela ne s’applique pas uniquement aux données de recherche.

Données extrêmes Données normales Données extrêmes

Riz. 4.3 Courbe en cloche

Par exemple, si vous enregistrez les précipitations de juin à Manchester sur une période de cinq ans, où trois années ont eu des précipitations normales en juin, mais deux années de juin extrêmement humides, alors les précipitations moyennes estimées seront fortement biaisées par ces deux mois anormalement humides pour la saison. Si les données étaient collectées sur 100 ans, deux mois exceptionnellement humides ou secs auraient peu d’effet sur les précipitations moyennes de juin à Manchester. Il en va de même pour la recherche. Si vous étudiez seulement 10 personnes et que deux d’entre elles ont des opinions extrêmes, elles fausseront considérablement le résultat final. Ils auront beaucoup moins d’impact avec un échantillon de 50 personnes et pratiquement aucun impact avec un échantillon de 500 personnes. Ainsi, plus la taille de l’échantillon est grande, moins il y a de risque d’obtenir des résultats incorrects. La figure 4.4 montre que la fiabilité de l’échantillon augmente à mesure que la taille de l’échantillon augmente. Au début, pour de très petites tailles, la fiabilité augmente très rapidement, mais à mesure que la taille de l’échantillon augmente, l’effet de la taille de l’échantillon sur la fiabilité de l’échantillon diminue. On constate que la courbe commence à s'aplatir entre 30 et 50 répondants, ce qui est généralement considéré comme le seuil entre recherche qualitative et quantitative. Lorsque la taille de l’échantillon atteint 200, l’augmentation de la fiabilité avec l’augmentation du nombre de répondants est extrêmement faible. Par conséquent, une taille d’échantillon de 200 répondants est considérée comme la taille minimale d’échantillon pour garantir un PEI fiable. Les entreprises ayant une très petite base de consommateurs (environ 200 contacts ou moins) devraient simplement rechercher tous les consommateurs contactés.

Certaines années, il n'y a peut-être pas eu de pluie en juin (pas même à Manchester), certaines années, l'intensité des pluies a été incroyablement élevée, mais la plupart des années, les précipitations se situent quelque part entre ces deux limites, dans la zone "normale". Qu’il s’agisse de données de recherche ou de précipitations à Manchester, la question clé est : « Quel est le risque d’obtenir des données anormales qui faussent les résultats ? » Plus l’échantillon est petit, plus le risque est élevé.

4.4.2 Analyse approfondie

Comme indiqué précédemment, les recherches commerciales supposent généralement qu’un échantillon de 200 membres fournit la fiabilité nécessaire pour une mesure globale de la satisfaction client, que la population soit de 500 000 ou 600 000 personnes. Il existe cependant une exception importante à cela : elle survient lorsque vous avez différents segments et que vous souhaitez effectuer une analyse approfondie des résultats en comparant la satisfaction entre les différents segments. Si vous divisez un échantillon de 200 éléments en plusieurs segments, vous serez confronté au problème d'une taille d'échantillon petite et donc peu fiable dans chaque segment. Par conséquent, il est généralement admis que la taille minimale de l’échantillon total est de 200 et que la taille minimale du segment est de 50.

Pour cette raison, la taille de l’échantillon total est souvent déterminée par le nombre de segments que vous souhaitez analyser. Si vous souhaitez diviser votre résultat en six segments, vous aurez besoin d'un échantillon d'au moins 300 membres, de sorte que chaque segment compte au moins 50 membres. Cela peut être important pour les entreprises comportant de nombreuses divisions ou marchés. Sur la base d'un chiffre de 50 répondants par segment, un détaillant possédant 100 magasins aurait besoin d'un échantillon d'au moins 5 000 membres si la satisfaction de la clientèle devait être mesurée au niveau du magasin. Toutefois, à notre avis, si l'on veut comparer les magasins et que les décisions de gestion sont prises sur la base des résultats de l'étude, le minimum absolu devrait être de 100 consommateurs par magasin, ou mieux encore de 200. Pour un détaillant possédant 100 magasins, cela nécessiterait un échantillon de 20 000 consommateurs pour obtenir des résultats très fiables au niveau du magasin.

4.4.3 Taille de l'échantillon et taux de réponse

Un autre facteur doit être noté. La taille d'échantillon recommandée de 200 répondants pour garantir une fiabilité adéquate se réfère aux réponses et non au nombre de consommateurs sélectionnés et invités. De plus, pour garantir la fiabilité statistique, cela signifie 200 consommateurs sélectionnés et les mêmes 200 participants répondant aux questions de l'entretien ou renvoyant les questionnaires. Si votre taux de réponse est faible, il n'est pas statistiquement fiable de compenser en envoyant simplement davantage de questionnaires jusqu'à ce que vous obteniez 200 réponses. Le problème de la tendance à la sous-réponse peut être très important dans les études IEP et sera discuté plus en détail dans le chapitre suivant.

4.5 Conclusions

(a) La norme ISO 9000:2000 stipule que des méthodes statistiques reconnues doivent être utilisées pour obtenir un échantillon fiable pour les mesures liées aux consommateurs.

(b) L'échantillonnage non probabiliste augmente le risque qu'une tendance influence le résultat et ne doit être utilisé que par les organisations qui ne disposent pas de base de données clients.

(c) Pour la plupart des organisations, le meilleur moyen d'obtenir un échantillon représentatif et sans biais est un échantillonnage aléatoire basé sur des quotas.

(d) La base de sondage doit être constituée d'individus significatifs. Sur les marchés professionnels, il peut s’avérer nécessaire d’inclure de nombreux répondants (parfois nombreux) issus de grands consommateurs.

(e) 200 répondants constituent le nombre minimum de répondants requis pour mesurer de manière fiable la satisfaction des clients au sein d’une organisation. Ce nombre est indépendant du nombre de consommateurs dont vous disposez.

(f) Les organisations comptant moins de 200 clients ou contacts doivent effectuer des recherches sur tous les clients énumérés.

(g) Si les résultats doivent être obtenus par segment, la taille minimale de l'échantillon par segment est de 50 répondants. Dans ces cas, la taille minimale requise de l’ensemble de l’échantillon sera égale au nombre de segments multiplié par 50.

En fait, nous commençons par non pas une, mais trois questions : Qu’est-ce que l’échantillonnage ? quand est-ce représentatif ? qu'est-ce qu'elle est ?
Un ensemble est tout groupe de personnes, d'organisations, d'événements qui nous intéressent, sur lesquels nous voulons tirer des conclusions, et un cas ou un objet est n'importe quel élément d'un tel ensemble1. Échantillon – tout sous-groupe d'une population de cas (objets) sélectionnés pour l'analyse. Si nous voulions étudier l'activité décisionnelle des législateurs des États, nous pourrions examiner cette activité dans les législatures des États de Virginie, de Caroline du Nord et de Caroline du Sud, plutôt que dans l'ensemble des cinquante États, et à partir de là, généraliser les résultats à la population de lequel ces trois États ont été choisis. Si nous voulions examiner le système de préférences électorales de Pennsylvanie, nous pourrions le faire en interrogeant 50 travailleurs américains. S. Steele » à Pittsburgh, et étendre les résultats de l'enquête à tous les électeurs de l'État. De même, si l’on voulait mesurer l’intelligence des étudiants, on pourrait tester tous les joueurs défensifs inscrits dans l’Ohio State lors d’une saison de football donnée puis généraliser les résultats à la population dont ils font partie. Dans chaque exemple, nous procédons comme suit : nous identifions un sous-groupe au sein de la population, étudions ce sous-groupe, ou échantillonnons, de manière assez détaillée et généralisons nos résultats à l'ensemble de la population. Ce sont les principales étapes de l’échantillonnage.
Cependant, il semble évident que chacun de ces échantillons présente des lacunes importantes. Par exemple, bien que les législatures de Virginie, de Caroline du Nord et de Caroline du Sud fassent partie d'un ensemble de législatures d'État, elles sont susceptibles, pour des raisons historiques, géographiques et politiques, de fonctionner de manière très similaire et très différente des législatures de l'État. des États aussi différents que New York, le Nebraska et l’Alaska. Même si cinquante métallurgistes de Pittsburgh peuvent effectivement être des électeurs dans l’État de Pennsylvanie, ils peuvent, en raison de leur statut socio-économique, de leur éducation et de leur expérience de vie, avoir des opinions différentes de celles de nombreuses autres personnes qui sont également des électeurs. De même, même si les joueurs de football de l’Ohio State sont des étudiants, ils peuvent très bien être différents des autres étudiants pour diverses raisons. Autrement dit, bien que chacun de ces sous-groupes constitue effectivement un échantillon, les membres de chacun sont systématiquement différents de la plupart des autres membres de la population à partir de laquelle ils sont sélectionnés. En tant que groupe distinct, aucun d'entre eux n'est typique en termes de répartition des attributs d'opinions, de motifs de comportement et de caractéristiques dans la population à laquelle il est associé. En conséquence, les politologues diraient qu’aucun de ces échantillons n’est représentatif.
Un échantillon représentatif est un échantillon dans lequel toutes les caractéristiques principales de la population à partir de laquelle l'échantillon est tiré sont représentées approximativement dans la même proportion ou avec la même fréquence avec laquelle une caractéristique donnée apparaît dans cette population. Ainsi, si 50 % de toutes les législatures des États ne se réunissent qu’une fois tous les deux ans, environ la moitié de la composition d’un échantillon représentatif de législatures des États devrait être de ce type. Si 30 % des électeurs de Pennsylvanie sont des cols bleus, environ 30 % de l'échantillon représentatif de ces électeurs (et non 100 % comme dans l'exemple ci-dessus) devrait être des cols bleus. Et si 2 % de tous les étudiants sont des athlètes, à peu près la même proportion d’un échantillon représentatif d’étudiants devrait être des athlètes. En d’autres termes, un échantillon représentatif est un microcosme, un modèle plus petit mais précis de la population qu’il est censé refléter. Dans la mesure où l’échantillon est représentatif, les conclusions fondées sur l’étude de cet échantillon peuvent être supposées s’appliquer à la population d’origine. Cette diffusion des résultats est ce que nous appelons la généralisabilité.
Peut-être qu’une illustration graphique aidera à expliquer cela. Supposons que nous souhaitions étudier les modèles d’appartenance à des groupes politiques parmi les adultes américains.

Riz. 5.1. Constitution d'un échantillon de la population générale
La figure 5.1 montre trois cercles divisés en six secteurs égaux. La figure 5.1a représente l'ensemble de la population considérée. Les membres de la population sont classés selon les groupes politiques (tels que les partis et les groupes d'intérêt) auxquels ils appartiennent. Dans cet exemple, chaque adulte appartient à au moins un et au maximum six groupes politiques ; et ces six niveaux d'adhésion sont répartis également dans l'ensemble (d'où les secteurs égaux). Supposons que nous souhaitions étudier les motivations des individus à rejoindre un groupe, leurs choix de groupe et les modes de participation, mais qu'en raison de ressources limitées, nous ne pouvons étudier qu'un membre de la population sur six. Qui doit être sélectionné pour l’analyse ?
L'un des échantillons possibles d'un volume donné est illustré par la zone ombrée de la figure 5.1b, mais il ne reflète clairement pas la structure de la population. Si nous devions faire des généralisations à partir de cet échantillon, nous conclurions : (1) que tous les adultes américains appartiennent à cinq groupes politiques et (2) que tout comportement de groupe des Américains correspond au comportement de ceux qui appartiennent spécifiquement aux cinq groupes. Cependant, nous savons que la première conclusion n’est pas vraie, ce qui peut nous faire douter de la validité de la seconde. Ainsi, l’échantillon représenté à la figure 5.1b n’est pas représentatif car il ne reflète pas la distribution d’une propriété de population donnée (souvent appelée paramètre) en fonction de sa distribution réelle. On dit qu’un tel échantillon est biaisé en faveur des membres des cinq groupes ou par rapport à tous les autres modèles d’appartenance à un groupe. Sur la base d’un échantillon aussi biaisé, nous arrivons généralement à des conclusions erronées sur la population.
Le désastre qui a frappé la revue Literary Digest dans les années 1930, qui a organisé un sondage d'opinion publique sur les résultats des élections, en est la preuve la plus claire. Literary Digest était un périodique qui réimprimait des éditoriaux de journaux et d'autres documents reflétant l'opinion publique ; ce magazine était très populaire au début du siècle. À partir de 1920, le magazine a mené un sondage national à grande échelle au cours duquel des bulletins de vote ont été envoyés par courrier à plus d'un million de personnes leur demandant d'indiquer leur candidat favori pour la prochaine élection présidentielle. Pendant plusieurs années, les résultats des sondages du magazine étaient si précis qu'un sondage de septembre semblait rendre les élections de novembre sans importance. Et comment une erreur a-t-elle pu se produire avec un échantillon aussi important ? Or, en 1936, c'est exactement ce qui s'est passé : avec une large majorité des voix (60 contre 40), la victoire était annoncée au candidat républicain Alf Landon. Aux élections, Landon a perdu face à un homme handicapé - Franklin D. Roosevelt - avec presque le même résultat avec lequel il aurait dû gagner. La crédibilité du Literary Digest a été tellement entamée que le magazine a été épuisé peu de temps après. Ce qui s'est passé? C'est très simple : le sondage Digest a utilisé un échantillon biaisé. Des cartes postales ont été envoyées à des personnes dont les noms ont été extraits de deux sources : les annuaires téléphoniques et les listes d'immatriculation des voitures. Et même si cette méthode de sélection n'était auparavant pas très différente des autres méthodes, les choses étaient très différentes aujourd'hui, pendant la Grande Dépression de 1936, lorsque les électeurs les moins riches, les partisans les plus probables de Roosevelt, ne pouvaient pas se permettre de posséder un téléphone, encore moins de posséder un téléphone. voiture. Ainsi, en fait, l’échantillon utilisé dans le sondage Digest était biaisé en faveur des personnes les plus susceptibles d’être républicaines, mais il reste surprenant que Roosevelt ait si bien réussi.
Comment résoudre ce problème ? Revenant à notre exemple, comparons l'échantillon de la figure 5.1b avec l'échantillon de la figure 5.1c. Dans ce dernier cas, un sixième de la population est également sélectionné pour l'analyse, mais chacun des principaux types de population est représenté dans l'échantillon dans la proportion dans laquelle il est représenté dans l'ensemble de la population. Un tel échantillon montre qu’un adulte américain sur six appartient à un groupe politique, un sur six à deux, et ainsi de suite. Un tel échantillon permettrait également d'identifier d'autres différences entre les membres qui pourraient être corrélées à la participation à un nombre différent de groupes. Ainsi, l'échantillon présenté sur la figure 5.1c est un échantillon représentatif de la population considérée.
Bien entendu, cet exemple est simplifié d’au moins deux manières extrêmement importantes. Premièrement, la plupart des populations qui intéressent les politologues sont plus diversifiées que celle illustrée. Personnes, documents, gouvernements, organisations, décisions, etc. diffèrent les uns des autres non pas par une, mais par un nombre beaucoup plus grand de caractéristiques. Ainsi, un échantillon représentatif doit être tel que chaque grande zone distincte soit représentée proportionnellement à sa part de la population. Deuxièmement, la situation dans laquelle la distribution réelle des variables ou des attributs que nous voulons mesurer n'est pas connue à l'avance est beaucoup plus courante que l'inverse : elle n'a peut-être pas été mesurée lors d'un recensement précédent. Ainsi, un échantillon représentatif doit être conçu de manière à pouvoir refléter avec précision la distribution existante même lorsque nous ne sommes pas en mesure d’évaluer directement sa validité. La procédure d'échantillonnage doit avoir une logique interne qui puisse nous convaincre que, si nous pouvions comparer l'échantillon avec le recensement, il serait effectivement représentatif.
Pour pouvoir refléter avec précision l’organisation complexe d’une population donnée et avoir un certain degré de confiance dans la capacité des procédures proposées à le faire, les chercheurs se tournent vers les méthodes statistiques. En même temps, ils agissent dans deux directions. Premièrement, en utilisant certaines règles (logique interne), les chercheurs décident quels objets spécifiques étudier et quoi inclure exactement dans un échantillon spécifique. Deuxièmement, en utilisant des règles très différentes, ils décident du nombre d’objets à sélectionner. Nous n’étudierons pas en détail ces nombreuses règles ; nous nous contenterons de considérer leur rôle dans la recherche en science politique. Commençons notre réflexion par des stratégies de sélection d'objets qui forment un échantillon représentatif.



Avez-vous aimé l'article? Partagez avec vos amis !