Échantillons représentatifs et non représentatifs. Représentativité – quel est ce processus ? Erreur de représentativité

En fait, nous commencerons par non pas une, mais trois questions : Qu’est-ce que l’échantillonnage ? quand est-ce représentatif ? qu'est-ce qu'elle est ?

Totalité - il s'agit de tout groupe de personnes, d'organisations, d'événements qui nous intéressent, sur lesquels nous souhaitons tirer des conclusions, et événement, ou objet - tout élément d'une telle collection 1 .Échantillon – tout sous-groupe d'un ensemble de cas (objets) sélectionnés pour l'analyse. Si nous voulions étudier les activités décisionnelles des législateurs des États, nous pourrions étudier ces activités dans les législatures des États de Virginie, de Caroline du Nord et de Caroline du Sud, plutôt que dans les cinquante États et, à partir de là, distribuer obtenu des données sur la population à partir de laquelle ces trois États ont été sélectionnés. Si nous voulions examiner le système de préférences électorales de Pennsylvanie, nous pourrions le faire en interrogeant 50 travailleurs américains. S. Steele » à Pittsburgh, et étendre les résultats de l'enquête à tous les électeurs de l'État. De même, si l’on voulait mesurer l’intelligence des étudiants, on pourrait tester tous les joueurs défensifs inscrits dans l’Ohio State lors d’une saison de football donnée puis généraliser les résultats à la population dont ils font partie. Dans chaque exemple nous procédons de la manière suivante : nous établissons un sous-groupe au sein de la population, assez Nous étudions ce sous-groupe, ou échantillon, en détail et étendons nos résultats à l’ensemble de la population. Ce sont les principales étapes de l’échantillonnage.

Cependant, il semble évident que chacun de ces échantillons présente des lacunes importantes. Par exemple, bien que les législatures de Virginie, de Caroline du Nord et de Caroline du Sud fassent partie d'un ensemble de législatures d'État, elles sont, pour des raisons historiques, géographiques et politiques, susceptibles de fonctionner de manière très similaire et très différente des législatures de des États aussi différents que ceux de New York, du Nebraska et de l'Alaska. Même si cinquante sidérurgistes de Pittsburgh peuvent effectivement être des électeurs dans l’État de Pennsylvanie, ils peuvent, en raison de leur statut socio-économique, de leur éducation et de leur expérience de vie, avoir des opinions différentes de celles de nombreuses autres personnes qui sont également des électeurs. De même, bien que les joueurs de football de l’Ohio State soient des étudiants, ils peuvent très bien être différents des autres étudiants pour diverses raisons. Autrement dit, bien que chacun de ces sous-groupes constitue effectivement un échantillon, les membres de chacun sont systématiquement différents de la plupart des autres membres de la population à partir de laquelle ils sont sélectionnés. En tant que groupe distinct, aucun d'entre eux n'est typique en termes de répartition des attributs d'opinions, de motifs de comportement et de caractéristiques dans la population à laquelle il est associé. En conséquence, les politologues diraient qu’aucun de ces échantillons n’est représentatif.

Échantillon représentatif - il s'agit d'un échantillon dans lequel toutes les principales caractéristiques de la population générale dont est extrait cet échantillon sont présentées approximativement dans la même proportion ou avec la même fréquence avec laquelle une caractéristique donnée apparaît dans cette population générale. Ainsi, si 50 % de toutes les législatures des États ne se réunissent qu’une fois tous les deux ans, environ la moitié de la composition d’un échantillon représentatif des législatures des États devrait être de ce type. Si 30 % des électeurs de Pennsylvanie sont des cols bleus, environ 30 % des représentants les échantillons de ces électeurs (et non 100 % comme dans l'exemple ci-dessus) devraient être des cols bleus. Et si 2 % de tous les étudiants sont des athlètes, à peu près la même proportion d’un échantillon représentatif d’étudiants devrait être des athlètes. En d’autres termes, un échantillon représentatif est un microcosme, un modèle plus petit mais précis de la population qu’il est censé refléter. Dans la mesure où l’échantillon est représentatif, les conclusions fondées sur l’étude de cet échantillon peuvent être supposées s’appliquer à la population d’origine. Cette diffusion des résultats est ce que nous appelons la généralisabilité.

Peut-être qu’une illustration graphique aidera à expliquer cela. Supposons que nous souhaitions étudier les modèles d’appartenance à des groupes politiques parmi les adultes américains. La figure 5.1 montre trois cercles divisés en six secteurs égaux. La figure 5.1a représente l'ensemble de la population considérée. Les membres de la population sont classés selon les groupes politiques (tels que les partis et les groupes d'intérêt) auxquels ils appartiennent. Dans cet exemple, chaque adulte appartient à au moins un et au maximum six groupes politiques ; et ces six niveaux d'adhésion sont répartis de manière égale dans l'ensemble (d'où les secteurs égaux). Supposons que nous souhaitions étudier les motivations des individus à rejoindre un groupe, leurs choix de groupe et les modes de participation, mais qu'en raison de ressources limitées, nous ne pouvons étudier qu'un membre de la population sur six. Qui doit être sélectionné pour l’analyse ?

Riz. 5.1. Constitution d'un échantillon de la population générale

L'un des échantillons possibles d'un volume donné est illustré par la zone ombrée de la figure 5.1b, mais il ne reflète clairement pas la structure de la population. Si nous devions faire des généralisations à partir de cet échantillon, nous conclurions : (1) que tous les adultes américains appartiennent à cinq groupes politiques et (2) que tout comportement de groupe des Américains correspond au comportement de ceux qui appartiennent spécifiquement aux cinq groupes. Cependant, nous savons que la première conclusion n’est pas vraie, ce qui peut nous faire douter de la validité de la seconde. Ainsi, L'échantillon présenté à la figure 5.1b n'est pas représentatif car il ne reflète pas la répartition d'une propriété de population donnée (souvent appelée paramètre ) conformément à sa répartition effective. Un tel échantillon est dit déplacé vers membres de cinq groupes ou déplacé dans la direction de tous les autres modèles d’appartenance à un groupe. Sur la base d’un échantillon aussi biaisé, nous arrivons généralement à des conclusions erronées sur la population.

Le désastre qui a frappé la revue Literary Digest dans les années 1930, qui a organisé un sondage d'opinion publique sur les résultats des élections, en est la preuve la plus claire. Literary Digest était un périodique qui réimprimait des éditoriaux de journaux et d'autres documents reflétant l'opinion publique ; ce magazine était très populaire au début du siècle. À partir de 1920, le magazine a mené un sondage national à grande échelle au cours duquel des bulletins de vote ont été envoyés par courrier à plus d'un million de personnes leur demandant d'indiquer leur candidat favori pour la prochaine élection présidentielle. Pendant plusieurs années, les résultats des sondages du magazine étaient si précis qu'un sondage de septembre semblait rendre les élections de novembre sans importance. Et comment une erreur a-t-elle pu se produire avec un échantillon aussi important ? Or, en 1936, c'est exactement ce qui s'est passé : avec une large majorité des voix (60 contre 40), la victoire était annoncée au candidat républicain Alf Landon. Landon a perdu aux élections face à une personne handicapée - Franklin D. Roosevelt - avec presque le même résultat avec lequel il aurait dû gagner. La crédibilité du Literary Digest a été tellement entamée que le magazine a été épuisé peu de temps après. Ce qui s'est passé? C'est très simple : le sondage Digest a utilisé un échantillon biaisé. Des cartes postales ont été envoyées à des personnes dont les noms ont été extraits de deux sources : les annuaires téléphoniques et les listes d'immatriculation des voitures. Et même si cette méthode de sélection n'était auparavant pas très différente des autres méthodes, les choses étaient très différentes aujourd'hui, pendant la Grande Dépression de 1936, lorsque les électeurs les moins riches, les partisans les plus probables de Roosevelt, ne pouvaient pas se permettre de posséder un téléphone, encore moins de posséder un téléphone. voiture. Ainsi, en fait, l’échantillon utilisé dans le sondage Digest était biaisé en faveur des personnes les plus susceptibles d’être républicaines, mais il reste surprenant que Roosevelt ait si bien réussi.

Comment résoudre ce problème ? Revenant à notre exemple, comparons l'échantillon de la figure 5.1b avec l'échantillon de la figure 5.1c. Dans ce dernier cas, un sixième de la population est également sélectionné pour l'analyse, mais chacun des principaux types de population est représenté dans l'échantillon dans la proportion dans laquelle il est représenté dans l'ensemble de la population. Un tel échantillon montre qu’un adulte américain sur six appartient à un groupe politique, un sur six à deux, et ainsi de suite. Un tel échantillon permettrait également d'identifier d'autres différences entre les membres qui pourraient être corrélées à la participation à un nombre différent de groupes. Ainsi, l'échantillon présenté sur la figure 5.1c est un échantillon représentatif de la population considérée.

Bien entendu, cet exemple est simplifié d’au moins deux manières extrêmement importantes. Premièrement, la plupart des populations qui intéressent les politologues sont plus diversifiées que celle illustrée. Personnes, documents, gouvernements, organisations, décisions, etc. diffèrent les uns des autres non pas par une, mais par un nombre beaucoup plus grand de caractéristiques. Ainsi, l'échantillon représentatif doit être tel que chaque l'un des principaux domaines qui différait des autres était présenté proportionnellement à sa part dans le total. Deuxièmement, la situation dans laquelle la distribution réelle des variables ou des attributs que nous voulons mesurer n'est pas connue à l'avance est beaucoup plus courante que l'inverse : elle n'a peut-être pas été mesurée lors d'un recensement précédent. Ainsi, un échantillon représentatif doit être conçu de manière à pouvoir refléter avec précision la distribution existante même lorsque nous ne sommes pas en mesure d’évaluer directement sa validité. La procédure d'échantillonnage doit avoir une logique interne qui puisse nous convaincre que, si nous pouvions comparer l'échantillon avec le recensement, il serait effectivement représentatif.

Pour pouvoir saisir avec précision l’organisation complexe d’une population donnée et avoir un certain degré de confiance dans la capacité des procédures proposées à le faire, les chercheurs se tournent vers les méthodes statistiques. En même temps, ils agissent dans deux directions. Premièrement, en utilisant certaines règles (logique interne), les chercheurs décident quels objets spécifiques étudier et quoi inclure exactement dans un échantillon spécifique. Deuxièmement, en utilisant des règles très différentes, ils décident du nombre d’objets à sélectionner. Nous n’étudierons pas en détail ces nombreuses règles ; nous nous contenterons de considérer leur rôle dans la recherche en science politique. Commençons notre réflexion par des stratégies de sélection d'objets qui forment un échantillon représentatif.

Le concept de représentativité apparaît souvent dans les rapports statistiques et dans la préparation des discours et des rapports. Il est peut-être difficile d'imaginer n'importe quel type de présentation d'informations sans cela.

La représentativité, qu'est-ce que c'est ?

La représentativité reflète la mesure dans laquelle les objets ou parties sélectionnés correspondent au contenu et à la signification de l'ensemble de données à partir duquel ils ont été sélectionnés.

Autres définitions

Le concept de représentativité peut être développé dans différents contextes. Mais dans son sens, la représentativité est la correspondance des caractéristiques et des propriétés d'unités sélectionnées de la population générale, qui reflètent fidèlement les caractéristiques de l'ensemble de la base de données générale dans son ensemble.

En outre, la représentativité de l'information est définie comme la capacité des échantillons de données à présenter les paramètres et les propriétés de la population qui sont importants du point de vue de la recherche menée.

Échantillon représentatif

Le principe de l'échantillonnage est de sélectionner les données les plus importantes et de refléter avec précision les propriétés de l'ensemble des données. Pour cela, diverses méthodes sont utilisées qui permettent d'obtenir des résultats précis et une idée générale en utilisant uniquement des matériaux sélectifs décrivant les qualités de toutes les données.

Il n’est donc pas nécessaire d’étudier tout le matériel, mais plutôt de considérer la représentativité de l’échantillon. Qu'est-ce que c'est? Il s'agit d'une sélection de données individuelles afin d'avoir une idée de la masse totale d'informations.

Selon la méthode, ils sont classés comme probabilistes et non probabilistes. La probabilité est un échantillon obtenu en calculant les données les plus importantes et les plus intéressantes, qui sont en outre représentatives de la population générale. Il s’agit d’un choix délibéré ou d’une sélection aléatoire, toutefois justifiée par son contenu.

La non-probabilité est l'un des types d'échantillonnage aléatoire, établi selon le principe d'une loterie ordinaire. Dans ce cas, l'avis de la personne qui constitue un tel échantillon n'est pas pris en compte. Seul le dessin aveugle est utilisé.

Échantillonnage probabiliste

Les échantillons probabilistes peuvent également être divisés en plusieurs types :

  • L’un des principes les plus simples et les plus compréhensibles est l’échantillonnage non représentatif. Par exemple, cette méthode est souvent utilisée lors de la réalisation d'enquêtes sociales. Dans ce cas, les participants à l'enquête ne sont pas sélectionnés parmi la foule sur la base de caractéristiques spécifiques, et les informations sont obtenues auprès des 50 premières personnes qui y ont participé.
  • Les échantillons ciblés sont différents en ce sens qu'ils ont un certain nombre d'exigences et de conditions de sélection, mais reposent toujours sur le hasard, sans avoir pour objectif d'obtenir de bonnes statistiques.
  • L'échantillonnage par quotas est une autre variante de l'échantillonnage non probabiliste qui est souvent utilisé pour étudier de grandes populations de données. De nombreuses conditions et normes sont utilisées à cet effet. Les objets sont sélectionnés qui doivent leur correspondre. Autrement dit, en utilisant l'exemple d'une enquête sociale, on peut supposer que 100 personnes seront interrogées, mais seuls les avis d'un certain nombre de personnes répondant aux exigences établies seront pris en compte lors de l'élaboration d'un rapport statistique.

Échantillons probabilistes

Pour les échantillons probabilistes, un certain nombre de paramètres sont calculés auxquels les objets de l'échantillon correspondront, et parmi eux, de différentes manières, exactement ces faits et données peuvent être sélectionnés qui seront présentés comme représentatifs des données de l'échantillon. Ces méthodes de calcul des données requises peuvent être :

  • Échantillonnage aléatoire simple. Cela consiste dans le fait que parmi le segment sélectionné, la quantité de données requise est sélectionnée à l'aide d'une méthode de loterie complètement aléatoire, qui constituera un échantillon représentatif.
  • L'échantillonnage systématique et aléatoire permet de créer un système de calcul des données nécessaires à partir d'un segment sélectionné aléatoirement. Ainsi, si le premier nombre aléatoire indiquant le numéro de série des données sélectionnées dans la population totale est 5, alors les données suivantes sélectionnées peuvent être, par exemple, 15, 25, 35, et ainsi de suite. Cet exemple explique clairement que même un choix aléatoire peut être basé sur des calculs systématiques des données d'entrée nécessaires.

Échantillon de consommateurs

L'échantillonnage significatif est une méthode qui consiste à examiner chaque segment individuel et, sur la base de son évaluation, à créer une population qui reflète les caractéristiques et les propriétés de la base de données globale. De cette manière, une plus grande quantité de données est collectée, répondant aux exigences d’un échantillon représentatif. Il est possible de sélectionner facilement un certain nombre d'options qui ne seront pas incluses dans le total sans perdre la qualité des données sélectionnées qui représentent la population totale. La représentativité des résultats de l’étude est ainsi déterminée.

Taille de l'échantillon

La taille de l’échantillon qui doit être représentatif de la population n’est pas la dernière question à résoudre. La taille de l'échantillon ne dépend pas toujours du nombre de sources dans la population. Cependant, la représentativité de la population échantillon dépend directement du nombre de segments en lesquels le résultat doit finalement être divisé. Plus il y a de tels segments, plus de données entrent dans l'échantillon effectif. Si les résultats nécessitent une désignation générale et ne nécessitent pas de détails, alors, en conséquence, l'échantillon devient plus petit, car, sans entrer dans les détails, les informations sont présentées de manière plus superficielle, ce qui signifie que leur lecture sera générale.

Le concept de biais de représentativité

L'erreur de représentativité est un écart spécifique entre les caractéristiques de la population et les données de l'échantillon. Lors de la réalisation d'une étude par sondage, il est impossible d'obtenir des données absolument précises, comme dans le cas d'une étude complète de populations générales et d'un échantillon représenté par seulement une partie des informations et des paramètres, alors qu'une étude plus détaillée n'est possible qu'en étudiant l'ensemble de la population. Par conséquent, certaines erreurs et erreurs sont inévitables.

Types d'erreurs

Certaines erreurs surviennent lors de la compilation d’un échantillon représentatif :

  • Systématique.
  • Aléatoire.
  • Intentionnel.
  • Involontaire.
  • Standard.
  • Limite.

La raison de l'apparition d'erreurs aléatoires peut être le caractère discontinu de l'étude de la population générale. En règle générale, l’erreur aléatoire de représentativité est insignifiante en termes de taille et de nature.

Des erreurs systématiques surviennent lorsque les règles de sélection des données de la population générale ne sont pas respectées.

L'erreur moyenne est la différence entre les valeurs moyennes de l'échantillon et de la population principale. Cela ne dépend pas du nombre d’unités dans l’échantillon. Elle est inversement proportionnelle. Plus le volume est grand, plus l’erreur moyenne est faible.

L'erreur marginale est la plus grande différence possible entre les valeurs moyennes de l'échantillon prélevé et la population totale. Une telle erreur est caractérisée comme le maximum d'erreurs probables dans des conditions données de leur apparition.

Erreurs de représentativité intentionnelles et non intentionnelles

Les erreurs de biais dans les données peuvent être intentionnelles ou non.

Ensuite, les raisons de l'apparition d'erreurs intentionnelles sont l'approche de sélection des données utilisant la méthode de détermination des tendances. Des erreurs involontaires surviennent au stade de la préparation d'un échantillon d'observation et de la constitution d'un échantillon représentatif. Pour éviter de telles erreurs, il est nécessaire de créer une bonne base de sondage pour les listes d'unités de sélection. Il doit être pleinement cohérent avec les objectifs de l’échantillon, être fiable et couvrir tous les aspects de l’étude.

Validité, fiabilité, représentativité. Calcul d'erreur

Calcul de l'erreur de représentativité (Mm) de la moyenne arithmétique (M).

Écart type : taille de l'échantillon (> 30).

Erreur de représentativité (MR) et (P) : taille de l'échantillon (n>30).

Dans le cas où vous devez étudier une population où la taille de l'échantillon est petite et inférieure à 30 unités, alors le nombre d'observations sera inférieur d'une unité.

L'ampleur de l'erreur est directement proportionnelle à la taille de l'échantillon. La représentativité de l'information et le calcul du degré de possibilité de faire une prévision précise se traduisent par une certaine valeur de l'erreur maximale.

Systèmes de représentation

Non seulement un échantillon représentatif est utilisé dans le processus d'évaluation de la présentation de l'information, mais la personne qui reçoit l'information utilise elle-même des systèmes représentatifs. Ainsi, le cerveau en traite certaines en créant un échantillon représentatif de l'ensemble du flux d'informations afin d'évaluer qualitativement et rapidement les données fournies et de comprendre l'essence du problème. Répondez à la question : « La représentativité, qu'est-ce que c'est ? - à l'échelle de la conscience humaine, c'est assez simple. Pour ce faire, le cerveau utilise tout ce qu’il peut, en fonction des informations qu’il souhaite isoler du flux général. Ainsi, ils distinguent :

  • Le système de représentation visuelle, où sont impliqués les organes de perception visuelle de l'œil. Les personnes qui utilisent fréquemment un tel système sont appelées apprenants visuels. Avec l'aide de ce système, une personne traite les informations reçues sous forme d'images.
  • Système de représentation auditive. Le principal organe utilisé est l’audition. Les informations fournies sous forme de fichiers sonores ou vocaux sont traitées par ce système. Les personnes qui perçoivent mieux les informations en entendant sont appelées apprenants auditifs.
  • Le système de représentation kinesthésique est le traitement du flux d'informations en le percevant à travers les canaux olfactifs et tactiles.
  • Le système de représentation numérique est utilisé avec d'autres comme moyen de recevoir des informations de l'extérieur. perception et compréhension des données reçues.

Alors, la représentativité, qu’est-ce que c’est ? Une simple sélection dans un ensemble ou une procédure intégrale lors du traitement de l'information ? On peut certainement affirmer que la représentativité détermine en grande partie notre perception des flux de données, contribuant ainsi à en isoler les plus significatifs et les plus significatifs.

Cela signifie que si, après avoir interrogé, disons, 400 personnes dans une ville régionale, où la population adulte solvable est de 100 000 personnes, vous constatez que 33 % des acheteurs interrogés préfèrent les produits d'une usine de transformation de viande locale, alors avec 95 % Il est probable que l'on peut dire que les acheteurs réguliers de ces produits représentent 33+5% (c'est-à-dire de 28 à 38%) des habitants de cette ville.

Vous pouvez également utiliser les calculs de Gallup pour estimer la relation entre la taille de l'échantillon et l'erreur d'échantillonnage (voir ci-dessus).

Aujourd’hui, de nombreux calculs difficiles sont effectués grâce à la technologie et des programmes statistiques peuvent être obtenus sur Internet. Ainsi, avec le calcul de l'échantillon, le sociologue paresseux a eu cette opportunité.

informations sur le site Web du Centre d'analyse « Affaires et marketing » (http://www.bma.ru/enter.htm), où l'utilisateur n'a qu'à saisir les données nécessaires puis à cliquer sur le bouton « Calculer ».

Inspection et réparation d'échantillons

La qualité de l'information sociologique peut être réduite par de nombreux facteurs : des questions de questionnaire mal formulées, une méthode de recherche mal choisie, des réponses manquantes dans les questionnaires, un échantillonnage mal planifié, etc.

La pratique de la recherche empirique - étrangère et nationale, fondamentale et appliquée - montre que des erreurs, y compris dans l'échantillonnage, se produisent dans presque toutes les études. Une autre question est de savoir si ces changements sont significatifs ou insignifiants. Et comme des erreurs, des chevauchements et des déplacements se produisent toujours, il y aura toujours du travail pour les spécialistes impliqués dans le contrôle et la réparation des échantillons. Et ce domaine de la science méthodologique lui-même ne s'attend pas à une vieillesse prématurée. Non seulement en science, mais aussi dans tout autre domaine, le métier d'inspecteurs et de réparateurs a toujours été lucratif et prestigieux.

Contrôle d'échantillonnage nous appellerons le processus de comparaison scientifique de populations générales et d'échantillons, identifiant le degré de leur divergence, découvrant les causes de l'écart et développant des moyens possibles d'éliminer les erreurs. Au sens étroit, c'est égalisation de l'échantillon et répartitions générales des caractéristiques sociodémographiques des répondants.

Sous exemples de réparations vous devez comprendre le processus d'élimination des erreurs lui-même, c'est-à-dire écarts entre deux ensembles, en utilisant les méthodes, méthodes et outils qu'offre la science méthodologique.

Ainsi, la deuxième technique est la mise en œuvre pratique de la première, analytique, et toutes deux constituent deux étapes obligatoires dans la conduite d'une recherche sociologique.

Le contrôle de l'échantillonnage est souvent utilisé dans un sens élargi, y compris la réparation de l'échantillonnage. Dans ce cas, ils parlent de largement compris réparation de l'échantillon en tant que traitement de données statistiques primaires, y compris la correction : a) de la population de l'échantillon ; b) répartitions des caractéristiques sociodémographiques des répondants ; c) les valeurs aberrantes et les réponses manquantes, ainsi que la pondération des données initiales. Ces types de corrections visent à réparer l’élément le plus important : l’échantillon de recherche, et à augmenter son degré de représentativité. Pourquoi est-ce important ? Le questionnaire peut être extrêmement intéressant, profond

L'objectif principal de la réparation d'échantillons est d'améliorer la qualité des informations déjà collectées. L'exemple de procédure de réparation comprend plusieurs opérations 40 .

Correction de la population échantillon. Les répondants sélectionnés ne sont pas toujours capables ou désireux, pour diverses raisons, de répondre aux questions. Quelqu'un est tombé malade ou est parti en voyage d'affaires urgent, un autre refuse pour des raisons idéologiques ou est incapable de répondre en raison d'une insuffisance mentale. Il est difficile de trouver quelqu'un à la maison, même si le géomètre est venu le voir plus d'une fois.

Se pose le problème du remplacement des répondants, qui peut être résolu par plusieurs méthodes : sélectionner le prochain répondant sur la liste (par exemple, le prochain numéro de l'annuaire téléphonique), utiliser un échantillon initial plus grand et créer un échantillon répété. Dans ce dernier cas, si le taux de réponse est beaucoup plus faible que prévu, la base de sondage est élargie pour inclure des noms supplémentaires trouvés, par exemple, au hasard. Le moyen le plus efficace est de trouver un remplaçant équivalent. Si par exemple votre échantillon comprend un retraité actif de telle ou telle nationalité et un veuf, alors il convient de lui trouver en remplacement un autre retraité d'âge, de nationalité similaire, veuf et actif. Souvent, cette méthode se transforme en une entreprise qui demande beaucoup de travail et de temps. Si la liste de population est petite et qu’un remplaçant ne peut être trouvé, vous devez abandonner la méthode équivalente et passer à une autre.

Correction des distributions des caractéristiques démographiques des répondants. Si, à la fin de l'étude, dans votre passeport de recherche, il s'avère que vous avez, par exemple, une surreprésentation des femmes, des personnes ayant fait des études supérieures ou des personnes âgées par rapport aux parts en pourcentage qu'elles ont dans la population générale, alors vous pouvez appliquer trois méthodes : 1) supprimer les groupes de répondants qui étaient surreprésentés ; 2) interroger les groupes qui se sont révélés représentatifs

en quantités insuffisantes ; 3) augmenter mathématiquement la valeur des réponses sous-représentées ou diminuer celles qui sont surreprésentées. Mais il convient d’abord de déterminer si les deux influencent le contenu des réponses. Peut-être que tout peut rester tel quel.

Peser les données d'entrée- une méthode mathématique pour augmenter ou diminuer la valeur des réponses d'un groupe spécifique de répondants (par exemple, les femmes rurales célibataires âgées de 30 à 45 ans). La pondération consiste à attribuer un certain poids à chaque répondant (un coefficient par lequel toutes les opinions-réponses d'un ou d'un groupe de répondants doivent être multipliées afin de rétablir la représentativité). Selon A. Balabanov 41, la pondération est le seul moyen de restaurer la représentativité des études de panel sans perte de précision. Étant donné qu’il existe de nombreuses méthodes d’évaluation, le sociologue est confronté à des problèmes méthodologiques assez difficiles qui ne peuvent être résolus sans une formation et des connaissances appropriées. Les coefficients de pondération peuvent être déterminés de différentes manières, et le processus d’attribution des coefficients est presque impossible à contrôler de l’extérieur, par d’autres chercheurs. Le moyen le plus simple est le numéro d'un groupe sociodémographique spécifique, par exemple les adolescents de 13 à 17 ans, de la population générale. (N) divisé par le nombre de répondants représentant un groupe d'âge donné (p), estimant qu'un répondant représente l'opinion des personnes jV de la population générale.

Employés de l'Institut de sociologie de l'Académie des sciences de l'URSS A.A. Davydov et A. O. Kryshtanovsky ont établi à un moment donné des faits intéressants 42. Il s'avère que les caractéristiques démographiques des personnes interrogées n'ont pratiquement aucun lien avec les réponses sur la satisfaction au travail et dans la vie, l'évaluation du rythme de la perestroïka, l'approbation des activités des dirigeants politiques, l'évaluation des événements de politique étrangère, etc. En d’autres termes, les hommes et les femmes répondent de la même manière aux questions sur la satisfaction de vivre ou sur les événements politiques. Pour ces indicateurs, une repondération n’est pas nécessaire. Si une caractéristique, par exemple le sexe, est étroitement liée à toutes les questions de fond ou si différentes questions sont liées à différentes caractéristiques, la correction devra alors être effectuée selon le schéma décrit dans le manuel.

Les spécialistes du VTsIOM assurent une réparation minutieuse de l'échantillon lors de l'analyse des données afin de minimiser les écarts survenus pendant la phase de travail sur le terrain. Des biais particulièrement forts sont observés en termes de sexe et d’âge.

Correctionréponses nettement différenciées des répondants. Au cours d'une enquête, vous tombez parfois sur des réponses de répondants qui se démarquent nettement du contexte général. Les raisons peuvent être très différentes : le répondant a mal compris la question de l'enquête, il a une vision originale du monde ou il a simplement décidé de se moquer des scientifiques. Il peut y avoir d'autres raisons. Mais vous ne pouvez pas revenir vers lui et lui demander à nouveau. Dans ce cas, surtout s'il y a beaucoup de questionnaires, il vaut mieux supprimer la copie défectueuse du tableau général.

Correction des réponses manquantes. Les lacunes surviennent le plus souvent dans les questions ouvertes et tabulaires. Le moyen le plus simple de corriger cela est de les exclure, ou l’ensemble du questionnaire, de l’analyse scientifique. Quand on manque non pas la question du contenu, mais celle du quoi. est dans le passeport, faites ceci. Si les caractéristiques sociodémographiques ne sont pas associées à des réponses significatives, alors le questionnaire avec des valeurs manquantes doit se voir attribuer les caractéristiques sociodémographiques les plus fréquentes dans l'échantillon ou être déterminées de manière aléatoire ou proportionnelle (s'il existe de nombreux questionnaires de ce type). S'il existe un lien, vous devez alors déterminer quel groupe (par exemple, hommes ou femmes) est le plus proche des réponses du questionnaire, où la colonne « sexe » n'est pas indiquée, et ajouter cet attribut 44 .

Si beaucoup de données sont reçues, l'échantillon peut être réparé par réduction de la population échantillonnée. Ceci, selon A.A. Davydov et A.O. Kryshtanovsky, l'approche la plus rationnelle de la réparation des échantillons, puisque cette stratégie ne repose sur aucune hypothèse supplémentaire. Si la taille de l'échantillon est petite, pour le réparer, il est nécessaire de faire un certain nombre d'hypothèses supplémentaires qui ne découlent pas du matériel collecté et dont la véracité est difficile à vérifier.

Un rééchantillonnage est effectué lorsque la vérification a montré que l'échantillon ne représente pas la population dans son ensemble. Dans ce cas, de nouveaux répondants sont sélectionnés et ajoutés à l'échantillon précédemment utilisé jusqu'à ce qu'un niveau de représentativité satisfaisant soit atteint.

Tous les sociologues organisant des recherches empiriques n’incluent pas dans leur « passeport » des données sur le contrôle et la réparation des échantillons. Ainsi, parmi les 300 études contenues dans la banque de données de l'Académie des sciences de l'IS URSS pour 1988, l'échantillon seulement de dix avait été réparé 45 . A titre de comparaison, notons : à l'étranger, la réparation d'échantillons est depuis longtemps une méthode courante pour améliorer la qualité de l'information sociologique.

Auparavant, les raisons du retard étaient cachées dans le manque de technologie informatique, de logiciels spécialisés, de matériel pédagogique et dans les qualifications insuffisantes des chercheurs. Aujourd’hui, il existe à la fois la technologie et les programmes nécessaires, mais le problème n’est pas résolu. Apparemment, cela ne peut pas être réduit aux seuls aspects techniques.

En pratique, l’erreur d’échantillonnage est déterminée en comparant les caractéristiques connues de la population avec les moyennes de l’échantillon. En sociologie, lors des enquêtes auprès de la population adulte, les données des recensements de population, les registres statistiques actuels et les enquêtes antérieures sur le même site sont le plus souvent utilisées. Les caractéristiques sociodémographiques (sexe, âge, nationalité, état civil) sont généralement utilisées comme paramètres de contrôle. Puisqu’une comparaison de ses propres données avec celles d’autres personnes peut être effectuée après avoir terminé l’étude, cette méthode de contrôle est appelée a posteriori, ceux. réalisé après l'expérience.

Par exemple, l'Institut J. Gallup, à partir d'échantillons de 1 500 personnes, contrôle la représentativité à l'aide des données disponibles dans les recensements nationaux sur la répartition de la population par sexe, âge, éducation, revenu, profession, race (blanche - couleur), lieu de résidence. , taille du règlement 46. Dans les études menées par VTsIOM, la fiabilité des données d'échantillonnage est déterminée par la méthode de contrôle a posteriori. Le questionnaire de suivi doit comprendre plusieurs questions sur lesquelles des informations fiables sont disponibles auprès du Comité national des statistiques de la Fédération de Russie. Ceux-ci incluent généralement le sexe, l’âge, l’éducation, le type d’établissement, l’état civil, le secteur d’emploi et la situation professionnelle du répondant. Quatre indicateurs - le sexe, l'âge, l'éducation et le lieu de résidence du répondant sont utilisés pour identifier les groupes témoins lors de la détermination des poids.

répondants - ils doivent correspondre à des groupes similaires dans la population générale 47. Puisque les statistiques officielles indiquent combien d'hommes et de femmes il y a en Russie, il est facile de comparer les données de surveillance à l'aide de ces chiffres et de déterminer l'erreur.

Dans les enquêtes du Centre socio-express de l'Institut de sociologie de l'Académie des sciences de Russie, la représentativité de l'échantillon panrusse (volume de conception de 2 000 personnes) est contrôlée par les proportions régionales de la population, les proportions entre les zones urbaines et population rurale, proportions entre la population des types d'établissements spécifiés. L'enquête est réalisée au moyen d'un entretien formalisé au lieu de résidence. L'échantillonnage est basé sur dix zones économiques et géographiques, chacune se distinguant par de grandes villes (avec une population de plus de 500 000 habitants), des villes de taille moyenne (50 à 500 000), des petites villes (jusqu'à 50 000) ou les établissements de type urbain, ainsi que les établissements ruraux. Les auteurs estiment que l'erreur marginale de leur échantillon ne dépasse pas 3% 48 .

Le contrôle efficace de l'échantillon et, en général, de la qualité des données d'une étude est la publication des caractéristiques clés de l'étude, principalement des outils méthodologiques. Si l'auteur d'une étude cache des informations en invoquant un secret commercial, alors des soupçons de malhonnêteté doivent nécessairement surgir. Comme le note à juste titre A. Balabanov, toutes les méthodes de mesure, même dans le domaine des études marketing et des médias, sont connues depuis longtemps, elles sont absolument ouvertes et ne peuvent faire l'objet d'un secret commercial. De plus, le manque de données sur la méthodologie de mesure constitue une violation de tous les accords existants dans le monde, notamment sur les mesures médiatiques 49 .

Exemple de passeport

Lors de la rédaction d'un rapport scientifique et de la publication d'un article dans une revue académique, les auteurs de l'étude sont toujours tenus d'expliquer clairement la recherche elle-même et les sujets sélectionnés.

population : qui et quand a mené l'étude, quelles méthodes de recherche ont été utilisées, quel est le type, la taille et la nature de l'échantillon, l'erreur de représentativité, la composition de la population de l'échantillon selon les principaux paramètres (par exemple, le sexe, l'âge, la nationalité, l'éducation). ), contrôle des données, etc. Si ces informations sont manquantes, alors l'article n'est généralement pas accepté dans la revue, et s'il n'est que partiellement présent, alors les chercheurs sérieux ne lui font pas confiance. Ainsi, le passeport de recherche et le passeport échantillon ne sont pas moins nécessaires aux auteurs qu'aux éditeurs et aux lecteurs.

Le modèle de passeport du sociologue apparaît deux fois. La première fois qu'un sociologue doit donner une description du type d'échantillon avec une brève justification de la faisabilité de son utilisation conformément aux objectifs de l'étude, aux exigences de représentativité et aux capacités organisationnelles de l'étude, c'est dans la section Méthodologique. de son programme de recherche. La section d'échantillonnage contient des réponses aux questions suivantes :

♦ Quel est l'objet empirique de l'étude ?

♦ L'étude est-elle continue ou sélective ?

♦ S'il est échantillonné, prétend-il être représentatif ?

♦ S'il prétend être représentatif, quelle est sa population ?

♦ Combien d'étapes de sélection sont utilisées dans l'échantillon ?

♦ Quelle est l'unité de sélection à chaque étape ?

♦ Quelle stratégie de sélection est utilisée à chaque étape (aléatoire, quota) ?

♦ Quel type spécifique d'échantillonnage aléatoire est utilisé ?

♦ Quels paramètres sont utilisés dans l'échantillonnage par quotas ?

♦ Quelle est la base de sondage (liste, fiche, carte) ?

♦ Quelle est l'unité d'observation à la dernière étape de sélection ?

Les principes d'échantillonnage sont décrits non seulement pour la méthode d'enquête, mais également pour chaque méthode utilisée dans l'étude : analyse documentaire, observation, etc.

Exemple conditionnel de description d’un échantillon. En étudiant l’efficacité des formes d’organisation du travail en équipe, une telle stratégie est possible. 1. Les travailleurs réunis dans une forme d'organisation du travail en brigade sont considérés comme un objet empirique. 2. L'étude est sélective. 3. La population générale est constituée de tous les travailleurs réunis sous forme de brigade. 4. Trois étapes de sélection sont utilisées. 5. Au premier stade, il existe des brigades engagées dans des activités arbitraires principales et auxiliaires.

qualité Pour ces dernières, une enquête continue est utilisée (en raison de leur petit nombre), et pour les premières, une enquête par sondage est utilisée. 6. La deuxième étape est la sélection des équipes impliquées dans la production principale. Selon des indicateurs caractérisant les résultats finaux, les brigades sont divisées en trois groupes : a) avancés ; b) moyenne ; c) en retard. En fonction du nombre d'équipes pour chaque groupe, une liste est établie et une sélection aléatoire disproportionnée en est effectuée (par exemple, trois équipes dans chacune) en utilisant une certaine « étape d'échantillonnage ». 7. Troisième étape - une enquête complète est réalisée auprès d'équipes sélectionnées. L'unité d'observation est l'individu salarié 50.

La deuxième fois qu'un sociologue rencontre une description de l'échantillon, c'est après que la recherche a été menée, lorsqu'il rédige un rapport scientifique ou un article scientifique pour une revue.

La description incomplète des données du passeport de l'étude est malheureusement la maladie la plus courante chez les scientifiques russes. Certains ne savent pas exactement comment les compiler, d'autres considèrent que ces informations sont inutiles ou sans importance. Et il existe aussi une catégorie de chercheurs qui n'ont tout simplement rien à signaler, car en décrivant toutes les informations sur l'échantillon, ils exposeront leur analphabétisme. Un cas courant est celui où un sociologue a mené une étude, a constitué un échantillon et en a tiré quelque chose. Mais il ne peut pas formuler de passeport ni exprimer ses actions dans un langage scientifique.

Une maladie chronique des sociologues nationaux est l'absence ou une culture méthodologique insuffisamment élevée. Cela concerne non seulement l'organisation et la conduite des recherches sur le terrain, mais aussi la publication de leurs résultats dans la presse ouverte. Ce fait est connu de tous et est périodiquement discuté des années 1960 aux années 2000. Parfois, nos sociologues et nos psychologues parviennent à se faire prendre sur le fait, comme on dit.

Selon les recherches de V.V. Solodnikov, qui a mené une analyse secondaire de publications dans trois revues académiques : « Sociological Research », « Questions of Psychology »

et « Psychological Journal » pour 1986-1992, ni les sociologues ni les psychologues ne se lassent d'avancer, de justifier et de tester des hypothèses. La majorité des scientifiques (de 61 % des psychologues à 92 % des sociologues) se passent d'un tel outil cognitif, violant ainsi tous les canons de la méthode scientifique. Seules 8 % des publications sociologiques formulent explicitement des hypothèses. Les sociologues et les psychologues décrivent mal l'objet de la recherche : peu indiquent le nombre de répondants, le sexe et l'âge des répondants, le niveau d'éducation des répondants, le lieu de résidence, la durée de la vie familiale (pour les personnes mariées) ; ), les revenus et le statut professionnel sont rarement déclarés. Le problème de la représentativité, c'est-à-dire la comparaison de l’échantillon et de la population générale en fonction de ces caractéristiques n’est presque pas discutée du tout. Par ailleurs, les sociologues évoquent rarement le pilotage d’outils et l’utilisation de techniques préalablement testées. Bien que la méthode la plus courante de collecte d'informations empiriques soit une enquête, il est rare de décrire quel type d'enquête a été utilisé en fonction du lieu, de l'heure ou de la méthode de remplissage du questionnaire.

2.12. Représentativité

Représentativité (français) représentant- indicatif) - la propriété d'un échantillon de population de représenter les caractéristiques de la population générale. La représentativité de l'échantillon signifie que, avec une erreur prédéterminée ou calculée sur l'échantillon réel, ce qui est établi dans la population échantillon peut être identifié avec la population générale ou, si nous utilisons le langage des statistiques, nous pouvons trouver des estimations des paramètres. de la population générale. Premièrement, chaque unité de la population doit avoir une chance égale d’être incluse dans l’échantillon. Deuxièmement, afin d'éviter une sélection directionnelle, la sélection des unités dans la population générale doit être effectuée quelle que soit la caractéristique étudiée. Troisièmement, la sélection doit être effectuée autant que possible à partir de populations homogènes. Quatrièmement, le nombre d'unités de population sélectionnées pour l'enquête doit être suffisamment grand.

Le processus de détermination directe de la représentativité de l'échantillon comprend les étapes suivantes : comparaison des indicateurs moyens des répartitions de l'échantillon et de la population générale ; comparaison des formes de distribution de ces indicateurs. La moyenne de la distribution est généralement considérée comme la moyenne 144

arithmétique ou moyenne arithmétique pondérée de cette distribution.

Dans le cas de l'étude de populations présentant des caractéristiques alternatives, au lieu de la moyenne arithmétique, la proportion d'unités possédant la caractéristique considérée est calculée par rapport à l'ensemble de la population. Si l'on note le volume de la population par le symbole N, et un phénomène avec ce signe - M, Que R- la proportion de phénomènes présentant cette caractéristique est déterminée :

Q- la proportion de phénomènes de signe alternatif.

Il est possible d'utiliser les conclusions obtenues sur la base d'une étude d'un échantillon de population si la différence entre les moyennes arithmétiques (ou parts moyennes) des caractéristiques de l'échantillon et de la population générale tend vers zéro. lorsque quatre conditions mentionnées ci-dessus sont remplies, cependant, connaissant uniquement les moyennes de l'échantillon, il est impossible de donner des estimations précises de leur différence, car les indicateurs moyens de la population générale sont inconnus. eux-mêmes peuvent fluctuer en fonction des unités de la population générale auxquelles appartiennent les unités. Par conséquent, évaluer la représentativité d'un échantillon de population sur la base des indicateurs moyens de sa répartition revient à rechercher l'erreur de représentativité.

La comparaison de l’échantillon et de la population générale ne donne pas une image complète de la population générale. Ainsi, dans deux populations ayant les mêmes indicateurs moyens, les écarts entre les valeurs maximales et minimales d'une caractéristique, qui déterminent la forme de sa distribution, peuvent être différents. Si une telle distribution est représentée graphiquement, elle forme une courbe symétrique en forme de cloche (normale), reflétant le fait que la somme de nombreuses variables aléatoires indépendantes distribuées de manière aléatoire est distribuée approximativement selon la loi normale. Ordonnée oui, qui détermine la hauteur de la courbe pour chaque point X, représente la densité de probabilité pour la valeur xg

La densité de probabilité maximale se produit à la valeur moyenne de la variable et est égale à un. Cela signifie que moins

plus la valeur aléatoire d'une variable diffère de sa valeur moyenne, plus la probabilité de son apparition est grande. Et vice versa, plus l'écart des valeurs d'une variable par rapport à sa valeur moyenne est grand, moins il est probable qu'elles apparaissent. Ainsi, les valeurs des écarts par rapport aux valeurs moyennes, c'est-à-dire valeurs de la forme x (- X, contiennent des informations sur la variation des variables étudiées. Si toutes les valeurs d'une caractéristique étaient identiques et coïncidaient avec sa valeur moyenne, alors la totalité de la valeur de cette caractéristique serait extrêmement homogène.

Habituellement, le nombre d'écarts positifs par rapport à la moyenne arithmétique de la population est approximativement égal au nombre d'écarts négatifs, c'est-à-dire la somme de tous les écarts tend inévitablement vers zéro. Ainsi, s’il fallait additionner au total tous les écarts d’une caractéristique, cette somme serait toujours égale à zéro :

Pour éviter cela, chaque écart est mis au carré et la somme des carrés est trouvée - la variance.

La distribution normale est entièrement caractérisée par les paramètres suivants : jc - la valeur moyenne de la caractéristique et a - l'écart carré moyen (type). Moyenne X détermine la position de la distribution par rapport à l'axe des x ; l'écart type montre la forme de la courbe ; plus la valeur de a est grande, plus la courbe est large et plus son maximum est bas.

L'aire sous la courbe normale est située de telle manière qu'à l'intérieur des limites x ± o 68 % de la répartition totale de la caractéristique est située à l'intérieur des limites x ± 2<т - 95,5, в пределах x ± Zet - 99,7%. La probabilité que la différence entre une variable aléatoire distribuée approximativement selon une loi normale et sa valeur moyenne dépasse Z en valeur absolue est inférieure à 0,3 %. Il s’ensuit qu’avec une précision de près de cent pour cent, nous pouvons dire :

Une évaluation d'un échantillon représentatif de population basée sur la forme de distribution des indicateurs est une comparaison des mesures de variation de ces indicateurs dans l'échantillon et dans la population générale. La dispersion de la population générale n'est pas toujours connue, mais en statistiques mathématiques, il a été prouvé que l'inter-

Entre les variances générales et les variances d'échantillon, il existe une relation de la forme :

p- taille de l’échantillon.

Le problème de la représentativité de l'échantillon est important en tant que problème de légitimité de l'extrapolation des conclusions obtenues à partir de l'analyse de la population échantillon à l'ensemble de la population 52.

Chapitre 3. PROGRAMME


Informations connexes.


Un échantillon est un ensemble de données prélevées à l’aide de certaines procédures auprès d’une population à des fins d’analyse exploratoire. La représentativité est la propriété de reproduire l'idée du tout par sa partie. Autrement dit, c’est la possibilité d’étendre l’idée de partie au tout, qui inclut cette partie.

La représentativité d'un échantillon est un indicateur selon lequel l'échantillon doit refléter pleinement et de manière fiable les caractéristiques de la population dont il fait partie. Il peut également être défini comme la propriété d'un échantillon à représenter au mieux les caractéristiques de la population qui sont significatives du point de vue de l'objet de l'étude.

Supposons que la population générale soit composée uniquement d'élèves (900 personnes réparties dans 30 classes, 30 personnes dans chaque classe). L'objet de l'étude est l'attitude des écoliers à l'égard du tabac. Un échantillon de population composé de 90 étudiants ne représentera l'ensemble de la population que bien moins bien qu'un échantillon des mêmes 90 étudiants, qui comprendrait 3 étudiants de chaque classe. La principale raison est la répartition inégale des âges. Ainsi, dans le premier cas, la représentativité de l’échantillon sera faible. Dans le deuxième cas - élevé.

En sociologie, on dit qu’il existe la représentativité d’un échantillon et sa non-représentativité.

Un exemple d’échantillon non représentatif est un cas classique survenu en 1936 aux États-Unis lors de l’élection présidentielle.

Literary Digest, qui avait très bien réussi à prédire les résultats des élections précédentes, s'est cette fois trompé dans ses prévisions, bien qu'il ait envoyé plusieurs millions de questions écrites à ses abonnés, ainsi qu'à des personnes interrogées qu'ils avaient sélectionnées dans les annuaires téléphoniques et les listes d'immatriculation des voitures. Sur le quart des bulletins de vote retournés complets, les votes ont été répartis comme suit : 57 % ont donné la préférence au candidat républicain nommé Alf Landon et 41 % ont préféré le président sortant, le démocrate Franklin Roosevelt.

En fait, F. Roosevelt a remporté les élections avec près de 60 % des voix. L’erreur du Literary Digest était la suivante. Ils voulaient augmenter la représentativité de l'échantillon . Et comme ils savaient que la plupart de leurs abonnés s'identifiaient comme républicains, ils ont décidé d'élargir l'échantillon pour inclure les répondants qu'ils avaient sélectionnés dans les annuaires téléphoniques et les listes d'immatriculation des voitures. Mais ils n’ont pas tenu compte des réalités existantes et ont en fait sélectionné encore plus de partisans républicains, car à l’époque les classes moyennes et supérieures pouvaient se permettre d’avoir une voiture et un téléphone. Et il s’agissait pour la plupart de républicains et non de démocrates.

Il existe différents types d'échantillonnage : aléatoire simple, en série, typique, mécanique et combiné.

L'échantillonnage aléatoire simple consiste à sélectionner aléatoirement, sans aucun système, parmi l'ensemble de la population, les unités étudiées.

L'échantillonnage mécanique est utilisé lorsqu'il y a de l'ordre dans la population générale, par exemple, il existe une certaine séquence d'unités de travailleurs, de listes électorales, de numéros de téléphone des répondants, de nombres d'appartements et de maisons, etc.).

La sélection typique est utilisée lorsque la population entière peut être divisée en groupes par type. Lorsque vous travaillez avec la population, il peut s'agir, par exemple, de groupes éducatifs, d'âge, sociaux lors de l'étude d'entreprises - une industrie ou une organisation distincte, etc.

La sélection en série est pratique lorsque les unités sont combinées en petites séries ou groupes. Une telle série peut être constituée de lots de produits finis, de classes scolaires et d'autres groupes.

L'échantillonnage combiné implique l'utilisation de tous les types d'échantillonnage précédents dans l'une ou l'autre combinaison.

En fait, nous commencerons par non pas une, mais trois questions : Qu’est-ce que l’échantillonnage ? quand est-ce représentatif ? qu'est-ce qu'elle est ?

Totalité- il s'agit de tout groupe de personnes, d'organisations, d'événements qui nous intéressent, sur lesquels nous souhaitons tirer des conclusions, et événement, ou objet - tout élément d'une telle collection.

Échantillon- tout sous-groupe d'un ensemble de cas (objets) sélectionnés pour l'analyse.

Si nous voulions étudier les activités décisionnelles des législateurs des États, nous pourrions étudier ces activités dans les législatures des États de Virginie, de Caroline du Nord et de Caroline du Sud, plutôt que dans les cinquante États et, à partir de là, distribuer obtenu des données sur la population à partir de laquelle ces trois États ont été sélectionnés. Si nous voulions examiner le système de préférences électorales de Pennsylvanie, nous pourrions le faire en interrogeant 50 travailleurs américains. S. Steele » à Pittsburgh, et étendre les résultats de l'enquête à tous les électeurs de l'État.

De même, si l’on voulait mesurer l’intelligence des étudiants, on pourrait tester tous les joueurs défensifs inscrits dans l’Ohio State lors d’une saison de football donnée puis généraliser les résultats à la population dont ils font partie. Dans chaque exemple, nous procédons comme suit : nous identifions un sous-groupe au sein de la population, étudions ce sous-groupe, ou échantillonnons, de manière assez détaillée et généralisons nos résultats à l'ensemble de la population. Ce sont les principales étapes de l’échantillonnage.

Cependant semble Il est clair que chacun de ces échantillons présente un inconvénient important. Par exemple, bien que les législatures de Virginie, de Caroline du Nord et de Caroline du Sud fassent partie d'un ensemble de législatures d'État, elles sont, pour des raisons historiques, géographiques et politiques, susceptibles de fonctionner de manière très similaire et très différente des législatures de des États aussi différents que ceux de New York, du Nebraska et de l'Alaska. Même si cinquante sidérurgistes de Pittsburgh peuvent effectivement être des électeurs dans l’État de Pennsylvanie, ils peuvent, en raison de leur statut socio-économique, de leur éducation et de leur expérience de vie, avoir des opinions différentes de celles de nombreuses autres personnes qui sont également des électeurs.

De même, bien que les joueurs de football de l’Ohio State soient des étudiants, ils peuvent très bien être différents des autres étudiants pour diverses raisons. Autrement dit, bien que chacun de ces sous-groupes constitue effectivement un échantillon, les membres de chacun sont systématiquement différents de la plupart des autres membres de la population à partir de laquelle ils sont sélectionnés. En tant que groupe distinct, aucun d'entre eux n'est typique en termes de répartition des attributs d'opinions, de motifs de comportement et de caractéristiques dans la population à laquelle il est associé. En conséquence, les politologues diraient qu’aucun de ces échantillons n’est représentatif.


Échantillon représentatif- il s'agit d'un échantillon dans lequel toutes les caractéristiques principales de la population générale dont est extrait cet échantillon sont présentées approximativement dans la même proportion ou avec la même fréquence avec laquelle cette caractéristique apparaît dans cette population générale. Ainsi, si 50 % de toutes les législatures des États ne se réunissent qu’une fois tous les deux ans, environ la moitié de la composition d’un échantillon représentatif des législatures des États devrait être de ce type. Si 30 % des électeurs de Pennsylvanie sont des cols bleus, environ 30 % de l'échantillon représentatif de ces électeurs (et non 100 % comme dans l'exemple ci-dessus) devrait être des cols bleus.

Et si 2 % de tous les étudiants sont des athlètes, à peu près la même proportion d’un échantillon représentatif d’étudiants devrait être des athlètes. En d’autres termes, un échantillon représentatif est un microcosme, un modèle plus petit mais précis de la population qu’il est censé refléter. Dans la mesure où l’échantillon est représentatif, les conclusions fondées sur l’étude de cet échantillon peuvent être supposées s’appliquer à la population d’origine. Cette diffusion des résultats est ce que nous appelons la généralisabilité.

Peut-être qu’une illustration graphique aidera à expliquer cela. Supposons que nous souhaitions étudier les modèles d’appartenance à des groupes politiques parmi les adultes américains. La figure 5.1 montre trois cercles divisés en six secteurs égaux. La figure 5.1a représente l'ensemble de la population considérée. Les membres de la population sont classés selon les groupes politiques (tels que les partis et les groupes d'intérêt) auxquels ils appartiennent.

Dans cet exemple chaque adulte appartient à au moins un et au maximum six groupes politiques ; et ces six niveaux d'adhésion sont répartis de manière égale dans l'ensemble (d'où les secteurs égaux). Supposons que nous souhaitions étudier les motivations des individus à rejoindre un groupe, leurs choix de groupe et les modes de participation, mais qu'en raison de ressources limitées, nous ne pouvons étudier qu'un membre de la population sur six. Qui doit être sélectionné pour l’analyse ?

Riz. 5.1. Constitution d'un échantillon de la population générale

L'un des échantillons possibles d'un volume donné est illustré par la zone ombrée de la Fig. Cependant, 5.1b ne reflète clairement pas la structure de la population.

Si nous devions faire des généralisations à partir de cet échantillon, nous conclurions :

1) que tous les adultes américains appartiennent à cinq groupes politiques et

2) que tout comportement de groupe des Américains coïncide avec le comportement de ceux qui appartiennent spécifiquement aux cinq groupes.

Cependant, nous savons que la première conclusion n’est pas vraie, ce qui peut nous faire douter de la validité de la seconde.

Ainsi, l’échantillon représenté à la figure 5.1b n’est pas représentatif car il ne reflète pas la distribution d’une propriété de population donnée (souvent appelée paramètre) en fonction de sa distribution réelle. Un tel échantillon est dit déplacé vers membres de cinq groupes ou déplacé dans la direction de tous les autres modèles d’appartenance à un groupe. Sur la base d’un échantillon aussi biaisé, nous arrivons généralement à des conclusions erronées sur la population.

Le désastre qui a frappé la revue Literary Digest dans les années 1930, qui a organisé un sondage d'opinion publique sur les résultats des élections, en est la preuve la plus claire. " Recueil littéraire» était un périodique qui réimprimait des éditoriaux de journaux et d'autres documents reflétant l'opinion publique ; ce magazine était très populaire au début du siècle.

Depuis 1920. Le magazine a mené une enquête nationale à grande échelle au cours de laquelle des bulletins de vote ont été envoyés par courrier à plus d'un million de personnes leur demandant d'indiquer quel candidat ils préféraient pour la prochaine élection présidentielle. Pendant plusieurs années, les résultats des sondages du magazine étaient si précis qu'un sondage de septembre semblait rendre les élections de novembre sans importance.

Et comment une erreur a-t-elle pu se produire avec un échantillon aussi important ? Or, en 1936, c'est exactement ce qui s'est passé : avec une large majorité des voix (60 contre 40), la victoire était annoncée au candidat républicain Alf Landon. Landon a perdu les élections face à un homme handicapé. Franklin D. Roosevelt- avec presque le même résultat avec lequel il aurait dû gagner. La crédibilité du Literary Digest a été tellement entamée que le magazine a été épuisé peu de temps après. Ce qui s'est passé? C'est très simple : le sondage Digest a utilisé un échantillon biaisé. Des cartes postales ont été envoyées à des personnes dont les noms ont été extraits de deux sources : les annuaires téléphoniques et les listes d'immatriculation des voitures.

Et même si cette méthode de sélection n'était auparavant pas très différente des autres méthodes, les choses étaient très différentes aujourd'hui, pendant la Grande Dépression de 1936, lorsque les électeurs les moins riches, les partisans les plus probables de Roosevelt, ne pouvaient pas se permettre de posséder un téléphone, encore moins de posséder un téléphone. voiture. Ainsi, en fait, l’échantillon utilisé dans le sondage Digest était biaisé en faveur des personnes les plus susceptibles d’être républicaines, mais il reste surprenant que Roosevelt ait si bien réussi.

Comment résoudre ce problème ? Revenant à notre exemple, comparons l'échantillon de la Fig. 5.1b avec la sélection de la Fig. 5.1c. Dans ce dernier cas, un sixième de la population est également sélectionné pour l'analyse, mais chacun des principaux types de population est représenté dans l'échantillon dans la proportion dans laquelle il est représenté dans l'ensemble de la population. Un tel échantillon montre qu’un adulte américain sur six appartient à un groupe politique, un sur six à deux, et ainsi de suite. Un tel échantillon permettrait également d'identifier d'autres différences entre les membres qui pourraient être corrélées à la participation à un nombre différent de groupes. Ainsi, l'échantillon présenté sur la figure 5.1c est un échantillon représentatif de la population considérée.

Bien entendu, cet exemple est simplifié d’au moins deux manières extrêmement importantes. Premièrement, la plupart des populations qui intéressent les politologues sont plus diversifiées que celle illustrée. Personnes, documents, gouvernements, organisations, décisions, etc. diffèrent les uns des autres non pas par une, mais par un nombre beaucoup plus grand de caractéristiques. Ainsi, l'échantillon représentatif doit être tel que chaque parmi les principales, la zone distincte des autres était représentée proportionnellement à sa part dans le total.

Deuxièmement, la situation dans laquelle la distribution réelle des variables, ou attributs, que nous voulons mesurer n’est pas connue à l’avance est beaucoup plus courante que l’inverse – elle n’a peut-être pas été mesurée lors d’un recensement précédent. Ainsi, un échantillon représentatif doit être conçu de manière à pouvoir refléter avec précision la distribution existante même lorsque nous ne sommes pas en mesure d’évaluer directement sa validité. La procédure d'échantillonnage doit avoir une logique interne qui puisse nous convaincre que, si nous pouvions comparer l'échantillon avec le recensement, il serait effectivement représentatif.

Pour offrir l'opportunité Pour refléter avec précision l'organisation complexe d'une population donnée et avoir un certain degré de confiance dans la capacité des procédures proposées à y parvenir, les chercheurs se tournent vers les méthodes statistiques. En même temps, ils agissent dans deux directions. Premièrement, en utilisant certaines règles (logique interne), les chercheurs décident quels objets spécifiques étudier et quoi inclure exactement dans un échantillon spécifique. Deuxièmement, en utilisant des règles très différentes, ils décident du nombre d’objets à sélectionner. Nous n’étudierons pas en détail ces nombreuses règles ; nous nous contenterons de considérer leur rôle dans la recherche en science politique. Commençons notre réflexion par des stratégies de sélection d'objets qui forment un échantillon représentatif.



Avez-vous aimé l'article? Partagez avec vos amis !