Qu'est-ce qu'une série de variations en statistiques. Définition des séries de variations

À l’issue de la maîtrise de ce chapitre, l’étudiant doit : savoir

  • les indicateurs de variation et leurs relations ;
  • lois fondamentales de distribution des caractéristiques ;
  • l'essence des critères de consentement ; être capable de
  • calculer des indices de variation et des critères d'adéquation ;
  • déterminer les caractéristiques de distribution ;
  • évaluer les caractéristiques numériques de base des séries de distribution statistique ;

propre

  • méthodes d'analyse statistique des séries de distribution ;
  • bases de l'analyse de variance;
  • techniques de vérification des séries de distribution statistique pour vérifier leur conformité aux lois fondamentales de la distribution.

Indicateurs de variations

Dans l'étude statistique des caractéristiques de divers agrégats statistiques, il est d'un grand intérêt d'étudier la variation des caractéristiques des unités statistiques individuelles de la population, ainsi que la nature de la répartition des unités selon cette caractéristique. Variation - ce sont des différences dans les valeurs individuelles d'une caractéristique parmi les unités de la population étudiée. L'étude de la variation revêt une grande importance pratique. Par le degré de variation, on peut juger des limites de variation d'une caractéristique, de l'homogénéité de la population pour une caractéristique donnée, de la typicité de la moyenne et de la relation des facteurs qui déterminent la variation. Les indicateurs de variation sont utilisés pour caractériser et organiser les populations statistiques.

Les résultats de la synthèse et du regroupement des matériels d'observation statistique, présentés sous forme de séries de distribution statistique, représentent une répartition ordonnée des unités de la population étudiée en groupes selon des critères de regroupement (variables). Si une caractéristique qualitative est prise comme base du regroupement, alors une telle série de distribution est appelée attributif(répartition par profession, sexe, couleur, etc.). Si une série de distribution est construite sur une base quantitative, alors une telle série est appelée variationnel(répartition par taille, poids, salaire, etc.). Construire une série de variations signifie organiser la répartition quantitative des unités de population par valeurs caractéristiques, compter le nombre d'unités de population avec ces valeurs (fréquence) et organiser les résultats dans un tableau.

Au lieu de la fréquence d'une variante, il est possible d'utiliser son rapport au volume total d'observations, appelé fréquence (fréquence relative).

Il existe deux types de séries de variations : discrètes et à intervalles. Série discrète- Il s'agit d'une série de variations dont la construction repose sur des caractéristiques à changement discontinu (caractéristiques discrètes). Ces derniers comprennent le nombre d'employés de l'entreprise, la catégorie tarifaire, le nombre d'enfants dans la famille, etc. Une série de variations discrètes représente un tableau composé de deux colonnes. La première colonne indique la valeur spécifique de l'attribut et la deuxième colonne indique le nombre d'unités dans la population avec une valeur spécifique de l'attribut. Si une caractéristique présente un changement continu (montant du revenu, ancienneté, coût des immobilisations de l'entreprise, etc., qui dans certaines limites peut prendre n'importe quelle valeur), alors pour cette caractéristique, il est possible de construire série de variations d'intervalle. Lors de la construction d’une série de variations d’intervalles, le tableau comporte également deux colonnes. Le premier indique la valeur de l'attribut dans l'intervalle « de - à » (options), le second indique le nombre d'unités incluses dans l'intervalle (fréquence). Fréquence (fréquence de répétition) - le nombre de répétitions d'une variante particulière de valeurs d'attribut. Les intervalles peuvent être fermés ou ouverts. Les intervalles fermés sont limités des deux côtés, c'est-à-dire avoir à la fois une limite inférieure (« de ») et une limite supérieure (« vers »). Les intervalles ouverts ont une limite : soit une limite supérieure, soit une limite inférieure. Si les options sont classées par ordre croissant ou décroissant, alors les lignes sont appelées classé.

Pour les séries de variations, il existe deux types d’options de réponse en fréquence : fréquence accumulée et fréquence accumulée. La fréquence accumulée montre combien d'observations la valeur de la caractéristique a pris des valeurs inférieures à celle donnée. La fréquence accumulée est déterminée en additionnant les valeurs de fréquence d'une caractéristique pour un groupe donné avec toutes les fréquences des groupes précédents. La fréquence accumulée caractérise la proportion d'unités d'observation dont les valeurs d'attribut ne dépassent pas la limite supérieure du groupe donné. Ainsi, la fréquence accumulée montre la proportion d'options dans la totalité qui n'ont pas une valeur supérieure à celle donnée. La fréquence, la fréquence, les densités absolues et relatives, la fréquence accumulée et la fréquence sont des caractéristiques de l'ampleur de la variante.

Les variations des caractéristiques des unités statistiques de la population, ainsi que la nature de la distribution, sont étudiées à l'aide d'indicateurs et de caractéristiques des séries de variations, qui comprennent le niveau moyen de la série, l'écart linéaire moyen, l'écart type, la dispersion. , coefficients d'oscillation, de variation, d'asymétrie, d'aplatissement, etc.

Des valeurs moyennes sont utilisées pour caractériser le centre de distribution. La moyenne est une caractéristique statistique généralisatrice dans laquelle est quantifié le niveau typique d'une caractéristique possédée par les membres de la population étudiée. Cependant, il peut y avoir des cas de coïncidence de moyennes arithmétiques avec différents modèles de distribution. Par conséquent, en tant que caractéristiques statistiques des séries de variation, les moyennes dites structurelles sont calculées - mode, médiane ainsi que quantiles, qui divisent la série de distribution en égaux. parties (quartiles, déciles, percentiles, etc. ).

Mode - Il s'agit de la valeur d'une caractéristique qui apparaît plus souvent dans la série de distribution que ses autres valeurs. Pour les séries discrètes, c’est l’option ayant la fréquence la plus élevée. Dans les séries de variations d'intervalles, afin de déterminer le mode, il faut d'abord déterminer l'intervalle dans lequel il se trouve, appelé intervalle modal. Dans une série de variations à intervalles égaux, l'intervalle modal est déterminé par la fréquence la plus élevée, dans une série à intervalles inégaux - mais par la densité de distribution la plus élevée. La formule est ensuite utilisée pour déterminer le mode en lignes à intervalles égaux

où Mo est la valeur de la mode ; xMo - limite inférieure de l'intervalle modal ; h- largeur de l'intervalle modal ; / Mo - fréquence de l'intervalle modal ; /Mo j est la fréquence de l'intervalle prémodal ; / Mo+1 est la fréquence de l'intervalle post-modal, et pour une série à intervalles inégaux dans cette formule de calcul, au lieu des fréquences / Mo, / Mo, / Mo, il faut utiliser les densités de distribution Esprit 0 _| , Esprit 0> UMMO+"

S'il existe un seul mode, alors la distribution de probabilité de la variable aléatoire est dite unimodale ; s'il y a plus d'un mode, on l'appelle multimodal (polymodal, multimodal), dans le cas de deux modes - bimodal. En règle générale, la multimodalité indique que la distribution étudiée n'obéit pas à la loi de distribution normale. En règle générale, les populations homogènes sont caractérisées par des distributions à un seul sommet. Multivertex indique également l'hétérogénéité de la population étudiée. L'apparition de deux ou plusieurs sommets nécessite de regrouper les données afin d'identifier des groupes plus homogènes.

Dans une série de variations d'intervalles, le mode peut être déterminé graphiquement à l'aide d'un histogramme. Pour ce faire, tracez deux lignes sécantes depuis les points supérieurs de la colonne la plus élevée de l'histogramme jusqu'aux points supérieurs de deux colonnes adjacentes. Puis, à partir du point de leur intersection, une perpendiculaire est abaissée sur l'axe des abscisses. La valeur de la caractéristique sur l'axe des x correspondant à la perpendiculaire est le mode. Dans de nombreux cas, lors de la caractérisation d’une population en tant qu’indicateur généralisé, la préférence est donnée au mode plutôt qu’à la moyenne arithmétique.

Médiane - C'est la valeur centrale de l'attribut ; elle est possédée par le membre central de la série classée de la distribution. Dans les séries discrètes, pour trouver la valeur de la médiane, on détermine d'abord son numéro d'ordre. Pour ce faire, si le nombre d'unités est impair, un est ajouté à la somme de toutes les fréquences et le nombre est divisé par deux. S'il y a un nombre pair d'unités dans une rangée, il y aura deux unités médianes, donc dans ce cas la médiane est définie comme la moyenne des valeurs des deux unités médianes. Ainsi, la médiane d’une série à variation discrète est la valeur qui divise la série en deux parties contenant le même nombre d’options.

Dans les séries d'intervalles, après avoir déterminé le numéro d'ordre de la médiane, l'intervalle médial est trouvé à l'aide des fréquences accumulées (fréquences), puis à l'aide de la formule de calcul de la médiane, la valeur de la médiane elle-même est déterminée :

où Me est la valeur médiane ; x Moi - limite inférieure de l'intervalle médian ; h- largeur de l'intervalle médian ; - la somme des fréquences de la série de distribution ; /D - fréquence cumulée de l'intervalle prémédian ; / Moi - fréquence de l'intervalle médian.

La médiane peut être trouvée graphiquement à l'aide d'un cumulat. Pour ce faire, sur l'échelle des fréquences cumulées (fréquences) du cumulat, à partir du point correspondant au nombre ordinal de la médiane, on trace une droite parallèle à l'axe des abscisses jusqu'à son intersection avec le cumulat. Ensuite, à partir du point d'intersection de la ligne indiquée avec le cumulat, une perpendiculaire est abaissée à l'axe des abscisses. La valeur de l'attribut sur l'axe des x correspondant à l'ordonnée tracée (perpendiculaire) est la médiane.

La médiane est caractérisée par les propriétés suivantes.

  • 1. Cela ne dépend pas des valeurs d'attribut qui se trouvent de chaque côté.
  • 2. Il a la propriété de minimalité, ce qui signifie que la somme des écarts absolus des valeurs d'attribut par rapport à la médiane représente une valeur minimale par rapport à l'écart des valeurs d'attribut par rapport à toute autre valeur.
  • 3. Lorsqu'on combine deux distributions dont les médianes sont connues, il est impossible de prédire à l'avance la valeur de la médiane de la nouvelle distribution.

Ces propriétés du terre-plein sont largement utilisées lors de la conception de l'emplacement des points de service public - écoles, cliniques, stations-service, pompes à eau, etc. Par exemple, s'il est prévu de construire une clinique dans un certain pâté de maisons de la ville, il serait alors plus judicieux de la localiser à un point du pâté de maisons qui ne divise pas par deux non pas la longueur du pâté de maisons, mais le nombre d'habitants.

Le rapport du mode, de la médiane et de la moyenne arithmétique indique la nature de la distribution de la caractéristique dans l'agrégat et permet d'évaluer la symétrie de la distribution. Si x Moi alors il y a une asymétrie du côté droit de la série. Avec une distribution normale X - Note.

K. Pearson, sur la base de l'alignement de divers types de courbes, a déterminé que pour les distributions modérément asymétriques, les relations approximatives suivantes entre la moyenne arithmétique, la médiane et le mode sont valables :

où Me est la valeur médiane ; Mo - signification de la mode ; x arithm - la valeur de la moyenne arithmétique.

S'il est nécessaire d'étudier plus en détail la structure de la série de variations, calculez des valeurs caractéristiques similaires à la médiane. De telles valeurs caractéristiques divisent toutes les unités de distribution en nombres égaux ; elles sont appelées quantiles ou gradients. Les quantiles sont divisés en quartiles, déciles, centiles, etc.

Les quartiles divisent la population en quatre parties égales. Le premier quartile est calculé de la même manière que la médiane en utilisant la formule de calcul du premier quartile, après avoir déterminé au préalable le premier intervalle trimestriel :

où Qi est la valeur du premier quartile ; xQ^- limite inférieure de la fourchette du premier quartile ; h- largeur du premier quart d'intervalle ; /, - fréquences de la série d'intervalles ;

Fréquence cumulée dans l'intervalle précédant l'intervalle du premier quartile ; Jq ( - fréquence du premier intervalle quartile.

Le premier quartile montre que 25 % des unités de population sont inférieures à sa valeur et 75 % sont supérieures. Le deuxième quartile est égal à la médiane, c'est-à-dire Q2 = Moi.

Par analogie, le troisième quartile est calculé après avoir trouvé au préalable le troisième intervalle trimestriel :

où est la limite inférieure de la fourchette du troisième quartile ; h- largeur de l'intervalle du troisième quartile ; /, - fréquences de la série d'intervalles ; /X" - fréquence accumulée dans l'intervalle précédant

g

intervalle du troisième quartile ; Jq est la fréquence du troisième quartile.

Le troisième quartile montre que 75 % des unités de population sont inférieures à sa valeur et 25 % sont supérieures.

La différence entre le troisième et le premier quartile est l’écart interquartile :

où Aq est la valeur de l'intervalle interquartile ; Question 3 - valeur du troisième quartile ; Q, est la valeur du premier quartile.

Les déciles divisent la population en 10 parties égales. Un décile est une valeur d’une caractéristique dans une série de distribution qui correspond aux dixièmes de la taille de la population. Par analogie avec les quartiles, le premier décile montre que 10 % des unités de population sont inférieures à sa valeur et 90 % sont supérieures, et le neuvième décile révèle que 90 % des unités de population sont inférieures à sa valeur et 10 % sont plus grand. Le rapport du neuvième et du premier décile, c'est-à-dire Le coefficient décile est largement utilisé dans l’étude de la différenciation des revenus pour mesurer le rapport entre les niveaux de revenus des 10 % de la population la plus aisée et des 10 % de la population la moins aisée. Les percentiles divisent la population classée en 100 parties égales. Le calcul, la signification et l'application des centiles sont similaires à ceux des déciles.

Les quartiles, déciles et autres caractéristiques structurelles peuvent être déterminés graphiquement par analogie avec la médiane à l'aide de cumulats.

Pour mesurer l'ampleur de la variation, les indicateurs suivants sont utilisés : plage de variation, écart linéaire moyen, écart type, dispersion. L'ampleur de la plage de variation dépend entièrement du caractère aléatoire de la distribution des membres extrêmes de la série. Cet indicateur est intéressant dans les cas où il est important de connaître quelle est l'amplitude des fluctuations des valeurs d'une caractéristique :

R- la valeur de la plage de variation ; x max - valeur maximale de l'attribut ; x tt - valeur minimale de l'attribut.

Lors du calcul de la plage de variation, la valeur de la grande majorité des membres de la série n'est pas prise en compte, tandis que la variation est associée à chaque valeur du membre de la série. Les indicateurs qui sont des moyennes obtenues à partir des écarts des valeurs individuelles d'une caractéristique par rapport à leur valeur moyenne ne présentent pas cet inconvénient : l'écart linéaire moyen et l'écart type. Il existe une relation directe entre les écarts individuels par rapport à la moyenne et la variabilité d'un trait particulier. Plus la fluctuation est forte, plus l’ampleur absolue des écarts par rapport à la moyenne est importante.

L'écart linéaire moyen est la moyenne arithmétique des valeurs absolues des écarts des options individuelles par rapport à leur valeur moyenne.

Écart linéaire moyen pour les données non groupées

où /pr est la valeur de l'écart linéaire moyen ; x, - est la valeur de l'attribut ; X - P- nombre d'unités dans la population.

Ecart linéaire moyen des séries groupées

où / vz - la valeur de l'écart linéaire moyen ; x, est la valeur de l'attribut ; X - la valeur moyenne de la caractéristique pour la population étudiée ; / - le nombre d'unités de population dans un groupe distinct.

Dans ce cas, les signes d'écarts sont ignorés, sinon la somme de tous les écarts sera égale à zéro. L'écart linéaire moyen, en fonction du regroupement des données analysées, est calculé à l'aide de différentes formules : pour les données groupées et non groupées. En raison de sa convention, l'écart linéaire moyen, séparément des autres indicateurs de variation, est relativement rarement utilisé en pratique (notamment pour caractériser le respect des obligations contractuelles en matière d'uniformité de livraison ; dans l'analyse du chiffre d'affaires du commerce extérieur, la composition de salariés, rythme de production, qualité des produits, prise en compte des caractéristiques technologiques de la production, etc.).

L'écart type caractérise dans quelle mesure en moyenne les valeurs individuelles de la caractéristique étudiée s'écartent de la valeur moyenne de la population et est exprimé en unités de mesure de la caractéristique étudiée. L'écart type, étant l'une des principales mesures de variation, est largement utilisé pour évaluer les limites de variation d'une caractéristique dans une population homogène, pour déterminer les valeurs ordonnées d'une courbe de distribution normale, ainsi que dans les calculs liés à l'organisation de l'observation des échantillons et l'établissement de l'exactitude des caractéristiques des échantillons. L'écart type des données non groupées est calculé à l'aide de l'algorithme suivant : chaque écart par rapport à la moyenne est mis au carré, tous les carrés sont additionnés, après quoi la somme des carrés est divisée par le nombre de termes de la série et la racine carrée est extraite du quotient:

où a Iip est la valeur de l'écart type ; Xj- valeur d'attribut ; X- la valeur moyenne de la caractéristique pour la population étudiée ; P- nombre d'unités dans la population.

Pour les données analysées groupées, l'écart type des données est calculé à l'aide de la formule pondérée

- valeur de l'écart type ; Xj- valeur d'attribut ; X - la valeur moyenne de la caractéristique pour la population étudiée ; f x - le nombre d'unités de population dans un groupe particulier.

L'expression sous la racine dans les deux cas est appelée variance. Ainsi, la dispersion est calculée comme le carré moyen des écarts des valeurs d'attribut par rapport à leur valeur moyenne. Pour les valeurs d'attribut non pondérées (simples), la variance est déterminée comme suit :

Pour les valeurs caractéristiques pondérées

Il existe également une méthode simplifiée spéciale pour calculer la variance : en général

pour valeurs caractéristiques non pondérées (simples) pour valeurs caractéristiques pondérées
en utilisant la méthode base zéro

où a 2 est la valeur de dispersion ; x, - est la valeur de l'attribut ; X - valeur moyenne de la caractéristique, h- valeur d'intervalle de groupe, t 1 - poids (A =

La dispersion a sa propre expression dans les statistiques et constitue l’un des indicateurs de variation les plus importants. Elle est mesurée en unités correspondant au carré des unités de mesure de la caractéristique étudiée.

La dispersion a les propriétés suivantes.

  • 1. La variance d'une valeur constante est nulle.
  • 2. Réduire toutes les valeurs d'une caractéristique de la même valeur A ne modifie pas la valeur de la dispersion. Cela signifie que le carré moyen des écarts peut être calculé non pas à partir des valeurs données d'une caractéristique, mais à partir de leurs écarts par rapport à un nombre constant.
  • 3. Réduire les valeurs caractéristiques dans k fois réduit la dispersion de k 2 fois, et l'écart type est en k fois, c'est-à-dire toutes les valeurs de l'attribut peuvent être divisées par un nombre constant (par exemple, par la valeur de l'intervalle de la série), l'écart type peut être calculé, puis multiplié par un nombre constant.
  • 4. Si nous calculons le carré moyen des écarts par rapport à n'importe quelle valeur Et différant à un degré ou à un autre de la moyenne arithmétique, alors il sera toujours supérieur au carré moyen des écarts calculés à partir de la moyenne arithmétique. Le carré moyen des écarts sera plus grand d'un montant très certain - du carré de la différence entre la moyenne et cette valeur conventionnellement prise.

La variation d'une caractéristique alternative consiste en la présence ou l'absence de la propriété étudiée dans les unités de la population. Quantitativement, la variation d'un attribut alternatif est exprimée par deux valeurs : la présence d'une unité de la propriété étudiée est notée un (1), et son absence est notée zéro (0). La proportion d'unités qui possèdent la propriété étudiée est notée P, et la proportion d'unités qui ne possèdent pas cette propriété est notée G. Ainsi, la variance d'un attribut alternatif est égale au produit de la proportion d'unités possédant cette propriété (P) par la proportion d'unités ne possédant pas cette propriété. (G). La plus grande variation de la population est obtenue dans les cas où une partie de la population, constituant 50 % du volume total de la population, a une caractéristique, et une autre partie de la population, également égale à 50 %, n'a pas cette caractéristique, et la dispersion atteint une valeur maximale de 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 et o 2 = 0,5 0,5 = 0,25. La limite inférieure de cet indicateur est zéro, ce qui correspond à une situation dans laquelle il n’y a pas de variation dans l’agrégat. L'application pratique de la variance d'une caractéristique alternative consiste à construire des intervalles de confiance lors de la réalisation d'observations d'échantillons.

Plus la variance et l’écart type sont petits, plus la population est homogène et plus la moyenne sera typique. Dans la pratique des statistiques, il est souvent nécessaire de comparer les variations de diverses caractéristiques. Par exemple, il est intéressant de comparer les variations de l’âge des travailleurs et de leurs qualifications, de l’ancienneté et des salaires, du coût et du profit, de l’ancienneté et de la productivité du travail, etc. Pour de telles comparaisons, les indicateurs de variabilité absolue des caractéristiques ne conviennent pas : il est impossible de comparer la variabilité de l'expérience professionnelle, exprimée en années, avec la variation des salaires, exprimée en roubles. Pour effectuer de telles comparaisons, ainsi que des comparaisons de la variabilité d'une même caractéristique dans plusieurs populations avec des moyennes arithmétiques différentes, des indicateurs de variation sont utilisés - le coefficient d'oscillation, le coefficient de variation linéaire et le coefficient de variation, qui montrent la mesure de fluctuations de valeurs extrêmes autour de la moyenne.

Coefficient d'oscillation:

VR- valeur du coefficient d'oscillation ; R.- valeur de la plage de variation ; X -

Coefficient de variation linéaire".

Vj- la valeur du coefficient de variation linéaire ; JE - la valeur de l'écart linéaire moyen ; X - la valeur moyenne de la caractéristique pour la population étudiée.

Le coefficient de variation:

V un - valeur du coefficient de variation ; a est la valeur de l'écart type ; X - la valeur moyenne de la caractéristique pour la population étudiée.

Le coefficient d'oscillation est le rapport en pourcentage de la plage de variation à la valeur moyenne de la caractéristique étudiée, et le coefficient de variation linéaire est le rapport de l'écart linéaire moyen à la valeur moyenne de la caractéristique étudiée, exprimé sous forme de pourcentage. Le coefficient de variation est le pourcentage de l'écart type par rapport à la valeur moyenne de la caractéristique étudiée. En valeur relative, exprimée en pourcentage, le coefficient de variation est utilisé pour comparer le degré de variation de diverses caractéristiques. À l'aide du coefficient de variation, l'homogénéité d'une population statistique est évaluée. Si le coefficient de variation est inférieur à 33 %, alors la population étudiée est homogène et la variation est faible. Si le coefficient de variation est supérieur à 33 %, alors la population étudiée est hétérogène, la variation est forte et la valeur moyenne est atypique et ne peut être utilisée comme indicateur général de cette population. De plus, des coefficients de variation sont utilisés pour comparer la variabilité d'un caractère dans différentes populations. Par exemple, pour évaluer la variation de l’ancienneté des travailleurs dans deux entreprises. Plus la valeur du coefficient est élevée, plus la variation de la caractéristique est importante.

A partir des quartiles calculés, il est également possible de calculer l'indicateur relatif de variation trimestrielle à l'aide de la formule

où Q 2 Et

L'intervalle interquartile est déterminé par la formule

L'écart quartile est utilisé à la place de la plage de variation pour éviter les inconvénients liés à l'utilisation de valeurs extrêmes :

Pour les séries de variations à intervalles inégaux, la densité de distribution est également calculée. Il est défini comme le quotient de la fréquence ou fréquence correspondante divisé par la valeur de l'intervalle. Dans les séries à intervalles inégaux, des densités de distribution absolues et relatives sont utilisées. La densité de distribution absolue est la fréquence par unité de longueur de l'intervalle. La densité de distribution relative est la fréquence par unité de longueur de l'intervalle.

Tout ce qui précède est vrai pour les séries de distribution dont la loi de distribution est bien décrite par la loi de distribution normale ou s'en rapproche.

Une place particulière dans l'analyse statistique appartient à la détermination du niveau moyen de la caractéristique ou du phénomène étudié. Le niveau moyen d'un trait est mesuré par des valeurs moyennes.

La valeur moyenne caractérise le niveau quantitatif général de la caractéristique étudiée et est une propriété de groupe de la population statistique. Il nivelle, affaiblit les écarts aléatoires des observations individuelles dans un sens ou dans l'autre et met en évidence la propriété principale et typique de la caractéristique étudiée.

Les moyennes sont largement utilisées :

1. Évaluer l'état de santé de la population : caractéristiques de développement physique (taille, poids, tour de poitrine, etc.), identifier la prévalence et la durée de diverses maladies, analyser les indicateurs démographiques (mouvements vitaux de la population, espérance de vie moyenne, reproduction de la population, population moyenne, etc.).

2. Étudier les activités des établissements médicaux, du personnel médical et évaluer la qualité de leur travail, planifier et déterminer les besoins de la population en différents types de soins médicaux (nombre moyen de demandes ou de visites par résident et par an, durée moyenne de séjour d'un patient hospitalisé, durée moyenne d'examen du patient, disponibilité moyenne des médecins, des lits, etc.).

3. Caractériser l'état sanitaire et épidémiologique (teneur moyenne en poussières de l'air dans l'atelier, surface moyenne par personne, consommation moyenne de protéines, graisses et glucides, etc.).

4. Déterminer les indicateurs médicaux et physiologiques dans des conditions normales et pathologiques, lors du traitement des données de laboratoire, pour établir la fiabilité des résultats d'une étude par sondage dans des études sociales, hygiéniques, cliniques et expérimentales.

Le calcul des valeurs moyennes est effectué sur la base de séries de variations. Série de variantes est un ensemble statistique qualitativement homogène, dont les unités individuelles caractérisent les différences quantitatives de la caractéristique ou du phénomène étudié.

La variation quantitative peut être de deux types : discontinue (discrète) et continue.

Un attribut discontinu (discret) s'exprime uniquement sous forme d'entier et ne peut avoir de valeurs intermédiaires (par exemple, le nombre de visites, la population du site, le nombre d'enfants dans la famille, la gravité de la maladie en points , etc.).

Un signe continu peut prendre n'importe quelle valeur dans certaines limites, y compris fractionnaires, et n'est exprimé qu'approximativement (par exemple, le poids - pour les adultes, il peut être limité aux kilogrammes et pour les nouveau-nés - aux grammes ; taille, tension artérielle, temps passé à voir un patient, etc.).



La valeur numérique de chaque caractéristique ou phénomène individuel inclus dans la série de variations est appelée variante et est désignée par la lettre V . D'autres notations se retrouvent également dans la littérature mathématique, par exemple X ou y.

Une série de variantes, où chaque option est indiquée une fois, est dite simple. De telles séries sont utilisées dans la plupart des problèmes statistiques liés au traitement informatique des données.

À mesure que le nombre d’observations augmente, des valeurs variables répétitives ont tendance à se produire. Dans ce cas, il est créé série de variations groupées, où est indiqué le nombre de répétitions (fréquence, désignée par la lettre " R. »).

Série de variations classées se compose d’options classées par ordre croissant ou décroissant. Des séries simples et groupées peuvent être compilées avec classement.

Série de variations d'intervalle compilé afin de simplifier les calculs ultérieurs effectués sans utilisation d'ordinateur, avec un très grand nombre d'unités d'observation (plus de 1000).

Série à variation continue inclut les valeurs d’option, qui peuvent être n’importe quelle valeur.

Si dans une série de variations les valeurs d'une caractéristique (variantes) sont données sous la forme de nombres spécifiques individuels, alors une telle série est appelée discret.

Les caractéristiques générales des valeurs de la caractéristique reflétées dans la série de variations sont les valeurs moyennes. Parmi eux, les plus utilisés sont : la moyenne arithmétique M, mode Mo et médiane Moi. Chacune de ces caractéristiques est unique. Ils ne peuvent pas se remplacer et ce n'est qu'ensemble qu'ils représentent les caractéristiques de la série de variations de manière complète et condensée.

Mode (Mo) nommer la valeur des options les plus fréquentes.

Médian (Moi) – c'est la valeur de l'option divisant la série de variations classées en deux (de chaque côté de la médiane il y a la moitié de l'option). Dans de rares cas, lorsqu'il existe une série de variations symétriques, le mode et la médiane sont égaux et coïncident avec la valeur de la moyenne arithmétique.

La caractéristique la plus typique des valeurs d'options est moyenne arithmétique valeur( M. ). Dans la littérature mathématique, cela est noté .

Moyenne arithmétique (M, ) est une caractéristique quantitative générale d'une certaine caractéristique des phénomènes étudiés, constituant une population statistique qualitativement homogène. Il existe des moyennes arithmétiques simples et pondérées. La moyenne arithmétique simple est calculée pour une série de variations simples en additionnant toutes les options et en divisant cette somme par le nombre total d'options incluses dans cette série de variations. Les calculs sont effectués selon la formule :

,

Où: M. - moyenne arithmétique simple ;

Σ V - option de montant ;

n- nombre d'observations.

Dans les séries de variations groupées, la moyenne arithmétique pondérée est déterminée. La formule pour le calculer :

,

Où: M. - moyenne arithmétique pondérée ;

Σ Vice-président - la somme des produits de la variante par leurs fréquences ;

n- nombre d'observations.

Avec un grand nombre d'observations, dans le cas de calculs manuels, la méthode des moments peut être utilisée.

La moyenne arithmétique a les propriétés suivantes :

· somme des écarts par rapport à la moyenne ( Σ d ) est égal à zéro (voir tableau 15) ;

· lors de la multiplication (divisation) de toutes les options par le même facteur (diviseur), la moyenne arithmétique est multipliée (divisée) par le même facteur (diviseur) ;

· si vous ajoutez (soustrayez) le même nombre à toutes les options, la moyenne arithmétique augmente (diminue) du même nombre.

Les moyennes arithmétiques, prises seules, sans tenir compte de la variabilité de la série à partir de laquelle elles sont calculées, peuvent ne pas refléter pleinement les propriétés de la série de variation, surtout lorsqu'une comparaison avec d'autres moyennes est nécessaire. Des moyennes proches en valeur peuvent être obtenues à partir de séries présentant différents degrés de diffusion. Plus les options individuelles sont proches les unes des autres en termes de caractéristiques quantitatives, moins dispersion (oscillation, variabilité) série, plus sa moyenne est typique.

Les principaux paramètres qui permettent d’évaluer la variabilité d’un trait sont :

· Portée;

· Amplitude;

· Écart-type;

· Le coefficient de variation.

La variabilité d'un trait peut être jugée approximativement par la plage et l'amplitude de la série de variations. La plage indique les options maximale (V max) et minimale (V min) de la série. L'amplitude (A m) est la différence entre ces options : A m = V max - V min.

La principale mesure généralement acceptée de la variabilité d'une série de variations est dispersion (D ). Mais le plus souvent utilisé est un paramètre plus pratique calculé sur la base de la dispersion - l'écart type ( σ ). Il prend en compte l'ampleur de l'écart ( d ) de chaque série de variations à partir de sa moyenne arithmétique ( d = V - M ).

Puisque les écarts par rapport à la moyenne peuvent être positifs et négatifs, une fois additionnés, ils donnent la valeur « 0 » (S d=0). Pour éviter cela, les valeurs d'écart ( d) sont élevés à la puissance seconde et moyennés. Ainsi, la dispersion d'une série de variations est le carré moyen des écarts d'une variante par rapport à la moyenne arithmétique et se calcule par la formule :

.

C'est la caractéristique la plus importante de la variabilité et elle est utilisée pour calculer de nombreux critères statistiques.

La dispersion étant exprimée comme le carré des écarts, sa valeur ne peut être utilisée en comparaison avec la moyenne arithmétique. À ces fins, il est utilisé écart-type, qui est désigné par le signe « Sigma » ( σ ). Il caractérise l'écart moyen de toutes les variantes d'une série de variations par rapport à la valeur moyenne arithmétique dans les mêmes unités que la valeur moyenne elle-même, afin qu'elles puissent être utilisées ensemble.

L'écart type est déterminé par la formule :

La formule spécifiée est appliquée lorsque le nombre d'observations ( n ) plus de 30. Avec un plus petit nombre n la valeur de l'écart type aura une erreur associée au décalage mathématique ( n - 1). À cet égard, un résultat plus précis peut être obtenu en prenant en compte un tel biais dans la formule de calcul de l'écart type :

écart-type (s ) est une estimation de l'écart type d'une variable aléatoire X par rapport à son espérance mathématique basée sur une estimation impartiale de sa variance.

Avec des valeurs n > 30 écart-type ( σ ) et l'écart type ( s ) sera pareil ( σ =s ). Par conséquent, dans la plupart des manuels pratiques, ces critères sont considérés comme ayant des significations différentes. Dans Excel, l'écart type peut être calculé à l'aide de la fonction =STDEV(range). Et pour calculer l'écart type, vous devez créer une formule appropriée.

Le carré moyen ou écart type permet de déterminer dans quelle mesure les valeurs d'une caractéristique peuvent différer de la valeur moyenne. Supposons qu'il y ait deux villes avec la même température quotidienne moyenne en été. L'une de ces villes est située sur la côte et l'autre sur le continent. On sait que dans les villes situées sur la côte, les différences de températures diurnes sont moindres que dans les villes situées à l'intérieur des terres. Par conséquent, l’écart type des températures diurnes pour la ville côtière sera inférieur à celui de la deuxième ville. En pratique, cela signifie que la température moyenne de l'air de chaque jour spécifique dans une ville située sur le continent différera davantage de la moyenne que dans une ville côtière. De plus, l'écart type vous permet d'évaluer les éventuels écarts de température par rapport à la moyenne avec le niveau de probabilité requis.

Selon la théorie des probabilités, dans les phénomènes qui obéissent à la loi de distribution normale, il existe une relation stricte entre les valeurs de la moyenne arithmétique, de l'écart type et des options ( règle des trois sigma). Par exemple, 68,3 % des valeurs d'une caractéristique variable se situent dans M ± 1 σ , 95,5% - dans M ± 2 σ et 99,7% - dans M ± 3 σ .

La valeur de l'écart type permet de juger de la nature de l'homogénéité de la série de variation et du groupe d'étude. Si la valeur de l'écart type est faible, cela indique une homogénéité assez élevée du phénomène étudié. La moyenne arithmétique dans ce cas doit être considérée comme tout à fait caractéristique pour une série de variations donnée. Cependant, une valeur sigma trop faible fait penser à une sélection artificielle des observations. Avec un très grand sigma, la moyenne arithmétique caractérise dans une moindre mesure la série de variations, ce qui indique une variabilité importante de la caractéristique ou du phénomène étudié ou l'hétérogénéité du groupe étudié. Cependant, la comparaison de la valeur de l’écart type n’est possible que pour des entités de même dimension. En effet, si l’on compare la diversité des poids des nouveau-nés et des adultes, on obtiendra toujours des valeurs sigma plus élevées chez les adultes.

La comparaison de la variabilité des caractéristiques de différentes dimensions peut être effectuée en utilisant coefficient de variation. Il exprime la diversité en pourcentage de la moyenne, permettant des comparaisons entre différents traits. Le coefficient de variation dans la littérature médicale est indiqué par le signe « AVEC ", et en mathématique " v" et calculé par la formule :

.

Les valeurs du coefficient de variation inférieures à 10 % indiquent une faible diffusion, de 10 à 20 % - environ en moyenne, plus de 20 % - une forte diffusion autour de la moyenne arithmétique.

La moyenne arithmétique est généralement calculée sur la base des données d'un échantillon de population. Avec des études répétées, sous l'influence de phénomènes aléatoires, la moyenne arithmétique peut changer. Cela est dû au fait qu'en règle générale, seule une partie des unités d'observation possibles est étudiée, c'est-à-dire l'échantillon de population. Des informations sur toutes les unités possibles représentant le phénomène étudié peuvent être obtenues en étudiant l'ensemble de la population, ce qui n'est pas toujours possible. Parallèlement, dans le but de généraliser les données expérimentales, la valeur de la moyenne dans la population générale présente un intérêt. Par conséquent, afin de formuler une conclusion générale sur le phénomène étudié, les résultats obtenus sur la base de l'échantillon de population doivent être transférés à la population générale à l'aide de méthodes statistiques.

Pour déterminer le degré de concordance entre une étude sur échantillon et la population générale, il est nécessaire d'estimer l'ampleur de l'erreur qui survient inévitablement lors de l'observation d'un échantillon. Cette erreur s'appelle " L'erreur de représentativité"ou "Erreur moyenne de la moyenne arithmétique." Il s'agit en fait de la différence entre les moyennes obtenues à partir d'une observation statistique sélective et des valeurs similaires qui seraient obtenues à partir d'une étude continue du même objet, c'est-à-dire lorsqu’on étudie une population générale. Puisque la moyenne de l’échantillon est une variable aléatoire, une telle prévision est réalisée avec un niveau de probabilité acceptable pour le chercheur. Dans la recherche médicale, c'est au moins 95 %.

L’erreur de représentativité ne peut être confondue avec des erreurs d’enregistrement ou des erreurs d’attention (erreurs de calcul, fautes de frappe, etc.), qui doivent être minimisées par des méthodes et outils adéquats utilisés lors de l’expérimentation.

L’ampleur de l’erreur de représentativité dépend à la fois de la taille de l’échantillon et de la variabilité du caractère. Plus le nombre d’observations est grand, plus l’échantillon est proche de la population et plus l’erreur est faible. Plus le signe est variable, plus l’erreur statistique est grande.

En pratique, pour déterminer l'erreur de représentativité dans les séries de variations, la formule suivante est utilisée :

,

Où: m – erreur de représentativité ;

σ - écart-type;

n– nombre d'observations dans l'échantillon.

La formule montre que la taille de l'erreur moyenne est directement proportionnelle à l'écart type, c'est-à-dire à la variabilité de la caractéristique étudiée, et inversement proportionnelle à la racine carrée du nombre d'observations.

Lors de l’exécution d’une analyse statistique basée sur le calcul de valeurs relatives, la construction d’une série de variations n’est pas nécessaire. Dans ce cas, la détermination de l'erreur moyenne pour les indicateurs relatifs peut être effectuée à l'aide d'une formule simplifiée :

,

Où: R.– la valeur de l'indicateur relatif, exprimée en pourcentage, ppm, etc. ;

q– l'inverse de P et exprimé par (1-P), (100-P), (1000-P), etc., selon la base sur laquelle l'indicateur est calculé ;

n– nombre d'observations dans la population échantillon.

Cependant, la formule spécifiée pour calculer l'erreur de représentativité pour les valeurs relatives ne peut être appliquée que lorsque la valeur de l'indicateur est inférieure à sa base. Dans un certain nombre de cas de calcul d'indicateurs intensifs, cette condition n'est pas remplie et l'indicateur peut être exprimé sous la forme d'un nombre supérieur à 100 % ou 1 000 %. Dans une telle situation, une série de variations est construite et l'erreur de représentativité est calculée à l'aide de la formule des valeurs moyennes basée sur l'écart type.

La prévision de la valeur de la moyenne arithmétique dans la population s'effectue en indiquant deux valeurs – le minimum et le maximum. Ces valeurs extrêmes d'écarts possibles, à l'intérieur desquelles la valeur moyenne souhaitée de la population peut fluctuer, sont appelées « Limites de confiance».

Les postulats de la théorie des probabilités ont prouvé qu'avec une distribution normale d'une caractéristique avec une probabilité de 99,7 %, les valeurs extrêmes des écarts de la moyenne ne seront pas supérieures à la valeur du triple de l'erreur de représentativité ( M. ± 3 m ); dans 95,5% – pas plus de deux fois l'erreur moyenne de la valeur moyenne ( M. ± 2 m ); dans 68,3% – pas plus d'une erreur moyenne ( M. ± 1 m ) (Fig. 9).

P%

Riz. 9. Densité de probabilité de distribution normale.

Notez que la déclaration ci-dessus n'est vraie que pour une caractéristique qui obéit à la loi de distribution gaussienne normale.

La plupart des études expérimentales, y compris dans le domaine de la médecine, sont associées à des mesures dont les résultats peuvent prendre presque n'importe quelle valeur dans un intervalle donné. Par conséquent, en règle générale, elles sont décrites par un modèle de variables aléatoires continues. À cet égard, la plupart des méthodes statistiques considèrent des distributions continues. Une de ces distributions, qui joue un rôle fondamental dans les statistiques mathématiques, est distribution normale ou gaussienne.

Cela est dû à un certain nombre de raisons.

1. Tout d’abord, de nombreuses observations expérimentales peuvent être décrites avec succès en utilisant la distribution normale. Il convient de noter immédiatement qu'il n'existe pas de distributions de données empiriques qui seraient tout à fait normales, puisqu'une variable aléatoire normalement distribuée va de à , ce qui n'est jamais rencontré dans la pratique. Cependant, la distribution normale fonctionne très souvent comme approximation.

Qu'il s'agisse de mesurer le poids, la taille et d'autres paramètres physiologiques du corps humain, les résultats sont toujours influencés par un très grand nombre de facteurs aléatoires (causes naturelles et erreurs de mesure). De plus, en règle générale, l’effet de chacun de ces facteurs est insignifiant. L'expérience montre que les résultats dans de tels cas seront à peu près normalement distribués.

2. De nombreuses distributions associées à l'échantillonnage aléatoire deviennent normales à mesure que le volume de ce dernier augmente.

3. La distribution normale convient bien comme approximation d'autres distributions continues (par exemple asymétriques).

4. La distribution normale possède un certain nombre de propriétés mathématiques favorables qui garantissent en grande partie son utilisation généralisée en statistique.

Dans le même temps, il convient de noter que dans les données médicales, il existe de nombreuses distributions expérimentales qui ne peuvent être décrites par un modèle de distribution normal. Pour cela, les statistiques ont développé des méthodes communément appelées « Non paramétriques ».

Le choix d'une méthode statistique adaptée au traitement des données d'une expérience particulière doit être fait selon que les données obtenues appartiennent ou non à la loi de distribution normale. Le test de l'hypothèse de subordination d'un signe à la loi de distribution normale s'effectue à l'aide d'un histogramme (graphique) de distribution de fréquence, ainsi que d'un certain nombre de critères statistiques. Parmi eux:

Critère d'asymétrie ( b );

Critère de test d'aplatissement ( g );

Test de Shapiro-Wilks ( W ) .

Une analyse de la nature de la distribution des données (appelée aussi test de normalité de distribution) est réalisée pour chaque paramètre. Pour juger avec confiance si la distribution d'un paramètre correspond à la loi normale, un nombre suffisamment grand d'unités d'observation (au moins 30 valeurs) est nécessaire.

Pour une distribution normale, les critères d'asymétrie et d'aplatissement prennent la valeur 0. Si la distribution est décalée vers la droite b > 0 (asymétrie positive), avec b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. À g > 0 la courbe de distribution est plus nette si g < 0 пик более сглаженный, чем функция нормального распределения.

Pour vérifier la normalité à l'aide du critère de Shapiro-Wilks, il est nécessaire de retrouver la valeur de ce critère à l'aide de tableaux statistiques au niveau de significativité requis et en fonction du nombre d'unités d'observation (degrés de liberté). Annexe 1. L'hypothèse de normalité est rejetée aux petites valeurs de ce critère, en règle générale, à w <0,8.

Série de variantes est une série de valeurs numériques d'une caractéristique.

Les principales caractéristiques de la série de variations : v – variante, p – fréquence de son apparition.

Types de séries de variations :

    selon la fréquence d'apparition des options : simple - l'option apparaît une fois, pondérée - l'option apparaît deux ou plusieurs fois ;

    par emplacement des options : classées - les options sont classées par ordre décroissant et croissant, non classées - les options ne sont écrites sans ordre particulier ;

    en combinant une option en groupes : groupés - les options sont regroupées en groupes, non regroupées - les options ne sont pas regroupées en groupes ;

    par taille options : continue - les options sont exprimées sous forme de nombre entier et fractionnaire, discrète - les options sont exprimées sous forme de nombre entier, complexe - les options sont représentées par une valeur relative ou moyenne.

Une série de variations est constituée et formalisée en vue du calcul des valeurs moyennes.

Formulaire d'enregistrement de séries de variations :

8. Valeurs moyennes, types, méthodes de calcul, application dans le domaine de la santé

Valeurs moyennes– une caractéristique généralisatrice cumulative de caractéristiques quantitatives. Application des moyennes:

1. Caractériser l'organisation du travail des établissements médicaux et évaluer leurs activités :

a) à la clinique : indicateurs de la charge de travail des médecins, nombre moyen de visites, nombre moyen de résidents dans la zone ;

b) dans un hôpital : le nombre moyen de jours d'ouverture d'un lit par an ; durée moyenne d'hospitalisation ;

c) au centre d'hygiène, d'épidémiologie et de santé publique : superficie moyenne (ou cylindrée) par personne, normes nutritionnelles moyennes (protéines, graisses, glucides, vitamines, sels minéraux, calories), normes et standards sanitaires, etc.

2. Caractériser le développement physique (principales caractéristiques anthropométriques, morphologiques et fonctionnelles) ;

3. Déterminer les paramètres médicaux et physiologiques du corps dans des conditions normales et pathologiques dans le cadre d'études cliniques et expérimentales.

4. Dans la recherche scientifique spéciale.

La différence entre les valeurs moyennes et les indicateurs :

1. Les coefficients caractérisent une caractéristique alternative qui n'apparaît que dans une certaine partie de la population statistique, qui peut ou non se produire.

Les valeurs moyennes couvrent des caractéristiques communes à tous les membres de l'équipe, mais à des degrés divers (poids, taille, jours de traitement à l'hôpital).

2. Les coefficients sont utilisés pour mesurer les caractéristiques qualitatives. Valeurs moyennes – pour différentes caractéristiques quantitatives.

Types de moyennes :

    moyenne arithmétique, ses caractéristiques sont l'écart type et l'erreur moyenne

    mode et médiane. Mode (mois)– correspond à la valeur de la caractéristique qui apparaît plus souvent que les autres dans une population donnée. Médiane (moi)– la valeur d'une caractéristique qui occupe la valeur médiane dans une population donnée. Il divise la série en 2 parties égales selon le nombre d'observations. Moyenne arithmétique (M)– contrairement au mode et à la médiane, il est basé sur toutes les observations faites, c'est donc une caractéristique importante pour l'ensemble de la distribution.

    autres types de moyennes utilisées dans des études spéciales : moyenne quadratique, cubique, harmonique, géométrique, progressive.

Moyenne arithmétique caractérise le niveau moyen de la population statistique.

Pour une série simple, où

∑v – option de montant,

n – nombre d’observations.

pour une série pondérée, où

∑vр – la somme des produits de chaque option et la fréquence de son apparition

n – nombre d’observations.

Écart-type la moyenne arithmétique ou sigma (σ) caractérise la diversité d'une caractéristique

- pour une série simple

Σd 2 – la somme des carrés de la différence entre la moyenne arithmétique et chaque option (d = │M-V│)

n – nombre d'observations

- pour une série pesée

∑d 2 p – la somme des produits des carrés de la différence entre la moyenne arithmétique et chaque option et la fréquence de son apparition,

n – nombre d’observations.

Le degré de diversité peut être jugé par l'ampleur du coefficient de variation
. Plus de 20 % correspond à une forte diversité, 10 à 20 % correspond à une diversité moyenne et moins de 10 % correspond à une faible diversité.

Si nous ajoutons et soustrayons un sigma (M ± 1σ) à la moyenne arithmétique, alors avec une distribution normale, au moins 68,3 % de toutes les variantes (observations) seront dans ces limites, ce qui est considéré comme la norme pour le phénomène étudié. . Si k 2 ± 2σ, alors 95,5 % de toutes les observations seront dans ces limites, et si k M ± 3σ, alors 99,7 % de toutes les observations seront dans ces limites. Ainsi, l'écart type est un écart type qui nous permet de prédire la probabilité d'apparition d'une telle valeur de la caractéristique étudiée qui se situe dans les limites spécifiées.

Erreur moyenne de la moyenne arithmétique ou biais de représentativité. Pour une série simple et pondérée et la règle des moments :

.

Pour calculer des valeurs moyennes, il faut : l'homogénéité du matériau, un nombre suffisant d'observations. Si le nombre d'observations est inférieur à 30, n-1 est utilisé dans les formules de calcul de σ et m.

Lors de l'évaluation du résultat obtenu en fonction de la taille de l'erreur moyenne, un coefficient de confiance est utilisé, qui permet de déterminer la probabilité d'une réponse correcte, c'est-à-dire qu'il indique que la valeur résultante de l'erreur d'échantillonnage ne sera pas supérieure à l'erreur réelle commise à la suite d'une observation continue. Par conséquent, avec une augmentation de la probabilité de confiance, la largeur de l'intervalle de confiance augmente, ce qui, à son tour, augmente la confiance du jugement et la justesse du résultat obtenu.

Lignes construites sur une base quantitative, sont appelés variationnel.

Les séries de distribution comprennent choix(valeurs caractéristiques) et fréquences(nombre de groupes). Les fréquences exprimées en valeurs relatives (fractions, pourcentages) sont appelées fréquences. La somme de toutes les fréquences est appelée le volume de la série de distribution.

Par type, les séries de distribution sont divisées en discret(construit sur la base de valeurs discontinues de la caractéristique) et intervalle(basé sur des valeurs continues de la caractéristique).

Série de variantes représente deux colonnes (ou lignes) ; dont l'un fournit des valeurs individuelles d'une caractéristique variable, appelées variantes et notées X ; et dans l'autre - des nombres absolus indiquant combien de fois (à quelle fréquence) chaque option se produit. Les indicateurs de la deuxième colonne sont appelés fréquences et sont classiquement notés f. Notons encore une fois que dans la deuxième colonne des indicateurs relatifs peuvent être utilisés, caractérisant la part de la fréquence des options individuelles dans la somme totale des fréquences. Ces indicateurs relatifs sont appelés fréquences et sont classiquement notés ω. La somme de toutes les fréquences dans ce cas est égale à un. Cependant, les fréquences peuvent également être exprimées en pourcentages, la somme de toutes les fréquences donnant alors 100 %.

Si les variantes d'une série de variations sont exprimées sous forme de quantités discrètes, alors une telle série de variations est appelée discret.

Pour les caractéristiques continues, les séries de variations sont construites comme intervalle, c'est-à-dire que les valeurs de l'attribut qu'ils contiennent sont exprimées « de... à... ». Dans ce cas, les valeurs minimales de la caractéristique dans un tel intervalle sont appelées la limite inférieure de l'intervalle et le maximum - la limite supérieure.

Des séries de variations d'intervalles sont également construites pour des caractéristiques discrètes qui varient sur une large plage. Les séries d'intervalles peuvent être avec égal Et inégalà intervalles.

Considérons comment la valeur des intervalles égaux est déterminée. Introduisons la notation suivante :

je– taille de l'intervalle ;

- la valeur maximale de la caractéristique pour les unités de population ;

– la valeur minimale de la caractéristique pour les unités de population ;

n – nombre de groupes attribués.

, si n est connu.

Si le nombre de groupes à distinguer est difficile à déterminer à l'avance, alors pour calculer la valeur optimale de l'intervalle avec une taille de population suffisante, la formule proposée par Sturgess en 1926 peut être préconisée :

n = 1+ 3,322 log N, où N est le nombre d'unités dans l'agrégat.

La taille des intervalles inégaux est déterminée dans chaque cas individuel, en tenant compte des caractéristiques de l'objet d'étude.

Répartition statistique de l'échantillon appeler une liste d'options et leurs fréquences correspondantes (ou fréquences relatives).

La répartition statistique de l'échantillon peut être précisée sous la forme d'un tableau, dans la première colonne duquel se trouvent les options, et dans la seconde - les fréquences correspondant à ces options ni, ou fréquences relatives Pi .

Répartition statistique de l'échantillon

Les séries d'intervalles sont des séries de variations dans lesquelles les valeurs des caractéristiques qui sous-tendent leur formation sont exprimées dans certaines limites (intervalles). Dans ce cas, les fréquences ne se réfèrent pas aux valeurs individuelles de l'attribut, mais à l'ensemble de l'intervalle.

Les séries de distribution d'intervalles sont construites sur la base de caractéristiques quantitatives continues, ainsi que de caractéristiques discrètes qui varient dans des limites significatives.

Une série d'intervalles peut être représentée par la distribution statistique d'un échantillon indiquant les intervalles et leurs fréquences correspondantes. Dans ce cas, la somme des fréquences des variantes comprises dans cet intervalle est prise comme fréquence de l'intervalle.

Lors du regroupement par caractéristiques quantitatives continues, il est important de déterminer la taille de l'intervalle.

En plus de la moyenne de l'échantillon et de la variance de l'échantillon, d'autres caractéristiques de la série de variations sont également utilisées.

Mode La variante qui a la fréquence la plus élevée est appelée.

Série de distribution statistique– il s’agit d’une répartition ordonnée des unités de population en groupes selon une certaine caractéristique variable.
Selon la caractéristique qui sous-tend la formation de la série de distribution, il existe séries de distribution attributive et variationnelle.

La présence d'une caractéristique commune constitue la base de la formation d'une population statistique, qui représente les résultats de la description ou de la mesure des caractéristiques générales des objets d'étude.

Le sujet d'étude en statistique est l'évolution (variation) des caractéristiques ou des caractéristiques statistiques.

Types de caractéristiques statistiques.

Les séries de distribution sont appelées attributives construit selon des critères de qualité. Attributif– c'est un signe qui porte un nom (par exemple, métier : couturière, enseignante, etc.).
Les séries de distribution sont généralement présentées sous forme de tableaux. Dans le tableau 2.8 montre la série de distribution des attributs.
Tableau 2.8 - Répartition des types d'assistance juridique fournie par les avocats aux citoyens de l'une des régions de la Fédération de Russie.

Série de variantes– ce sont les valeurs de la caractéristique (ou intervalles de valeurs) et leurs fréquences.
Les séries de variations sont des séries de distribution, construit sur une base quantitative. Toute série de variations se compose de deux éléments : les options et les fréquences.
Les variantes sont considérées comme les valeurs individuelles d'une caractéristique qu'elle prend dans une série de variations.
Les fréquences sont le nombre de variantes individuelles ou de chaque groupe d'une série de variantes, c'est-à-dire Il s'agit de chiffres indiquant la fréquence à laquelle certaines options se produisent dans une série de distribution. La somme de toutes les fréquences détermine la taille de la population entière, son volume.
Les fréquences sont des fréquences exprimées en fractions d'unité ou en pourcentage du total. Ainsi, la somme des fréquences est égale à 1 ou 100 %. La série de variations permet d'estimer la forme de la loi de distribution sur la base de données réelles.

Selon la nature de la variation du trait, il existe séries de variations discrètes et à intervalles.
Un exemple de série à variation discrète est donné dans le tableau. 2.9.
Tableau 2.9 - Répartition des familles selon le nombre de pièces occupées dans des appartements individuels en 1989 dans la Fédération de Russie.

La première colonne du tableau présente les options pour une série de variations discrètes, la deuxième colonne contient les fréquences de la série de variations et la troisième contient des indicateurs de fréquence.

Série de variantes

Une certaine caractéristique quantitative est étudiée dans la population générale. Un échantillon de volume en est extrait aléatoirement n, c'est-à-dire que le nombre d'éléments de l'échantillon est égal à n. Lors de la première étape du traitement statistique, variant des échantillons, c'est-à-dire numéro de commande x 1 , x 2 , …, x n Ascendant. Chaque valeur observée x je appelé option. Fréquence je suis est le nombre d'observations de la valeur x je dans l'échantillon. Fréquence relative (fréquence) Wi est le rapport de fréquence je suisà la taille de l'échantillon n: .
Lors de l'étude des séries de variations, les concepts de fréquence accumulée et de fréquence accumulée sont également utilisés. Laisser X un certain nombre. Puis le nombre d'options , dont les valeurs sont inférieures X, est appelée la fréquence accumulée : pour x i n est appelée la fréquence accumulée w i max.
Une caractéristique est dite discrètement variable si ses valeurs individuelles (variantes) diffèrent les unes des autres par une certaine valeur finie (généralement un nombre entier). La série de variations d’une telle caractéristique est appelée série de variations discrètes.

Tableau 1. Vue générale d'une série de fréquences à variation discrète

Valeurs caractéristiquesx je x1 x2 xn
Fréquencesje suis m1 m2 mn

Une caractéristique est dite à variation continue si ses valeurs diffèrent les unes des autres d'une quantité arbitrairement petite, c'est-à-dire un signe peut prendre n'importe quelle valeur dans un certain intervalle. Une série de variations continues pour une telle caractéristique est appelée intervalle.

Tableau 2. Vue générale de la série de variations d'intervalle de fréquences

Tableau 3. Images graphiques de la série de variations

RangéePolygone ou histogrammeFonction de distribution empirique
Discret
Intervalle
En examinant les résultats des observations, il est déterminé combien de valeurs d'options tombent dans chaque intervalle spécifique. On suppose que chaque intervalle appartient à l'une de ses extrémités : soit dans tous les cas à gauche (le plus souvent), soit dans tous les cas à droite, et les fréquences ou fréquences indiquent le nombre d'options contenues dans les limites spécifiées. Différences un je – un je +1 sont appelés intervalles partiels. Pour simplifier les calculs ultérieurs, la série de variations d'intervalle peut être remplacée par une série conditionnellement discrète. Dans ce cas, la valeur moyenne je-l'intervalle est pris en option x je, et la fréquence d'intervalle correspondante je suis– pour la fréquence de cet intervalle.
Pour la représentation graphique des séries de variations, les plus couramment utilisés sont le polygone, l'histogramme, la courbe cumulative et la fonction de distribution empirique.

Dans le tableau 2.3 (Regroupement de la population russe selon le revenu moyen par habitant en avril 1994) est présenté série de variations d'intervalle.
Il est pratique d'analyser les séries de distribution à l'aide d'une image graphique, qui permet de juger de la forme de la distribution. Une représentation visuelle de la nature des changements dans les fréquences de la série de variations est donnée par polygone et histogramme.
Le polygone est utilisé pour représenter des séries de variations discrètes.
Représentons par exemple graphiquement la répartition du parc de logements par type d'appartement (tableau 2.10).
Tableau 2.10 - Répartition du parc immobilier de l'aire urbaine par type d'appartement (chiffres conditionnels).


Riz. Zone de répartition des logements


Non seulement les valeurs de fréquence, mais également les fréquences des séries de variations peuvent être tracées sur les axes des ordonnées.
L'histogramme est utilisé pour représenter une série de variations d'intervalle. Lors de la construction d'un histogramme, les valeurs des intervalles sont tracées sur l'axe des abscisses et les fréquences sont représentées par des rectangles construits sur les intervalles correspondants. La hauteur des colonnes, en cas d'intervalles égaux, doit être proportionnelle aux fréquences. Un histogramme est un graphique dans lequel une série est représentée sous forme de barres adjacentes les unes aux autres.
Représentons graphiquement la série de distributions d'intervalles donnée dans le tableau. 2.11.
Tableau 2.11 - Répartition des familles selon la taille de l'espace habitable par personne (chiffres conditionnels).
N p/p Groupes de familles par taille de surface habitable par personne Nombre de familles avec une surface habitable donnée Nombre cumulé de familles
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Riz. 2.2. Histogramme de la répartition des familles selon la taille de l'espace habitable par personne


En utilisant les données des séries accumulées (tableau 2.11), nous construisons cumuler la distribution.


Riz. 2.3. Répartition cumulée des familles selon la taille de la surface habitable par personne


La représentation d'une série de variations sous forme de cumulat est particulièrement efficace pour les séries de variations dont les fréquences sont exprimées en fractions ou en pourcentages de la somme des fréquences des séries.
Si nous changeons les axes lors de la représentation graphique d'une série de variations sous forme de cumulats, alors nous obtenons ogive. En figue. 2.4 montre l'ogive construite sur la base des données du tableau. 2.11.
Un histogramme peut être converti en polygone de distribution en trouvant les milieux des côtés des rectangles puis en reliant ces points par des lignes droites. Le polygone de distribution résultant est illustré à la Fig. 2.2 avec une ligne pointillée.
Lors de la construction d'un histogramme de la distribution d'une série de variations à intervalles inégaux, ce ne sont pas les fréquences qui sont tracées le long de l'axe des ordonnées, mais la densité de la distribution de la caractéristique dans les intervalles correspondants.
La densité de distribution est la fréquence calculée par unité de largeur d'intervalle, c'est-à-dire combien d'unités dans chaque groupe sont par unité de valeur d'intervalle. Un exemple de calcul de la densité de distribution est présenté dans le tableau. 2.12.
Tableau 2.12 - Répartition des entreprises par nombre de salariés (chiffres conditionnels)
N p/p Groupes d'entreprises par nombre d'employés, personnes. Nombre d'entreprises Taille de l'intervalle, personnes. Densité de distribution
UN 1 2 3=1/2
1 Jusqu'à 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Peut également être utilisé pour la représentation graphique de séries de variations courbe cumulée. À l’aide d’un cumulat (courbe somme), une série de fréquences accumulées est représentée. Les fréquences cumulées sont déterminées en additionnant séquentiellement les fréquences entre les groupes et montrent combien d'unités de la population ont des valeurs d'attribut non supérieures à la valeur considérée.


Riz. 2.4. Ogive de répartition des familles selon la taille de la surface habitable par personne

Lors de la construction des cumulats d'une série de variations d'intervalles, les variantes de la série sont tracées le long de l'axe des abscisses et les fréquences accumulées sont tracées le long de l'axe des ordonnées.



Avez-vous aimé l'article? Partage avec tes amis!