Types de séries de variations de séries de séries de variations d'intervalles. Séries de distribution variationnelle et statistique

Série de variantes - il s'agit d'une série statistique montrant la répartition du phénomène étudié selon la valeur de toute caractéristique quantitative. Par exemple, les patients par âge, la durée du traitement, les nouveau-nés par poids, etc.

Option - valeurs individuelles de la caractéristique par laquelle le regroupement est effectué (notées V ) .

Fréquence- un nombre indiquant la fréquence à laquelle une option particulière se produit (noté P. ) . La somme de toutes les fréquences montre nombre total observations et est désigné n . La différence entre la plus grande et la plus petite variante d’une série de variations s’appelle portée ou amplitude .

Il existe des séries de variantes :

1. Discontinu (discret) et continu.

Une série est considérée comme continue si la caractéristique de regroupement peut être exprimée en valeurs fractionnaires (poids, taille, etc.), discontinue si la caractéristique de regroupement est exprimée uniquement sous forme d'entier (jours d'invalidité, nombre de battements de pouls, etc.) .

2.Simple et équilibré.

Une série de variations simples est une série dans laquelle la valeur quantitative d'une caractéristique variable apparaît une fois. Dans une série de variations pondérées, les valeurs quantitatives d'une caractéristique variable sont répétées avec une certaine fréquence.

3. Groupé (intervalle) et non groupé.

Une série groupée comporte des options combinées en groupes qui les unissent par taille dans un certain intervalle. Dans une série non groupée, chaque option individuelle correspond à une certaine fréquence.

4. Pair et impair.

Dans les séries à variation paire, la somme des fréquences ou le nombre total d'observations est exprimée par un nombre pair, dans les séries impaires - par un nombre impair.

5. Symétrique et asymétrique.

Dans une série de variations symétriques, tous les types de valeurs moyennes coïncident ou sont très proches (mode, médiane, moyenne arithmétique).

En fonction de la nature des phénomènes étudiés, des tâches et objectifs spécifiques de la recherche statistique, ainsi que du contenu du matériel source, en statistiques sanitaires Les types de moyennes suivants sont utilisés :

moyens structurels (mode, médiane) ;

moyenne arithmétique ;

moyenne harmonique;

Moyenne géométrique;

moyen progressif.

Mode (M Ô ) - la valeur d'une caractéristique variable, que l'on retrouve plus souvent dans la population étudiée, à savoir : option correspondant à la fréquence la plus élevée. Ils le trouvent directement à partir de la structure des séries de variations, sans recourir à aucun calcul. Il s’agit généralement d’une valeur très proche de la moyenne arithmétique et très pratique en pratique.

Médiane (M e ) - diviser la série de variations (classée, c'est-à-dire que les valeurs de l'option sont classées par ordre croissant ou décroissant) en deux moitiés égales. La médiane est calculée à l'aide de la série dite impaire, obtenue par sommation séquentielle des fréquences. Si la somme des fréquences correspond à un nombre pair, alors la moyenne arithmétique des deux valeurs moyennes est classiquement prise comme médiane.

Le mode et la médiane sont utilisés dans le cas d'une population ouverte, c'est-à-dire lorsque les options les plus grandes ou les plus petites n'ont pas de caractéristique quantitative exacte (par exemple, jusqu'à 15 ans, 50 ans et plus, etc.). Dans ce cas, la moyenne arithmétique (caractéristiques paramétriques) ne peut pas être calculée.

Moyenne je suis arithmétique - la valeur la plus courante. La moyenne arithmétique est souvent désignée par M.

Il existe des moyennes arithmétiques simples et pondérées.

Moyenne arithmétique simple calculé:

- dans les cas où la population est représentée par une simple liste de connaissances d'une caractéristique pour chaque unité ;

- si le nombre de répétitions de chaque option ne peut être déterminé ;

- si le nombre de répétitions de chaque option est proche les uns des autres.

La moyenne arithmétique simple est calculée à l'aide de la formule :

où V - valeurs individuelles de la caractéristique ; n - nombre de valeurs individuelles ;
- signe de sommation.

Ainsi, la moyenne simple est le rapport entre la somme des variantes et le nombre d’observations.

Exemple: déterminer la durée moyenne de séjour dans un lit pour 10 patients atteints de pneumonie :

16 jours - 1 patient ; 17-1 ; 18-1 ; 19-1 ; 20-1 ; 21-1 ; 22-1 ; 23-1 ; 26-1 ; 31-1.

jour de coucher

Moyenne arithmétique pondérée est calculé dans les cas où les valeurs individuelles d'une caractéristique sont répétées. Il peut être calculé de deux manières :

1. Directement (moyenne arithmétique ou méthode directe) selon la formule :

,

où P est la fréquence (nombre de cas) des observations de chaque option.

Ainsi, la moyenne arithmétique pondérée est le rapport de la somme des produits de variante et de fréquence au nombre d'observations.

2. En calculant les écarts par rapport à la moyenne conditionnelle (en utilisant la méthode des moments).

La base de calcul de la moyenne arithmétique pondérée est la suivante :

― matériel regroupé selon des variantes d'une caractéristique quantitative ;

— toutes les options doivent être classées par ordre croissant ou décroissant de la valeur de l'attribut (série classée).

Pour calculer à l'aide de la méthode des moments, une condition préalable est la même taille pour tous les intervalles.

Par la méthode des moments, la moyenne arithmétique est calculée à l'aide de la formule :

,

où M o est la moyenne conditionnelle, qui est souvent considérée comme la valeur de la caractéristique correspondant à la fréquence la plus élevée, c'est-à-dire qui se répète plus souvent (Mode).

i est la valeur de l'intervalle.

a est un écart conditionnel par rapport aux conditions de la moyenne, qui est une série séquentielle de nombres (1, 2, etc.) avec un signe + pour les variantes de grandes moyennes conditionnelles et avec un signe – (–1, –2, etc. .) pour les variantes qui se situent en dessous de la moyenne conventionnelle. L'écart conditionnel par rapport à la variante prise comme moyenne conditionnelle est de 0.

P - fréquences.

- nombre total d'observations ou n.

Exemple: déterminer directement la taille moyenne des garçons de 8 ans (tableau 1).

Tableau 1

Hauteur en cm

les garçons P

Central

option V

L'option centrale - le milieu de l'intervalle - est définie comme la demi-somme des valeurs initiales de deux groupes voisins :

;
etc.

Le produit VP est obtenu en multipliant les variantes centrales par les fréquences
;
etc. Ensuite, les produits résultants sont ajoutés et obtenus
, qui est divisé par le nombre d'observations (100) et une moyenne arithmétique pondérée est obtenue.

cm.

Nous allons résoudre le même problème en utilisant la méthode des moments, pour laquelle le tableau 2 suivant est compilé :

Tableau 2

Hauteur en cm (V)

les garçons P

n=100

Nous prenons 122 comme M o, parce que sur 100 observations, 33 personnes mesuraient 122 cm. Nous trouvons des écarts conditionnels (a) par rapport à la moyenne conditionnelle conformément à ce qui précède. On obtient ensuite le produit des écarts conditionnels par les fréquences (aP) et résumons les valeurs obtenues (
). Le résultat est 17. Enfin, nous substituons les données dans la formule :

Lorsqu'on étudie une caractéristique variable, on ne peut pas se limiter au seul calcul de valeurs moyennes. Il est également nécessaire de calculer des indicateurs caractérisant le degré de diversité des caractéristiques étudiées. La valeur de l'une ou l'autre caractéristique quantitative n'est pas la même pour toutes les unités de la population statistique.

La caractéristique d'une série de variations est l'écart type ( ), qui montre l'étalement (dispersion) des caractéristiques étudiées par rapport à la moyenne arithmétique, c'est-à-dire caractérise la variabilité de la série de variations. Il peut être déterminé directement à l'aide de la formule :

L'écart type est égal à la racine carrée de la somme des produits des carrés des écarts de chaque option par rapport à la moyenne arithmétique (V – M) 2 par ses fréquences divisée par la somme des fréquences (
).

Exemple de calcul : déterminer le nombre moyen d'arrêts de maladie délivrés à la clinique par jour (tableau 3).

Tableau 3

Nombre de jours de maladie

feuilles émises

médecin par jour (V)

Nombre de médecins (P)

;

Au dénominateur, lorsque le nombre d'observations est inférieur à 30, il faut à partir de
soustrayez-en un.

Si la série est regroupée à intervalles égaux, alors l'écart type peut être déterminé à l'aide de la méthode des moments :

,

où i est la valeur de l'intervalle ;

- écart conditionnel par rapport à la moyenne conditionnelle ;

P - variante de fréquence des intervalles correspondants ;

- nombre total d'observations.

Exemple de calcul : Déterminer la durée moyenne de séjour des patients sur un lit thérapeutique (en utilisant la méthode des moments) (Tableau 4) :

Tableau 4

Nombre de jours

rester au lit (V)

malade (P)

;

Le statisticien belge A. Quetelet a découvert que les variations des phénomènes de masse obéissent à la loi de répartition des erreurs, découverte presque simultanément par K. Gauss et P. Laplace. La courbe représentant cette répartition a la forme d'une cloche. Selon la loi de distribution normale, la variabilité des valeurs individuelles d'une caractéristique se situe dans les limites
, qui couvre 99,73 % de toutes les unités de la population.

Il a été calculé que si vous ajoutez et soustrayez 2 à la moyenne arithmétique , alors 95,45 % de tous les membres de la série de variations se situent dans les valeurs obtenues et, enfin, si l'on ajoute et soustrait 1 à la moyenne arithmétique , alors 68,27 % de tous les membres de cette série de variations se situeront dans les valeurs obtenues. En médecine avec ampleur
1associée à la notion de norme. L'écart par rapport à la moyenne arithmétique est supérieur à 1 , mais moins de 2 est anormal et l'écart est supérieur à 2 anormal (au-dessus ou en dessous de la normale).

Dans les statistiques de la santé, la règle des trois sigma est utilisée pour étudier le développement physique, évaluer les performances des établissements de santé et évaluer la santé de la population. La même règle est largement utilisée dans l’économie nationale pour déterminer les normes.

Ainsi, l'écart type sert à :

— mesures de la dispersion de la série de variations ;

— caractéristiques du degré de diversité des caractéristiques, qui sont déterminées par le coefficient de variation :

Si le coefficient de variation est supérieur à 20 % - forte diversité, de 20 à 10 % - moyenne, inférieur à 10 % - faible diversité des caractères. Le coefficient de variation est dans une certaine mesure un critère de fiabilité de la moyenne arithmétique.

La méthode de regroupement permet également de mesurer variation(variabilité, fluctuation) des signes. Lorsque le nombre d'unités dans une population est relativement faible, la variation est mesurée en fonction du nombre classé d'unités qui composent la population. La série s'appelle classé, si les unités sont classées par ordre croissant (décroissant) de la caractéristique.

Cependant, les séries classées sont tout à fait indicatives lorsqu’une caractéristique comparative de variation est nécessaire. En outre, nous sommes souvent confrontés à des populations statistiques constituées d'un grand nombre d'unités, qui sont pratiquement difficiles à représenter sous la forme d'une série spécifique. A cet égard, pour une première connaissance générale des données statistiques et surtout pour faciliter l'étude de la variation des caractéristiques, les phénomènes et processus étudiés sont généralement regroupés en groupes, et les résultats de regroupement sont présentés sous forme de tableaux de groupe.

Si un tableau de groupes ne comporte que deux colonnes - groupes selon une caractéristique sélectionnée (options) et le nombre de groupes (fréquence ou fréquence), on l'appelle proche de la distribution.

Plage de distribution - le type le plus simple de regroupement structurel basé sur une caractéristique, affiché dans un tableau de groupe avec deux colonnes contenant les variantes et les fréquences de la caractéristique. Dans de nombreux cas, avec un tel regroupement structurel, c'est-à-dire Avec la compilation des séries de distribution, l'étude du matériel statistique initial commence.

Un groupement structurel sous forme de série de distribution peut être transformé en un véritable groupement structurel si les groupes sélectionnés sont caractérisés non seulement par des fréquences, mais également par d'autres indicateurs statistiques. L'objectif principal des séries de distribution est d'étudier la variation des caractéristiques. La théorie des séries de distribution est développée en détail par les statistiques mathématiques.

Les séries de distribution sont divisées en attributif(regroupement selon des caractéristiques attributives, par exemple division de la population par sexe, nationalité, état civil, etc.) et variationnel(regroupement par caractéristiques quantitatives).

Série de variantes est un tableau de groupe qui contient deux colonnes : le regroupement des unités selon une caractéristique quantitative et le nombre d'unités dans chaque groupe. Les intervalles de la série de variations sont généralement égaux et fermés. La série de variations est le regroupement suivant de la population russe selon le revenu monétaire moyen par habitant (tableau 3.10).

Tableau 3.10

Répartition de la population russe selon le revenu moyen par habitant en 2004-2009.

Groupes de population par revenu monétaire moyen par habitant, roubles/mois

Population du groupe, % du total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Plus de 25 000,0

Population entière

Les séries de variations, à leur tour, sont divisées en séries discrètes et à intervalles. Discret les séries de variations combinent des variantes de caractéristiques discrètes qui varient dans des limites étroites. Un exemple de série à variations discrètes est la répartition des familles russes selon le nombre d'enfants qu'elles ont.

Intervalle les séries de variations combinent des variantes de caractéristiques continues ou de caractéristiques discrètes variant sur une large plage. L'intervalle est la série de variations de la répartition de la population russe selon le revenu monétaire moyen par habitant.

Les séries à variations discrètes ne sont pas très souvent utilisées en pratique. En attendant, leur compilation n'est pas difficile, puisque la composition des groupes est déterminée par les variantes spécifiques que possèdent réellement les caractéristiques du groupement étudié.

Les séries de variations d'intervalles sont plus répandues. Lors de leur compilation, une question difficile se pose quant au nombre de groupes, ainsi qu'à la taille des intervalles à établir.

Les principes pour résoudre cette question sont exposés dans le chapitre sur la méthodologie de construction des regroupements statistiques (voir paragraphe 3.3).

Les séries de variations sont un moyen de regrouper ou de compresser diverses informations sous une forme compacte ; à partir d'elles, on peut porter un jugement assez clair sur la nature de la variation et étudier les différences dans les caractéristiques des phénomènes inclus dans l'ensemble étudié. Mais l'importance la plus importante des séries de variation est que c'est sur cette base que sont calculées les caractéristiques généralisantes particulières de la variation (voir chapitre 7).

Appelons les différents exemples de valeurs choix série de valeurs et désigne : X 1 , X 2,…. Tout d'abord, nous produirons variant options, c'est-à-dire leur classement par ordre croissant ou décroissant. Pour chaque option, son propre poids est indiqué, c'est-à-dire un nombre qui caractérise la contribution d’une option donnée à la population totale. Les fréquences ou fréquences agissent comme des poids.

Fréquence n je option x je est un nombre qui montre combien de fois une option donnée se produit dans l'échantillon de population considéré.

Fréquence ou fréquence relative Wi option x je est un nombre égal au rapport de la fréquence d'une variante à la somme des fréquences de toutes les variantes. La fréquence montre quelle proportion d'unités dans la population échantillonnée ont une variante donnée.

Une séquence d'options avec leurs poids correspondants (fréquences ou fréquences), écrits par ordre croissant (ou décroissant), est appelée série de variations.

Les séries de variations sont discrètes et à intervalles.

Pour une série de variations discrètes, les valeurs ponctuelles de la caractéristique sont spécifiées, pour une série d'intervalles, les valeurs caractéristiques sont spécifiées sous forme d'intervalles. Les séries de variations peuvent montrer la distribution des fréquences ou des fréquences relatives (fréquences), en fonction de la valeur indiquée pour chaque option - fréquence ou fréquence.

Série à variation discrète de la distribution de fréquence a la forme :

Les fréquences sont trouvées par la formule, i = 1, 2,…, m.

w 1 +w 2 + … + w m = 1.

Exemple 4.1. Pour un ensemble de nombres donné

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

construire des séries de variations discrètes de fréquences et de distributions de fréquences.

Solution . Le volume de la population est égal à n= 10. La série de distribution de fréquence discrète a la forme

Les séries d'intervalles ont une forme d'enregistrement similaire.

Série de variations d'intervalle de distribution de fréquence s'écrit ainsi :

La somme de toutes les fréquences est égale au nombre total d'observations, c'est-à-dire volume total: n = n 1 +n 2 + … + n m.

Série de variation d'intervalle de distribution de fréquences relatives (fréquences) a la forme :

La fréquence est trouvée par la formule, i = 1, 2,…, m.

La somme de toutes les fréquences est égale à un : w 1 +w 2 + … + w m = 1.

Les séries d'intervalles sont le plus souvent utilisées en pratique. S'il existe de nombreux échantillons de données statistiques et que leurs valeurs diffèrent les unes des autres d'une quantité arbitrairement petite, alors une série discrète pour ces données sera assez lourde et peu pratique pour des recherches ultérieures. Dans ce cas, le regroupement de données est utilisé, c'est-à-dire L'intervalle contenant toutes les valeurs de l'attribut est divisé en plusieurs intervalles partiels et, en calculant la fréquence pour chaque intervalle, une série d'intervalles est obtenue. Écrivons plus en détail le schéma de construction d'une série d'intervalles, en supposant que les longueurs des intervalles partiels seront les mêmes.

2.2 Construction d'une série d'intervalles

Pour construire une série d'intervalles, vous avez besoin de :

Déterminer le nombre d'intervalles ;

Déterminer la longueur des intervalles ;

Déterminez l'emplacement des intervalles sur l'axe.

Pour déterminer nombre d'intervalles k Il existe la formule de Sturges selon laquelle

,

n- le volume de l'ensemble de l'agrégat.

Par exemple, s'il existe 100 valeurs d'une caractéristique (variante), alors il est recommandé de prendre le nombre d'intervalles égal aux intervalles pour construire une série d'intervalles.

Cependant, très souvent en pratique le nombre d'intervalles est choisi par le chercheur lui-même, en tenant compte du fait que ce nombre ne doit pas être très grand pour que la série ne soit pas encombrante, mais aussi pas très petit pour ne pas perdre certaines propriétés de l'intervalle. distribution.

Durée de l'intervalle h déterminé par la formule suivante :

,

X maximum et X min est respectivement la plus grande et la plus petite valeur des options.

Taille appelé portée rangée.

Pour construire eux-mêmes les intervalles, ils procèdent de différentes manières. L’un des moyens les plus simples est le suivant. Le début du premier intervalle est considéré comme étant
. Ensuite, les limites restantes des intervalles sont trouvées par la formule. Évidemment, la fin du dernier intervalle un m+1 doit satisfaire la condition

Une fois que toutes les limites des intervalles ont été trouvées, les fréquences (ou fréquences) de ces intervalles sont déterminées. Pour résoudre ce problème, examinez toutes les options et déterminez le nombre d’options qui correspondent à un intervalle particulier. Regardons la construction complète d'une série d'intervalles à l'aide d'un exemple.

Exemple 4.2. Pour les données statistiques suivantes, enregistrées par ordre croissant, construisez une série d'intervalles avec un nombre d'intervalles égal à 5 :

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Solution. Total n=50 valeurs de variantes.

Le nombre d'intervalles est spécifié dans l'énoncé du problème, c'est-à-dire k=5.

La longueur des intervalles est
.

Définissons les limites des intervalles :

un 1 = 11 − 8,5 = 2,5; un 2 = 2,5 + 17 = 19,5; un 3 = 19,5 + 17 = 36,5;

un 4 = 36,5 + 17 = 53,5; un 5 = 53,5 + 17 = 70,5; un 6 = 70,5 + 17 = 87,5;

un 7 = 87,5 +17 = 104,5.

Pour déterminer la fréquence des intervalles, nous comptons le nombre d’options qui tombent dans un intervalle donné. Par exemple, le premier intervalle de 2,5 à 19,5 comprend les options 11, 12, 12, 14, 14, 15. Leur nombre est 6, donc la fréquence du premier intervalle est n 1 =6. La fréquence du premier intervalle est . Le deuxième intervalle de 19,5 à 36,5 comprend les options 21, 21, 22, 23, 25 dont le nombre est 5. Par conséquent, la fréquence du deuxième intervalle est n 2 =5, et fréquence . Après avoir trouvé les fréquences et les fréquences pour tous les intervalles de la même manière, nous obtenons la série d'intervalles suivante.

La série d'intervalles de distribution de fréquence a la forme :

La somme des fréquences est 6+5+9+11+8+11=50.

La série d'intervalles de distribution de fréquence a la forme :

La somme des fréquences est 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

Lors de la construction de séries d'intervalles, en fonction des conditions spécifiques du problème considéré, d'autres règles peuvent être appliquées, à savoir

1. Les séries de variations d'intervalles peuvent être constituées d'intervalles partiels de différentes longueurs. Des intervalles de longueur inégale permettent de mettre en évidence les propriétés d'une population statistique avec une répartition inégale de la caractéristique. Par exemple, si les limites des intervalles déterminent le nombre d'habitants dans les villes, il est alors conseillé d'utiliser des intervalles de longueur inégale dans ce problème. Évidemment, pour les petites villes, une petite différence dans le nombre d’habitants est importante, mais pour les grandes villes, une différence de dizaines ou de centaines d’habitants n’est pas significative. Les séries d'intervalles avec des longueurs inégales d'intervalles partiels sont étudiées principalement dans la théorie générale des statistiques et leur considération dépasse le cadre de ce manuel.

2. En statistiques mathématiques, on considère parfois des séries d'intervalles pour lesquelles la limite gauche du premier intervalle est supposée être égale à –∞ et la limite droite du dernier intervalle +∞. Ceci est fait afin de rapprocher la distribution statistique de la distribution théorique.

3. Lors de la construction d'une série d'intervalles, il peut s'avérer que la valeur d'une option coïncide exactement avec la limite de l'intervalle. La meilleure chose à faire dans ce cas est la suivante. S'il n'y a qu'une seule coïncidence de ce type, considérez alors que l'option considérée avec sa fréquence tombe dans l'intervalle situé le plus proche du milieu de la série d'intervalles, s'il existe plusieurs de ces options, alors elles sont toutes attribuées aux intervalles à ; à droite de ces options, ou toutes sont assignées à gauche.

4. Après avoir déterminé le nombre d'intervalles et leur longueur, la disposition des intervalles peut être effectuée d'une autre manière. Trouver la moyenne arithmétique de toutes les valeurs considérées des options XÉpouser et construisez le premier intervalle de telle manière que cette moyenne d'échantillon se situe dans un certain intervalle. On obtient ainsi l'intervalle de XÉpouser – 0,5 h avant X moy.. + 0,5 h. Puis à gauche et à droite, en ajoutant la longueur de l'intervalle, on construit les intervalles restants jusqu'à ce que X min et X max ne tombera pas respectivement dans le premier et le dernier intervalles.

5. Les séries d'intervalles avec un grand nombre d'intervalles sont commodément écrites verticalement, c'est-à-dire écrivez les intervalles non pas dans la première ligne, mais dans la première colonne, et les fréquences (ou fréquences) dans la deuxième colonne.

Les exemples de données peuvent être considérés comme des valeurs d'une variable aléatoire X. Une variable aléatoire a sa propre loi de distribution. De la théorie des probabilités, on sait que la loi de distribution d'une variable aléatoire discrète peut être spécifiée sous la forme d'une série de distribution, et pour une série continue - en utilisant la fonction de densité de distribution. Cependant, il existe une loi de distribution universelle qui s'applique à la fois aux variables aléatoires discrètes et continues. Cette loi de distribution est donnée comme fonction de distribution F(X) = P.(X<X). Pour les exemples de données, vous pouvez spécifier un analogue de la fonction de distribution - la fonction de distribution empirique.


Informations connexes.


Séries de variations : définition, types, principales caractéristiques. Méthode de calcul
mode, médiane, moyenne arithmétique dans la recherche médicale et statistique
(montrer avec un exemple conditionnel).

Une série de variations est une série de valeurs numériques de la caractéristique étudiée, différant les unes des autres par leur ampleur et disposées dans un certain ordre (par ordre croissant ou décroissant). Chaque valeur numérique d'une série est appelée variante (V), et les nombres indiquant la fréquence à laquelle une variante particulière apparaît dans une série donnée sont appelés fréquence (p).

Le nombre total de cas d'observation qui composent la série de variations est désigné par la lettre n. La différence dans la signification des caractéristiques étudiées est appelée variation. Si une caractéristique variable n'a pas de mesure quantitative, la variation est dite qualitative et la série de distribution est appelée attributive (par exemple, distribution selon l'évolution de la maladie, l'état de santé, etc.).

Si une caractéristique variable a une expression quantitative, cette variation est appelée quantitative et la série de distribution est appelée variationnelle.

Les séries de variations sont divisées en discontinues et continues - en fonction de la nature de la caractéristique quantitative ; simples et pondérées - en fonction de la fréquence d'apparition de la variante.

Dans une série à variation simple, chaque option n'apparaît qu'une seule fois (p=1), dans une série pondérée, la même option apparaît plusieurs fois (p>1). Des exemples de telles séries seront discutés plus loin dans le texte. Si la caractéristique quantitative est continue, c'est-à-dire Entre les quantités entières, il existe des quantités fractionnaires intermédiaires ; la série de variations est dite continue.

Par exemple : 10,0 – 11,9

14,0 – 15,9, etc.

Si la caractéristique quantitative est discontinue, c'est-à-dire ses valeurs individuelles (variantes) diffèrent les unes des autres par un nombre entier et n'ont pas de valeurs fractionnaires intermédiaires ; la série de variations est dite discontinue ou discrète.

Utilisation des données de fréquence cardiaque de l'exemple précédent

pour 21 élèves, nous construirons une série de variations (tableau 1).

Tableau 1

Répartition des étudiants en médecine par fréquence cardiaque (bpm)

Ainsi, construire une série de variations signifie systématiser et organiser les valeurs numériques disponibles (variantes), c'est-à-dire disposer dans un certain ordre (par ordre croissant ou décroissant) avec leurs fréquences correspondantes. Dans l'exemple considéré, les options sont classées par ordre croissant et exprimées sous forme de nombres entiers discontinus (discrets), chaque option apparaît plusieurs fois, c'est-à-dire nous avons affaire à une série à variation pondérée, discontinue ou discrète.

En règle générale, si le nombre d'observations dans la population statistique que nous étudions ne dépasse pas 30, il suffit alors de disposer toutes les valeurs de la caractéristique étudiée dans une série de variations ascendantes, comme dans le tableau. 1, ou ordre décroissant.

Avec un grand nombre d'observations (n>30), le nombre de variantes apparaissant peut être très grand ; dans ce cas, une série d'intervalles ou de variations groupées est constituée, dans laquelle, pour simplifier le traitement ultérieur et clarifier la nature de la distribution, les variantes sont regroupées en groupes.

Généralement, le nombre d'options de groupe varie de 8 à 15.

Il devrait y en avoir au moins 5, car... sinon, ce sera un agrandissement trop grossier et excessif, ce qui déformera l'image globale de la variation et affectera grandement la précision des valeurs moyennes. Lorsque le nombre de variantes de groupe est supérieur à 20-25, la précision du calcul des valeurs moyennes augmente, mais les caractéristiques de variation de la caractéristique sont considérablement déformées et le traitement mathématique devient plus compliqué.

Lors de l'élaboration d'une série groupée, il est nécessaire de prendre en compte

− les groupes d'options doivent être disposés dans un certain ordre (croissant ou décroissant) ;

− les intervalles dans les groupes d'options doivent être les mêmes ;

− les valeurs des limites d'intervalle ne doivent pas coïncider, car il ne sera pas clair dans quels groupes classer les variantes individuelles ;

− il est nécessaire de prendre en compte les caractéristiques qualitatives du matériel collecté lors de la fixation des limites d'intervalle (par exemple, lors de l'étude du poids des adultes, un intervalle de 3 à 4 kg est acceptable, et pour les enfants dans les premiers mois de la vie, il ne doit pas dépasser 100 g)

Construisons une série groupée (à intervalles) caractérisant les données sur la fréquence du pouls (battements par minute) de 55 étudiants en médecine avant l'examen : 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pour construire une série groupée il vous faut :

1. Déterminez la taille de l'intervalle ;

2. Déterminez le milieu, le début et la fin des groupes de la série de variations.

● La taille de l'intervalle (i) est déterminée par le nombre de groupes supposés (r), dont le nombre est fixé en fonction du nombre d'observations (n) selon un tableau spécial

Nombre de groupes en fonction du nombre d'observations :

Dans notre cas, pour 55 étudiants, vous pouvez créer de 8 à 10 groupes.

La valeur de l'intervalle (i) est déterminée par la formule suivante -

je = V max-V min/r

Dans notre exemple, la valeur de l'intervalle est 82-58/8= 3.

Si la valeur de l'intervalle est une fraction, le résultat doit être arrondi au nombre entier le plus proche.

Il existe plusieurs types de moyennes :

● moyenne arithmétique,

● moyenne géométrique,

● moyenne harmonique,

● moyenne quadratique,

● moyen progressif,

● médiane

Dans les statistiques médicales, les moyennes arithmétiques sont le plus souvent utilisées.

La moyenne arithmétique (M) est une valeur généralisatrice qui détermine ce qui est typique de l'ensemble de la population. Les principales méthodes de calcul de M sont : la méthode de la moyenne arithmétique et la méthode des moments (écarts conditionnels).

La méthode de la moyenne arithmétique est utilisée pour calculer la moyenne arithmétique simple et la moyenne arithmétique pondérée. Le choix de la méthode de calcul de la moyenne arithmétique dépend du type de série de variations. Dans le cas d'une série de variations simples, dans laquelle chaque option n'apparaît qu'une seule fois, la moyenne arithmétique simple est déterminée par la formule :

où : M – valeur moyenne arithmétique ;

V – valeur de la caractéristique variable (variantes) ;

Σ – indique l'action – sommation ;

n – nombre total d’observations.

Un exemple de calcul de la moyenne arithmétique simple. Fréquence respiratoire (nombre de mouvements respiratoires par minute) chez 9 hommes âgés de 35 ans : 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pour déterminer le niveau moyen de fréquence respiratoire chez les hommes âgés de 35 ans, il faut :

1. Construisez une série de variations, en classant toutes les options par ordre croissant ou décroissant. Nous avons obtenu une série de variations simple, car. les valeurs des options n'apparaissent qu'une seule fois.

M = ∑V/n = 171/9 = 19 respirations par minute

Conclusion. La fréquence respiratoire chez l'homme de 35 ans est en moyenne de 19 mouvements respiratoires par minute.

Si les valeurs individuelles d'une variante sont répétées, il n'est pas nécessaire d'écrire chaque variante sur une ligne ; il suffit de lister les tailles présentes de la variante (V) et d'indiquer à côté le nombre de leurs répétitions (p ). Une telle série de variations, dans laquelle les options sont en quelque sorte pondérées par le nombre de fréquences qui leur correspondent, est appelée une série de variations pondérées, et la valeur moyenne calculée est la moyenne arithmétique pondérée.

La moyenne arithmétique pondérée est déterminée par la formule : M= ∑Vp/n

où n est le nombre d'observations égal à la somme des fréquences – Σр.

Un exemple de calcul de la moyenne arithmétique pondérée.

La durée d'invalidité (en jours) chez 35 patients atteints de maladies respiratoires aiguës (IRA) traités par un médecin local au cours du premier trimestre de l'année en cours était de : 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 jours .

La méthode de détermination de la durée moyenne d'invalidité chez les patients atteints d'infections respiratoires aiguës est la suivante :

1. Construisons une série de variations pondérées, car Les valeurs individuelles de l'option sont répétées plusieurs fois. Pour ce faire, vous pouvez classer toutes les options par ordre croissant ou décroissant avec leurs fréquences correspondantes.

Dans notre cas, les options sont classées par ordre croissant

2. Calculez la moyenne arithmétique pondérée à l'aide de la formule : M = ∑Vp/n = 233/35 = 6,7 jours

Répartition des patients atteints d'infections respiratoires aiguës selon la durée de l'invalidité :

Durée de l'invalidité (V) Nombre de patients (p) Vice-président
∑p = n = 35 ∑Vp = 233

Conclusion. La durée de l'invalidité chez les patients atteints de maladies respiratoires aiguës était en moyenne de 6,7 jours.

Le mode (Mo) est l'option la plus courante dans la série de variations. Pour la distribution présentée dans le tableau, le mode correspond à une option égale à 10 ; il apparaît plus souvent que les autres - 6 fois.

Répartition des patients selon la durée de séjour dans un lit d'hôpital (en jours)

V
p

Il est parfois difficile de déterminer l’ampleur exacte d’un mode car les données étudiées peuvent contenir plusieurs observations « les plus courantes ».

La médiane (Me) est un indicateur non paramétrique qui divise la série de variations en deux moitiés égales : le même nombre de variantes est situé de part et d'autre de la médiane.

Par exemple, pour la distribution indiquée dans le tableau, la médiane est de 10, car des deux côtés de cette valeur, il y a 14 options, c'est-à-dire le chiffre 10 occupe une position centrale dans cette série et en est la médiane.

Étant donné que le nombre d'observations dans cet exemple est pair (n=34), la médiane peut être déterminée comme suit :

Moi = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Cela signifie que le milieu de la série tombe sur la dix-septième option, ce qui correspond à une médiane égale à 10. Pour la distribution présentée dans le tableau, la moyenne arithmétique est égale à :

M = ∑Vp/n = 334/34 = 10,1

Donc, pour 34 observations du tableau. 8, nous avons : Mo=10, Me=10, la moyenne arithmétique (M) est de 10,1. Dans notre exemple, les trois indicateurs se sont avérés égaux ou proches les uns des autres, bien qu'ils soient complètement différents.

La moyenne arithmétique est la somme résultante de toutes les influences ; toutes les options sans exception, y compris les extrêmes, souvent atypiques pour un phénomène ou une population donnée, participent à sa formation.

Le mode et la médiane, contrairement à la moyenne arithmétique, ne dépendent pas de la valeur de toutes les valeurs individuelles de la caractéristique variable (les valeurs des variantes extrêmes et le degré de dispersion de la série). La moyenne arithmétique caractérise l'ensemble de la masse des observations, le mode et la médiane caractérisent l'ensemble

Le concept d'une série de variations. La première étape de la systématisation du matériel d'observation statistique consiste à compter le nombre d'unités présentant une caractéristique particulière. En classant les unités par ordre croissant ou décroissant de leur caractéristique quantitative et en comptant le nombre d'unités avec une valeur spécifique de la caractéristique, on obtient une série de variations. Une série de variations caractérise la répartition des unités d'une certaine population statistique selon une caractéristique quantitative.

La série de variations se compose de deux colonnes, la colonne de gauche contient les valeurs de la caractéristique variable, appelées variantes et notées (x), et la colonne de droite contient des nombres absolus indiquant combien de fois chaque variante se produit. Les indicateurs de cette colonne sont appelés fréquences et sont désignés par (f).

Les séries de variations peuvent être présentées schématiquement sous la forme du tableau 5.1 :

Tableau 5.1

Type de série de variations

Options (x)

Fréquences (f)

Dans la colonne de droite, des indicateurs relatifs peuvent également être utilisés, caractérisant la part de la fréquence des options individuelles dans la somme totale des fréquences. Ces indicateurs relatifs sont appelés fréquences et sont classiquement notés , c'est-à-dire . La somme de toutes les fréquences est égale à un. Les fréquences peuvent également être exprimées en pourcentages, et leur somme sera alors égale à 100 %.

Des signes variables peuvent être de nature différente. Des variantes de certaines caractéristiques sont exprimées en nombres entiers, par exemple le nombre de pièces d'un appartement, le nombre de livres publiés, etc. Ces signes sont dits discontinus ou discrets. Des variantes d'autres caractéristiques peuvent prendre n'importe quelle valeur dans certaines limites, telles que l'accomplissement des tâches planifiées, les salaires, etc. Ces caractéristiques sont dites continues.

Série à variation discrète. Si les variantes d'une série de variations sont exprimées sous forme de quantités discrètes, alors une telle série de variations est dite discrète, son apparence est présentée dans le tableau ; 5.2 :

Tableau 5.2

Répartition des étudiants selon les notes aux examens

Notes (x)

Nombre d'étudiants (f)

En % du total ()

La nature de la distribution en séries discrètes est représentée graphiquement sous la forme d'un polygone de distribution, Fig. 5.1.

Riz. 5.1. Répartition des étudiants selon les notes obtenues à l'examen.

Série de variations d'intervalle. Pour les caractéristiques continues, les séries de variations sont construites sous forme d'intervalles, c'est-à-dire les valeurs de la caractéristique qu'ils contiennent sont exprimées sous forme d'intervalles « de et à ». Dans ce cas, la valeur minimale de la caractéristique dans un tel intervalle est appelée la limite inférieure de l'intervalle et la valeur maximale est appelée la limite supérieure de l'intervalle.

Les séries de variations d'intervalles sont construites à la fois pour des caractéristiques discontinues (discrètes) et pour celles variant sur une large plage. Les lignes d'intervalles peuvent comporter des intervalles égaux ou inégaux. Dans la pratique économique, la plupart des intervalles inégaux sont utilisés, augmentant ou diminuant progressivement. Ce besoin se pose particulièrement dans les cas où la fluctuation d'une caractéristique se produit de manière inégale et dans de larges limites.

Considérons le type de série d'intervalles à intervalles égaux, tableau. 5.3 :

Tableau 5.3

Répartition des travailleurs par production

Sortie, t.r. (X)

Nombre de travailleurs (f)

Fréquence cumulée (f´)

La série de distributions d'intervalles est représentée graphiquement sous forme d'histogramme, Fig. 5.2.

Figure 5.2. Répartition des travailleurs par production

Fréquence accumulée (cumulative). En pratique, il faut transformer les séries de distribution en séries cumulées, construit en fonction des fréquences accumulées. Avec leur aide, vous pouvez déterminer des moyennes structurelles qui facilitent l'analyse des données des séries de distribution.

Les fréquences cumulées sont déterminées en ajoutant séquentiellement aux fréquences (ou fréquences) du premier groupe ces indicateurs des groupes suivants de la série de distribution. Les cumuls et les ogives sont utilisés pour illustrer les séries de distribution. Pour les construire, les valeurs de la caractéristique discrète (ou les extrémités des intervalles) sont marquées sur l'axe des abscisses, et les totaux cumulés des fréquences (cumules) sont marqués sur l'axe des ordonnées, Fig. 5.3.

Riz. 5.3. Répartition cumulée des travailleurs par production

Si les échelles de fréquences et d’options sont inversées, c’est à dire l'axe des abscisses reflète les fréquences accumulées, et l'axe des ordonnées montre les valeurs des variantes, alors la courbe caractérisant l'évolution des fréquences de groupe en groupe sera appelée l'ogive de distribution, Fig. 5.4.

Riz. 5.4. Ogiva de répartition des travailleurs par production

Les séries de variations à intervalles égaux constituent l’une des exigences les plus importantes des séries de distribution statistique, garantissant leur comparabilité dans le temps et dans l’espace.

Densité de distribution. Cependant, les fréquences des intervalles inégaux individuels dans les séries nommées ne sont pas directement comparables. Dans de tels cas, pour assurer la comparabilité nécessaire, la densité de distribution est calculée, c'est-à-dire déterminer combien d’unités dans chaque groupe correspondent à une unité de valeur d’intervalle.

Lors de la construction d'un graphique de la distribution d'une série de variations à intervalles inégaux, la hauteur des rectangles est déterminée proportionnellement non pas aux fréquences, mais aux indicateurs de densité de la distribution des valeurs de la caractéristique étudiée dans le correspondant intervalles.

L'élaboration d'une série de variations et sa représentation graphique constituent la première étape du traitement des données initiales et la première étape de l'analyse de la population étudiée. La prochaine étape de l'analyse des séries de variations consiste à déterminer les principaux indicateurs généraux, appelés caractéristiques de la série. Ces caractéristiques devraient donner une idée de la valeur moyenne de la caractéristique parmi les unités de population.

valeur moyenne. La valeur moyenne est une caractéristique généralisée de la caractéristique étudiée dans la population étudiée, reflétant son niveau typique par unité de population dans des conditions de lieu et de temps spécifiques.

La valeur moyenne est toujours nommée et a la même dimension que les caractéristiques des unités individuelles de la population.

Avant de calculer des valeurs moyennes, il est nécessaire de regrouper les unités de la population étudiée, en identifiant des groupes qualitativement homogènes.

La moyenne calculée pour l'ensemble de la population est appelée moyenne globale, et pour chaque groupe - moyennes de groupe.

Il existe deux types de moyennes : la puissance (moyenne arithmétique, moyenne harmonique, moyenne géométrique, moyenne quadratique) ; structurel (mode, médiane, quartiles, déciles).

Le choix de la moyenne pour le calcul dépend du but recherché.

Types de moyennes de puissance et méthodes pour leur calcul. Dans la pratique du traitement statistique du matériel collecté, divers problèmes se posent, dont la solution nécessite des moyennes différentes.

Les statistiques mathématiques dérivent diverses moyennes à partir de formules de moyenne de puissance :

où est la valeur moyenne ; x – options individuelles (valeurs des fonctionnalités) ; z – exposant (avec z = 1 – moyenne arithmétique, z = 0 moyenne géométrique, z = - 1 – moyenne harmonique, z = 2 – moyenne carrée).

Cependant, la question du type de moyenne à appliquer dans chaque cas individuel est résolue par une analyse spécifique de la population étudiée.

Le type de moyenne le plus courant en statistiques est moyenne arithmétique. Il est calculé dans les cas où le volume de la caractéristique moyennée est formé comme la somme de ses valeurs pour les unités individuelles de la population statistique étudiée.

Selon la nature des données sources, la moyenne arithmétique est déterminée de différentes manières :

Si les données ne sont pas regroupées, le calcul est effectué à l'aide de la formule de moyenne simple

Calcul de la moyenne arithmétique dans une série discrète se produit selon la formule 3.4.

Calcul de la moyenne arithmétique dans une série d'intervalles. Dans une série de variations d'intervalles, où la valeur d'une caractéristique dans chaque groupe est classiquement considérée comme étant le milieu de l'intervalle, la moyenne arithmétique peut différer de la moyenne calculée à partir de données non groupées. De plus, plus l'intervalle dans les groupes est grand, plus les écarts possibles entre la moyenne calculée à partir de données groupées et la moyenne calculée à partir de données non groupées sont importants.

Lors du calcul de la moyenne sur une série de variations d'intervalles, pour effectuer les calculs nécessaires, on se déplace des intervalles jusqu'à leurs points médians. Et puis la moyenne est calculée à l’aide de la formule de moyenne arithmétique pondérée.

Propriétés de la moyenne arithmétique. La moyenne arithmétique possède certaines propriétés qui permettent de simplifier les calculs ;

1. La moyenne arithmétique des nombres constants est égale à ce nombre constant.

Si x = a. Alors .

2. Si les poids de toutes les options sont modifiés proportionnellement, c'est-à-dire augmente ou diminue du même nombre de fois, alors la moyenne arithmétique de la nouvelle série ne changera pas.

Si tous les poids f sont réduits de k fois, alors .

3. La somme des écarts positifs et négatifs des options individuelles par rapport à la moyenne, multipliée par les poids, est égale à zéro, c'est-à-dire

Si donc. D'ici.

Si toutes les options sont réduites ou augmentées d’un nombre quelconque, la moyenne arithmétique de la nouvelle série diminuera ou augmentera du même montant.

Réduisons toutes les options X sur un, c'est à dire. X´ = Xun.

Alors

La moyenne arithmétique de la série originale peut être obtenue en ajoutant à la moyenne réduite le nombre précédemment soustrait aux options un, c'est à dire. .

5. Si toutes les options sont réduites ou augmentées k fois, alors la moyenne arithmétique de la nouvelle série diminuera ou augmentera du même montant, c'est-à-dire V k une fois.

Qu'il en soit alors .

Par conséquent, c'est-à-dire pour obtenir la moyenne de la série originale, il faut augmenter la moyenne arithmétique de la nouvelle série (avec options réduites) de k une fois.

Moyenne harmonique. La moyenne harmonique est l’inverse de la moyenne arithmétique. Il est utilisé lorsque les informations statistiques ne contiennent pas de fréquences pour des variantes individuelles de la population, mais sont présentées comme leur produit (M = xf). La moyenne harmonique sera calculée à l'aide de la formule 3.5

L'application pratique de la moyenne harmonique est le calcul de certains indices, notamment l'indice des prix.

Moyenne géométrique. Lors de l'utilisation de la moyenne géométrique, les valeurs individuelles d'une caractéristique sont, en règle générale, des valeurs relatives de dynamique, construites sous la forme de valeurs en chaîne, en tant que rapport au niveau précédent de chaque niveau d'une série de dynamiques. La moyenne caractérise ainsi le taux de croissance moyen.

La valeur moyenne géométrique est également utilisée pour déterminer la valeur équidistante des valeurs maximale et minimale de la caractéristique. Par exemple, une compagnie d'assurance conclut des contrats pour la fourniture de services d'assurance automobile. Selon l'événement assuré spécifique, le paiement de l'assurance peut varier de 10 000 à 100 000 dollars par an. Le montant moyen des paiements d'assurance sera de USD.

La moyenne géométrique est une quantité utilisée comme moyenne de rapports ou dans des séries de distribution présentées sous la forme d'une progression géométrique lorsque z = 0. Cette moyenne est pratique à utiliser lorsqu'on prête attention non pas aux différences absolues, mais aux rapports de deux Nombres.

Les formules de calcul sont les suivantes

où sont les variantes de la caractéristique moyennées ; – produit d'options; F– fréquence des options.

La moyenne géométrique est utilisée dans les calculs des taux de croissance annuels moyens.

Carré moyen. La formule du carré moyen est utilisée pour mesurer le degré de fluctuation des valeurs individuelles d'une caractéristique autour de la moyenne arithmétique dans la série de distribution. Ainsi, lors du calcul des indicateurs de variation, la moyenne est calculée à partir des carrés des écarts des valeurs individuelles d'une caractéristique par rapport à la moyenne arithmétique.

La valeur quadratique moyenne est calculée à l'aide de la formule

En recherche économique, le carré moyen modifié est largement utilisé pour calculer des indicateurs de variation d'une caractéristique, tels que la dispersion et l'écart type.

Règle de la majorité. Il existe la relation suivante entre les moyennes de puissance - plus l'exposant est grand, plus la valeur de la moyenne est grande, tableau 5.4 :

Tableau 5.4

Relation entre les moyennes

valeur z

Relation entre les moyennes

Cette relation est appelée règle de majorité.

Moyennes structurelles. Pour caractériser la structure de la population, des indicateurs spéciaux sont utilisés, que l'on peut appeler moyennes structurelles. Ces indicateurs comprennent le mode, la médiane, les quartiles et les déciles.

Mode. Le mode (Mo) est la valeur d'une caractéristique la plus fréquente parmi les unités de population. Le mode est la valeur de l'attribut qui correspond au point maximum de la courbe de distribution théorique.

La mode est largement utilisée dans la pratique commerciale pour étudier la demande des consommateurs (lors de la détermination des tailles de vêtements et de chaussures très demandés) et pour enregistrer les prix. Il peut y avoir plusieurs mods au total.

Calcul de mode dans une série discrète. Dans une série discrète, le mode est la variante ayant la fréquence la plus élevée. Considérons trouver un mode dans une série discrète.

Calcul du mode dans une série d'intervalles. Dans une série de variations d'intervalle, le mode est approximativement considéré comme la variante centrale de l'intervalle modal, c'est-à-dire l'intervalle qui a la fréquence (fréquence) la plus élevée. Dans l'intervalle, vous devez trouver la valeur de l'attribut qui est le mode. Pour une série d'intervalles, le mode sera déterminé par la formule

où est la limite inférieure de l'intervalle modal ; – la valeur de l'intervalle modal ; – fréquence correspondant à l'intervalle modal ; – fréquence précédant l'intervalle modal; – fréquence de l'intervalle suivant celui modal.

Médian. Median () est la valeur de l'attribut de l'unité médiane de la série classée. Une série classée est une série dans laquelle les valeurs d'attribut sont écrites par ordre croissant ou décroissant. Ou la médiane est une valeur qui divise le nombre d'une série de variations ordonnées en deux parties égales : une partie a une valeur de la caractéristique variable inférieure à l'option moyenne et l'autre a une valeur supérieure.

Pour trouver la médiane, déterminez d’abord son numéro ordinal. Pour ce faire, si le nombre d'unités est impair, on ajoute un à la somme de toutes les fréquences et le tout est divisé par deux. Avec un nombre pair d'unités, la médiane est la valeur de l'attribut d'une unité dont le numéro de série est déterminé par la somme totale des fréquences divisée par deux. Connaissant le numéro d'ordre de la médiane, il est facile de retrouver sa valeur grâce aux fréquences cumulées.

Calcul de la médiane dans une série discrète. Selon l'enquête par sondage, des données sur la répartition des familles par nombre d'enfants ont été obtenues, tableau. 5.5. Pour déterminer la médiane, on détermine d'abord son numéro ordinal

Dans ces familles le nombre d'enfants est égal à 2, donc = 2. Ainsi, dans 50% des familles le nombre d'enfants ne dépasse pas 2.

– fréquence cumulée précédant l'intervalle médian ;

D’une part, c’est une propriété très positive car dans ce cas, l'effet de toutes les causes affectant toutes les unités de la population étudiée est pris en compte. En revanche, même une observation incluse par hasard dans les données sources peut fausser considérablement l'idée du niveau de développement du trait étudié dans la population considérée (surtout dans les séries courtes).

Quartiles et déciles. Par analogie avec la recherche de la médiane dans les séries de variations, vous pouvez trouver la valeur d'une caractéristique pour n'importe quelle unité de la série classée. Ainsi, on peut notamment retrouver la valeur de l'attribut pour les unités divisant une série en 4 parties égales, en 10, etc.

Quartiles. Les options qui divisent la série classée en quatre parties égales sont appelées quartiles.

Dans ce cas, ils distinguent : le quartile inférieur (ou premier) (Q1) - la valeur de l'attribut pour une unité de la série classée, divisant la population dans un rapport de ¼ à ¾ et le quartile supérieur (ou troisième) ( Q3) - la valeur de l'attribut pour l'unité de la série classée, divisant la population dans un rapport de ¾ à ¼.

– fréquences des intervalles quartiles (inférieur et supérieur)

Les intervalles contenant Q1 et Q3 sont déterminés par les fréquences (ou fréquences) accumulées.

Déciles. En plus des quartiles, des déciles sont calculés - des options qui divisent la série classée en 10 parties égales.

Ils sont désignés par D, le premier décile D1 divise la série dans le rapport 1/10 et 9/10, le deuxième D2 - 2/10 et 8/10, etc. Elles sont calculées selon le même schéma que la médiane et les quartiles.

La médiane, les quartiles et les déciles appartiennent à ce que l'on appelle les statistiques ordinales, qui sont comprises comme une option qui occupe une certaine place ordinale dans la série classée.



Avez-vous aimé l'article? Partage avec tes amis!