Comment construire une série de variations. Synthèse statistique et regroupement

Travail de laboratoire n°1. Traitement primaire des données statistiques

Construction de séries de distribution

La répartition ordonnée des unités de population en groupes selon une caractéristique quelconque est appelée proche de la distribution . Dans ce cas, la caractéristique peut être soit quantitative, alors la série est appelée variationnel , et qualitative, alors la série s'appelle attributif . Ainsi, par exemple, la population d'une ville peut être répartie par tranches d'âge dans une série de variations, ou par affiliation professionnelle dans une série d'attributs (bien entendu, de nombreuses autres caractéristiques qualitatives et quantitatives peuvent être proposées pour construire des séries de répartition ; le choix de la caractéristique est déterminée par la tâche de recherche statistique).

Toute série de distribution est caractérisée par deux éléments :

- option(x je) – ce sont des valeurs individuelles des caractéristiques des unités de la population échantillon. Pour la série variable, l'option prend des valeurs numériques, pour la série attributive – qualitative (par exemple, x = « fonctionnaire ») ;

- fréquence(n je) – un nombre indiquant combien de fois une valeur d’attribut particulière apparaît. Si la fréquence est exprimée en nombre relatif (c'est-à-dire la proportion d'éléments de la population correspondant à une valeur donnée des options dans le volume total de la population), alors elle est appelée fréquence relative ou fréquence.

La série de variations peut être :

- discret, lorsque la caractéristique étudiée est caractérisée par un certain nombre (généralement un nombre entier).

- intervalle, lorsque les limites « de » et « à » sont définies pour une caractéristique variant continuellement. Une série d'intervalles est également construite si l'ensemble des valeurs d'une caractéristique discrètement variée est grand.

Une série d'intervalles peut être construite à la fois avec des intervalles de longueur égale (série à intervalles égaux) et avec des intervalles inégaux, si cela est dicté par les conditions de l'étude statistique. Par exemple, une série de distributions de revenus avec les intervalles suivants peut être envisagée :<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



où k est le nombre d'intervalles, n est la taille de l'échantillon. (Bien sûr, la formule donne généralement un nombre fractionnaire, et l'entier le plus proche du nombre résultant est choisi comme nombre d'intervalles.) La longueur de l'intervalle dans ce cas est déterminée par la formule

.

Graphiquement, les séries de variations peuvent être présentées sous la forme histogrammes(au-dessus de chaque intervalle de la série d'intervalles est construite une « colonne » de hauteur correspondant à la fréquence dans cet intervalle), polygone de distribution(ligne brisée reliant les points ( x je;n je) ou cumule(construit sur des fréquences accumulées, c'est-à-dire pour chaque valeur d'attribut, la fréquence d'apparition dans un ensemble d'objets avec une valeur d'attribut inférieure à celle donnée est prise).

Lorsque vous travaillez dans Excel, les fonctions suivantes peuvent être utilisées pour construire des séries de variations :

VÉRIFIER( tableau de données) – pour déterminer la taille de l’échantillon. L'argument est la plage de cellules dans laquelle résident les exemples de données.

COUNTIF( gamme; critère) – peut être utilisé pour construire un attribut ou une série variationnelle. Les arguments sont la plage du tableau d'échantillons de valeurs de l'attribut et le critère - la valeur numérique ou textuelle de l'attribut ou le numéro de la cellule dans laquelle il se trouve. Le résultat est la fréquence d’apparition de cette valeur dans l’échantillon.

FRÉQUENCE( tableau de données ; tableau d'intervalles) – pour construire une série de variations. Les arguments sont la plage de l'exemple de tableau de données et la colonne d'intervalle. Si vous devez construire une série discrète, alors les valeurs des options sont indiquées ici ; s'il s'agit d'une série d'intervalles, alors les limites supérieures des intervalles (elles sont également appelées « poches »). Puisque le résultat est une colonne de fréquences, vous devez compléter la saisie de la fonction en appuyant sur CTRL+SHIFT+ENTER. Notez que lorsque vous spécifiez un tableau d'intervalles lors de l'introduction d'une fonction, vous n'avez pas besoin de spécifier la dernière valeur - toutes les valeurs qui n'étaient pas incluses dans les "poches" précédentes seront placées dans la "poche" correspondante. Cela peut parfois aider à éviter l’erreur de ne pas placer automatiquement la plus grande valeur d’échantillon dans la dernière poche.

De plus, pour les regroupements complexes (basés sur plusieurs caractéristiques), utilisez l’outil « tableaux croisés dynamiques ». Ils peuvent également être utilisés pour construire des séries d’attributs et de variations, mais cela complique inutilement la tâche. De plus, pour construire une série de variations et un histogramme, il existe une procédure « histogramme » du complément « Analysis Package » (pour utiliser les compléments dans Excel, vous devez d'abord les télécharger ; ils ne sont pas installés par défaut)

Illustrons le processus de traitement des données primaires avec les exemples suivants.

Exemple 1.1. Il existe des données sur la composition quantitative de 60 familles.

Construire une série de variations et un polygone de distribution

Solution.

Ouvrons les tableaux Excel. Entrons le tableau de données dans la plage A1:L5. Si vous étudiez un document sous forme électronique (au format Word par exemple), pour ce faire, sélectionnez simplement le tableau contenant les données et copiez-le dans le presse-papiers, puis sélectionnez la cellule A1 et collez les données - elles occuperont automatiquement la plage appropriée. Calculons la taille de l'échantillon n - le nombre d'échantillons de données ; pour ce faire, entrez la formule =COUNT(A1:L5) dans la cellule B7. A noter que pour saisir la plage souhaitée dans la formule, il n'est pas nécessaire de saisir sa désignation depuis le clavier il suffit de la sélectionner ; Déterminons les valeurs minimales et maximales de l'échantillon en entrant la formule =MIN(A1:L5) dans la cellule B8 et dans la cellule B9 : =MAX(A1:L5).

Fig.1.1 Exemple 1. Traitement primaire des données statistiques dans des tableaux Excel

Ensuite, nous préparerons un tableau pour construire une série de variations en saisissant les noms de la colonne d'intervalle (valeurs des variantes) et de la colonne de fréquence. Dans la colonne intervalle, saisissez les valeurs caractéristiques du minimum (1) au maximum (6), occupant la plage B12:B17. Sélectionnez la colonne de fréquence, entrez la formule =FREQUENCY(A1:L5,B12:B17) et appuyez sur la combinaison de touches CTRL+SHIFT+ENTER

Fig. 1.2 Exemple 1. Construction d'une série de variations

Pour contrôler, calculons la somme des fréquences à l'aide de la fonction SOMME (icône de fonction S dans le groupe « Édition » de l'onglet « Accueil »), la somme calculée doit coïncider avec le volume d'échantillon précédemment calculé dans la cellule B7.

Construisons maintenant un polygone : après avoir sélectionné la plage de fréquences résultante, sélectionnez la commande « Graphique » dans l'onglet « Insérer ». Par défaut, les valeurs sur l'axe horizontal seront des nombres ordinaux - dans notre cas de 1 à 6, ce qui coïncide avec les valeurs des options (nombres de catégories tarifaires).

Le nom de la série de graphiques « série 1 » peut être soit modifié en utilisant la même option « sélectionner les données » de l'onglet « Conception », soit simplement supprimé.

Fig.1.3. Exemple 1. Construction d'un polygone de fréquence

Exemple 1.2. Il existe des données sur les émissions de polluants provenant de 50 sources :

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Composez une série à intervalles égaux, construisez un histogramme

Solution

Entrons le tableau de données dans une feuille Excel, il occupera la plage A1:J5 Comme dans la tâche précédente, nous déterminerons la taille de l'échantillon n, les valeurs minimales et maximales de l'échantillon. Puisque maintenant nous n'avons pas besoin d'une série discrète, mais d'une série d'intervalles et que le nombre d'intervalles dans le problème n'est pas spécifié, nous calculons le nombre d'intervalles k à l'aide de la formule de Sturgess. Pour ce faire, entrez la formule =1+3,322*LOG10(B7) dans la cellule B10.

Figure 1.4. Exemple 2. Construction d'une série à intervalles égaux

La valeur résultante n’est pas un nombre entier, elle est d’environ 6,64. Puisque avec k=7 la longueur des intervalles sera exprimée sous forme d'entier (contrairement au cas de k=6), on choisit k=7 en saisissant cette valeur dans la cellule C10. Nous calculons la longueur de l'intervalle d dans la cellule B11 en entrant la formule =(B9-B8)/C10.

Définissons un tableau d'intervalles, indiquant la limite supérieure pour chacun des 7 intervalles. Pour ce faire, dans la cellule E8, nous calculons la limite supérieure du premier intervalle en entrant la formule =B8+B11 ; dans la cellule E9, la limite supérieure du deuxième intervalle en entrant la formule =E8+B11. Pour calculer les valeurs restantes des limites supérieures des intervalles, nous fixons le numéro de cellule B11 dans la formule saisie à l'aide du signe $, de sorte que la formule dans la cellule E9 prenne la forme =E8+B$11, et copions le contenu de la cellule E9 vers les cellules E10-E14. La dernière valeur obtenue est égale à la valeur maximale de l'échantillon calculée précédemment dans la cellule B9.

Figure 1.5. Exemple 2. Construction d'une série à intervalles égaux


Remplissons maintenant le tableau de « poches » à l'aide de la fonction FREQUENCY, comme cela a été fait dans l'exemple 1.

Figure 1.6. Exemple 2. Construction d'une série à intervalles égaux

En utilisant la série de variations résultante, nous allons construire un histogramme : sélectionnez la colonne de fréquence et sélectionnez « Histogramme » dans l'onglet « Insertion ». Après avoir reçu l'histogramme, modifions les étiquettes de l'axe horizontal en valeurs comprises dans la plage d'intervalles ; pour ce faire, sélectionnez l'option "Sélectionner les données" de l'onglet "Concepteur". Dans la fenêtre qui apparaît, sélectionnez la commande « Modifier » pour la section « Étiquettes des axes horizontaux » et saisissez la plage de valeurs des options en la sélectionnant avec la souris.

Figure 1.7. Exemple 2. Construction d'un histogramme

Figure 1.8. Exemple 2. Construction d'un histogramme

Une série de variations discrètes est construite pour des caractéristiques discrètes.

Afin de construire une série de variations discrètes, vous devez effectuer les étapes suivantes : 1) classer les unités d'observation par ordre croissant de la valeur étudiée de la caractéristique,

2) déterminer toutes les valeurs possibles de l'attribut x i , les classer par ordre croissant,

la valeur de l'attribut, je .

fréquence de la valeur de l'attribut et désigne f je . La somme de toutes les fréquences d’une série est égale au nombre d’éléments de la population étudiée.

Exemple 1 .

Liste des notes obtenues par les étudiants aux examens : 3 ; 4 ; 3 ; 5 ; 4 ; 2 ; 2 ; 4 ; 4 ; 3 ; 5 ; 2 ; 4 ; 5 ; 4 ; 3 ; 4 ; 3 ; 3 ; 4 ; 4 ; 2 ; 2 ; 5 ; 5 ; 4 ; 5 ; 2 ; 3 ; 4 ; 4 ; 3 ; 4 ; 5 ; 2 ; 5 ; 5 ; 4 ; 3 ; 3 ; 4 ; 2 ; 4 ; 4 ; 5 ; 4 ; 3 ; 5 ; 3 ; 5 ; 4 ; 4 ; 5 ; 4 ; 4 ; 5 ; 4 ; 5 ; 5 ; 5.

Voici le numéro X - gradeest une variable aléatoire discrète, et la liste d'estimations résultante estdonnées statistiques (observables) .

    classer les unités d'observation par ordre croissant de la valeur caractéristique étudiée :

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) déterminer toutes les valeurs possibles de la caractéristique x i, les classer par ordre croissant :

Dans cet exemple, toutes les estimations peuvent être divisées en quatre groupes avec les valeurs suivantes : 2 ; 3 ; 4 ; 5.

La valeur d'une variable aléatoire correspondant à un groupe particulier de données observées est appelée la valeur de l'attribut, option (option) et désigner x je .

Un nombre qui montre combien de fois la valeur correspondante d'une caractéristique apparaît dans un certain nombre d'observations est appelé fréquence de la valeur de l'attribut et désigne f je .

Pour notre exemple

le score 2 se produit - 8 fois,

le score 3 apparaît - 12 fois,

le score 4 apparaît - 23 fois,

le score 5 se produit - 17 fois.

Il y a 60 notes au total.

4) écrire les données reçues dans un tableau de deux lignes (colonnes) - x i et f i.

Sur la base de ces données, il est possible de construire une série de variations discrètes

Série à variation discrète – il s'agit d'un tableau dans lequel les valeurs apparaissant de la caractéristique étudiée sont indiquées sous forme de valeurs individuelles par ordre croissant et leurs fréquences

  1. Construction d'une série de variations d'intervalles

En plus des séries variationnelles discrètes, on rencontre souvent une méthode de regroupement de données telle qu'une série variationnelle par intervalles.

Une série d'intervalles est construite si :

    le signe a un caractère continu de changement ;

    Il y avait beaucoup de valeurs discrètes (plus de 10)

    les fréquences des valeurs discrètes sont très petites (ne dépassent pas 1-3 avec un nombre relativement grand d'unités d'observation) ;

    de nombreuses valeurs discrètes d'une caractéristique avec les mêmes fréquences.

Une série de variations d'intervalles est un moyen de regrouper des données sous la forme d'un tableau comportant deux colonnes (les valeurs de la caractéristique sous la forme d'un intervalle de valeurs et la fréquence de chaque intervalle).

Contrairement à une série discrète, les valeurs de la caractéristique d'une série d'intervalles ne sont pas représentées par des valeurs individuelles, mais par un intervalle de valeurs (« de - à »).

Le nombre qui montre combien d'unités d'observation sont tombées dans chaque intervalle sélectionné est appelé fréquence de la valeur de l'attribut et désigne f je . La somme de toutes les fréquences d'une série est égale au nombre d'éléments (unités d'observation) dans la population étudiée.

Si une unité a une valeur caractéristique égale à la limite supérieure de l'intervalle, elle doit alors être affectée à l'intervalle suivant.

Par exemple, un enfant mesurant 100 cm tombera dans le 2ème intervalle, et non dans le premier ; et un enfant mesurant 130 cm tombera dans le dernier intervalle, et non dans le troisième.

Sur la base de ces données, une série de variations d'intervalles peut être construite.

Chaque intervalle a une limite inférieure (xn), une limite supérieure (xw) et une largeur d'intervalle ( je).

La limite d'intervalle est la valeur de l'attribut qui se trouve à la frontière de deux intervalles.

taille des enfants (cm)

taille des enfants (cm)

nombre d'enfants

plus de 130

Si un intervalle a une limite supérieure et inférieure, alors il est appelé intervalle fermé. Si un intervalle n'a qu'une limite inférieure ou supérieure, alors c'est - intervalle ouvert. Seul le tout premier ou le tout dernier intervalle peut être ouvert. Dans l'exemple ci-dessus, le dernier intervalle est ouvert.

Largeur d'intervalle (je) – la différence entre les limites supérieure et inférieure.

je = x n - x dans

La largeur d’un intervalle ouvert est supposée être la même que la largeur de l’intervalle fermé adjacent.

taille des enfants (cm)

nombre d'enfants

Largeur d'intervalle (i)

pour les calculs 130+20=150

20 (car la largeur de l'intervalle fermé adjacent est de 20)

Toutes les séries d'intervalles sont divisées en séries d'intervalles à intervalles égaux et en séries d'intervalles à intervalles inégaux. . Dans les lignes espacées à intervalles égaux, la largeur de tous les intervalles est la même. Dans les séries d'intervalles à intervalles inégaux, la largeur des intervalles est différente.

Dans l'exemple considéré, une série d'intervalles avec des intervalles inégaux.

Condition:

Il existe des données sur la composition par âge des travailleurs (années) : 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construisez une série de distributions d’intervalles.
    2. Construire une représentation graphique de la série.
    3. Déterminez graphiquement le mode et la médiane.

Solution:

1) Selon la formule de Sturgess, la population doit être divisée en 1 + 3,322 lg 30 = 6 groupes.

Âge maximum - 38 ans, minimum - 18 ans.

Largeur de l'intervalle Puisque les extrémités des intervalles doivent être des nombres entiers, nous divisons la population en 5 groupes. Largeur d'intervalle - 4.

Pour faciliter les calculs, nous organiserons les données par ordre croissant : 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Répartition par âge des travailleurs

Graphiquement, une série peut être représentée sous forme d'histogramme ou de polygone. Histogramme - graphique à barres. La base de la colonne est la largeur de l'intervalle. La hauteur de la colonne est égale à la fréquence.

Polygone (ou polygone de distribution) - graphique de fréquence. Pour le construire à l'aide d'un histogramme, nous connectons les milieux des côtés supérieurs des rectangles. Nous fermons le polygone sur l'axe Ox à des distances égales à la moitié de l'intervalle des valeurs extrêmes de x.

Le mode (Mo) est la valeur de la caractéristique étudiée, qui apparaît le plus fréquemment dans une population donnée.

Pour déterminer le mode à partir d'un histogramme, vous devez sélectionner le rectangle le plus haut, tracer une ligne du sommet droit de ce rectangle au coin supérieur droit du rectangle précédent, et depuis le sommet gauche du rectangle modal tracer une ligne jusqu'au sommet gauche du rectangle suivant. À partir de l’intersection de ces lignes, tracez une perpendiculaire à l’axe des x. L'abscisse sera la mode. Mo ≈ 27,5. Cela signifie que l’âge le plus courant dans cette population est de 27 à 28 ans.

La médiane (Me) est la valeur de la caractéristique étudiée, qui se situe au milieu de la série de variations ordonnées.

On trouve la médiane à l'aide du cumulat. Cumule - un graphique des fréquences accumulées. Les abscisses sont des variantes d'une série. Les ordonnées sont des fréquences accumulées.

Pour déterminer la médiane sur le cumulat, on trouve un point le long de l'axe des ordonnées correspondant à 50% des fréquences cumulées (dans notre cas, 15), on trace une droite qui le traverse, parallèle à l'axe Ox, et à partir du point de son intersection avec le cumulat, tracez une perpendiculaire à l'axe des x. L'abscisse est la médiane. Moi ≈ 25,9. Cela signifie que la moitié des travailleurs de cette population ont moins de 26 ans.

2. Le concept de série de distribution. Séries de distribution discrète et par intervalles

Lignes de distribution sont appelés groupements d'un type particulier dans lesquels pour chaque caractéristique, groupe de caractéristiques ou classe de caractéristiques, le nombre d'unités du groupe ou la proportion de ce nombre dans le total est connu. Ceux. série de distribution– un ensemble ordonné de valeurs d'attribut, classées par ordre croissant ou décroissant avec leurs pondérations correspondantes. Les séries de distribution peuvent être construites soit par des caractéristiques quantitatives, soit par des caractéristiques d'attribut.

Les séries de distribution construites sur une base quantitative sont appelées séries de variation. Ils arrivent discret et intervalle. Une série de distribution peut être construite sur la base d'une caractéristique variant continuellement (lorsque la caractéristique peut prendre n'importe quelle valeur dans n'importe quel intervalle) et sur une caractéristique variant discrètement (elle prend des valeurs entières strictement définies).

Discret Une série de variations d'une distribution est un ensemble classé d'options avec leurs fréquences ou particularités correspondantes. Les variantes d'une série discrète sont des valeurs discrètement changeantes d'une caractéristique, généralement le résultat d'un décompte.

Discret

Les séries de variations sont généralement construites si les valeurs de la caractéristique étudiée peuvent différer les unes des autres d'au moins un certain montant fini. Dans les séries discrètes, les valeurs ponctuelles d'une caractéristique sont spécifiées. Exemple : Répartition des costumes pour hommes vendus par les magasins par mois par taille.

Intervalle

Une série de variations est un ensemble ordonné d'intervalles de variation des valeurs d'une variable aléatoire avec les fréquences ou fréquences correspondantes des valeurs de la variable tombant dans chacune d'elles. Les séries d'intervalles sont conçues pour analyser la distribution d'une caractéristique en constante évolution, dont la valeur est le plus souvent enregistrée par mesure ou pesée. Les variantes d'une telle série sont des groupements.

Exemple : Répartition des achats dans une épicerie par montant.

Si dans les séries à variations discrètes, la réponse en fréquence se rapporte directement à une variante de la série, alors dans les séries à intervalles, elle fait référence à un groupe de variantes.

Il est pratique d'analyser les séries de distribution à l'aide de leur représentation graphique, ce qui permet de juger de la forme de la distribution et des modèles. Une série discrète est représentée sur un graphique sous la forme d'une ligne brisée - polygone de distribution. Pour le construire, dans un système de coordonnées rectangulaires, les valeurs classées (ordonnées) de la caractéristique variable sont tracées le long de l'axe des x sur la même échelle, et une échelle pour exprimer les fréquences est tracée le long de l'axe des ordonnées.

Les séries d'intervalles sont représentées par histogrammes de distribution(c'est-à-dire des graphiques à barres).

Lors de la construction d'un histogramme, les valeurs des intervalles sont tracées sur l'axe des abscisses et les fréquences sont représentées par des rectangles construits sur les intervalles correspondants. La hauteur des colonnes, en cas d'intervalles égaux, doit être proportionnelle aux fréquences.

N'importe quel histogramme peut être converti en polygone de distribution ; pour ce faire, il faut relier les sommets de ses rectangles par des segments droits.

2. Méthode d'indexation pour analyser l'influence de la production moyenne et de l'effectif moyen sur l'évolution du volume de production

Méthode d'indexation utilisé pour analyser la dynamique et comparer les indicateurs généraux, ainsi que les facteurs influençant l'évolution des niveaux de ces indicateurs. À l'aide d'indices, il est possible d'identifier l'influence de la production moyenne et de l'effectif moyen sur l'évolution du volume de production. Ce problème est résolu en construisant un système d'indices analytiques.

L'indice du volume de production est lié à l'indice du nombre moyen d'employés et l'indice de production moyenne de la même manière que le volume de production (Q) est lié à la production ( w) et des chiffres ( r) .

On peut conclure que le volume de production sera égal au produit de la production moyenne par l'effectif moyen :

Q = w r, où Q est le volume de production,

w - rendement moyen,

r – nombre moyen d'employés.

Comme vous pouvez le constater, nous parlons de la relation des phénomènes en statique : le produit de deux facteurs donne le volume total du phénomène résultant. Il est également évident que cette connexion est fonctionnelle ; c'est pourquoi la dynamique de cette connexion est étudiée à l'aide d'indices. Pour l'exemple donné, il s'agit du système suivant :

Jw × Jr = Jwr.

Par exemple, l'indice de volume de production Jwr, en tant qu'indice d'un phénomène productif, peut être décomposé en deux indices factoriels : l'indice de production moyenne (Jw) et l'indice d'effectif moyen (Jr) :

Indice Indice Indice

volume de la masse salariale moyenne

numéro de production

J. w- indice de productivité du travail calculé selon la formule de Laspeyres ;

Jr.- indice du nombre d'employés, calculé selon la formule Paasche.

Les systèmes d'indices permettent de déterminer l'influence de facteurs individuels sur la formation du niveau d'un indicateur de performance ; ils permettent de déterminer la valeur d'une inconnue à partir de 2 valeurs d'indice connues.

Sur la base du système d'indices ci-dessus, on peut également trouver l'augmentation absolue du volume de production, décomposée en influence de facteurs.

1. Augmentation générale du volume de production :

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Augmentation due à l'action de l'indicateur de production moyenne :

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Augmentation due à l'action de l'indicateur d'effectif moyen :

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Exemple. Les données suivantes sont connues

Nous pouvons déterminer comment le volume de production a changé en termes relatifs et absolus et comment des facteurs individuels ont influencé ce changement.

Le volume de production était de :

dans la période de base

w 0 * r 0 = 2000 * 90 = 180 000,

et dans les rapports

w 1 * r 1 = 2100 * 100 = 210 000.

Par conséquent, le volume de production a augmenté de 30 000 ou 1,16 %.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

ou (210 000 : 180 000)*100 %=1,16 %.

Cette évolution du volume de production est due à :

1) une augmentation de l'effectif moyen de 10 personnes soit 111,1%

r 1 / r 0 = 100 / 90 = 1,11 ou 111,1 %.

En termes absolus, grâce à ce facteur, le volume de production a augmenté de 20 000 :

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) une augmentation de la production moyenne de 105 % ou 10 000 :

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 ou 105 %.

En termes absolus, l'augmentation est de :

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Ainsi, l’influence combinée des facteurs était la suivante :

1. En termes absolus

10000 + 20000 = 30000

2. En termes relatifs

1,11 * 1,05 = 1,16 (116%)

L'augmentation est donc de 1,16 %. Les deux résultats ont été obtenus précédemment.

Le mot «index» en traduction signifie pointeur, indicateur. En statistique, un indice est interprété comme un indicateur relatif qui caractérise l'évolution d'un phénomène dans le temps, dans l'espace ou par rapport à un plan. Puisque l'indice est une valeur relative, les noms des indices correspondent aux noms des valeurs relatives.

Dans les cas où nous analysons l'évolution des produits comparés au fil du temps, nous pouvons nous poser la question de savoir comment les composantes de l'indice (prix, volume physique, structure de production ou ventes de types individuels de produits) évoluent dans différentes conditions (dans différents domaines). ). À cet égard, des indices de composition constante, de composition variable et de changements structurels sont construits.

Index de composition permanente (fixe) – il s'agit d'un indice qui caractérise la dynamique de la valeur moyenne pour une même structure fixe de la population.

Le principe de construction d'un indice à composition constante est d'éliminer l'impact des changements de structure des poids sur la valeur indexée en calculant le niveau moyen pondéré de l'indicateur indexé avec les mêmes poids.

L'indice à composition constante est de forme identique à l'indice agrégé. La forme globale est la plus courante.

L'indice de composition constante est calculé avec des poids fixés au niveau d'une période et montre uniquement l'évolution de la valeur indexée. L'indice à composition constante élimine l'impact des changements de structure des poids sur la valeur indexée en calculant le niveau moyen pondéré de l'indicateur indexé avec les mêmes poids. Les indices de composition constante comparent des indicateurs calculés sur la base d'une structure constante de phénomènes.

Lors du traitement de grandes quantités d'informations, ce qui est particulièrement important lors des développements scientifiques modernes, le chercheur est confronté à la tâche sérieuse de regrouper correctement les données sources. Si les données sont de nature discrète, alors, comme nous l'avons vu, aucun problème ne se pose - il vous suffit de calculer la fréquence de chaque caractéristique. Si la caractéristique étudiée a continu caractère (ce qui est plus courant dans la pratique), alors choisir le nombre optimal d'intervalles de regroupement de fonctionnalités n'est en aucun cas une tâche triviale.

Pour regrouper des variables aléatoires continues, toute la plage variationnelle de la caractéristique est divisée en un certain nombre d'intervalles À.

Intervalle groupé (continu) série de variations sont appelés intervalles classés selon la valeur de l'attribut (), où les nombres d'observations tombant dans le i"ème intervalle, ou fréquences relatives (), sont indiqués avec les fréquences correspondantes () :

Intervalles de valeurs caractéristiques

mi fréquence

Histogramme Et cumuler (ogiva), déjà évoqués en détail par nos soins, sont un excellent moyen de visualisation de données, vous permettant de vous faire une première idée de​​la structure des données. De tels graphiques (Fig. 1.15) sont construits pour les données continues de la même manière que pour les données discrètes, en tenant uniquement compte du fait que les données continues remplissent complètement la région de leurs valeurs possibles, prenant n'importe quelle valeur.

Riz. 1.15.

C'est pourquoi les colonnes de l'histogramme et du cumulat doivent se toucher et ne comporter aucune zone où les valeurs d'attribut ne se situent pas dans toutes les limites possibles(c'est-à-dire que l'histogramme et les cumulats ne doivent pas avoir de « trous » le long de l'axe des abscisses, qui ne contiennent pas les valeurs de la variable étudiée, comme sur la Fig. 1.16). La hauteur de la barre correspond à la fréquence – le nombre d’observations tombant dans un intervalle donné, ou à la fréquence relative – la proportion d’observations. Intervalles ne doit pas se croiser et ont généralement la même largeur.

Riz. 1.16.

L'histogramme et le polygone sont des approximations de la courbe de densité de probabilité (fonction différentielle) f(x) distribution théorique, considérée au cours de la théorie des probabilités. Par conséquent, leur construction est si importante dans le traitement statistique primaire de données quantitatives continues - par leur apparence, on peut juger de la loi de distribution hypothétique.

Cumuler – une courbe de fréquences accumulées (fréquences) d'une série de variations d'intervalle. Le graphique de la fonction de distribution cumulée est comparé au cumul F(x), également abordé dans le cours de théorie des probabilités.

Fondamentalement, les concepts d'histogramme et de cumul sont associés spécifiquement aux données continues et à leurs séries de variations d'intervalle, puisque leurs graphiques sont des estimations empiriques de la fonction de densité de probabilité et de la fonction de distribution, respectivement.

La construction d'une série de variations d'intervalles commence par la détermination du nombre d'intervalles k. Et cette tâche est peut-être la plus difficile, la plus importante et la plus controversée de la question étudiée.

Le nombre d'intervalles ne doit pas être trop petit, car cela rendrait l'histogramme trop lisse ( trop lissé), perd toutes les caractéristiques de variabilité des données originales - sur la Fig. 1.17, vous pouvez voir comment les mêmes données sur lesquelles les graphiques de la Fig. 1.15, utilisé pour construire un histogramme avec un plus petit nombre d'intervalles (graphique de gauche).

Dans le même temps, le nombre d'intervalles ne doit pas être trop grand - sinon nous ne pourrons pas estimer la densité de distribution des données étudiées le long de l'axe numérique : l'histogramme sera sous-lissé (sous-lissé), avec des intervalles vides, inégaux (voir Fig. 1.17, graphique de droite).

Riz. 1.17.

Comment déterminer le nombre d’intervalles le plus préférable ?

En 1926, Herbert Sturges a proposé une formule pour calculer le nombre d'intervalles dans lesquels il est nécessaire de diviser l'ensemble original de valeurs de la caractéristique étudiée. Cette formule est véritablement devenue extrêmement populaire : la plupart des manuels de statistiques la proposent et de nombreux logiciels de statistiques l'utilisent par défaut. Dans quelle mesure cela est-il justifié et dans tous les cas est une question très sérieuse.

Alors, sur quoi est basée la formule de Sturges ?

Considérez la distribution binomiale)

Avez-vous aimé l'article? Partagez avec vos amis !