Comment trouver les fréquences d'une série d'intervalles. Regrouper des données et construire une série de distribution

Ils sont présentés sous forme de séries de distribution et sont présentés sous forme.

Une série de distribution est l'un des types de regroupements.

Plage de distribution- représente une répartition ordonnée des unités de la population étudiée en groupes selon une certaine caractéristique variable.

Selon la caractéristique qui sous-tend la formation des séries de distribution, on les distingue attributif et variationnel lignes de répartition :

  • Attributif- sont appelées séries de distribution construites selon des caractéristiques qualitatives.
  • Les séries de distribution construites par ordre croissant ou décroissant de valeurs d'une caractéristique quantitative sont appelées variationnel.
La série de variations de distribution se compose de deux colonnes :

La première colonne fournit des valeurs quantitatives des caractéristiques variables, appelées choix et sont désignés. Option discrète - exprimée sous forme d'entier. L'option d'intervalle va de et à. Selon le type d'options, vous pouvez construire une série de variations discrètes ou à intervalles.
La deuxième colonne contient nombre d'options spécifiques, exprimé en termes de fréquences ou fréquences :

Fréquences- ce sont des nombres absolus qui montrent combien de fois une valeur donnée d'une caractéristique apparaît au total, ce qui dénote . La somme de toutes les fréquences doit être égale au nombre d’unités dans l’ensemble de la population.

Fréquences() sont des fréquences exprimées en pourcentage du total. La somme de toutes les fréquences exprimées en pourcentages doit être égale à 100 % en fractions de un.

Représentation graphique des séries de distribution

Les séries de distribution sont présentées visuellement à l'aide d'images graphiques.

Les séries de distribution sont représentées comme suit :
  • Polygone
  • Histogrammes
  • Cumule
  • Ogives

Polygone

Lors de la construction d'un polygone, les valeurs de la caractéristique variable sont tracées sur l'axe horizontal (axe des x) et les fréquences ou fréquences sont tracées sur l'axe vertical (axe des y).

Le polygone de la Fig. 6.1 est basé sur les données du microrecensement de la population russe de 1994.

6.1. Répartition par taille des ménages

Condition: Des données sont fournies sur la répartition des 25 salariés d'une des entreprises selon les catégories tarifaires :
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Tâche: Construisez une série de variations discrètes et représentez-la graphiquement sous la forme d'un polygone de distribution.
Solution:
Dans cet exemple, les options correspondent à l'échelon salarial de l'employé. Pour déterminer les fréquences, il est nécessaire de calculer le nombre de salariés avec la catégorie tarifaire correspondante.

Le polygone est utilisé pour les séries à variations discrètes.

Pour construire un polygone de distribution (Fig. 1), nous traçons les valeurs quantitatives des différentes caractéristiques - options - sur l'axe des abscisses (X) et les fréquences ou fréquences sur l'axe des ordonnées.

Si les valeurs d'une caractéristique sont exprimées sous forme d'intervalles, alors une telle série est appelée intervalle.
Série d'intervalles les distributions sont représentées graphiquement sous la forme d'un histogramme, d'un cumul ou d'une ogive.

Tableau statistique

Condition: Des données sont fournies sur le montant des dépôts de 20 personnes dans une banque (milliers de roubles) 60 ; 25 ; 12 ; 10 ; 68 ; 35 ; 2 ; 17 ; 51 ; 9 ; 3 ; 130 ; 24 ; 85 ; 100 ; 152 ; 6 ; 18 ; 7 ; 42.
Tâche: Construire une série de variations d'intervalles avec des intervalles égaux.
Solution:

  1. La population initiale est composée de 20 unités (N = 20).
  2. À l'aide de la formule de Sturgess, nous déterminons le nombre requis de groupes utilisés : n=1+3,322*lg20=5
  3. Calculons la valeur de l'intervalle égal : i=(152 - 2) /5 = 30 000 roubles
  4. Divisons la population initiale en 5 groupes avec un intervalle de 30 000 roubles.
  5. Nous présentons les résultats de regroupement dans le tableau :

Avec un tel enregistrement d'une caractéristique continue, lorsque la même valeur apparaît deux fois (comme limite supérieure d'un intervalle et limite inférieure d'un autre intervalle), alors cette valeur appartient au groupe où cette valeur agit comme limite supérieure.

Histogramme

Pour construire un histogramme, les valeurs des limites des intervalles sont indiquées sur l'axe des abscisses et, à partir d'elles, sont construits des rectangles dont la hauteur est proportionnelle aux fréquences (ou fréquences).

Sur la fig. 6.2. montre un histogramme de la répartition de la population russe en 1997 par tranche d'âge.

Riz. 6.2. Répartition de la population russe par tranches d'âge

Condition: La répartition des 30 salariés de l'entreprise par salaire mensuel est donnée

Tâche: Afficher graphiquement la série de variation d'intervalle sous forme d'histogramme et cumuler.
Solution:

  1. La limite inconnue de l'intervalle ouvert (premier) est déterminée par la valeur du deuxième intervalle : 7 000 - 5 000 = 2 000 roubles. Avec la même valeur, nous trouvons la limite inférieure du premier intervalle : 5 000 - 2 000 = 3 000 roubles.
  2. Pour construire un histogramme dans un repère rectangulaire, on trace le long de l'axe des abscisses les segments dont les valeurs correspondent aux intervalles de la série variqueuse.
    Ces segments servent de base inférieure et la fréquence (fréquence) correspondante sert de hauteur aux rectangles formés.
  3. Construisons un histogramme :

Pour construire des cumulats, il faut calculer les fréquences accumulées (fréquences). Ils sont déterminés en additionnant séquentiellement les fréquences (fréquences) des intervalles précédents et sont désignés S. Les fréquences accumulées montrent combien d'unités de la population ont une valeur caractéristique non supérieure à celle considérée.

Cumule

La distribution d'une caractéristique dans une série de variations sur des fréquences accumulées (fréquences) est représentée à l'aide d'un cumulat.

Cumule ou une courbe cumulative, contrairement à un polygone, est construite à partir de fréquences ou de fréquences accumulées. Dans ce cas, les valeurs de la caractéristique sont placées sur l'axe des abscisses et les fréquences ou fréquences accumulées sont placées sur l'axe des ordonnées (Fig. 6.3).

Riz. 6.3. Cumule la répartition par taille des ménages

4. Calculons les fréquences accumulées :
La fréquence cumulée du premier intervalle est calculée comme suit : 0 + 4 = 4, pour le second : 4 + 12 = 16 ; pour le troisième : 4 + 12 + 8 = 24, etc.

Lors de la construction d'un cumulat, la fréquence accumulée (fréquence) de l'intervalle correspondant est affectée à sa limite supérieure :

Ogive

Ogive est construit de la même manière qu'un cumulat à la seule différence que les fréquences accumulées sont placées sur l'axe des abscisses, et les valeurs caractéristiques sont placées sur l'axe des ordonnées.

Un type de cumulat est une courbe de concentration ou un tracé de Lorentz. Pour construire une courbe de concentration, une échelle en pourcentages de 0 à 100 est tracée sur les deux axes du système de coordonnées rectangulaires. En même temps, les fréquences cumulées sont indiquées sur l'axe des abscisses, et les valeurs cumulées de la part. (en pourcentage) en volume de la caractéristique sont indiqués sur l'axe des ordonnées.

La répartition uniforme de la caractéristique correspond à la diagonale du carré sur le graphique (Fig. 6.4). Avec une répartition inégale, le graphique représente une courbe concave en fonction du niveau de concentration du trait.

6.4. Courbe de concentration

La manière la plus simple de résumer le matériel statistique est de construire des séries. Le résultat d’un résumé d’étude statistique peut être une série de distribution. Une série de distribution en statistique est une répartition ordonnée d'unités de population en groupes selon une caractéristique quelconque : qualitative ou quantitative. Si une série est construite sur une base qualitative, alors elle est dite attributive, et si sur une base quantitative, alors elle est dite variationnelle.

Une série de variations est caractérisée par deux éléments : la variante (X) et la fréquence (f). Une variante est une valeur distincte d'une caractéristique d'une unité individuelle ou d'un groupe d'une population. Un nombre indiquant combien de fois une valeur d'attribut donnée apparaît est appelé fréquence. Si la fréquence est exprimée sous forme de nombre relatif, alors elle est appelée fréquence. Une série de variations peut être intervalle lorsque les limites « de » et « jusqu'à » sont définies, ou elle peut être discrète, lorsque la caractéristique étudiée est caractérisée par un certain nombre.

Examinons la construction de séries de variations à l'aide d'exemples.

Exemple. et il existe des données sur les catégories tarifaires de 60 travailleurs dans l’un des ateliers de l’usine.

Répartissez les travailleurs selon la catégorie tarifaire, construisez une série de variations.

Pour ce faire, nous notons toutes les valeurs de la caractéristique par ordre croissant et comptons le nombre de travailleurs dans chaque groupe.

Tableau 1.4

Répartition des travailleurs par catégorie

Rang d'ouvrier (X)

Nombre de travailleurs

personne (f)

en % du total (notamment)

Nous avons reçu une série discrète variationnelle dans laquelle la caractéristique étudiée (le rang du travailleur) est représentée par un certain nombre. Pour plus de clarté, les séries de variations sont représentées graphiquement. Sur la base de cette série de distribution, une surface de distribution a été construite.

Riz. 1.1. Polygone de répartition des travailleurs par catégorie tarifaire

Nous considérerons la construction d'une série d'intervalles à intervalles égaux à l'aide de l'exemple suivant.

Exemple. On connaît des données sur la valeur du capital fixe de 50 entreprises en millions de roubles. Il est nécessaire de montrer la répartition des entreprises selon le coût du capital fixe.

Pour montrer la répartition des entreprises par valeur du capital fixe, nous résolvons d'abord la question du nombre de groupes que nous souhaitons mettre en évidence. Supposons que nous décidions d'identifier 5 groupes d'entreprises. Ensuite, nous déterminons la taille de l'intervalle dans le groupe. Pour ce faire, nous utilisons la formule

D'après notre exemple.

En ajoutant la valeur de l'intervalle à la valeur minimale de l'attribut, nous obtenons des groupes d'entreprises par coût du capital fixe.

Une unité avec une valeur double appartient au groupe où elle fait office de limite supérieure (c'est-à-dire que la valeur de l'attribut 17 ira au premier groupe, 24 au second, etc.).

Comptons le nombre d'usines dans chaque groupe.

Tableau 1.5

Répartition des entreprises selon la valeur du capital fixe (millions de roubles)

Coût du capital fixe
en millions de roubles (X)

Nombre d'entreprises
(fréquence) (f)

Fréquences accumulées
(cumulatif)

Selon cette répartition, une série d'intervalles de variation a été obtenue, d'où il ressort que 36 entreprises disposent d'un capital fixe d'une valeur de 10 à 24 millions de roubles. etc.

Les séries de distribution d'intervalles peuvent être représentées graphiquement sous la forme d'un histogramme.

Les résultats du traitement des données sont présentés dans tableaux statistiques. Les tableaux statistiques contiennent leur propre sujet et prédicat.

Le sujet est la totalité ou une partie de la totalité qui est caractérisée.

Les prédicats sont des indicateurs qui caractérisent le sujet.

On distingue les tableaux : simples et groupés, combinatoires, avec développement simple et complexe du prédicat.

Un simple tableau dans le sujet contient une liste d'unités individuelles.

Si le sujet contient un regroupement d'unités, alors un tel tableau est appelé tableau de groupe. Par exemple, un groupe d'entreprises par nombre de travailleurs, des groupes de population par sexe.

Le sujet du tableau de combinaison contient un regroupement selon deux ou plusieurs caractéristiques. Par exemple, la population est divisée par sexe en groupes selon l'éducation, l'âge, etc.

Les tableaux combinés contiennent des informations qui permettent d'identifier et de caractériser la relation entre un certain nombre d'indicateurs et le modèle de leurs changements à la fois dans l'espace et dans le temps. Pour clarifier le tableau lors de l'élaboration de son sujet, limitez-vous à deux ou trois caractéristiques, en formant un nombre limité de groupes pour chacune d'elles.

Le prédicat dans les tableaux peut être développé de différentes manières. Avec un simple développement du prédicat, tous ses indicateurs sont localisés indépendamment les uns des autres.

Dans le développement complexe du prédicat, les indicateurs sont combinés les uns avec les autres.

Lors de la construction d'un tableau, il faut partir des objectifs de l'étude et du contenu du matériau traité.

En plus des tableaux, les statistiques utilisent également des graphiques et des diagrammes. Diagramme – les données statistiques sont représentées à l’aide de formes géométriques. Les graphiques sont divisés en graphiques linéaires et en barres, mais il peut y avoir des graphiques chiffrés (dessins et symboles), des diagrammes circulaires (un cercle est considéré comme la taille de la population entière, et les zones des secteurs individuels affichent la gravité spécifique ou la proportion de sa population). composants), cartes radiales (construites sur la base des ordonnées polaires). Un cartogramme est une combinaison d'une carte muette ou d'un plan de site avec un diagramme.

Si la variable aléatoire étudiée est continue, le classement et le regroupement des valeurs observées ne permettent souvent pas d'identifier les traits caractéristiques de variation de ses valeurs. Cela s'explique par le fait que les valeurs individuelles d'une variable aléatoire peuvent différer les unes des autres aussi peu que souhaité et, par conséquent, dans la totalité des données observées, des valeurs identiques d'une quantité peuvent rarement se produire, et les fréquences de les variantes diffèrent peu les unes des autres.

Il est également peu pratique de construire une série discrète pour une variable aléatoire discrète dont le nombre de valeurs possibles est grand. Dans de tels cas, vous devez construire série de variations d'intervalle distributions.

Pour construire une telle série, tout l'intervalle de variation des valeurs observées d'une variable aléatoire est divisé en une série intervalles partiels et compter la fréquence d'apparition des valeurs de valeur dans chaque intervalle partiel.

Série de variations d'intervalle appeler un ensemble ordonné d'intervalles de valeurs variables d'une variable aléatoire avec des fréquences correspondantes ou des fréquences relatives de valeurs de la variable tombant dans chacune d'elles.

Pour construire une série d'intervalles, vous avez besoin de :

  1. définir taille intervalles partiels;
  2. définir largeur intervalles;
  3. réglez-le pour chaque intervalle haut Et limite inférieure ;
  4. regrouper les résultats d’observation.

1 . La question du choix du nombre et de la largeur des intervalles de regroupement doit être tranchée dans chaque cas spécifique en fonction de objectifs recherche, volume des échantillons et degré de variation caractéristique de l’échantillon.

Nombre approximatif d'intervalles k peut être estimé uniquement sur la base de la taille de l’échantillon n de l'une des manières suivantes :

  • selon la formule Sturges : k = 1 + 3,32 logn ;
  • en utilisant le tableau 1.

Tableau 1

2 . Les espaces de largeur égale sont généralement préférés. Pour déterminer la largeur des intervalles h calculer:

  • plage de variation R - exemples de valeurs : R = x max - x min ,

xmax Et xmin - options d'échantillonnage maximum et minimum ;

  • largeur de chaque intervalle h déterminé par la formule suivante : h = R/k .

3 . Limite inférieure premier intervalle xh1 est sélectionné de manière à ce que l'option d'échantillon minimum xmin est tombé approximativement au milieu de cet intervalle : x h1 = x min - 0,5 h .

Intervalles intermédiaires obtenu en ajoutant la longueur de l'intervalle partiel à la fin de l'intervalle précédent h :

x salut = x salut-1 +h.

La construction d'une échelle d'intervalle basée sur le calcul des limites d'intervalle se poursuit jusqu'à ce que la valeur x salut satisfait la relation :

x salut< x max + 0,5·h .

4 . Conformément à l'échelle d'intervalle, les valeurs caractéristiques sont regroupées - pour chaque intervalle partiel, la somme des fréquences est calculée n je option incluse dans je ème intervalle. Dans ce cas, l'intervalle comprend des valeurs de la variable aléatoire supérieures ou égales à la limite inférieure et inférieures à la limite supérieure de l'intervalle.

Polygone et histogramme

Pour plus de clarté, divers graphiques de distribution statistique sont construits.

A partir des données d’une série à variation discrète, ils construisent polygone fréquences ou fréquences relatives.

Polygone de fréquence x1 ; n°1 ), (x2 ; n°2 ), ..., (xk ; n k ). Pour construire un polygone de fréquence, les options sont tracées sur l'axe des abscisses. x je , et en ordonnées - les fréquences correspondantes n je . Points ( x je ; n je ) sont reliés par des segments droits et un polygone de fréquence est obtenu (Fig. 1).

Polygone de fréquences relatives appelée ligne brisée dont les segments relient les points ( x1 ; W1 ), (x2 ; W2 ), ..., (xk ; Semaine ). Pour construire un polygone de fréquences relatives, les options sont tracées sur l'axe des abscisses x je , et en ordonnées - les fréquences relatives correspondantes W je . Points ( x je ; W je ) sont reliés par des segments droits et un polygone de fréquences relatives est obtenu.

Au cas où signe continu il est conseillé de construire histogramme .

Histogramme de fréquence appelé figure en escalier constituée de rectangles dont les bases sont des intervalles partiels de longueur h , et les hauteurs sont égales au rapport NIH (densité de fréquence).

Pour construire un histogramme de fréquence, des intervalles partiels sont disposés sur l'axe des abscisses et des segments parallèles à l'axe des abscisses sont dessinés au-dessus d'eux à distance NIH .

Les résultats du regroupement des données statistiques collectées sont généralement présentés sous forme de séries de distribution. Une série de distribution est une répartition ordonnée d'unités de population en groupes selon la caractéristique étudiée.

Les séries de distribution sont divisées en attributives et variationnelles, en fonction de la caractéristique qui constitue la base du regroupement. Si l'attribut est qualitatif, alors la série de distribution est dite attributive. Un exemple de série d'attributs est la répartition des entreprises et des organisations par type de propriété (voir tableau 3.1).

Si la caractéristique par laquelle la série de distribution est construite est quantitative, alors la série est dite variationnelle.

La série variationnelle d'une distribution se compose toujours de deux parties : une variante et les fréquences (ou fréquences) correspondantes. Une variante est la valeur qu'une caractéristique peut prendre en unités de population, tandis que la fréquence est le nombre d'unités d'observation qui ont une valeur donnée de la caractéristique. La somme des fréquences est toujours égale au volume de la population. Parfois, au lieu de fréquences, des fréquences sont calculées - ce sont des fréquences exprimées soit en fractions d'unité (la somme de toutes les fréquences est alors égale à 1), soit en pourcentage du volume de la population (la somme des fréquences sera être égal à 100 %).

Les séries de variations sont discrètes et à intervalles. Pour les séries discrètes (tableau 3.7), les options sont exprimées en nombres spécifiques, le plus souvent des entiers.

Tableau 3.8.
Répartition des salariés selon le temps de travail dans la compagnie d'assurance Temps travaillé dans l'entreprise, années complètes (options)
Nombre d'employés Homme (fréquences)
en % du total (fréquence) 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
jusqu'à un an 129 100,0

Total

Dans les séries d'intervalles (voir tableau 3.2), les valeurs des indicateurs sont spécifiées sous forme d'intervalles. Les intervalles ont deux limites : inférieure et supérieure. Les intervalles peuvent être ouverts ou fermés. Les ouverts n'ont pas l'une des limites, donc dans le tableau. 3.2 le premier intervalle n'a pas de limite inférieure et le dernier n'a pas de limite supérieure. Lors de la construction d'une série d'intervalles, selon la nature de la répartition des valeurs d'attribut, des intervalles égaux et inégaux sont utilisés (le tableau 3.2 montre une série de variations avec des intervalles égaux).

Si une caractéristique prend un nombre limité de valeurs, généralement pas plus de 10, des séries de distribution discrètes sont construites. Si l'option est plus grande, alors la série discrète perd sa clarté ; dans ce cas, il est conseillé d'utiliser la forme d'intervalle de la série de variations. Avec une variation continue d'une caractéristique, lorsque ses valeurs dans certaines limites diffèrent les unes des autres d'une quantité arbitrairement petite, une série de distribution d'intervalles est également construite.

3.3.1. Construction de séries à variations discrètes

Considérons la méthodologie pour construire des séries à variations discrètes à l'aide d'un exemple.

Exemple 3.2. Les données suivantes sont disponibles sur la composition quantitative de 60 familles :

Ensuite, vous devez compter le nombre de familles ayant la même composition. Le nombre de membres d'une famille (la valeur d'une caractéristique variable) sont des variantes (nous les désignerons par x), le nombre de familles de même composition sont des fréquences (nous les désignerons par f). Nous présentons les résultats de regroupement sous la forme de la série de distribution variationnelle discrète suivante :

Tableau 3.11.
Nombre de membres de la famille (x) Nombre de familles (y)
1 8
2 14
3 20
4 9
5 5
6 4
jusqu'à un an 60

3.3.2. Construction de séries de variations d'intervalles

Démontrons la méthodologie pour construire des séries de distributions de variations d'intervalles à l'aide de l'exemple suivant.

Exemple 3.3. À la suite d'une observation statistique, les données suivantes ont été obtenues sur le taux d'intérêt moyen de 50 banques commerciales (%) :

Tableau 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Comme nous pouvons le constater, la visualisation d'un tel éventail de données est extrêmement gênante ; de plus, aucun modèle de changement dans l'indicateur n'est visible. Construisons une série de distributions d'intervalles.

  1. Déterminons le nombre d'intervalles.

    Le nombre d'intervalles en pratique est souvent fixé par le chercheur lui-même en fonction des objectifs de chaque observation spécifique. En même temps, il peut également être calculé mathématiquement à l'aide de la formule de Sturgess.

    n = 1 + 3,322lgN,

    où n est le nombre d'intervalles ;

    N est le volume de la population (nombre d'unités d'observation).

    Pour notre exemple on obtient : n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6"7.

  2. Déterminons la taille des intervalles (i) à l'aide de la formule

    où x max est la valeur maximale de l'attribut ;

    x min - valeur minimale de l'attribut.

    Pour notre exemple

    Les intervalles d'une série de variations sont clairs si leurs limites ont des valeurs « rondes », arrondissons donc la valeur de l'intervalle de 1,9 à 2 et la valeur minimale de la caractéristique de 12,3 à 12,0.

  3. Déterminons les limites des intervalles.

    En règle générale, les intervalles sont écrits de telle manière que la limite supérieure d'un intervalle soit également la limite inférieure de l'intervalle suivant. Ainsi, pour notre exemple, nous obtenons : 12,0-14,0 ; 14,0-16,0 ; 16,0-18,0 ; 18,0-20,0 ; 20,0-22,0 ; 22,0-24,0 ; 24,0-26,0.

    Une telle entrée signifie que l'attribut est continu. Si les variantes d'une caractéristique prennent des valeurs strictement définies, par exemple uniquement des nombres entiers, mais que leur nombre est trop grand pour construire une série discrète, vous pouvez alors créer une série d'intervalles, où la limite inférieure de l'intervalle ne coïncidera pas avec la limite supérieure. limite de l'intervalle suivant (cela signifiera que la caractéristique est discrète). Par exemple, dans la répartition des employés de l'entreprise par âge, vous pouvez créer les groupes d'années d'intervalle suivants : 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 et plus.

    De plus, dans notre exemple, nous pourrions ouvrir le premier et le dernier intervalles, etc. écrire : jusqu'à 14,0 ; 24.0 et supérieur.

  4. Sur la base des données initiales, nous construirons une série classée. Pour ce faire, on note par ordre croissant les valeurs que prend le signe. Nous présentons les résultats dans le tableau : Tableau 3.13.
    Série classée des taux d'intérêt des banques commerciales
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Taux d'escompte % (options)

    Comptons les fréquences.

Lors du comptage des fréquences, une situation peut survenir lorsque la valeur d'une caractéristique tombe à la limite d'un intervalle. Dans ce cas, vous pouvez vous laisser guider par la règle : une unité donnée est affectée à l'intervalle pour lequel sa valeur est la limite supérieure. Ainsi, la valeur 16,0 dans notre exemple fera référence au deuxième intervalle.

Les résultats de regroupement obtenus dans notre exemple seront présentés dans un tableau.
Tableau 3.14. Répartition des banques commerciales par taux débiteur Taux court, %
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
jusqu'à un an 50 -

Nombre de banques, unités (fréquences)

Fréquences accumulées

Dans de nombreux cas, lorsqu'une population statistique comprend un nombre important, voire infini, de variantes, ce qui se produit le plus souvent avec une variation continue, il est pratiquement impossible et peu pratique de former un groupe d'unités pour chaque variante. Dans de tels cas, la combinaison d'unités statistiques en groupes n'est possible que sur la base d'un intervalle, c'est-à-dire un tel groupe qui a certaines limites pour les valeurs d'une caractéristique variable. Ces limites sont indiquées par deux chiffres indiquant les limites supérieure et inférieure de chaque groupe. L'utilisation d'intervalles conduit à la formation d'une série de distribution d'intervalles.

Rad d'intervalle est une série de variations dont les variantes sont présentées sous forme d'intervalles.

Une série d'intervalles peut être constituée d'intervalles égaux et inégaux, tandis que le choix du principe de construction de cette série dépend principalement du degré de représentativité et de commodité de la population statistique. Si la population est suffisamment grande (représentative) en termes de nombre d'unités et est totalement homogène dans sa composition, alors il convient de baser la formation d'une série d'intervalles sur l'égalité des intervalles. Habituellement, en utilisant ce principe, une série d'intervalles est formée pour les populations où la plage de variation est relativement petite, c'est-à-dire les options maximales et minimales diffèrent généralement plusieurs fois les unes des autres. Dans ce cas, la valeur des intervalles égaux est calculée par le rapport de la plage de variation d'une caractéristique à un nombre donné d'intervalles formés. Pour déterminer l'égalité Et intervalle, la formule de Sturgess peut être utilisée (généralement avec une petite variation des caractéristiques de l'intervalle et un grand nombre d'unités dans la population statistique) :

où x je - valeur d'intervalle égale ; X max, X min - options maximales et minimales dans un agrégat statistique ; n . - le nombre d'unités au total.

Exemple. Il est conseillé de calculer la taille d'un intervalle égal pour la densité de contamination radioactive au césium - 137 dans 100 agglomérations du district de Krasnopolsky de la région de Mogilev, si l'on sait que l'option initiale (minimum) est égale à I km / km 2, la finale ( maximum) - 65 ki/km 2. En utilisant la formule 5.1. on obtient :

Par conséquent, afin de former une série d'intervalles avec des intervalles égaux en termes de densité de contamination par le césium - 137 agglomérations dans la région de Krasnopolsky, la taille de l'intervalle égaux peut être de 8 ki/km 2 .

Dans des conditions de répartition inégale, c'est-à-dire lorsque les options maximales et minimales sont des centaines de fois, lors de la formation d'une série d'intervalles, vous pouvez appliquer le principe inégal intervalles. Les intervalles inégaux augmentent généralement à mesure que nous passons à des valeurs plus grandes de la caractéristique.

La forme des intervalles peut être fermée ou ouverte. Fermé Il est d'usage d'appeler des intervalles qui ont à la fois des limites inférieures et supérieures. Ouvrir les intervalles n'ont qu'une seule limite : dans le premier intervalle il y a une limite supérieure, dans le dernier il y a une limite inférieure.

Il est conseillé d'évaluer les séries d'intervalles, notamment à intervalles inégaux, en tenant compte densité de distribution, la façon la plus simple de calculer quel est le rapport entre la fréquence locale (ou la fréquence) et la taille de l'intervalle.

Pour former pratiquement une série d'intervalles, vous pouvez utiliser la disposition du tableau. 5.3.

Tableau 5.3. La procédure pour former une série d'intervalles d'établissements dans la région de Krasnopolsky en fonction de la densité de contamination radioactive au césium –137

Le principal avantage de la série d'intervalles est son maximum compacité. en même temps, dans la série de distribution d'intervalles, des variantes individuelles de la caractéristique sont cachées dans les intervalles correspondants

Lors de la représentation graphique d'une série d'intervalles dans un système de coordonnées rectangulaires, les limites supérieures des intervalles sont tracées sur l'axe des abscisses et les fréquences locales de la série sont tracées sur l'axe des ordonnées. La construction graphique d'une série d'intervalles diffère de la construction d'un polygone de distribution en ce que chaque intervalle a des limites inférieures et supérieures et que deux abscisses correspondent à une valeur d'ordonnée. Par conséquent, sur le graphique d'une série d'intervalles, ce n'est pas un point qui est marqué, comme dans un polygone, mais une ligne reliant deux points. Ces lignes horizontales sont reliées entre elles par des lignes verticales et on obtient la figure d'un polygone en escalier, communément appelé histogramme distribution (Fig. 5.3).

Lors de la construction graphique d'une série d'intervalles pour une population statistique suffisamment grande, l'histogramme se rapproche symétrique forme de distribution. Dans les cas où la population statistique est petite, en règle générale, asymétrique histogramme.

Dans certains cas, il est conseillé de former une série de fréquences accumulées, c'est-à-dire cumulatif rangée. Une série cumulative peut être formée sur la base d'une série de distribution discrète ou par intervalles. Lors de la représentation graphique d'une série cumulative dans un système de coordonnées rectangulaires, les variantes sont tracées sur l'axe des abscisses et les fréquences accumulées (fréquences) sont tracées sur l'axe des ordonnées. La ligne courbe résultante est généralement appelée cumulatif distribution (Fig. 5.4).

La formation et la représentation graphique de différents types de séries de variations contribuent à un calcul simplifié des principales caractéristiques statistiques, qui sont discutées en détail dans le thème 6, et aident à mieux comprendre l'essence des lois de distribution de la population statistique. L'analyse d'une série de variations acquiert une importance particulière dans les cas où il est nécessaire d'identifier et de retracer la relation entre les options et les fréquences (fréquences). Cette dépendance se manifeste par le fait que le nombre de cas par option est d'une certaine manière lié à la taille de cette option, c'est-à-dire avec des valeurs croissantes de la caractéristique variable, les fréquences (fréquences) de ces valeurs subissent certains changements systématiques. Cela signifie que les nombres dans la colonne fréquence (fréquence) ne fluctuent pas de manière chaotique, mais changent dans une certaine direction, dans un certain ordre et séquence.

Si les fréquences montrent une certaine systématicité dans leurs changements, cela signifie que nous sommes sur la bonne voie pour identifier un modèle. Le système, l'ordre, la séquence des changements de fréquences sont le reflet de causes générales, de conditions générales caractéristiques de l'ensemble de la population.

Il ne faut pas supposer que le modèle de distribution est toujours donné sous une forme toute faite. Il existe de nombreuses séries de variations dans lesquelles les fréquences sautent bizarrement, parfois en augmentant, parfois en diminuant. Dans de tels cas, il convient de rechercher à quel type de distribution le chercheur a affaire : soit cette distribution ne présente aucun modèle inhérent, soit sa nature n'a pas encore été révélée : le premier cas est rare, mais le second Ce cas est un phénomène assez courant et très répandu.

Ainsi, lors de la formation d'une série d'intervalles, le nombre total d'unités statistiques peut être faible et chaque intervalle contient un petit nombre de variantes (par exemple, 1 à 3 unités). Dans de tels cas, on ne peut compter sur la manifestation d’aucun schéma. Pour qu'un résultat naturel soit obtenu sur la base d'observations aléatoires, la loi des grands nombres doit entrer en vigueur, c'est-à-dire de sorte que pour chaque intervalle il y aurait non pas plusieurs, mais des dizaines et des centaines d'unités statistiques. Pour cela, il faut essayer d'augmenter le plus possible le nombre d'observations. C’est le moyen le plus sûr de détecter des modèles dans les processus de masse. S'il n'y a pas de réelle opportunité d'augmenter le nombre d'observations, l'identification d'une tendance peut être obtenue en réduisant le nombre d'intervalles dans la série de distribution. En réduisant le nombre d'intervalles dans une série de variations, le nombre de fréquences dans chaque intervalle augmente ainsi. Cela signifie que les fluctuations aléatoires de chaque unité statistique se superposent, « lissées », se transformant en un motif.

La formation et la construction de séries de variations permettent d'obtenir uniquement une image générale et approximative de la répartition de la population statistique. Par exemple, un histogramme n'exprime que sous forme approximative la relation entre les valeurs d'une caractéristique et ses fréquences (fréquences). Par conséquent, les séries de variations ne sont essentiellement que la base d'une étude plus approfondie de la régularité interne de la statique. distribution.

QUESTIONS DE TEST POUR LE SUJET 5

1. Qu’est-ce que la variation ? Qu’est-ce qui cause la variation d’un trait dans une population statistique ?

2. Quels types de caractéristiques variables peuvent apparaître dans les statistiques ?

3. Qu'est-ce qu'une série de variations ? Quels types de séries de variations peut-il y avoir ?

4. Qu'est-ce qu'une série classée ? Quels sont ses avantages et ses inconvénients ?

5. Qu'est-ce qu'une série discrète et quels sont ses avantages et ses inconvénients ?

6. Quelle est la procédure pour former une série d'intervalles, quels sont ses avantages et ses inconvénients ?

7. Qu'est-ce qu'une représentation graphique de séries de distribution d'intervalles classées et discrètes ?

8. Qu'est-ce que le cumul de distribution et que caractérise-t-il ?



Avez-vous aimé l'article? Partagez avec vos amis !