Etablissement d'une série de variations discrètes. Principes de construction de regroupements statistiques

Lors du traitement de grandes quantités d'informations, ce qui est particulièrement important lors des développements scientifiques modernes, le chercheur est confronté à la tâche sérieuse de regrouper correctement les données sources. Si les données sont de nature discrète, alors, comme nous l'avons vu, aucun problème ne se pose - il vous suffit de calculer la fréquence de chaque caractéristique. Si la caractéristique étudiée a continu caractère (ce qui est plus courant dans la pratique), alors choisir le nombre optimal d'intervalles de regroupement de fonctionnalités n'est en aucun cas une tâche triviale.

Pour regrouper des variables aléatoires continues, toute la plage variationnelle de la caractéristique est divisée en un certain nombre d'intervalles À.

Intervalle groupé (continu) série de variations sont appelés intervalles classés selon la valeur de l'attribut (), où les nombres d'observations tombant dans le r"ème intervalle, ou fréquences relatives (), sont indiqués avec les fréquences correspondantes () :

Intervalles de valeurs caractéristiques

mi fréquence

diagramme à bandes Et cumuler (ogiva), déjà évoqués en détail par nos soins, sont un excellent moyen de visualisation de données, vous permettant de vous faire une première idée de​​la structure des données. De tels graphiques (Fig. 1.15) sont construits pour les données continues de la même manière que pour les données discrètes, en tenant uniquement compte du fait que les données continues remplissent complètement la région de leurs valeurs possibles, prenant n'importe quelle valeur.

Riz. 1.15.

C'est pourquoi les colonnes de l'histogramme et du cumul doivent se toucher et ne comporter aucune zone où les valeurs d'attribut ne se situent pas dans toutes les limites possibles(c'est-à-dire que l'histogramme et les cumulats ne doivent pas avoir de « trous » le long de l'axe des abscisses, qui ne contiennent pas les valeurs de la variable étudiée, comme sur la Fig. 1.16). La hauteur de la barre correspond à la fréquence – le nombre d’observations tombant dans un intervalle donné, ou à la fréquence relative – la proportion d’observations. Intervalles ne doit pas se croiser et ont généralement la même largeur.

Riz. 1.16.

L'histogramme et le polygone sont des approximations de la courbe de densité de probabilité (fonction différentielle) f(x) distribution théorique, considérée au cours de la théorie des probabilités. Par conséquent, leur construction est si importante dans le traitement statistique primaire de données quantitatives continues - par leur apparence, on peut juger de la loi de distribution hypothétique.

Cumuler – une courbe de fréquences accumulées (fréquences) d’une série de variations d’intervalles. Le graphique de la fonction de distribution cumulée est comparé au cumul F(x), également abordé dans le cours de théorie des probabilités.

Fondamentalement, les concepts d'histogramme et de cumul sont associés spécifiquement aux données continues et à leurs séries de variations d'intervalle, puisque leurs graphiques sont des estimations empiriques de la fonction de densité de probabilité et de la fonction de distribution, respectivement.

La construction d'une série de variations d'intervalles commence par la détermination du nombre d'intervalles k. Et cette tâche est peut-être la plus difficile, la plus importante et la plus controversée de la question étudiée.

Le nombre d'intervalles ne doit pas être trop petit, car cela rendrait l'histogramme trop lisse ( trop lissé), perd toutes les caractéristiques de variabilité des données originales - sur la Fig. 1.17, vous pouvez voir comment les mêmes données sur lesquelles les graphiques de la Fig. 1.15, utilisé pour construire un histogramme avec un plus petit nombre d'intervalles (graphique de gauche).

Dans le même temps, le nombre d'intervalles ne doit pas être trop grand - sinon nous ne pourrons pas estimer la densité de distribution des données étudiées le long de l'axe numérique : l'histogramme sera sous-lissé (sous-lissé), avec des intervalles vides, inégaux (voir Fig. 1.17, graphique de droite).

Riz. 1.17.

Comment déterminer le nombre d’intervalles le plus préférable ?

En 1926, Herbert Sturges a proposé une formule pour calculer le nombre d'intervalles dans lesquels il est nécessaire de diviser l'ensemble original de valeurs de la caractéristique étudiée. Cette formule est véritablement devenue extrêmement populaire : la plupart des manuels de statistiques la proposent et de nombreux logiciels de statistiques l'utilisent par défaut. Dans quelle mesure cela est-il justifié et dans tous les cas est une question très sérieuse.

Alors, sur quoi est basée la formule de Sturges ?

Considérez la distribution binomiale)

Avez-vous aimé l'article? Partage avec tes amis!