Elaboración de una serie de variaciones discretas. Principios para construir agrupaciones estadísticas.

Al procesar grandes cantidades de información, lo cual es especialmente importante en los desarrollos científicos modernos, el investigador se enfrenta a la seria tarea de agrupar correctamente los datos originales. Si los datos son de naturaleza discreta, entonces, como hemos visto, no surgen problemas: solo es necesario calcular la frecuencia de cada característica. Si la característica en estudio tiene continuo naturaleza (que es más común en la práctica), entonces elegir el número óptimo de intervalos de agrupación de características no es de ninguna manera una tarea trivial.

Para agrupar variables aleatorias continuas, todo el rango variacional de la característica se divide en un cierto número de intervalos. A.

Intervalo agrupado (continuo) serie de variación se denominan intervalos clasificados por el valor del atributo (), donde el número de observaciones que caen en el intervalo r", o frecuencias relativas (), se indican junto con las frecuencias correspondientes ():

Intervalos de valores característicos
mi frecuencia

gráfico de barras Y acumular (ogiva), Ya discutidos en detalle por nosotros, son un excelente medio de visualización de datos, que le permite tener una idea primaria de la estructura de los datos. Dichos gráficos (Fig. 1.15) se construyen para datos continuos de la misma manera que para datos discretos, solo teniendo en cuenta el hecho de que los datos continuos llenan completamente la región de sus valores posibles, tomando cualquier valor.

Arroz. 1.15.

Es por eso las columnas del histograma y el acumulado deben tocarse entre sí y no tener áreas donde los valores de los atributos no se encuentren dentro de todos los posibles(es decir, el histograma y los acumulados no deben tener "agujeros" a lo largo del eje de abscisas, que no contengan los valores de la variable en estudio, como en la Fig. 1.16). La altura de la barra corresponde a la frecuencia (el número de observaciones que caen dentro de un intervalo determinado) o a la frecuencia relativa (la proporción de observaciones). Intervalos no debe cruzarse y suelen tener el mismo ancho.

Arroz. 1.16.

El histograma y el polígono son aproximaciones de la curva de densidad de probabilidad (función diferencial) f(x) distribución teórica, considerada en el curso de la teoría de la probabilidad. Por lo tanto, su construcción es tan importante en el procesamiento estadístico primario de datos cuantitativos continuos: por su apariencia se puede juzgar la ley de distribución hipotética.

Acumular: una curva de frecuencias acumuladas (frecuencias) de una serie de variación de intervalo. La gráfica de la función de distribución acumulativa se compara con la función de distribución acumulada. F(x), también discutido en el curso de teoría de la probabilidad.

Básicamente, los conceptos de histograma y acumulado están asociados específicamente a datos continuos y sus series de variación de intervalo, ya que sus gráficas son estimaciones empíricas de la función de densidad de probabilidad y de la función de distribución, respectivamente.

La construcción de una serie de variación de intervalos comienza determinando el número de intervalos. k. Y esta tarea es quizás la más difícil, importante y controvertida del tema en estudio.

El número de intervalos no debe ser demasiado pequeño, ya que esto hará que el histograma sea demasiado suave ( demasiado suavizado), pierde todas las características de variabilidad de los datos originales - en la Fig. 1.17 se puede ver cómo se utilizan los mismos datos en los que se muestran las gráficas de la Fig. 1,15, utilizado para construir un histograma con un número menor de intervalos (gráfico de la izquierda).

Al mismo tiempo, el número de intervalos no debe ser demasiado grande; de lo contrario, no podremos estimar la densidad de distribución de los datos estudiados a lo largo del eje numérico: el histograma quedará insuficientemente suavizado. (poco suavizado), con intervalos vacíos, desiguales (ver Fig. 1.17, gráfico de la derecha).

Arroz. 1.17.

¿Cómo determinar el número de intervalos más preferible?

En 1926, Herbert Sturges propuso una fórmula para calcular el número de intervalos en los que es necesario dividir el conjunto original de valores de la característica en estudio. Esta fórmula realmente se ha vuelto extremadamente popular: la mayoría de los libros de texto de estadística la ofrecen y muchos paquetes estadísticos la utilizan de forma predeterminada. Hasta qué punto esto está justificado y en todos los casos es una cuestión muy seria.

Entonces, ¿en qué se basa la fórmula de Sturges?

Considere la distribución binomial)