Cómo construir una serie de variaciones. Resumen estadístico y agrupación.

Trabajo de laboratorio No. 1. Procesamiento primario de datos estadísticos.

Construcción de series de distribución.

La distribución ordenada de unidades de población en grupos según cualquier característica se llama cerca de distribución . En este caso, la característica puede ser cuantitativa, entonces la serie se llama variacional , y cualitativo, entonces la serie se llama atributivo . Así, por ejemplo, la población de una ciudad puede distribuirse por grupos de edad en una serie de variación, o por afiliación profesional en una serie de atributos (por supuesto, se pueden proponer muchas más características cualitativas y cuantitativas para construir series de distribución; la elección de característica está determinada por la tarea de la investigación estadística).

Cualquier serie de distribución se caracteriza por dos elementos:

- opción(xyo) – estos son valores individuales de las características de las unidades de la población de muestra. Para la serie de variación, la opción toma valores numéricos, para la serie atributiva – cualitativa (por ejemplo, x = “funcionario”);

- frecuencia(norte i) – un número que muestra cuántas veces ocurre un valor de atributo particular. Si la frecuencia se expresa como un número relativo (es decir, la proporción de elementos de la población correspondientes a un valor dado de opciones en el volumen total de la población), entonces se llama frecuencia relativa o frecuencia.

La serie de variación puede ser:

- discreto, cuando la característica que se está estudiando se caracteriza por un número determinado (generalmente un número entero).

- intervalo, cuando los límites “desde” y “hasta” se definen para una característica que varía continuamente. También se construye una serie de intervalos si el conjunto de valores de una característica discretamente variada es grande.

Se puede construir una serie de intervalos tanto con intervalos de igual longitud (series de intervalos iguales) como con intervalos desiguales, si así lo dictan las condiciones del estudio estadístico. Por ejemplo, se puede considerar una serie de distribuciones del ingreso de la población con los siguientes intervalos:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



donde k es el número de intervalos, n es el tamaño de la muestra. (Por supuesto, la fórmula generalmente da un número fraccionario y el número entero más cercano al número resultante se elige como número de intervalos). La longitud del intervalo en este caso está determinada por la fórmula

.

Gráficamente, las series de variación se pueden presentar en la forma histogramas(sobre cada intervalo de la serie de intervalos se construye una “columna” de altura correspondiente a la frecuencia en este intervalo), polígono de distribución(línea discontinua que conecta los puntos ( xyo;n yo) o acumula(basado en frecuencias acumuladas, es decir, para cada valor de atributo, se toma la frecuencia de aparición en un conjunto de objetos con un valor de atributo menor que el dado).

Cuando se trabaja en Excel, se pueden utilizar las siguientes funciones para construir series de variaciones:

CONTROLAR( matriz de datos) – para determinar el tamaño de la muestra. El argumento es el rango de celdas en el que residen los datos de muestra.

CONTAR.SI( rango; criterio) – se puede utilizar para construir un atributo o una serie variacional. Los argumentos son el rango de la matriz de valores de muestra del atributo y el criterio: el valor numérico o de texto del atributo o el número de la celda en la que se encuentra. El resultado es la frecuencia de aparición de ese valor en la muestra.

FRECUENCIA( conjunto de datos; conjunto de intervalos) – para construir una serie de variaciones. Los argumentos son el rango de la matriz de datos de muestra y la columna de intervalo. Si necesita construir una serie discreta, aquí se indican los valores de las opciones; si es una serie de intervalos, entonces los límites superiores de los intervalos (también se les llama "bolsillos"). Dado que el resultado es una columna de frecuencias, debe completar la entrada de la función presionando CTRL+MAYÚS+ENTRAR. Tenga en cuenta que al especificar una matriz de intervalos al introducir una función, no es necesario especificar el último valor que contiene; todos los valores que no se incluyeron en los "bolsillos" anteriores se colocarán en el "bolsillo" correspondiente. En ocasiones, esto puede ayudar a evitar el error de no colocar automáticamente el valor de muestra más grande en el último bolsillo.

Además, para agrupaciones complejas (basadas en varias características), utilice la herramienta “tablas dinámicas”. También se pueden utilizar para construir series de atributos y variaciones, pero esto complica innecesariamente la tarea. Además, para crear una serie de variación y un histograma, existe un procedimiento de "histograma" del complemento "Paquete de análisis" (para usar complementos en Excel, primero debe descargarlos; no están instalados de forma predeterminada)

Ilustremos el proceso de procesamiento de datos primarios con los siguientes ejemplos.

Ejemplo 1.1. Hay datos sobre la composición cuantitativa de 60 familias.

Construir una serie de variación y un polígono de distribución.

Solución.

Abramos tablas de Excel. Ingresemos la matriz de datos en el rango A1:L5. Si está estudiando un documento en formato electrónico (en formato Word, por ejemplo), para hacer esto, simplemente seleccione la tabla con los datos y cópiela en el portapapeles, luego seleccione la celda A1 y pegue los datos; automáticamente ocuparán el espacio. rango apropiado. Calculemos el tamaño de la muestra n: la cantidad de datos de la muestra para hacer esto, ingrese la fórmula =CONTAR(A1:L5) en la celda B7; Tenga en cuenta que para ingresar el rango deseado en la fórmula, no es necesario ingresar su designación desde el teclado; Determinemos los valores mínimo y máximo en la muestra ingresando la fórmula =MIN(A1:L5) en la celda B8, y en la celda B9: =MAX(A1:L5).

Fig.1.1 Ejemplo 1. Procesamiento primario de datos estadísticos en tablas de Excel

A continuación, prepararemos una tabla para construir una serie de variación ingresando nombres para la columna de intervalo (valores de variante) y la columna de frecuencia. En la columna de intervalo se introducen los valores característicos desde el mínimo (1) hasta el máximo (6), ocupando el rango B12:B17. Seleccione la columna de frecuencia, ingrese la fórmula =FRECUENCIA(A1:L5,B12:B17) y presione la combinación de teclas CTRL+SHIFT+ENTER

Fig. 1.2 Ejemplo 1. Construcción de una serie de variación.

Para controlar, calculemos la suma de frecuencias usando la función SUMA (icono de función S en el grupo "Edición" en la pestaña "Inicio"), la suma calculada debe coincidir con el volumen de muestra calculado previamente en la celda B7.

Ahora construyamos un polígono: después de seleccionar el rango de frecuencia resultante, seleccione el comando "Gráfico" en la pestaña "Insertar". De forma predeterminada, los valores en el eje horizontal serán números ordinales, en nuestro caso del 1 al 6, que coincide con los valores de las opciones (números de categorías arancelarias).

El nombre de la serie de gráficos "serie 1" se puede cambiar usando la misma opción "seleccionar datos" de la pestaña "Diseño" o simplemente eliminarlo.

Fig.1.3. Ejemplo 1. Construcción de un polígono de frecuencias.

Ejemplo 1.2. Hay datos sobre emisiones de contaminantes de 50 fuentes:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Componga una serie de intervalos iguales, construya un histograma

Solución

Ingresemos la matriz de datos en una hoja de Excel, ocupará el rango A1:J5 Como en la tarea anterior, determinaremos el tamaño de muestra n, los valores mínimo y máximo en la muestra. Como ahora no necesitamos una serie discreta, sino una serie de intervalos, y el número de intervalos en el problema no está especificado, calculamos el número de intervalos k usando la fórmula de Sturgess. Para hacer esto, ingrese la fórmula =1+3.322*LOG10(B7) en la celda B10.

Fig.1.4. Ejemplo 2. Construcción de una serie de intervalos iguales

El valor resultante no es un número entero, es aproximadamente 6,64. Dado que con k=7 la longitud de los intervalos se expresará como un número entero (a diferencia del caso de k=6), elegimos k=7 ingresando este valor en la celda C10. Calculamos la longitud del intervalo d en la celda B11 ingresando la fórmula =(B9-B8)/C10.

Definamos una matriz de intervalos, indicando el límite superior para cada uno de los 7 intervalos. Para ello, en la celda E8 calculamos el límite superior del primer intervalo ingresando la fórmula =B8+B11; en la celda E9 el límite superior del segundo intervalo ingresando la fórmula =E8+B11. Para calcular los valores restantes de los límites superiores de los intervalos, fijamos el número de la celda B11 en la fórmula ingresada usando el signo $, de modo que la fórmula en la celda E9 tome la forma =E8+B$11, y copiamos el contenido de la celda E9 a las celdas E10-E14. El último valor obtenido es igual al valor máximo en la muestra calculado anteriormente en la celda B9.

Fig.1.5. Ejemplo 2. Construcción de una serie de intervalos iguales


Ahora llenemos la matriz de "bolsillos" usando la función FRECUENCIA, como se hizo en el ejemplo 1.

Fig.1.6. Ejemplo 2. Construcción de una serie de intervalos iguales

Usando la serie de variación resultante, construiremos un histograma: seleccione la columna de frecuencia y seleccione "Histograma" en la pestaña "Insertar". Habiendo recibido el histograma, cambiemos las etiquetas del eje horizontal en él a valores en el rango de intervalos, para hacer esto, seleccione la opción "Seleccionar datos" de la pestaña "Diseñador". En la ventana que aparece, seleccione el comando “Cambiar” para la sección “Etiquetas de eje horizontal” e ingrese el rango de valores para las opciones, seleccionándolo con el mouse.

Fig.1.7. Ejemplo 2. Construyendo un histograma

Fig.1.8. Ejemplo 2. Construyendo un histograma

Se construye una serie de variación discreta para características discretas.

Para construir una serie de variación discreta, es necesario realizar los siguientes pasos: 1) organizar las unidades de observación en orden creciente del valor estudiado de la característica,

2) determinar todos los valores posibles del atributo x i , organizarlos en orden ascendente,

el valor del atributo, i .

frecuencia del valor del atributo y denotar F i . La suma de todas las frecuencias de una serie es igual al número de elementos de la población que se estudia.

Ejemplo 1 .

Lista de calificaciones recibidas por los estudiantes en los exámenes: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Aquí está el número incógnita - calificaciónes una variable aleatoria discreta y la lista resultante de estimaciones esdatos estadísticos (observables) .

    Organizar las unidades de observación en orden ascendente del valor característico estudiado:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinar todos los valores posibles de la característica x i, ordenarlos en orden ascendente:

En este ejemplo, todas las estimaciones se pueden dividir en cuatro grupos con los siguientes valores: 2; 3; 4; 5.

El valor de una variable aleatoria correspondiente a un grupo particular de datos observados se llama el valor del atributo, opción (opción) y designar x i .

Un número que muestra cuántas veces ocurre el valor correspondiente de una característica en varias observaciones se llama frecuencia del valor del atributo y denotar F i .

Para nuestro ejemplo

la puntuación 2 ocurre - 8 veces,

la puntuación 3 ocurre - 12 veces,

la puntuación 4 ocurre - 23 veces,

La puntuación 5 ocurre - 17 veces.

Hay 60 valoraciones en total.

4) escriba los datos recibidos en una tabla de dos filas (columnas): x i y f i.

Con base en estos datos, es posible construir una serie de variación discreta.

Serie de variación discreta – esta es una tabla en la que los valores que ocurren de la característica en estudio se indican como valores individuales en orden ascendente y sus frecuencias

  1. Construcción de una serie de variación de intervalo.

Además de las series variacionales discretas, a menudo se encuentra un método de agrupación de datos, como una serie variacional de intervalo.

Se construye una serie de intervalos si:

    el signo tiene un carácter continuo de cambio;

    Había muchos valores discretos (más de 10)

    las frecuencias de valores discretos son muy pequeñas (no excedan de 1 a 3 con un número relativamente grande de unidades de observación);

    muchos valores discretos de una característica con las mismas frecuencias.

Una serie de variación de intervalo es una forma de agrupar datos en forma de tabla que tiene dos columnas (los valores de la característica en forma de intervalo de valores y la frecuencia de cada intervalo).

A diferencia de una serie discreta, los valores de la característica de una serie de intervalo no están representados por valores individuales, sino por un intervalo de valores ("de - a").

El número que muestra cuántas unidades de observación cayeron en cada intervalo seleccionado se llama frecuencia del valor del atributo y denotar F i . La suma de todas las frecuencias de una serie es igual al número de elementos (unidades de observación) de la población que se estudia.

Si una unidad tiene un valor característico igual al límite superior del intervalo, entonces debe asignarse al siguiente intervalo.

Por ejemplo, un niño con una altura de 100 cm caerá en el segundo intervalo y no en el primero; y un niño con una altura de 130 cm caerá en el último intervalo y no en el tercero.

Con base en estos datos, se puede construir una serie de variación de intervalo.

Cada intervalo tiene un límite inferior (xn), un límite superior (xw) y un ancho de intervalo ( i).

El límite del intervalo es el valor del atributo que se encuentra en el límite de dos intervalos.

altura de los niños (cm)

altura de los niños (cm)

numero de niños

más de 130

Si un intervalo tiene un límite superior e inferior, entonces se llama intervalo cerrado. Si un intervalo tiene sólo un límite inferior o sólo uno superior, entonces es: intervalo abierto. Sólo se puede abrir el primer o el último intervalo. En el ejemplo anterior, el último intervalo está abierto.

Ancho del intervalo (i) – la diferencia entre los límites superior e inferior.

i = x norte - x en

Se supone que el ancho del intervalo abierto es igual al ancho del intervalo cerrado adyacente.

altura de los niños (cm)

numero de niños

Ancho del intervalo (i)

para cálculos 130+20=150

20 (porque el ancho del intervalo cerrado adyacente es 20)

Todas las series de intervalos se dividen en series de intervalos con intervalos iguales y series de intervalos con intervalos desiguales. . En filas espaciadas con intervalos iguales, el ancho de todos los intervalos es el mismo. En series de intervalos con intervalos desiguales, el ancho de los intervalos es diferente.

En el ejemplo considerado, una serie de intervalos con intervalos desiguales.

Condición:

Hay datos sobre la composición por edades de los trabajadores (años): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construya una serie de distribución de intervalos.
    2. Construya una representación gráfica de la serie.
    3. Determine gráficamente la moda y la mediana.

Solución:

1) Según la fórmula de Sturgess, la población debe dividirse en 1 + 3,322 lg 30 = 6 grupos.

Edad máxima - 38 años, mínima - 18 años.

Ancho del intervalo Como los extremos de los intervalos deben ser números enteros, dividimos la población en 5 grupos. Ancho del intervalo - 4.

Para facilitar los cálculos, ordenaremos los datos en orden ascendente: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Distribución por edades de los trabajadores

Gráficamente, una serie se puede representar como un histograma o un polígono. Histograma: gráfico de barras. La base de la columna es el ancho del intervalo. La altura de la columna es igual a la frecuencia.

Polígono (o polígono de distribución): gráfico de frecuencia. Para construirlo usando un histograma, conectamos los puntos medios de los lados superiores de los rectángulos. Cerramos el polígono en el eje Ox a distancias iguales a la mitad del intervalo desde los valores extremos de x.

La moda (Mo) es el valor de la característica en estudio que ocurre con mayor frecuencia en una población determinada.

Para determinar la moda a partir de un histograma, debe seleccionar el rectángulo más alto, dibujar una línea desde el vértice derecho de este rectángulo hasta la esquina superior derecha del rectángulo anterior, y desde el vértice izquierdo del rectángulo modal dibujar una línea hasta el vértice izquierdo del rectángulo siguiente. Desde la intersección de estas líneas, dibuja una perpendicular al eje x. La abscisa será la moda. Mes ≈ 27,5. Esto significa que la edad más común en esta población es la de 27-28 años.

La mediana (Me) es el valor de la característica en estudio, que se encuentra en el medio de la serie de variación ordenada.

Encontramos la mediana usando el acumulado. Acumulados: un gráfico de frecuencias acumuladas. Las abscisas son variantes de una serie. Las ordenadas son frecuencias acumuladas.

Para determinar la mediana sobre el acumulado, encontramos un punto a lo largo del eje de ordenadas correspondiente al 50% de las frecuencias acumuladas (en nuestro caso, 15), trazamos una línea recta a través de él, paralela al eje Ox, y desde el punto de su intersección con el acumulado, trazar una perpendicular al eje x. La abscisa es la mediana. Yo ≈ 25,9. Esto significa que la mitad de los trabajadores de esta población tienen menos de 26 años.

2. El concepto de serie de distribución. Series de distribución discretas e interválicas.

Filas de distribución Se denominan agrupaciones de tipo especial en las que para cada característica, grupo de características o clase de características se conoce el número de unidades del grupo o la proporción de este número en el total. Aquellos. serie de distribución– un conjunto ordenado de valores de atributos, dispuestos en orden ascendente o descendente con sus pesos correspondientes. Las series de distribución se pueden construir mediante características cuantitativas o de atributos.

Las series de distribución construidas sobre una base cuantitativa se denominan series de variación. Suceden discreto y de intervalo. Se puede construir una serie de distribución basada en una característica que varía continuamente (cuando la característica puede tomar cualquier valor dentro de cualquier intervalo) y en una característica que varía discretamente (toma valores enteros estrictamente definidos).

Discreto Una serie de variación de una distribución es un conjunto clasificado de opciones con sus correspondientes frecuencias o detalles. Las variantes de una serie discreta son valores de una característica que cambian de forma discreta y continua, generalmente como resultado de un recuento.

Discreto

Las series de variación generalmente se construyen si los valores de la característica en estudio pueden diferir entre sí en al menos una cierta cantidad finita. En series discretas, se especifican valores puntuales de una característica. Ejemplo : Distribución de trajes de hombre vendidos por tiendas al mes por talla.

Intervalo

Una serie de variación es un conjunto ordenado de intervalos de variación de los valores de una variable aleatoria con las frecuencias correspondientes o frecuencias de valores de la variable que caen en cada uno de ellos. Las series de intervalos están diseñadas para analizar la distribución de una característica que cambia continuamente, cuyo valor se registra con mayor frecuencia mediante medición o pesaje. Las variantes de tal serie son agrupaciones.

Ejemplo : Distribución de compras en una tienda de alimentación por importe.

Si en las series de variación discreta la respuesta en frecuencia se relaciona directamente con una variante de la serie, entonces en las series de intervalo se refiere a un grupo de variantes.

Es conveniente analizar series de distribución utilizando su representación gráfica, lo que permite juzgar la forma de la distribución y los patrones. Una serie discreta se representa en un gráfico como una línea discontinua: polígono de distribución. Para construirlo, en un sistema de coordenadas rectangular, los valores clasificados (ordenados) de la característica variable se trazan a lo largo del eje x en la misma escala, y a lo largo del eje de ordenadas se traza una escala para expresar frecuencias.

Las series de intervalos se representan como histogramas de distribución(es decir, gráficos de barras).

Al construir un histograma, los valores de los intervalos se trazan en el eje de abscisas y las frecuencias se representan mediante rectángulos construidos en los intervalos correspondientes. La altura de las columnas en el caso de intervalos iguales debe ser proporcional a las frecuencias.

Cualquier histograma se puede convertir en un polígono de distribución; para ello es necesario conectar los vértices de sus rectángulos con segmentos rectos.

2. Método de índice para analizar la influencia de la producción promedio y la plantilla promedio sobre los cambios en el volumen de producción.

método de índice se utiliza para analizar la dinámica y comparar indicadores generales, así como los factores que influyen en los cambios en los niveles de estos indicadores. Utilizando índices, es posible identificar la influencia de la producción promedio y la plantilla promedio en los cambios en el volumen de producción. Este problema se resuelve construyendo un sistema de índices analíticos.

El índice de volumen de producción está relacionado con el número promedio de empleados y el índice de producción promedio de la misma manera que el volumen de producción (Q) está relacionado con la producción ( w) y números ( r) .

Podemos concluir que el volumen de producción será igual al producto de la producción promedio y la plantilla promedio:

Q = w r, donde Q es el volumen de producción,

w - producción promedio,

r – número medio de empleados.

Como puede ver, estamos hablando de la relación de los fenómenos en estática: el producto de dos factores da el volumen total del fenómeno resultante. También es obvio que esta conexión es funcional, por lo que la dinámica de esta conexión se estudia mediante índices. Para el ejemplo dado, este es el siguiente sistema:

Jw × Jr = Jwr.

Por ejemplo, el índice de volumen de producción Jwr, como índice de un fenómeno productivo, se puede descomponer en dos índices de factores: el índice de producción promedio (Jw) y el índice de plantilla promedio (Jr):

Índice Índice Índice

volumen de nómina promedio

número de producción

Dónde j w- índice de productividad laboral calculado según la fórmula de Laspeyres;

jr- índice del número de empleados, calculado según la fórmula de Paasche.

Los sistemas de índices se utilizan para determinar la influencia de factores individuales en la formación del nivel de un indicador de desempeño; permiten determinar el valor de una incógnita a partir de 2 valores de índice conocidos.

Con base en el sistema de índices anterior, también se puede encontrar el aumento absoluto en el volumen de producción, descompuesto en la influencia de factores.

1. Aumento general del volumen de producción:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Incremento por acción del indicador de producción media:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Incremento por acción del indicador de plantilla media:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Ejemplo. Se conocen los siguientes datos

Podemos determinar cómo ha cambiado el volumen de producción en términos relativos y absolutos y cómo los factores individuales influyeron en este cambio.

El volumen de producción fue:

en el periodo base

w 0 * r 0 = 2000 * 90 = 180000,

y en los informes

w 1 * r 1 = 2100 * 100 = 210000.

En consecuencia, el volumen de producción aumentó en 30.000 unidades o un 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

o (210000:180000)*100%=1,16%.

Este cambio en el volumen de producción se debió a:

1) un aumento de la plantilla media de 10 personas o 111,1%

r 1 / r 0 = 100/90 = 1,11 o 111,1%.

En términos absolutos, debido a este factor, el volumen de producción aumentó en 20.000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) un aumento de la producción media del 105% o 10.000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 o 105%.

En términos absolutos, el aumento es:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Por tanto, la influencia combinada de los factores fue:

1. En términos absolutos

10000 + 20000 = 30000

2. En términos relativos

1,11 * 1,05 = 1,16 (116%)

Por tanto, el incremento es del 1,16%. Ambos resultados se obtuvieron previamente.

La palabra "índice" traducida significa puntero, indicador. En estadística, un índice se interpreta como un indicador relativo que caracteriza un cambio en un fenómeno en el tiempo, el espacio o en comparación con un plan. Dado que el índice es un valor relativo, los nombres de los índices están en consonancia con los nombres de los valores relativos.

En los casos en que analizamos los cambios en los productos comparados a lo largo del tiempo, podemos plantear la pregunta de cómo los componentes del índice (precio, volumen físico, estructura de producción o ventas de tipos individuales de productos) cambian en diferentes condiciones (en diferentes áreas). ). En este sentido, se construyen índices de composición constante, composición variable y cambios estructurales.

Índice de composición permanente (fija) – se trata de un índice que caracteriza la dinámica del valor medio para una misma estructura fija de la población.

El principio de construir un índice de composición constante es eliminar el impacto de los cambios en la estructura de ponderaciones sobre el valor indexado calculando el nivel promedio ponderado del indicador indexado con las mismas ponderaciones.

El índice de composición constante es idéntico en forma al índice agregado. La forma agregada es la más común.

El índice de composición constante se calcula con ponderaciones fijadas al nivel de un período y muestra el cambio únicamente en el valor indexado. El índice de composición constante elimina el impacto de los cambios en la estructura de ponderaciones sobre el valor indexado calculando el nivel promedio ponderado del indicador indexado con las mismas ponderaciones. Los índices de composición constante comparan indicadores calculados sobre la base de una estructura constante de fenómenos.

Al procesar grandes cantidades de información, lo cual es especialmente importante en los desarrollos científicos modernos, el investigador se enfrenta a la seria tarea de agrupar correctamente los datos originales. Si los datos son de naturaleza discreta, entonces, como hemos visto, no surgen problemas: solo es necesario calcular la frecuencia de cada característica. Si la característica en estudio tiene continuo carácter (que es más común en la práctica), entonces elegir el número óptimo de intervalos de agrupación de características no es de ninguna manera una tarea trivial.

Para agrupar variables aleatorias continuas, todo el rango variacional de la característica se divide en un cierto número de intervalos. A.

Intervalo agrupado (continuo) serie de variación se denominan intervalos clasificados por el valor del atributo (), donde el número de observaciones que caen en el intervalo r", o frecuencias relativas (), se indican junto con las frecuencias correspondientes ():

Intervalos de valores característicos

mi frecuencia

histograma Y acumular (ogiva), Ya discutidos en detalle por nosotros, son un excelente medio de visualización de datos, que le permite tener una idea primaria de la estructura de los datos. Dichos gráficos (Fig. 1.15) se construyen para datos continuos de la misma manera que para datos discretos, solo teniendo en cuenta el hecho de que los datos continuos llenan completamente la región de sus valores posibles, tomando cualquier valor.

Arroz. 1.15.

Es por eso las columnas del histograma y el acumulado deben tocarse entre sí y no tener áreas donde los valores de los atributos no se encuentren dentro de todos los posibles(es decir, el histograma y los acumulados no deben tener "agujeros" a lo largo del eje de abscisas, que no contengan los valores de la variable en estudio, como en la Fig. 1.16). La altura de la barra corresponde a la frecuencia (el número de observaciones que caen dentro de un intervalo determinado) o a la frecuencia relativa (la proporción de observaciones). Intervalos no debe cruzarse y suelen tener el mismo ancho.

Arroz. 1.16.

El histograma y el polígono son aproximaciones de la curva de densidad de probabilidad (función diferencial) f(x) distribución teórica, considerada en el curso de la teoría de la probabilidad. Por lo tanto, su construcción es tan importante en el procesamiento estadístico primario de datos cuantitativos continuos: por su apariencia se puede juzgar la ley de distribución hipotética.

Acumular: una curva de frecuencias acumuladas (frecuencias) de una serie de variación de intervalo. La gráfica de la función de distribución acumulativa se compara con la función de distribución acumulada. F(x), también discutido en el curso de teoría de la probabilidad.

Básicamente, los conceptos de histograma y acumulado están asociados específicamente a datos continuos y sus series de variación de intervalo, ya que sus gráficas son estimaciones empíricas de la función de densidad de probabilidad y de la función de distribución, respectivamente.

La construcción de una serie de variación de intervalos comienza determinando el número de intervalos. k. Y esta tarea es quizás la más difícil, importante y controvertida del tema en estudio.

El número de intervalos no debe ser demasiado pequeño, ya que esto hará que el histograma sea demasiado suave ( demasiado suavizado), pierde todas las características de variabilidad de los datos originales - en la Fig. 1.17 se puede ver cómo se utilizan los mismos datos en los que se muestran las gráficas de la Fig. 1,15, utilizado para construir un histograma con un número menor de intervalos (gráfico de la izquierda).

Al mismo tiempo, el número de intervalos no debe ser demasiado grande; de ​​lo contrario, no podremos estimar la densidad de distribución de los datos estudiados a lo largo del eje numérico: el histograma quedará poco suavizado. (poco suavizado), con intervalos vacíos, desiguales (ver Fig. 1.17, gráfico de la derecha).

Arroz. 1.17.

¿Cómo determinar el número de intervalos más preferible?

En 1926, Herbert Sturges propuso una fórmula para calcular el número de intervalos en los que es necesario dividir el conjunto original de valores de la característica en estudio. Esta fórmula realmente se ha vuelto extremadamente popular: la mayoría de los libros de texto de estadística la ofrecen y muchos paquetes estadísticos la usan de forma predeterminada. Hasta qué punto esto está justificado y en todos los casos es una cuestión muy seria.

Entonces, ¿en qué se basa la fórmula de Sturges?

Considere la distribución binomial)

¿Te gustó el artículo? ¡Comparte con tus amigos!