¿Qué es una serie de variación en estadística? Definición de serie de variación

Como resultado del dominio de este capítulo, el estudiante deberá: saber

  • indicadores de variación y su relación;
  • leyes básicas de distribución de características;
  • la esencia de los criterios de consentimiento; poder
  • calcular índices de variación y criterios de bondad de ajuste;
  • determinar las características de distribución;
  • evaluar las características numéricas básicas de las series de distribución estadística;

propio

  • métodos de análisis estadístico de series de distribución;
  • conceptos básicos del análisis de varianza;
  • Técnicas para verificar que las series de distribución estadística cumplan con las leyes básicas de distribución.

Indicadores de variación

En el estudio estadístico de las características de diversas poblaciones estadísticas, es de gran interés estudiar la variación de las características de las unidades estadísticas individuales de la población, así como la naturaleza de la distribución de las unidades según esta característica. Variación - Estas son diferencias en los valores individuales de una característica entre unidades de la población que se estudia. El estudio de la variación es de gran importancia práctica. Por el grado de variación, se pueden juzgar los límites de variación de una característica, la homogeneidad de la población para una característica determinada, la tipicidad del promedio y la relación de factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y organizar poblaciones estadísticas.

Los resultados del resumen y agrupación de materiales de observación estadística, presentados en forma de series de distribución estadística, representan una distribución ordenada de las unidades de la población estudiada en grupos de acuerdo con criterios de agrupación (variantes). Si se toma una característica cualitativa como base para la agrupación, entonces dicha serie de distribución se llama atributivo(distribución por profesión, género, color, etc.). Si una serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional(distribución por altura, peso, salario, etc.). Construir una serie de variación significa organizar la distribución cuantitativa de unidades de población por valores característicos, contar el número de unidades de población con estos valores (frecuencia) y organizar los resultados en una tabla.

En lugar de la frecuencia de una variante, es posible utilizar su relación con el volumen total de observaciones, lo que se denomina frecuencia (frecuencia relativa).

Hay dos tipos de series de variación: discretas y de intervalo. Serie discreta- Se trata de una serie de variaciones, cuya construcción se basa en características con cambios discontinuos (características discretas). Estos últimos incluyen el número de empleados de la empresa, la categoría arancelaria, el número de hijos de la familia, etc. Una serie de variación discreta representa una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda columna indica el número de unidades en la población con un valor específico del atributo. Si una característica cambia continuamente (cantidad de ingresos, antigüedad en el servicio, costo de los activos fijos de la empresa, etc., que dentro de ciertos límites puede tomar cualquier valor), entonces para esta característica es posible construir serie de variación de intervalo. Al construir una serie de variación de intervalo, la tabla también tiene dos columnas. El primero indica el valor del atributo en el intervalo “de - a” (opciones), el segundo indica el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (frecuencia de repetición): el número de repeticiones de una variante particular de los valores de los atributos. Los intervalos pueden ser cerrados o abiertos. Los intervalos cerrados están limitados en ambos lados, es decir tener un límite inferior (“desde”) y uno superior (“hacia”). Los intervalos abiertos tienen un límite: superior o inferior. Si las opciones están dispuestas en orden ascendente o descendente, entonces las filas se llaman clasificado.

Para las series de variación, existen dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulada. La frecuencia acumulada muestra cuántas observaciones el valor de la característica tomó valores menores que el valor especificado. La frecuencia acumulada se determina sumando los valores de frecuencia de una característica para un grupo determinado con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza la proporción de unidades de observación cuyos valores de atributos no exceden el límite superior de un grupo dado. Así, la frecuencia acumulada muestra la proporción de opciones en la totalidad que tienen un valor no mayor al dado. Frecuencia, frecuencia, densidades absolutas y relativas, frecuencia acumulada y frecuencia son características de la magnitud de la variante.

Las variaciones en las características de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel promedio de la serie, la desviación lineal promedio, la desviación estándar, la dispersión. , coeficientes de oscilación, variación, asimetría, curtosis, etc.

Se utilizan valores medios para caracterizar el centro de distribución. El promedio es una característica estadística generalizadora en la que se cuantifica el nivel típico de una característica que poseen los miembros de la población en estudio. Sin embargo, son posibles casos de coincidencia de medias aritméticas con diferentes patrones de distribución, por lo que, como características estadísticas de las series de variación, se calculan las llamadas medias estructurales: moda, mediana y cuantiles, que dividen la serie de distribución en partes iguales. (cuartiles, deciles, percentiles, etc.).

Moda - Este es el valor de una característica que ocurre en la serie de distribución con más frecuencia que sus otros valores. Para series discretas, esta es la opción con mayor frecuencia. En las series de variación de intervalos, para determinar la moda es necesario determinar primero el intervalo en el que se ubica, el llamado intervalo modal. En una serie de variación con intervalos iguales, el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero por la densidad de distribución más alta. Luego, la fórmula se utiliza para determinar la moda en filas a intervalos iguales.

donde Mo es el valor de la moda; xMo - límite inferior del intervalo modal; h- ancho del intervalo modal; / Mo - frecuencia del intervalo modal; / Mo j es la frecuencia del intervalo premodal; / Mo+1 es la frecuencia del intervalo posmodal, y para una serie con intervalos desiguales en esta fórmula de cálculo, en lugar de las frecuencias / Mo, / Mo, / Mo, se deben utilizar densidades de distribución. Mente 0 _| , Mente 0> OMU+"

Si hay una moda única, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos, bimodal. Como regla general, la multimodalidad indica que la distribución en estudio no obedece a la ley de distribución normal. Las poblaciones homogéneas, por regla general, se caracterizan por distribuciones de un solo vértice. El multivértice también indica la heterogeneidad de la población en estudio. La aparición de dos o más vértices hace necesario reagrupar los datos para identificar grupos más homogéneos.

En una serie de variación de intervalo, la moda se puede determinar gráficamente mediante un histograma. Para hacer esto, dibuje dos líneas que se crucen desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular al eje de abscisas. El valor de la característica en el eje x correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar una población, se da preferencia a la moda en lugar de a la media aritmética como indicador generalizado.

Mediana - este es el valor central del atributo; lo posee el miembro central de la serie clasificada de la distribución. En series discretas, para encontrar el valor de la mediana, primero se determina su número de serie. Para hacer esto, si el número de unidades es impar, se suma uno a la suma de todas las frecuencias y el número se divide por dos. Si hay un número par de unidades seguidas, habrá dos unidades medianas, por lo que en este caso la mediana se define como el promedio de los valores de las dos unidades medianas. Así, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

En las series de intervalos, después de determinar el número de serie de la mediana, el intervalo medio se encuentra usando las frecuencias acumuladas (frecuencias), y luego usando la fórmula para calcular la mediana, se determina el valor de la mediana misma:

donde Me es el valor mediano; xyo- límite inferior del intervalo mediano; h- ancho del intervalo mediano; - la suma de las frecuencias de la serie de distribución; /D - frecuencia acumulada del intervalo premediano; / Yo - frecuencia del intervalo mediano.

La mediana se puede encontrar gráficamente usando un acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) del acumulado, desde el punto correspondiente al número ordinal de la mediana, se traza una línea recta paralela al eje de abscisas hasta que se cruza con el acumulado. A continuación, desde el punto de intersección de la línea indicada con el acumulado, se baja una perpendicular al eje de abscisas. El valor del atributo en el eje x correspondiente a la ordenada dibujada (perpendicular) es la mediana.

La mediana se caracteriza por las siguientes propiedades.

  • 1. No depende de los valores de los atributos que se encuentran a ambos lados del mismo.
  • 2. Tiene la propiedad de minimalidad, lo que significa que la suma de las desviaciones absolutas de los valores de los atributos de la mediana representa un valor mínimo en comparación con la desviación de los valores de los atributos de cualquier otro valor.
  • 3. Al combinar dos distribuciones con medianas conocidas, es imposible predecir de antemano el valor de la mediana de la nueva distribución.

Estas propiedades de la mediana se utilizan ampliamente al diseñar la ubicación de puntos de servicios públicos: escuelas, clínicas, gasolineras, bombas de agua, etc. Por ejemplo, si se planea construir una clínica en una determinada cuadra de la ciudad, entonces sería más conveniente ubicarla en un punto de la cuadra que no reduzca a la mitad la longitud de la cuadra, sino el número de residentes.

La relación entre la moda, la mediana y la media aritmética indica la naturaleza de la distribución de la característica en el agregado y nos permite evaluar la simetría de la distribución. Si x Yo entonces hay una asimetría por el lado derecho de la serie. Con distribución normal X - Yo - Mo.

K. Pearson, basándose en la alineación de varios tipos de curvas, determinó que para distribuciones moderadamente asimétricas son válidas las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda:

donde Me es el valor mediano; Mo - significado de moda; x aritmo: el valor de la media aritmética.

Si es necesario estudiar la estructura de la serie de variación con más detalle, calcule valores característicos similares a la mediana. Estos valores característicos dividen todas las unidades de distribución en números iguales; se denominan cuantiles o gradientes. Los cuantiles se dividen en cuartiles, deciles, percentiles, etc.

Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de forma similar a la mediana utilizando la fórmula para calcular el primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

donde Qi es el valor del primer cuartil; xq^- límite inferior del rango del primer cuartil; h- anchura del intervalo del primer cuarto; /, - frecuencias de la serie de intervalos;

Frecuencia acumulada en el intervalo anterior al primer intervalo cuartil; Jq ( - frecuencia del primer intervalo cuartil.

El primer cuartil muestra que el 25% de las unidades de población son menores que su valor y el 75% son mayores. El segundo cuartil es igual a la mediana, es decir Q 2 = A mí.

Por analogía, se calcula el tercer cuartil, habiendo encontrado primero el tercer intervalo trimestral:

¿Dónde está el límite inferior del rango del tercer cuartil? h- anchura del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; /X" - frecuencia acumulada en el intervalo anterior

GRAMO

intervalo del tercer cuartil; Jq es la frecuencia del intervalo del tercer cuartil.

El tercer cuartil muestra que el 75% de las unidades de población son menores que su valor y el 25% son más.

La diferencia entre el tercer y el primer cuartil es el rango intercuartil:

donde Aq es el valor del rango intercuartil; Pregunta 3 - valor del tercer cuartil; Q, es el valor del primer cuartil.

Los deciles dividen a la población en 10 partes iguales. Un decil es un valor de una característica en una serie de distribución que corresponde a décimas del tamaño de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor y el 90% son mayores, y el noveno decil revela que el 90% de las unidades de población son menores que su valor y el 10% son mayores. mayor que. La proporción entre el noveno y el primer decil, es decir El coeficiente decil se utiliza ampliamente en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% de la población más rica y el 10% de la menos rica. Los percentiles dividen la población clasificada en 100 partes iguales. El cálculo, significado y aplicación de los percentiles son similares a los deciles.

Los cuartiles, deciles y otras características estructurales se pueden determinar gráficamente por analogía con la mediana utilizando acumulados.

Para medir el tamaño de la variación, se utilizan los siguientes indicadores: rango de variación, desviación lineal promedio, desviación estándar, dispersión. La magnitud del rango de variación depende enteramente de la aleatoriedad de la distribución de los miembros extremos de la serie. Este indicador es de interés en los casos en los que es importante saber cuál es la amplitud de las fluctuaciones en los valores de una característica:

Dónde R- el valor del rango de variación; x max - valor máximo del atributo; xtt- valor mínimo del atributo.

Al calcular el rango de variación, no se tiene en cuenta el valor de la gran mayoría de los miembros de la serie, mientras que la variación está asociada a cada valor del miembro de la serie. Los indicadores que son promedios obtenidos a partir de las desviaciones de los valores individuales de una característica de su valor promedio no tienen este inconveniente: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la variabilidad de un rasgo particular. Cuanto más fuerte sea la fluctuación, mayor será el tamaño absoluto de las desviaciones del promedio.

La desviación lineal promedio es la media aritmética de los valores absolutos de las desviaciones de las opciones individuales de su valor promedio.

Desviación lineal promedio para datos no agrupados

donde /pr es el valor de la desviación lineal promedio; x, - es el valor del atributo; X - pag - número de unidades de la población.

Desviación lineal media de las series agrupadas

donde / vz - el valor de la desviación lineal promedio; x, es el valor del atributo; X - el valor promedio de la característica para la población en estudio; / - el número de unidades de población en un grupo separado.

En este caso, se ignoran los signos de las desviaciones; de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal media, dependiendo de la agrupación de los datos analizados, se calcula mediante varias fórmulas: para datos agrupados y desagrupados. Debido a su convención, la desviación lineal promedio, separada de otros indicadores de variación, se utiliza en la práctica con relativa poca frecuencia (en particular, para caracterizar el cumplimiento de las obligaciones contractuales en materia de uniformidad de entrega; en el análisis del volumen de negocios del comercio exterior, la composición de los empleados, el ritmo de producción, la calidad del producto, teniendo en cuenta las características tecnológicas de la producción, etc.).

La desviación estándar caracteriza cuánto se desvían en promedio los valores individuales de la característica en estudio del valor promedio de la población y se expresa en unidades de medida de la característica en estudio. La desviación estándar, al ser una de las principales medidas de variación, se usa ampliamente para evaluar los límites de variación de una característica en una población homogénea, para determinar los valores de ordenadas de una curva de distribución normal, así como en cálculos relacionados con la organización de la observación de muestras y el establecimiento de la precisión de las características de las muestras. La desviación estándar de datos no agrupados se calcula utilizando el siguiente algoritmo: cada desviación de la media se eleva al cuadrado, se suman todos los cuadrados, después de lo cual la suma de los cuadrados se divide por el número de términos de la serie y se extrae la raíz cuadrada de la cociente:

donde a Iip es el valor de la desviación estándar; xj- valor del atributo; incógnita- el valor medio de la característica de la población en estudio; pag - número de unidades de la población.

Para datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

Dónde - valor de desviación estándar; xj- valor del atributo; X - el valor promedio de la característica para la población en estudio; fx- el número de unidades de población en un grupo particular.

La expresión bajo la raíz en ambos casos se llama varianza. Por tanto, la dispersión se calcula como el cuadrado medio de las desviaciones de los valores de los atributos de su valor medio. Para valores de atributos no ponderados (simples), la varianza se determina de la siguiente manera:

Para valores característicos ponderados

También existe un método especial simplificado para calcular la varianza: en general

para valores característicos no ponderados (simples) para valores característicos ponderados
utilizando el método de base cero

donde a 2 es el valor de dispersión; x, - es el valor del atributo; X - valor medio de la característica, h- valor del intervalo de grupo, t 1 - peso (A =

La dispersión tiene su propia expresión en las estadísticas y es uno de los indicadores de variación más importantes. Se mide en unidades correspondientes al cuadrado de las unidades de medida de la característica en estudio.

La dispersión tiene las siguientes propiedades.

  • 1. La varianza de un valor constante es cero.
  • 2. Reducir todos los valores de una característica por el mismo valor A no cambia el valor de la dispersión. Esto significa que el cuadrado promedio de las desviaciones se puede calcular no a partir de valores dados de una característica, sino a partir de sus desviaciones de un número constante.
  • 3. Reducir cualquier valor característico en k veces reduce la dispersión en k 2 veces y la desviación estándar está en k veces, es decir Todos los valores del atributo se pueden dividir por algún número constante (digamos, por el valor del intervalo de la serie), se puede calcular la desviación estándar y luego multiplicar por un número constante.
  • 4. Si calculamos el cuadrado promedio de las desviaciones de cualquier valor Y difiere en un grado u otro de la media aritmética, entonces siempre será mayor que el cuadrado promedio de las desviaciones calculadas a partir de la media aritmética. El cuadrado promedio de las desviaciones será mayor en una cantidad muy determinada: en el cuadrado de la diferencia entre el promedio y este valor tomado convencionalmente.

La variación de una característica alternativa consiste en la presencia o ausencia del inmueble estudiado en unidades de la población. Cuantitativamente, la variación de un atributo alternativo se expresa mediante dos valores: la presencia de una unidad del bien estudiado se denota con uno (1), y su ausencia se denota con cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad se denota por GRAMO. Por lo tanto, la varianza de un atributo alternativo es igual al producto de la proporción de unidades que poseen esta propiedad (P) por la proporción de unidades que no poseen esta propiedad. (GRAMO). La mayor variación de la población se logra en los casos en que una parte de la población, que constituye el 50% del volumen total de la población, tiene una característica, y otra parte de la población, también igual al 50%, no tiene esta característica. y la dispersión alcanza un valor máximo de 0,25, es decir. P = 0,5, GRAMO= 1 - P = 1 - 0,5 = 0,5 y o 2 = 0,5 0,5 = 0,25. El límite inferior de este indicador es cero, lo que corresponde a una situación en la que no hay variación en el agregado. La aplicación práctica de la varianza de una característica alternativa es construir intervalos de confianza al realizar observaciones de muestras.

Cuanto menores sean la varianza y la desviación estándar, más homogénea será la población y más típico será el promedio. En la práctica de la estadística, a menudo existe la necesidad de comparar variaciones de diversas características. Por ejemplo, es interesante comparar las variaciones en la edad de los trabajadores y sus calificaciones, duración del servicio y salarios, costes y beneficios, duración del servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de variabilidad absoluta de las características no son adecuados: es imposible comparar la variabilidad de la experiencia laboral, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, así como comparaciones de la variabilidad de una misma característica en varias poblaciones con diferentes promedios aritméticos, se utilizan indicadores de variación: el coeficiente de oscilación, el coeficiente de variación lineal y el coeficiente de variación, que muestran la medida. de fluctuaciones de valores extremos en torno a la media.

Coeficiente de oscilación:

Dónde V R - valor del coeficiente de oscilación; R- valor del rango de variación; X -

Coeficiente de variación lineal".

Dónde Vj- el valor del coeficiente de variación lineal; I - el valor de la desviación lineal promedio; X - el valor promedio de la característica para la población en estudio.

Coeficiente de variación:

Dónde va- coeficiente de valor de variación; a es el valor de la desviación estándar; X - el valor promedio de la característica para la población en estudio.

El coeficiente de oscilación es la relación porcentual del rango de variación con respecto al valor promedio de la característica que se está estudiando, y el coeficiente de variación lineal es la relación entre la desviación lineal promedio y el valor promedio de la característica que se está estudiando, expresada como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar con respecto al valor promedio de la característica que se está estudiando. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de diversas características. Utilizando el coeficiente de variación, se evalúa la homogeneidad de una población estadística. Si el coeficiente de variación es inferior al 33%, entonces la población objeto de estudio es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población en estudio es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede usarse como indicador general de esta población. Además, los coeficientes de variación se utilizan para comparar la variabilidad de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la duración del servicio de los trabajadores en dos empresas. Cuanto mayor sea el valor del coeficiente, más significativa será la variación de la característica.

A partir de los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral mediante la fórmula

donde Q 2 Y

El rango intercuartil está determinado por la fórmula

Se utiliza la desviación cuartil en lugar del rango de variación para evitar las desventajas asociadas con el uso de valores extremos:

Para series de variación de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de la frecuencia o frecuencia correspondiente dividido por el valor del intervalo. En series de intervalos desiguales, se utilizan densidades de distribución absolutas y relativas. La densidad de distribución absoluta es la frecuencia por unidad de longitud del intervalo. La densidad de distribución relativa es la frecuencia por unidad de longitud del intervalo.

Todo lo anterior es cierto para series de distribución cuya ley de distribución está bien descrita por la ley de distribución normal o se aproxima a ella.

Un lugar especial en el análisis estadístico pertenece a la determinación del nivel medio de la característica o fenómeno en estudio. El nivel medio de un rasgo se mide mediante valores medios.

El valor promedio caracteriza el nivel cuantitativo general de la característica en estudio y es una propiedad grupal de la población estadística. Nivela, debilita las desviaciones aleatorias de las observaciones individuales en una dirección u otra y resalta la propiedad principal y típica de la característica en estudio.

Los promedios se utilizan ampliamente:

1. Evaluar el estado de salud de la población: características del desarrollo físico (altura, peso, perímetro torácico, etc.), identificando la prevalencia y duración de diversas enfermedades, analizando indicadores demográficos (movimiento vital de la población, esperanza media de vida, reproducción de la población, tamaño medio de la población, etc.).

2. Estudiar las actividades de las instituciones médicas, el personal médico y evaluar la calidad de su trabajo, planificar y determinar las necesidades de la población en diversos tipos de atención médica (número promedio de solicitudes o visitas por residente por año, duración promedio de la estadía de un paciente en un hospital, duración media del examen del paciente, disponibilidad media de médicos, camas, etc.).

3. Caracterizar el estado sanitario y epidemiológico (contenido medio de polvo en el aire del taller, superficie media por persona, consumo medio de proteínas, grasas e hidratos de carbono, etc.).

4. Determinar indicadores médicos y fisiológicos en condiciones normales y patológicas, al procesar datos de laboratorio, para establecer la confiabilidad de los resultados de un estudio de muestra en estudios sociales, higiénicos, clínicos y experimentales.

El cálculo de los valores medios se realiza a partir de series de variación. Serie de variación es un conjunto estadístico cualitativamente homogéneo, cuyas unidades individuales caracterizan las diferencias cuantitativas de la característica o fenómeno que se está estudiando.

La variación cuantitativa puede ser de dos tipos: discontinua (discreta) y continua.

Un atributo discontinuo (discreto) se expresa solo como un número entero y no puede tener valores intermedios (por ejemplo, el número de visitas, la población del sitio, el número de niños en la familia, la gravedad de la enfermedad en puntos , etc.).

Un signo continuo puede tomar cualquier valor dentro de ciertos límites, incluidos los fraccionarios, y se expresa solo aproximadamente (por ejemplo, peso; para adultos se puede limitar a kilogramos y para recién nacidos, gramos; altura, presión arterial, tiempo pasado viendo a un paciente, etc.).



El valor digital de cada característica o fenómeno individual incluido en la serie de variación se llama variante y se designa con la letra V . Otras notaciones también se encuentran en la literatura matemática, por ejemplo incógnita o y.

Una serie de variaciones, donde cada opción se indica una vez, se llama simple. Estas series se utilizan en la mayoría de los problemas estadísticos en el caso del procesamiento de datos por computadora.

A medida que aumenta el número de observaciones, tienden a ocurrir valores variantes repetidos. En este caso se crea series de variaciones agrupadas, donde se indica el número de repeticiones (frecuencia, denotada por la letra “ r »).

Serie de variación clasificada consta de opciones dispuestas en orden ascendente o descendente. Mediante ranking se pueden compilar series tanto simples como agrupadas.

Serie de variación de intervalos compilado para simplificar los cálculos posteriores realizados sin el uso de una computadora, con un número muy grande de unidades de observación (más de 1000).

Serie de variación continua incluye valores de opciones, que pueden ser cualquier valor.

Si en una serie de variaciones los valores de una característica (variantes) se dan en forma de números específicos individuales, entonces dicha serie se llama discreto.

Las características generales de los valores de la característica reflejados en la serie de variación son los valores medios. Entre ellos, los más utilizados son: media aritmética METRO, moda Mes y mediana A mí. Cada una de estas características es única. No pueden reemplazarse entre sí y sólo juntos representan las características de la serie de variaciones de forma bastante completa y condensada.

Moda (Mes) nombrar el valor de las opciones que ocurren con más frecuencia.

Mediana (A mí) – este es el valor de la opción que divide la serie de variación clasificada por la mitad (a cada lado de la mediana hay la mitad de la opción). En casos raros, cuando hay una serie de variación simétrica, la moda y la mediana son iguales entre sí y coinciden con el valor de la media aritmética.

La característica más típica de los valores de opciones es media aritmética valor( METRO ). En la literatura matemática se denota .

Media aritmética (METRO, ) es una característica cuantitativa general de una determinada característica de los fenómenos en estudio, constituyendo una población estadística cualitativamente homogénea. Existen medias aritméticas simples y ponderadas. La media aritmética simple se calcula para una serie de variación simple sumando todas las opciones y dividiendo esta suma por el número total de opciones incluidas en esta serie de variación. Los cálculos se realizan según la fórmula:

,

Dónde: METRO - media aritmética simple;

Σ V - opción de cantidad;

norte- número de observaciones.

En las series de variación agrupadas se determina la media aritmética ponderada. La fórmula para calcularlo:

,

Dónde: METRO - media aritmética ponderada;

Σ vicepresidente - la suma de los productos de la variante por sus frecuencias;

norte- número de observaciones.

Con un gran número de observaciones, en el caso de cálculos manuales, se puede utilizar el método de los momentos.

La media aritmética tiene las siguientes propiedades:

· suma de desviaciones del promedio ( Σ d ) es igual a cero (ver Tabla 15);

· al multiplicar (dividir) todas las opciones por el mismo factor (divisor), la media aritmética se multiplica (divide) por el mismo factor (divisor);

· si sumas (restas) el mismo número a todas las opciones, la media aritmética aumenta (disminuye) en el mismo número.

Los promedios aritméticos, tomados por sí solos, sin tener en cuenta la variabilidad de la serie a partir de la cual se calculan, pueden no reflejar completamente las propiedades de la serie de variación, especialmente cuando es necesaria la comparación con otros promedios. Se pueden obtener promedios cercanos en valor a partir de series con diferentes grados de dispersión. Cuanto más cercanas estén las opciones individuales entre sí en términos de sus características cuantitativas, menos dispersión (oscilación, variabilidad) serie, más típica es su media.

Los principales parámetros que nos permiten valorar la variabilidad de un rasgo son:

· Alcance;

· Amplitud;

· Desviación estándar;

· Coeficiente de variación.

La variabilidad de un rasgo se puede juzgar aproximadamente por el rango y amplitud de la serie de variación. El rango indica las opciones máxima (V max) y mínima (V min) en la serie. La amplitud (A m) es la diferencia entre estas opciones: A m = V max - V min.

La principal medida generalmente aceptada de la variabilidad de una serie de variaciones es dispersión (D ). Pero el más utilizado es un parámetro más conveniente calculado sobre la base de la dispersión: la desviación estándar ( σ ). Tiene en cuenta la magnitud de la desviación ( d ) de cada serie de variación a partir de su media aritmética ( d=V-M ).

Dado que las desviaciones del promedio pueden ser positivas y negativas, cuando se suman dan el valor “0” (S re=0). Para evitar esto, los valores de desviación ( d) se elevan a la segunda potencia y se promedian. Así, la dispersión de una serie de variaciones es el cuadrado medio de las desviaciones de una variante de la media aritmética y se calcula mediante la fórmula:

.

Es la característica más importante de la variabilidad y se utiliza para calcular muchos criterios estadísticos.

Dado que la dispersión se expresa como el cuadrado de las desviaciones, su valor no se puede utilizar en comparación con la media aritmética. Para estos fines se utiliza desviación estándar, que se designa con el signo “Sigma” ( σ ). Caracteriza la desviación promedio de todas las variantes de una serie de variación del valor medio aritmético en las mismas unidades que el valor promedio en sí, por lo que pueden usarse juntos.

La desviación estándar está determinada por la fórmula:

La fórmula especificada se aplica cuando el número de observaciones ( norte ) más de 30. Con un número menor norte el valor de la desviación estándar tendrá un error asociado con el desplazamiento matemático ( norte - 1). En este sentido, se puede obtener un resultado más preciso teniendo en cuenta dicho sesgo en la fórmula para calcular la desviación estándar:

desviación estándar (s ) es una estimación de la desviación estándar de una variable aleatoria incógnita en relación con su expectativa matemática basada en una estimación insesgada de su varianza.

Con valores norte > 30 desviación estándar ( σ ) y desviación estándar ( s ) será el mismo ( s = s ). Por lo tanto, en la mayoría de los manuales prácticos se considera que estos criterios tienen significados diferentes. En Excel, la desviación estándar se puede calcular usando la función =STDEV(rango). Y para calcular la desviación estándar, es necesario crear una fórmula adecuada.

La media cuadrática o desviación estándar le permite determinar cuánto pueden diferir los valores de una característica del valor promedio. Supongamos que hay dos ciudades con la misma temperatura diaria promedio en verano. Una de estas ciudades está ubicada en la costa y la otra en el continente. Se sabe que en las ciudades ubicadas en la costa las diferencias de temperatura diurna son menores que en las ciudades ubicadas en el interior. Por lo tanto, la desviación estándar de las temperaturas diurnas de la ciudad costera será menor que la de la segunda ciudad. En la práctica, esto significa que la temperatura media del aire de cada día concreto en una ciudad situada en el continente diferirá más de la media que en una ciudad de la costa. Además, la desviación estándar le permite evaluar posibles desviaciones de temperatura del promedio con el nivel de probabilidad requerido.

Según la teoría de la probabilidad, en los fenómenos que obedecen a la ley de distribución normal, existe una relación estricta entre los valores de la media aritmética, la desviación estándar y las opciones ( regla tres sigma). Por ejemplo, el 68,3% de los valores de una característica variable están dentro de M ± 1 σ , 95,5% - dentro de M ± 2 σ y 99,7% - dentro de M ± 3 σ .

El valor de la desviación estándar nos permite juzgar la naturaleza de la homogeneidad de la serie de variación y del grupo de estudio. Si el valor de la desviación estándar es pequeño, esto indica una homogeneidad bastante alta del fenómeno en estudio. La media aritmética en este caso debe considerarse bastante característica de una serie de variaciones determinada. Sin embargo, un valor sigma demasiado pequeño hace pensar en una selección artificial de observaciones. Con una sigma muy grande, la media aritmética caracteriza en menor medida la serie de variación, lo que indica una variabilidad significativa de la característica o fenómeno en estudio o la heterogeneidad del grupo en estudio. Sin embargo, la comparación del valor de la desviación estándar sólo es posible para características de la misma dimensión. De hecho, si comparamos la diversidad de pesos de los recién nacidos y los adultos, siempre obtendremos valores de sigma más altos en los adultos.

La comparación de la variabilidad de características de diferentes dimensiones se puede realizar utilizando coeficiente de variación. Expresa la diversidad como porcentaje de la media, permitiendo comparaciones entre diferentes rasgos. El coeficiente de variación en la literatura médica se indica con el signo " CON ", y en matemática " v"y calculado por la fórmula:

.

Los valores del coeficiente de variación inferiores al 10% indican una pequeña dispersión, del 10 al 20% - aproximadamente el promedio, más del 20% - una fuerte dispersión alrededor de la media aritmética.

La media aritmética generalmente se calcula a partir de datos de una población de muestra. Con estudios repetidos, bajo la influencia de fenómenos aleatorios, la media aritmética puede cambiar. Esto se debe al hecho de que, por regla general, sólo se estudia una parte de las posibles unidades de observación, es decir, la población de muestra. Se puede obtener información sobre todas las unidades posibles que representan el fenómeno en estudio estudiando toda la población, lo que no siempre es posible. Al mismo tiempo, a los efectos de generalizar los datos experimentales, es de interés el valor del promedio en la población general. Por tanto, para formular una conclusión general sobre el fenómeno en estudio, los resultados obtenidos a partir de la población muestral deben trasladarse a la población general mediante métodos estadísticos.

Para determinar el grado de concordancia entre un estudio de muestra y la población general, es necesario estimar la magnitud del error que inevitablemente surge durante la observación de la muestra. Este error se llama " El error de la representatividad"o "Error medio de la media aritmética". En realidad es la diferencia entre los promedios obtenidos de la observación estadística selectiva y valores similares que se obtendrían de un estudio continuo del mismo objeto, es decir al estudiar una población general. Dado que la media muestral es una variable aleatoria, dicho pronóstico se realiza con un nivel de probabilidad aceptable para el investigador. En la investigación médica es al menos del 95%.

El error de representatividad no puede confundirse con errores de registro o errores de atención (deslices, errores de cálculo, erratas, etc.), los cuales deben minimizarse mediante métodos y herramientas adecuados utilizados durante el experimento.

La magnitud del error de representatividad depende tanto del tamaño de la muestra como de la variabilidad del rasgo. Cuanto mayor sea el número de observaciones, más cercana estará la muestra a la población y menor será el error. Cuanto más variable sea el signo, mayor será el error estadístico.

En la práctica, para determinar el error de representatividad en series de variación se utiliza la siguiente fórmula:

,

Dónde: metro – error de representatividad;

σ – desviación estándar;

norte– número de observaciones en la muestra.

La fórmula muestra que el tamaño del error promedio es directamente proporcional a la desviación estándar, es decir, la variabilidad de la característica en estudio, e inversamente proporcional a la raíz cuadrada del número de observaciones.

Al realizar un análisis estadístico basado en el cálculo de valores relativos, no es necesario construir una serie de variaciones. En este caso, la determinación del error promedio de indicadores relativos se puede realizar mediante una fórmula simplificada:

,

Dónde: R– el valor del indicador relativo, expresado en porcentaje, ppm, etc.;

q– el recíproco de P y expresado como (1-P), (100-P), (1000-P), etc., dependiendo de la base sobre la cual se calcula el indicador;

norte– número de observaciones en la población de muestra.

Sin embargo, la fórmula especificada para calcular el error de representatividad para valores relativos sólo se puede aplicar cuando el valor del indicador es menor que su base. En varios casos de cálculo de indicadores intensivos, esta condición no se cumple y el indicador puede expresarse como un número superior al 100% o 1000%. En tal situación, se construye una serie de variaciones y se calcula el error de representatividad utilizando la fórmula para valores promedio basada en la desviación estándar.

La predicción del valor de la media aritmética en la población se realiza indicando dos valores: el mínimo y el máximo. Estos valores extremos de posibles desviaciones, dentro de los cuales puede fluctuar el valor medio deseado de la población, se denominan “ Límites de confianza».

Los postulados de la teoría de la probabilidad han demostrado que con una distribución normal de una característica con una probabilidad del 99,7%, los valores extremos de las desviaciones del promedio no serán mayores que el valor del triple del error de representatividad ( METRO ± 3 metro ); en 95,5% – no más del doble del error promedio del valor promedio ( METRO ± 2 metro ); en 68,3% – no más de un error promedio ( METRO ± 1 metro ) (Figura 9).

PAG%

Arroz. 9. Densidad de probabilidad de distribución normal.

Tenga en cuenta que la afirmación anterior sólo es cierta para una característica que obedece a la ley de distribución gaussiana normal.

La mayoría de los estudios experimentales, incluso en el campo de la medicina, están asociados con mediciones cuyos resultados pueden tomar casi cualquier valor en un intervalo determinado, por lo que, por regla general, se describen mediante un modelo de variables aleatorias continuas. Por tanto, la mayoría de los métodos estadísticos consideran distribuciones continuas. Una de esas distribuciones, que tiene un papel fundamental en la estadística matemática, es distribución normal o gaussiana.

Esto se debe a varias razones.

1. En primer lugar, muchas observaciones experimentales pueden describirse con éxito utilizando la distribución normal. Cabe señalar de inmediato que no existen distribuciones de datos empíricos que sean exactamente normales, ya que una variable aleatoria distribuida normalmente varía de a , lo que nunca se encuentra en la práctica. Sin embargo, la distribución normal muy a menudo funciona bien como aproximación.

Ya sea que se mida el peso, la altura y otros parámetros fisiológicos del cuerpo humano, los resultados siempre están influenciados por una gran cantidad de factores aleatorios (causas naturales y errores de medición).

Además, por regla general, el efecto de cada uno de estos factores es insignificante. La experiencia demuestra que los resultados en tales casos se distribuirán aproximadamente normalmente.

2. Muchas distribuciones asociadas con el muestreo aleatorio se vuelven normales a medida que aumenta el volumen de este último.

3. La distribución normal es muy adecuada como aproximación de otras distribuciones continuas (por ejemplo, asimétricas).

4. La distribución normal tiene una serie de propiedades matemáticas favorables que garantizan en gran medida su uso generalizado en estadística.

Al mismo tiempo, cabe señalar que en los datos médicos existen muchas distribuciones experimentales que no pueden describirse mediante un modelo de distribución normal. Para ello, la estadística ha desarrollado métodos que comúnmente se denominan “no paramétricos”.

La elección de un método estadístico que sea adecuado para procesar datos de un experimento en particular debe hacerse dependiendo de si los datos obtenidos pertenecen a la ley de distribución normal. La prueba de la hipótesis de la subordinación de un signo a la ley de distribución normal se lleva a cabo utilizando un histograma de distribución de frecuencia (gráfico), así como una serie de criterios estadísticos. Entre ellos: Criterio de asimetría ( );

b Criterio para la prueba de curtosis ( );

gramo Prueba de Shapiro-Wilks ( ) .

Para cada parámetro se lleva a cabo un análisis de la naturaleza de la distribución de los datos (también llamado prueba de normalidad de la distribución). Para juzgar con confianza si la distribución de un parámetro corresponde a la ley normal, se requiere un número suficientemente grande de unidades de observación (al menos 30 valores).

Para una distribución normal, los criterios de asimetría y curtosis toman el valor 0. Si la distribución se desplaza hacia la derecha Criterio de asimetría ( > 0 (asimetría positiva), con Criterio de asimetría ( < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона Criterio para la prueba de curtosis ( =0. En Criterio para la prueba de curtosis ( > 0 la curva de distribución es más pronunciada si Criterio para la prueba de curtosis ( < 0 пик более сглаженный, чем функция нормального распределения.

Para verificar la normalidad utilizando el criterio de Shapiro-Wilks, es necesario encontrar el valor de este criterio utilizando tablas estadísticas al nivel de significancia requerido y dependiendo del número de unidades de observación (grados de libertad). Apéndice 1. La hipótesis de normalidad se rechaza para valores pequeños de este criterio, por regla general, en w <0,8.

Serie de variación es una serie de valores numéricos de una característica.

Las principales características de la serie de variación: v – variante, p – frecuencia de su aparición.

Tipos de series de variación:

    según la frecuencia de aparición de las opciones: simple - la opción aparece una vez, ponderada - la opción aparece dos o más veces;

    por ubicación de las opciones: clasificadas: las opciones están dispuestas en orden ascendente y descendente, no clasificadas: las opciones no están escritas sin ningún orden en particular;

    combinando una opción en grupos: agrupada: las opciones se combinan en grupos, desagrupada: las opciones no se combinan en grupos;

    por tamaño de opciones: continuas: las opciones se expresan como un número entero y fraccionario, discretas: las opciones se expresan como un número entero, complejas: las opciones se representan mediante un valor relativo o promedio.

Se compila y formaliza una serie de variaciones con el fin de calcular los valores medios.

Formulario de grabación de series de variaciones:

8. Valores medios, tipos, métodos de cálculo, aplicación en salud.

Valores medios– una característica generalizadora acumulativa de características cuantitativas. Aplicación de promedios:

1. Caracterizar la organización del trabajo de las instituciones médicas y evaluar sus actividades:

a) en la clínica: indicadores de carga de trabajo de los médicos, número promedio de visitas, número promedio de residentes en el área;

b) en un hospital: promedio de días que una cama está abierta al año; duración media de la estancia hospitalaria;

c) en el centro de higiene, epidemiología y salud pública: área promedio (o capacidad cúbica) por persona, estándares nutricionales promedio (proteínas, grasas, carbohidratos, vitaminas, sales minerales, calorías), normas y estándares sanitarios, etc.;

2. Caracterizar el desarrollo físico (principales características antropométricas, morfológicas y funcionales);

3. Determinar los parámetros médicos y fisiológicos del organismo en condiciones normales y patológicas en estudios clínicos y experimentales.

4. En investigaciones científicas especiales.

La diferencia entre valores promedio e indicadores:

1. Los coeficientes caracterizan una característica alternativa que ocurre solo en una determinada parte de la población estadística, que puede ocurrir o no.

Los valores medios cubren características que son comunes a todos los miembros del equipo, pero en distintos grados (peso, altura, días de tratamiento en el hospital).

2. Los coeficientes se utilizan para medir características cualitativas. Valores medios: para diferentes características cuantitativas.

Tipos de promedios:

    media aritmética, sus características son desviación estándar y error medio

    moda y mediana. Moda (lunes)– corresponde al valor de la característica que ocurre con más frecuencia que otras en una población determinada. Mediana (yo)– el valor de una característica que ocupa el valor mediano en una población determinada. Divide la serie en 2 partes iguales según el número de observaciones. Media aritmética (M)– a diferencia de la moda y la mediana, se basa en todas las observaciones realizadas, por lo que es una característica importante para toda la distribución.

    otros tipos de promedios que se utilizan en estudios especiales: raíz cuadrática media, cúbica, armónica, geométrica, progresiva.

Media aritmética caracteriza el nivel promedio de la población estadística.

Para una serie simple, donde

∑v – opción de cantidad,

n – número de observaciones.

para una serie ponderada, donde

∑vр – la suma de los productos de cada opción y la frecuencia de su aparición

n – número de observaciones.

Desviación estándar la media aritmética o sigma (σ) caracteriza la diversidad de una característica

- para una fila simple

Σd 2 – la suma de los cuadrados de la diferencia entre la media aritmética y cada opción (d = │M-V│)

n – número de observaciones

- para una serie pesada

∑d 2 p – la suma de los productos de los cuadrados de la diferencia entre la media aritmética y cada opción y la frecuencia de su aparición,

n – número de observaciones.

El grado de diversidad se puede juzgar por la magnitud del coeficiente de variación.
. Más del 20% es diversidad fuerte, entre el 10% y el 20% es diversidad media y menos del 10% es diversidad débil.

Si sumamos y restamos un sigma (M ± 1σ) al valor medio aritmético, entonces con una distribución normal, al menos el 68,3% de todas las variantes (observaciones) estarán dentro de estos límites, lo que se considera la norma para el fenómeno en estudio. . Si k 2 ± 2σ, entonces el 95,5% de todas las observaciones estarán dentro de estos límites, y si k M ± 3σ, entonces el 99,7% de todas las observaciones estarán dentro de estos límites. Por lo tanto, la desviación estándar es una desviación estándar que nos permite predecir la probabilidad de que ocurra un valor de la característica en estudio que se encuentre dentro de los límites especificados.

Error promedio de la media aritmética o sesgo de representatividad. Para una serie simple, ponderada y la regla de los momentos:

.

Para calcular los valores medios es necesario: homogeneidad del material, un número suficiente de observaciones. Si el número de observaciones es inferior a 30, se utiliza n-1 en las fórmulas para calcular σ y m.

Al evaluar el resultado obtenido por el tamaño del error promedio se utiliza un coeficiente de confianza, que permite determinar la probabilidad de una respuesta correcta, es decir, indica que el valor resultante del error de muestreo no será mayor que el error real cometido como resultado de la observación continua. En consecuencia, con un aumento en la probabilidad de confianza, aumenta el ancho del intervalo de confianza, lo que, a su vez, aumenta la confianza del juicio y la sustentabilidad del resultado obtenido.

Filas construidas sobre una base cuantitativa, se llaman variacional.

La serie de distribución consta de opciones(valores característicos) y frecuencias(número de grupos). Las frecuencias expresadas como valores relativos (fracciones, porcentajes) se denominan frecuencias. La suma de todas las frecuencias se llama volumen de la serie de distribución.

Por tipos, las series de distribución se dividen en discreto(construido en base a valores discontinuos de la característica) y intervalo(basado en valores continuos de la característica).

Serie de variación representa dos columnas (o filas); uno de los cuales proporciona valores individuales de una característica variable, llamados variantes y denotados por X; y en el otro, números absolutos que muestran cuántas veces (con qué frecuencia) aparece cada opción. Los indicadores de la segunda columna se denominan frecuencias y convencionalmente se denotan por f. Observemos una vez más que la segunda columna también puede utilizar indicadores relativos que caracterizan la proporción de la frecuencia de las opciones individuales en la suma total de frecuencias. Estos indicadores relativos se denominan frecuencias y se denotan convencionalmente por ω. La suma de todas las frecuencias en este caso es igual a uno. Sin embargo, las frecuencias también se pueden expresar como porcentajes, y luego la suma de todas las frecuencias da 100%.

Si las variantes de una serie de variaciones se expresan en forma de cantidades discretas, entonces dicha serie de variaciones se llama discreto.

Para características continuas, las series de variación se construyen como intervalo, es decir, los valores del atributo en ellos se expresan “de... a...”. En este caso, los valores mínimos de la característica en dicho intervalo se denominan límite inferior del intervalo y máximo, límite superior.

Las series de variación de intervalos también se construyen para características discretas que varían en un rango amplio. Las series de intervalos pueden ser con igual Y desigual a intervalos.

Consideremos cómo se determina el valor de intervalos iguales. Introduzcamos la siguiente notación:

i– tamaño del intervalo;

- el valor máximo de la característica para unidades de población;

– el valor mínimo de la característica para unidades de población;

norte – número de grupos asignados.

, si n es conocido.

Si es difícil determinar de antemano el número de grupos a distinguir, entonces para calcular el valor óptimo del intervalo con un tamaño de población suficiente, se puede recomendar la fórmula propuesta por Sturgess en 1926:

n = 1+ 3,322 log N, donde N es el número de unidades en el agregado.

El tamaño de los intervalos desiguales se determina en cada caso individual, teniendo en cuenta las características del objeto de estudio.

Distribución estadística de la muestra llame a una lista de opciones y sus frecuencias correspondientes (o frecuencias relativas).

La distribución estadística de la muestra se puede especificar en forma de tabla, en la primera columna de la cual se ubican las opciones y en la segunda, las frecuencias correspondientes a estas opciones. ni, o frecuencias relativas Pi .

Distribución estadística de la muestra.

Las series de intervalos son series de variación en las que los valores de las características subyacentes a su formación se expresan dentro de ciertos límites (intervalos). Las frecuencias en este caso no se refieren a valores individuales del atributo, sino a todo el intervalo.

Las series de distribución de intervalos se construyen sobre la base de características cuantitativas continuas, así como de características discretas que varían dentro de límites significativos.

Una serie de intervalos se puede representar mediante la distribución estadística de una muestra indicando los intervalos y sus frecuencias correspondientes. En este caso, la suma de las frecuencias de las variantes que caen dentro de este intervalo se toma como frecuencia del intervalo.

Al agrupar por características continuas cuantitativas, es importante determinar el tamaño del intervalo.

Además de la media muestral y la varianza muestral, también se utilizan otras características de la serie de variación.

Moda Se llama la variante que tiene mayor frecuencia.

Serie de distribución estadística– se trata de una distribución ordenada de unidades de población en grupos según una determinada característica variable.
Dependiendo de la característica que subyace a la formación de la serie de distribución, existen series de distribución atributiva y variacional.

La presencia de una característica común es la base para la formación de una población estadística, que representa los resultados de describir o medir las características generales de los objetos de estudio.

El tema de estudio en estadística son las características cambiantes (variantes) o las características estadísticas.

Tipos de características estadísticas.

Las series de distribución se llaman atributivas. construido según criterios de calidad. Atributivo– este es un signo que tiene un nombre (por ejemplo, profesión: costurera, maestra, etc.).
La serie de distribución suele presentarse en forma de tablas. en la mesa 2.8 muestra la serie de distribución de atributos.
Cuadro 2.8 - Distribución de los tipos de asistencia jurídica brindada por abogados a ciudadanos de una de las regiones de la Federación de Rusia.

Serie de variación– estos son los valores de la característica (o intervalos de valores) y sus frecuencias.
Las series de variación son series de distribución., construido sobre una base cuantitativa. Cualquier serie de variaciones consta de dos elementos: opciones y frecuencias.
Se considera variantes a los valores individuales de una característica que toma en una serie de variaciones.
Las frecuencias son el número de opciones individuales o de cada grupo de una serie de variaciones, es decir Estos son números que muestran con qué frecuencia ocurren ciertas opciones en una serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población, su volumen.
Las frecuencias son frecuencias expresadas como fracciones de una unidad o como porcentaje del total. En consecuencia, la suma de las frecuencias es igual a 1 o 100%. La serie de variación nos permite estimar la forma de la ley de distribución a partir de datos reales.

Dependiendo de la naturaleza de la variación del rasgo, existen series de variación discreta y de intervalo.
En la tabla se da un ejemplo de una serie de variación discreta. 2.9.
Cuadro 2.9 - Distribución de familias por número de habitaciones ocupadas en apartamentos individuales en 1989 en la Federación de Rusia.

La primera columna de la tabla presenta opciones para una serie de variación discreta, la segunda columna contiene las frecuencias de la serie de variación y la tercera contiene indicadores de frecuencia.

Serie de variación

Se estudia una determinada característica cuantitativa en la población general. De él se extrae aleatoriamente una muestra de volumen. norte, es decir, el número de elementos de la muestra es igual a norte. En la primera etapa del procesamiento estadístico, rango muestras, es decir orden de números x 1 , x 2 , …, x n Ascendente. Cada valor observado xyo llamado opción. Frecuencia yo yo es el número de observaciones del valor xyo en la muestra. Frecuencia relativa (frecuencia) yo es la relación de frecuencia yo yo al tamaño de la muestra norte: .
Al estudiar series de variación también se utilizan los conceptos de frecuencia acumulada y frecuencia acumulada. Dejar incógnita algún número. Entonces el número de opciones , cuyos valores son menores incógnita, se llama frecuencia acumulada: para x i norte se llama frecuencia acumulada w i max.
Una característica se llama discretamente variable si sus valores individuales (variantes) difieren entre sí en un cierto valor finito (generalmente un número entero). La serie de variación de dicha característica se denomina serie de variación discreta.

Tabla 1. Vista general de una serie de frecuencias de variación discreta.

Valores característicosxyo x1 x2 xn
Frecuenciasyo yo metro 1 metros 2 mn

Se dice que una característica varía continuamente si sus valores difieren entre sí en una cantidad arbitrariamente pequeña, es decir, el atributo puede tomar cualquier valor en un intervalo determinado. Una serie de variación continua para tal característica se llama intervalo.

Tabla 2. Vista general de la serie de frecuencias de variación de intervalo.

Tabla 3. Imágenes gráficas de la serie de variación.

FilaPolígono o histogramaFunción de distribución empírica
Discreto
Intervalo
Al revisar los resultados de las observaciones, se determina cuántos valores de las opciones caen en cada intervalo específico. Se supone que cada intervalo pertenece a uno de sus extremos: en todos los casos a la izquierda (más a menudo) o en todos los casos a la derecha, y las frecuencias o frecuencias indican el número de opciones contenidas dentro de los límites especificados. Diferencias un yo – un yo +1 se llaman intervalos parciales. Para simplificar los cálculos posteriores, la serie de variación del intervalo se puede reemplazar por una condicionalmente discreta. En este caso el valor medio i-el intervalo se toma como una opción xyo, y la frecuencia de intervalo correspondiente yo yo– para la frecuencia de este intervalo.
Para la representación gráfica de series de variación, se utilizan con mayor frecuencia el polígono, el histograma, la curva acumulativa y la función de distribución empírica.

en la mesa 2.3 (Agrupación de la población rusa por ingreso per cápita promedio en abril de 1994) serie de variación de intervalo.
Es conveniente analizar series de distribución utilizando una imagen gráfica, que permite juzgar la forma de la distribución. Una representación visual de la naturaleza de los cambios en las frecuencias de la serie de variación viene dada por polígono e histograma.
El polígono se utiliza para representar series de variación discreta..
Por ejemplo, representemos gráficamente la distribución del parque de viviendas por tipo de apartamento (Cuadro 2.10).
Cuadro 2.10 - Distribución del parque de viviendas del área urbana por tipo de departamento (cifras condicionales).


Arroz. Área de distribución de viviendas


En los ejes de ordenadas se pueden representar no sólo los valores de frecuencia, sino también las frecuencias de las series de variación.
El histograma se utiliza para representar una serie de variación de intervalo.. Al construir un histograma, los valores de los intervalos se trazan en el eje de abscisas y las frecuencias se representan mediante rectángulos construidos en los intervalos correspondientes. La altura de las columnas en el caso de intervalos iguales debe ser proporcional a las frecuencias. Un histograma es un gráfico en el que una serie se representa como barras adyacentes entre sí.
Representemos gráficamente la serie de distribución de intervalos que figura en la tabla. 2.11.
Cuadro 2.11 - Distribución de familias por tamaño de espacio habitable por persona (cifras condicionales).
norte p/p Grupos de familias por tamaño de espacio habitable por persona Número de familias con un tamaño determinado de espacio habitable Número acumulado de familias
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Arroz. 2.2. Histograma de la distribución de familias por tamaño de espacio habitable por persona


Utilizando los datos de la serie acumulada (Tabla 2.11), construimos distribución acumulada.


Arroz. 2.3. Distribución acumulada de familias por tamaño de espacio habitable por persona


La representación de una serie de variación en forma de acumulado es especialmente efectiva para series de variación cuyas frecuencias se expresan como fracciones o porcentajes de la suma de las frecuencias de la serie.
Si cambiamos los ejes al representar gráficamente una serie de variaciones en forma de acumulados, obtenemos ogiva. En la figura. 2.4 muestra la ojiva construida sobre la base de los datos de la tabla. 2.11.
Un histograma se puede convertir en un polígono de distribución encontrando los puntos medios de los lados de los rectángulos y luego conectando estos puntos con líneas rectas. El polígono de distribución resultante se muestra en la Fig. 2.2 con una línea de puntos.
Al construir un histograma de la distribución de una serie de variación con intervalos desiguales, no son las frecuencias las que se trazan a lo largo del eje de ordenadas, sino la densidad de la distribución de la característica en los intervalos correspondientes.
La densidad de distribución es la frecuencia calculada por unidad de ancho de intervalo, es decir cuántas unidades de cada grupo hay por unidad de valor de intervalo. En la tabla se presenta un ejemplo de cálculo de la densidad de distribución. 2.12.
Cuadro 2.12 - Distribución de empresas por número de empleados (cifras condicionales)
norte p/p Grupos de empresas por número de empleados, personas. Número de empresas Tamaño del intervalo, gente. Densidad de distribución
A 1 2 3=1/2
1 hasta 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

También se puede utilizar para representar gráficamente series de variaciones. curva acumulada. Utilizando una curva acumulada (curva de suma), se representa una serie de frecuencias acumuladas. Las frecuencias acumuladas se determinan sumando secuencialmente frecuencias entre grupos y muestran cuántas unidades de la población tienen valores de atributos no mayores que el valor considerado.


Arroz. 2.4. Ojiva de distribución de familias por tamaño de espacio habitable por persona

Al construir los acumulados de una serie de variación de intervalo, las variantes de la serie se trazan a lo largo del eje de abscisas y las frecuencias acumuladas a lo largo del eje de ordenadas.



¿Te gustó el artículo? ¡Comparte con tus amigos!