8.1. Conceptos básicos de análisis de correlación y regresión.

Al estudiar la naturaleza, la sociedad y la economía, es necesario tener en cuenta la interrelación de los procesos y fenómenos observados. En este caso, la integridad de la descripción está determinada de una forma u otra por las características cuantitativas de las relaciones de causa y efecto entre ellas. Evaluar los más importantes de ellos, así como el impacto de unos factores sobre otros, es una de las principales tareas de la estadística.

Las formas de manifestación de las relaciones son muy diversas. Como los dos tipos más comunes de ellos. resaltar funcional(lleno) y correlación conexión (incompleta). En el primer caso, el valor de la característica del factor corresponde estrictamente a uno o más valores de la función. Muy a menudo, aparecen conexiones funcionales en física y química. En economía, un ejemplo es la relación directamente proporcional entre la productividad laboral y el aumento de la producción.

Una relación de correlación (que también se llama incompleta o estadística) aparece en promedio para observaciones masivas, cuando los valores dados de la variable dependiente corresponden a un cierto número de valores probables de la variable independiente. La explicación de esto es la complejidad de las relaciones entre los factores analizados, cuya interacción está influenciada por variables aleatorias no contabilizadas. Por lo tanto, la conexión entre signos aparece sólo en promedio, en la mayoría de los casos. En una relación de correlación, cada valor de argumento corresponde a valores de función distribuidos aleatoriamente en un intervalo determinado.

Por ejemplo, un ligero aumento en el argumento implicará solo un aumento o disminución promedio (según la dirección) de la función, mientras que los valores específicos para unidades de observación individuales diferirán del promedio. Estas dependencias se encuentran en todas partes. Por ejemplo, en agricultura, esta podría ser la relación entre el rendimiento y la cantidad de fertilizante aplicado. Evidentemente, estos últimos intervienen en la formación del cultivo. Pero para cada campo o parcela específica, la misma cantidad de fertilizante aplicado provocará un aumento diferente en el rendimiento, ya que interactúan otros factores (clima, condición del suelo, etc.), que forman el resultado final. Sin embargo, en promedio, se observa esta relación: un aumento en la masa de fertilizantes aplicados conduce a un aumento en el rendimiento.

Según la dirección de comunicación hay derecho, cuando la variable dependiente aumenta al aumentar el atributo del factor, y contrarrestar, en el que el crecimiento de este último va acompañado de una disminución de su función. Estas conexiones también pueden denominarse positivas y negativas, respectivamente.

En cuanto a su forma analítica, las conexiones son lineal Y no lineal. En el primer caso, aparecen relaciones lineales en promedio entre las características. Una relación no lineal se expresa mediante una función no lineal y las variables están relacionadas entre sí de forma no lineal en promedio.

Hay otra característica bastante importante de las conexiones desde el punto de vista de los factores que interactúan. Si se caracteriza la conexión entre dos características, generalmente se llama cuarto de vapor. Si se estudian más de dos variables: múltiple.

Los criterios de clasificación anteriores se encuentran con mayor frecuencia en el análisis estadístico. Pero además de los enumerados, también hay directo indirecto Y FALSO comunicaciones. En realidad, la esencia de cada uno de ellos se desprende del nombre. En el primer caso, los factores interactúan directamente entre sí. Una conexión indirecta se caracteriza por la participación de alguna tercera variable que media la relación entre las características en estudio. Una conexión falsa es una conexión establecida formalmente y, por regla general, confirmada únicamente mediante estimaciones cuantitativas. No tiene base cualitativa o no tiene sentido.

Variar en fuerza débil Y fuerte comunicaciones. Esta característica formal se expresa en cantidades específicas y se interpreta de acuerdo con criterios generalmente aceptados para la fuerza de conexión para indicadores específicos.

En su forma más general, la tarea de la estadística en el campo del estudio de las relaciones es cuantificar su presencia y dirección, así como caracterizar la fuerza y forma de influencia de unos factores sobre otros. Para solucionarlo se utilizan dos grupos de métodos, uno de los cuales incluye métodos de análisis de correlación y el otro, análisis de regresión. Al mismo tiempo, varios investigadores combinan estos métodos en un análisis de correlación-regresión, que tiene alguna base: la presencia de una serie de procedimientos computacionales generales, complementariedad en la interpretación de los resultados, etc.

Por lo tanto, en este contexto, podemos hablar de análisis de correlación en un sentido amplio, cuando la relación se caracteriza de manera integral. Al mismo tiempo, existe un análisis de correlación en sentido estricto, cuando se examina la fuerza de la conexión, y un análisis de regresión, durante el cual se evalúa su forma y el impacto de unos factores sobre otros.

Las tareas mismas Análisis de correlación se reducen a medir la cercanía de la conexión entre diferentes características, determinar relaciones causales desconocidas y evaluar los factores que tienen la mayor influencia en la característica resultante.

Tareas análisis de regresión se encuentran en el área de establecer la forma de la dependencia, determinar la función de regresión y usar una ecuación para estimar los valores desconocidos de la variable dependiente.

La solución a estos problemas se basa en técnicas, algoritmos e indicadores adecuados, cuyo uso da pie a hablar del estudio estadístico de relaciones.

Cabe señalar que los métodos tradicionales de correlación y regresión están ampliamente representados en diversos paquetes de software estadístico para computadoras. El investigador sólo puede preparar la información correctamente, seleccionar un paquete de software que cumpla con los requisitos de análisis y estar preparado para interpretar los resultados obtenidos. Existen muchos algoritmos para calcular los parámetros de comunicación y, en la actualidad, no es aconsejable realizar manualmente un tipo de análisis tan complejo. Los procedimientos computacionales tienen un interés independiente, pero el conocimiento de los principios del estudio de las relaciones, las posibilidades y limitaciones de ciertos métodos de interpretación de resultados es un requisito previo para la investigación.

Los métodos para evaluar la fuerza de una conexión se dividen en correlación (paramétrica) y no paramétrica. Los métodos paramétricos se basan en el uso, por regla general, de estimaciones de la distribución normal y se utilizan en los casos en que la población en estudio está formada por valores que obedecen a la ley de la distribución normal. En la práctica, esta posición suele aceptarse a priori. En realidad, estos métodos son paramétricos y suelen denominarse métodos de correlación.

Los métodos no paramétricos no imponen restricciones a la ley de distribución de las cantidades estudiadas. Su ventaja es la simplicidad de los cálculos.

8.2. Correlación por pares y regresión lineal por pares

La técnica más sencilla para identificar la relación entre dos características es construir tabla de correlación:

\Y \ X\	Y 1	Y2	...	Yz	Total	Y yo
X1	f 11	12	...	f 1z
X1	f 21	22	...	f2z
...	...	...	...	...	...	...
xr	k1	k2	...	fkz
Total			...		norte
			...			-

La agrupación se basa en dos características estudiadas en la relación: X e Y. Las frecuencias f ij muestran el número de combinaciones correspondientes de X e Y. Si f ij se ubican aleatoriamente en la tabla, podemos hablar de la ausencia de una relación entre las variables. En el caso de que se forme cualquier combinación característica f ij, se puede afirmar una conexión entre X e Y. Además, si f ij se concentra cerca de una de las dos diagonales, se produce una conexión lineal directa o inversa.

Una representación visual de la tabla de correlación es campo de correlación. Es un gráfico donde los valores de X se trazan en el eje de abscisas, los valores de Y se trazan en el eje de ordenadas y la combinación de X e Y se muestra con puntos mediante la ubicación de los puntos y sus concentraciones en un. cierta dirección, se puede juzgar la presencia de una conexión.

En los resultados de la tabla de correlación, se dan dos distribuciones en filas y columnas: una para X y la otra para Y. Calculemos el valor promedio de Y para cada Xi, es decir , Cómo

La secuencia de puntos (X i, ) da un gráfico que ilustra la dependencia del valor medio del atributo efectivo Y del factor X, – línea de regresión empírica, mostrando claramente cómo Y cambia a medida que X cambia.

Esencialmente, tanto la tabla de correlación, el campo de correlación y la línea de regresión empírica ya caracterizan preliminarmente la relación cuando se seleccionan el factor y las características resultantes y es necesario formular suposiciones sobre la forma y dirección de la relación. Al mismo tiempo, la evaluación cuantitativa de la estanqueidad de la conexión requiere cálculos adicionales.

En la práctica, para cuantificar la estanqueidad de una conexión, se utiliza ampliamente el método lineal. coeficiente de correlación. A veces se le llama simplemente coeficiente de correlación. Si se dan los valores de las variables X e Y, entonces se calcula mediante la fórmula

Puede utilizar otras fórmulas, pero el resultado debería ser el mismo para todas las opciones de cálculo.

El coeficiente de correlación toma valores en el rango de -1 a + 1. Generalmente se acepta que si |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – promedio; en |r| > 0,70 – fuerte o apretado. Cuando |r| = 1 – conexión funcional. Si r toma un valor de aproximadamente 0, entonces esto da motivos para hablar de la ausencia de una relación lineal entre Y y X. Sin embargo, en este caso, la interacción no lineal es posible. lo que requiere verificación adicional de otros medidores que se analizan a continuación.

Los métodos de análisis de regresión se utilizan para caracterizar el impacto de los cambios en X sobre las variaciones en Y. En el caso de una relación lineal pareada, se construye un modelo de regresión.

donde norte – número de observaciones;
a 0 y 1 son parámetros desconocidos de la ecuación;
e i es el error de la variable aleatoria Y.

La ecuación de regresión se escribe como

donde Y itheor es el valor ecualizado calculado de la característica resultante después de la sustitución en la ecuación X.

Los parámetros a 0 y a 1 se estiman mediante procedimientos, el más utilizado de los cuales es método de mínimos cuadrados. Su esencia radica en el hecho de que las mejores estimaciones ag y a se obtienen cuando

aquellos. la suma de las desviaciones al cuadrado de los valores empíricos de la variable dependiente de los calculados mediante la ecuación de regresión debe ser mínima. La suma de las desviaciones al cuadrado es función de los parámetros a 0 y a 1. Su minimización se realiza resolviendo el sistema de ecuaciones.

También puedes utilizar otras fórmulas derivadas del método de mínimos cuadrados, por ejemplo:

El aparato de regresión lineal está bastante bien desarrollado y, por regla general, está disponible en un conjunto de programas estándar de evaluación de correlación para computadoras. El significado de los parámetros es importante: y 1 es un coeficiente de regresión que caracteriza el efecto que un cambio en X tiene sobre Y. Muestra cuántas unidades en promedio cambiará Y cuando X cambie en una unidad. Si a es mayor que 0, entonces se observa una relación positiva. Si a tiene un valor negativo, entonces un aumento de X en uno implica una disminución de Y en promedio de a 1. El parámetro a 1 tiene la dimensión de la relación Y a X.

El parámetro a 0 es una constante en la ecuación de regresión. En nuestra opinión, no tiene significado económico, pero en varios casos se interpreta como el valor inicial de Y.

Por ejemplo, a partir de datos sobre el costo del equipo X y la productividad laboral Y, la ecuación se obtuvo mediante el método de mínimos cuadrados.

Y = -12,14 + 2,08X.

El coeficiente a significa que el costo del equipo aumentará en 1 millón de rublos. conduce en promedio a un aumento de la productividad laboral de 2,08 mil rublos.

El valor de la función Y = a 0 + a 1 X se llama valor calculado y se forma en la gráfica. recta de regresión teórica.

El significado de regresión teórica es que es una estimación del valor promedio de la variable Y para un valor dado de X.

La correlación pareada o la regresión pareada pueden considerarse como un caso especial que refleja la relación entre alguna variable dependiente, por un lado, y una de las muchas variables independientes, por el otro. Cuando es necesario caracterizar la relación de todo el conjunto especificado de variables independientes con la característica resultante, hablamos de correlación múltiple o regresión múltiple.

8.3. Evaluación de la importancia de los parámetros de relación.

Una vez obtenidas las estimaciones de correlación y regresión, es necesario verificar que cumplan con los verdaderos parámetros de la relación.

Los programas informáticos existentes suelen incluir varios de los criterios más comunes. Para evaluar la importancia del coeficiente de correlación por pares, se calcula el error estándar del coeficiente de correlación:

Como primera aproximación, es necesario que. La importancia de r xy se comprueba comparándola con y obtenemos

donde t calculado es el llamado valor calculado del criterio t.

Si t calculado es mayor que el valor teórico (tabular) de la prueba de Student (t tab) para un nivel dado de probabilidad y (n-2) grados de libertad, entonces se puede argumentar que r xy es significativo.

De la misma forma, a partir de las fórmulas correspondientes se calculan los errores estándar de los parámetros de la ecuación de regresión y luego las pruebas t para cada parámetro. Es importante nuevamente comprobar que se cumple la condición t calculado > t tabla. De lo contrario, no hay razón para confiar en la estimación de parámetros obtenida.

La conclusión sobre la exactitud de la elección del tipo de relación y las características de significancia de toda la ecuación de regresión se obtienen utilizando el criterio F, calculando su valor calculado:

donde n es el número de observaciones;
m es el número de parámetros de la ecuación de regresión.

F calculado también debe ser mayor que F teórico en v 1 = (m-1) y v 2 = (n-m) grados de libertad. En caso contrario, deberás reconsiderar la forma de la ecuación, la lista de variables, etc.

8.4. Métodos no paramétricos para estimar relaciones.

Los métodos de análisis de correlación y varianza no son universales: se pueden utilizar si todas las características que se estudian son cuantitativas. Al utilizar estos métodos, es imposible prescindir del cálculo de los principales parámetros de la distribución (valores medios, varianzas), por eso se denominan métodos paramétricos.

Mientras tanto, en la práctica estadística hay que afrontar problemas de medición de la relación entre características cualitativas, a los que no son aplicables los métodos de análisis paramétricos en su forma habitual. La ciencia estadística ha desarrollado métodos que pueden usarse para medir la relación entre fenómenos sin utilizar valores cuantitativos del atributo y, por lo tanto, parámetros de distribución. Estos métodos se llaman no paramétrico.

Si se estudia la relación entre dos características cualitativas, entonces se utiliza la distribución combinada de unidades de población en la forma de la llamada tablas de contingencia mutua.

Consideremos la metodología para analizar tablas de contingencia mutua utilizando un ejemplo específico de movilidad social como un proceso de superación del aislamiento de grupos sociales y profesionales individuales de la población. A continuación se presentan datos sobre la distribución de los graduados de secundaria por área de empleo, destacando grupos sociales similares de sus padres.

La distribución de frecuencias en las filas y columnas de la tabla de contingencia cruzada nos permite identificar los principales patrones de movilidad social: el 42,9% de los hijos de padres del grupo 1 (“Industria y construcción”) están empleados en el campo del trabajo intelectual. (39 de 91); 38,9% de los niños. cuyos padres trabajan en la agricultura, trabajan en la industria (34 de 88), etc.

También se puede observar una herencia evidente en la transmisión de profesiones. Así, de los que llegaron a la agricultura, 29 personas, o el 64,4%, son hijos de trabajadores agrícolas; más del 50% en el ámbito del trabajo intelectual tienen padres pertenecientes al mismo grupo social, etc.

Sin embargo, es importante obtener un indicador general que caracterice la cercanía de la conexión entre características y permita comparar la manifestación de la conexión en diferentes poblaciones. Para ello calculan, por ejemplo, coeficientes de contingencia mutua Pearson (S) y Chuprov (C):

donde f 2 es el indicador de conjugación cuadrática media, determinado restando uno de la suma de las proporciones de las frecuencias al cuadrado de cada celda de la tabla de correlación al producto de las frecuencias de la columna y fila correspondientes:

K 1 y K 2: el número de grupos para cada una de las características. El valor del coeficiente de contingencia mutua, que refleja la estrecha conexión entre características cualitativas, fluctúa dentro del rango habitual para estos indicadores de 0 a 1.

En la investigación socioeconómica, a menudo se encuentran situaciones en las que una característica no se expresa cuantitativamente, pero se pueden ordenar las unidades de la población. Esta ordenación de unidades de población por valor de atributo se llama clasificación. Algunos ejemplos podrían ser clasificar a los estudiantes (alumnos) por capacidad, cualquier grupo de personas por nivel de educación, profesión, capacidad para ser creativo, etc.

Al clasificar, a cada unidad de la población se le asigna rango, aquellos. número de serie. Si el valor de una característica es el mismo para diferentes unidades, se les asigna un número ordinal promedio combinado. Por ejemplo, si las unidades de población quinta y sexta tienen los mismos valores de características, ambas recibirán una clasificación igual a (5 + 6) / 2 = 5,5.

La medición de la relación entre las características clasificadas se realiza utilizando coeficientes de correlación de rango Spearman (r) y Kendall (t). Estos métodos son aplicables no solo para indicadores cualitativos, sino también cuantitativos, especialmente con un tamaño de población pequeño, ya que los métodos de correlación de rangos no paramétricos no están asociados con ninguna restricción con respecto a la naturaleza de la distribución de la característica.

El estudio de las conexiones objetivamente existentes entre los fenómenos es la tarea más importante de la teoría general de la estadística. En el proceso de estudio estadístico de dependencias se revelan relaciones de causa y efecto entre fenómenos, lo que permite identificar factores (signos) que tienen un impacto significativo en la variación de los fenómenos y procesos en estudio. Una relación de causa y efecto es una conexión entre fenómenos y procesos en los que un cambio en uno de ellos, la causa, conduce a un cambio en el otro, el efecto.

Una causa es un conjunto de condiciones, circunstancias, cuya acción conduce a la aparición de un efecto. Si realmente existen relaciones de causa y efecto entre los fenómenos, entonces estas condiciones deben necesariamente realizarse junto con la acción de las causas. Las relaciones causales son universales y diversas, y para detectar relaciones de causa y efecto es necesario seleccionar fenómenos individuales y estudiarlos de forma aislada.

De particular importancia al estudiar las relaciones de causa y efecto es la identificación de la secuencia temporal: la causa siempre debe preceder al efecto, pero no todos los eventos anteriores deben considerarse una causa, y el posterior, una consecuencia.

En la realidad socioeconómica real, la causa y el efecto deben considerarse como fenómenos relacionados, cuya aparición se debe a un complejo de causas y efectos más simples que los acompañan. Entre grupos complejos de causas y efectos, son posibles conexiones multivaluadas, en las que a una causa le seguirá una u otra acción, o una acción tendrá varias causas diferentes. Para establecer una relación causal inequívoca entre fenómenos o predecir las posibles consecuencias de una causa específica, se requiere una abstracción completa de todos los demás fenómenos en el entorno temporal o espacial en estudio. Teóricamente, tal abstracción se reproduce. Las técnicas de abstracción se utilizan a menudo al estudiar la relación entre dos características (correlación por pares). Pero cuanto más complejos son los fenómenos que se estudian, más difícil resulta identificar relaciones de causa y efecto entre ellos. El entrelazamiento de diversos factores internos y externos conduce inevitablemente a algunos errores al determinar la causa y el efecto.

Una característica de las relaciones de causa y efecto en los fenómenos socioeconómicos es su transitividad, es decir causa y efecto están relacionados por correlación, no directamente. Sin embargo, los factores intermedios suelen omitirse en el análisis.

Así, por ejemplo, cuando se utilizan indicadores de la metodología de cálculo internacional, se considera que el factor de ganancia bruta es la acumulación bruta de capital fijo y de trabajo, pero se permiten factores como la producción bruta, los salarios, etc. Las relaciones de causa y efecto correctamente descubiertas permiten establecer la fuerza de la influencia de los factores individuales en los resultados de la actividad económica.

Los fenómenos socioeconómicos son el resultado de la influencia simultánea de un gran número de causas. En consecuencia, al estudiar estos fenómenos es necesario, haciendo abstracción de los secundarios, identificar las causas principales y fundamentales.

En la primera etapa del estudio estadístico de la comunicación se realiza un análisis cualitativo del fenómeno en estudio utilizando los métodos de la teoría económica, la sociología y la economía concreta.

En una segunda etapa se construye un modelo de comunicación basado en métodos estadísticos: agrupaciones, promedios, tablas, etc.

En la tercera y última etapa se interpretan los resultados; El análisis está nuevamente relacionado con las características cualitativas del fenómeno en estudio.

La estadística ha desarrollado muchos métodos para estudiar las relaciones, cuya elección depende de los objetivos del estudio y de las tareas planteadas. Las conexiones entre signos y fenómenos, debido a su amplia variedad, se clasifican según varios motivos. Los signos según su significado para el estudio de la relación se dividen en dos clases. Los rasgos que provocan cambios en otros rasgos relacionados se denominan factoriales o simplemente factores. Los signos que cambian bajo la influencia de los signos de los factores son eficaces. Las conexiones entre los fenómenos y sus características se clasifican según el grado de cercanía de la conexión, dirección y expresión analítica.

En estadística se distingue entre conexión funcional y dependencia estocástica. Una relación funcional es aquella en la que un determinado valor de una característica de un factor corresponde a uno y sólo un valor de la característica resultante. La conexión funcional se manifiesta en todos los casos de observación y para cada unidad específica de la población en estudio.

Si una dependencia causal no aparece en cada caso individual, sino en general, en promedio durante un gran número de observaciones, entonces dicha dependencia se llama estocástica. Un caso especial de estocástico es una relación de correlación, en la que un cambio en el valor promedio de la característica resultante se debe a un cambio en las características del factor.

Según el grado de cercanía de la conexión, se distinguen criterios cuantitativos para evaluar la cercanía de la conexión (Tabla 1).

Tabla 1 Criterios cuantitativos para evaluar la cercanía de las conexiones

Por dirección, se distinguen las conexiones directas e inversas. En conexión directa con un aumento o disminución en los valores de una característica de un factor, se produce un aumento o disminución en los valores de la característica resultante. Por ejemplo, un aumento de la productividad laboral ayuda a aumentar el nivel de rentabilidad de la producción. En el caso de la retroalimentación, los valores de la característica resultante cambian bajo la influencia de la característica del factor, pero en la dirección opuesta al cambio en la característica del factor. Por tanto, con un aumento en el nivel de productividad del capital, el costo por unidad de producción disminuye.

Según la expresión analítica, las conexiones se distinguen entre lineales (o simplemente lineales) y no lineales. Si una relación estadística entre fenómenos puede expresarse aproximadamente mediante la ecuación de una línea recta, entonces se llama relación lineal; si se expresa mediante la ecuación de cualquier línea curva (parábola, hipérbola, potencia, exponencial, exponencial, etc.), entonces dicha relación se llama no lineal o curvilínea.

Las estadísticas no siempre requieren evaluaciones cuantitativas de la relación; a menudo es importante determinar sólo su dirección y naturaleza, para identificar la forma de influencia de unos factores sobre otros. Para identificar la presencia de una relación, su naturaleza y dirección en las estadísticas, se utilizan métodos de paralelización de datos; grupos analíticos; gráfico; correlación, regresión.

El método de poner datos paralelos se basa en comparar dos o más series de valores estadísticos. Esta comparación nos permite establecer la existencia de una conexión y hacernos una idea de su naturaleza. Comparemos los cambios en dos cantidades y a medida que aumenta el valor, el valor también aumenta. Por lo tanto, la conexión entre ellos es directa y puede describirse mediante una ecuación de línea recta o una ecuación de parábola de segundo orden.

La relación entre dos características se representa gráficamente utilizando el campo de correlación. En el sistema de coordenadas, los valores de la característica del factor se trazan en el eje de abscisas y la característica resultante se traza en el eje de ordenadas. Cada intersección de líneas trazadas a través de estos ejes se indica con un punto. En ausencia de conexiones estrechas, se observa una disposición aleatoria de puntos en el gráfico. Cuanto más fuerte sea la conexión entre las características, más estrechamente se agruparán los puntos alrededor de una determinada línea que expresa la forma de la conexión.

Es característico de los fenómenos socioeconómicos que, junto con los factores importantes que forman el nivel del atributo efectivo, está influenciado por muchos otros factores aleatorios y no contabilizados. Esto indica que las relaciones entre los fenómenos estudiados por la estadística son de naturaleza correlacional y se expresan analíticamente mediante una función de la forma.

El método de correlación tiene como tarea la determinación cuantitativa de la cercanía de la conexión entre dos características (en una conexión por pares) y entre las características resultantes y de muchos factores (en una conexión multifactorial).

La correlación es una dependencia estadística entre variables aleatorias que no tienen una naturaleza estrictamente funcional, en la que un cambio en una de las variables aleatorias conduce a un cambio en la expectativa matemática de la otra.

En estadística, se distinguen las siguientes opciones de dependencia:

-correlación de pares: una conexión entre dos características (resultante y factor o dos factores);
-correlación parcial: la dependencia entre las características resultantes y de un factor con un valor fijo de las características de otros factores;
-correlación múltiple: la dependencia de la resultante y dos o más características de los factores incluidos en el estudio.

La cercanía de la conexión se expresa cuantitativamente por la magnitud de los coeficientes de correlación. Los coeficientes de correlación, que representan una característica cuantitativa de la estrecha relación entre características, permiten determinar la "utilidad" de las características de los factores al construir ecuaciones de regresión múltiple. El valor del coeficiente de correlación también sirve como evaluación de la coherencia de la ecuación de regresión con las relaciones de causa y efecto identificadas.

Inicialmente, los estudios de correlación se llevaron a cabo en biología y luego se extendieron a otras áreas, incluida la socioeconómica. Simultáneamente con la correlación, se empezó a utilizar la regresión. La correlación y la regresión están estrechamente relacionadas: la correlación evalúa la fuerza (cercanía) de una relación estadística, la regresión examina su forma. Ambos sirven para establecer la relación entre fenómenos, para determinar la presencia o ausencia de una conexión.

El análisis de correlación y regresión como concepto general incluye medir la cercanía, la dirección de la conexión y establecer una expresión analítica (forma) de la conexión (análisis de regresión).

El método de regresión consiste en determinar la expresión analítica de una relación en la que un cambio en un valor (llamado característica dependiente o resultante) se debe a la influencia de uno o más valores independientes (factores), y el conjunto de todos los demás. Los factores que también influyen en el valor dependiente se toman como significados constantes y promedio. La regresión puede ser de un solo factor (emparejada) o multifactorial (múltiple).

Dependiendo de la forma de dependencia existen:

Regresión lineal, que se expresa mediante una ecuación en línea recta (función lineal) de la forma:

Yx = a0 + a1x;

Regresión no lineal, que se expresa mediante ecuaciones de la forma:

Yx = a0 + a1x + a2 x 2 - parábola; Yx = a0 ++ a1/x - hipérbola

Según la dirección de comunicación existen:

-regresión directa (positiva), que ocurre si, con un aumento o disminución del valor independiente, los valores del valor dependiente también aumentan o disminuyen en consecuencia;
-regresión inversa (negativa), que aparece bajo la condición de que con un aumento o disminución en el valor independiente, el valor dependiente disminuye o aumenta en consecuencia.

Las regresiones positivas y negativas se pueden entender más fácilmente si se representan gráficamente.

Para la regresión simple (por pares), en condiciones en las que las relaciones de causa y efecto están suficientemente establecidas, sólo la última disposición adquiere significado práctico; Con una multiplicidad de conexiones causales, es imposible distinguir claramente unos fenómenos causales de otros.

regresión de fluctuación estacional

13.1. Tipos de conexiones entre fenómenos, sus características.

El estudio de la realidad muestra que los cambios en la característica estudiada están estrechamente relacionados con otras características.

Al estudiar dependencias específicas, algunos signos actúan como factores, provocando cambios en otras características: se denominan características del factor (X).

signos que son resultado la influencia de estas características de los factores se denomina signos efectivos (U).

Por ejemplo: considerando la relación entre la productividad laboral y las calificaciones de los trabajadores, el nivel de productividad laboral es un atributo efectivo y las calificaciones de los trabajadores son un factor, porque su aumento conduce a un aumento de la productividad laboral.

Hay dos tipos principales de conexiones entre fenómenos.

- las conexiones funcionales se caracterizan por una correspondencia completa entre el cambio en el factor y la característica resultante (cada valor de la característica del factor corresponde a valores muy específicos de la característica resultante)

Un ejemplo de relación funcional es la dependencia de la circunferencia (L) del radio (r).

- conexiones de correlación en las que no existe una correspondencia completa entre los cambios en los factores y las características resultantes, el impacto de los factores individuales se manifiesta solo en promedio durante la observación masiva, datos reales.

En el caso más simple de utilizar una dependencia de correlación, el valor del atributo resultante se considera como consecuencia de un cambio en un solo factor (por ejemplo: un aumento en las calificaciones de los trabajadores se considera la razón del aumento en la productividad laboral ).

Sin embargo, el factor resaltado en este ejemplo como atributo principal no es la única razón del cambio en el atributo efectivo y, junto con él, el valor del atributo efectivo se ve influenciado por muchas otras razones (en particular, la productividad laboral se ve afectada por el nivel de suministro de energía, mecanización y automatización de la producción).

En presencia de una dependencia de correlación, sólo se establece la tendencia de cambio en la característica resultante cuando cambia el valor de la característica del factor.

La explicación de esto es la complejidad de las relaciones entre los factores analizados, cuya interacción está influenciada por variables aleatorias no contabilizadas. Por lo tanto, la conexión aparece sólo en promedio, en la mayoría de los casos.

Con una correlación entre cada valor del argumento (signo x del factor).

Corresponde a valores de función distribuidos aleatoriamente en un intervalo determinado (y – signo de resultado).

Por ejemplo, en agricultura, esta podría ser la relación entre el rendimiento y la cantidad de fertilizante aplicado. Es obvio que los fertilizantes intervienen en la formación del cultivo; para un campo en particular, la participación de la misma cantidad de fertilizante provocará un aumento diferente en el rendimiento, ya que interactúan varios otros factores (clima, condición del suelo, etc.). ) que forman el cultivo. Sin embargo, en promedio, se observa la siguiente relación: un aumento en la masa de fertilizantes aplicados conduce a un aumento en el rendimiento.

Tipos de relaciones:

a) Según la dirección de comunicación se dividen en:
- derecho– cuando la variable dependiente crece con un aumento en la característica del factor (relación positiva)
- contrarrestar, cuando un aumento en una característica de un factor conduce a una disminución en la resultante (relación negativa)

b) Según el grado de hacinamiento:

c) Según la expresión analítica:
- lineal
- curvilíneo.

Objetivos de las estadísticas en el estudio de las conexiones entre fenómenos es el siguiente:

1. evaluación cuantitativa de la presencia y dirección de la comunicación;

2. caracterización de la forma de influencia de unos factores sobre otros (cambio en el grado de cercanía de la correlación);

3. encontrar una expresión analítica para la relación (construir ecuaciones de regresión o modelos de correlación-regresión);

4. evaluación de la conformidad de los modelos obtenidos y su uso práctico.

13.2. Métodos para identificar la presencia de una correlación entre dos características.

Para responder a la pregunta sobre la presencia o ausencia de correlación, se utilizan varios métodos:

- comparación paralela de series de valores de características resultantes y factoriales, es la técnica más sencilla. Los valores de la característica del factor se organizan en orden ascendente y luego se rastrea la dirección del cambio en el valor de la característica resultante;

Sin embargo, la presencia de un gran número de valores diferentes de la característica resultante correspondientes al mismo valor de la característica del factor dificulta la percepción de tales series paralelas. En tales casos, para establecer comunicación - utilizar tablas estadísticas - correlación y grupo.

Construyendo una tabla de correlación Empiece por agrupar los valores del factor y las características resultantes.

En este caso, la característica del factor (x), por regla general, tiene significados específicos y está ubicada en líneas; y la característica resultante (y) se presenta en forma de intervalos y se ubica en las columnas de la tabla.

Los números ubicados en la intersección de las filas y columnas de la tabla indican la frecuencia de construcción de una combinación determinada de valores X e Y.

Esta tabla de correlación, incluso con un conocimiento general, permite:

Determinar la presencia o ausencia de comunicación;

Descubra su dirección.

Si las frecuencias en la tabla de correlación están ubicadas en diagonal desde la esquina superior izquierda a la inferior derecha (es decir, valores grandes del factor corresponden a valores grandes del resultado), entonces podemos asumir la presencia de una correlación directa. entre las características.

Si las frecuencias están ubicadas desde la esquina superior derecha hasta la inferior izquierda, entonces se supone retroalimentación.

La construcción de una mesa de grupo también comienza con la agrupación. Para cada grupo se calculan los valores medios de la característica resultante y luego se comparan los datos obtenidos.

- Se aplica el método gráfico. Para:

· Identificación preliminar de la presencia o ausencia de comunicación;

· Definición de la naturaleza y forma de comunicación.

Utilizando datos sobre los valores individuales del rasgo del factor y los valores correspondientes del rasgo resultante, es posible construir un diagrama de puntos en ejes rectangulares, que se llama campo de correlación.

Habiendo determinado el valor promedio de los puntos, puedes construir una línea que sea línea de comunicación empírica .

Si la línea de comunicación empírica se acerca a una línea de comunicación directa, entonces puede haber una línea recta de correlación entre las características.

Si se trata de cualquier curva, entonces es posible una correlación curvilínea.

13.3. Medir el grado de cercanía de la correlación entre dos características.

Está claro que algunos factores tienen una influencia más fuerte, otros menos, sobre el atributo efectivo.

Las características de la fuerza de influencia de algunos factores sobre otros se dan utilizando indicadores del grado de cercanía de la correlación entre dos características, estos incluyen:

· Coeficiente de correlación de signos;

· Coeficiente de correlación lineal;

Coeficiente de correlación de rango

a) Coeficiente de correlación de signos

El número de coincidencias de signos de desviación de valores individuales del promedio del factor y las características resultantes;

Número de discrepancias en los signos de desviación.

b) El coeficiente de correlación lineal es un indicador más perfecto del grado de cercanía de la conexión. Al calcular este indicador, no solo se tienen en cuenta los signos de las desviaciones, sino también el valor de dichas desviaciones.

Hay muchas variaciones de esta fórmula.

Muchos científicos se han ocupado de las cuestiones de la correlación y las dependencias estocásticas en general (se manifiesta en muchos casos).

Correlación múltiple.

Coeficiente de correlación múltiple: , donde

La varianza total de los datos reales del atributo resultante, es decir dispersión y.

Varianza residual que caracteriza la variación. y debido a factores no incluidos en la ecuación de regresión.

Refleja la estrecha relación entre la variación de la variable dependiente y las variaciones de todas las variables independientes incluidas en el análisis.

0< <1 чем ближе к 1, тем более сильная связь, к 0 - не все факторы учтены, не подходящая форма уравнения.

c) Coeficiente de correlación de rango (coeficiente de correlación de características cualitativas)

Le permite medir la cercanía de la conexión entre características cualitativas que no se pueden expresar en números. A cada unidad de la población se le asigna un número de serie en la serie, el cual estará ordenado por el nivel de la característica. Así, se clasifica una serie de valores, y el número de cada unidad individual será su rango.

Puede hacerse una idea de la relación de correlación comparando los rangos del factor y las características resultantes. Método de Spearman y método de Kendell.

13.4. Ecuaciones de regresión, sus tipos.

El estudio de las dependencias de correlación se basa en el estudio de conexiones entre variables en las que el valor de una variable, que puede utilizarse como variable dependiente "en promedio", cambia según los valores tomados por otra variable. considerado como una causa en relación con la variable dependiente.

El estudio de las dependencias conduce a la búsqueda de conexiones analíticas en forma de fórmulas (es decir, funciones que se escriben compilando ecuaciones de regresión).

Y en el campo gráfico se construye. recta de regresión teórica – ésta es la línea alrededor de la cual se agrupan los puntos del campo de correlación y que indica la dirección principal, la tendencia principal de la conexión.

Los siguientes tipos de funciones se utilizan con mayor frecuencia para caracterizar las conexiones entre fenómenos económicos:

Lineal:

Hiperbólico:

Indicativo:

Fuerza:

13.5. Modelos de correlación-regresión (CRM),

su aplicación en análisis y previsión

En la práctica, la mayoría de las veces, un cambio en la característica en estudio depende de la acción de varias causas. En tales casos, el cambio en la correlación no puede limitarse a dependencias pareadas, sino que es necesario incluir en el análisis otras características-factores que influyan significativamente en la variable en estudio.

La selección de factores para la construcción de modelos multifactoriales se realiza sobre la base de un análisis cualitativo y cuantitativo de los fenómenos socioeconómicos utilizando criterios estadísticos.

Modelo de correlación-regresión un sistema de características interrelacionadas es una ecuación de regresión que incluye los factores principales.

La construcción de modelos de regresión multifactorial permite proporcionar una descripción cuantitativa de los principales patrones de los fenómenos en estudio, identificar factores significativos que determinan cambios en los indicadores económicos y evaluar su impacto.

Los modelos resultantes se utilizan principalmente en dos direcciones:

· Para análisis comparativo

· En previsión

Incluso en el pasado reciente, la posibilidad de utilizar métodos de análisis de correlación y regresión se vio obstaculizada por la alta complejidad de los cálculos necesarios. Hoy en día, los paquetes de software estadístico se han generalizado, eliminando estas limitaciones.

Para ampliar las posibilidades del análisis económico se utiliza el coeficiente de elasticidad:

, Dónde

Valor medio de la característica del factor.

Valor medio de la característica efectiva.

Coeficiente de regresión para la característica del factor correspondiente.

Muestra en qué porcentaje en promedio cambiará el valor de la característica resultante cuando cambie la característica del factor.

Establecer como valor de referencia.

Es necesario distinguir entre conexiones funcionales y de correlación. A diferencia de una dependencia funcional, en la que cada valor de una variable corresponde estrictamente a un valor específico de otra variable, una dependencia en la que un valor de una variable ( X) puede corresponder (debido a la superposición de otras causas) a un conjunto de valores de otra variable ( y), se llama correlación. La dependencia de la correlación se manifiesta sólo sobre la base de la observación masiva.

Un ejemplo de dependencia de correlación es la dependencia de la productividad laboral de la experiencia laboral de los trabajadores, la dependencia del rendimiento del tiempo de siembra, la dependencia de la producción láctea anual de las vacas del número de partos, etc.

El caso más simple de dependencia de la correlación es cuarto de vapor correlación, es decir dependencia entre dos características (resultativa y una de las factoriales).

Las principales tareas al estudiar las dependencias de correlación son:

1. encontrar una fórmula matemática que exprese esta relación y de X

2. medir la rigidez de dicha dependencia.

La solución al primer problema, es decir. Determinar la forma de la conexión y luego encontrar los parámetros de la ecuación se llama encontrar la ecuación de conexión (ecuación de regresión). Indicadores considerados como función. X, denota (léase: “Y, alineado por X”).

Son posibles varias formas de comunicación:

1. recto:

2. curvilíneo en la forma:
a) parábolas de segundo orden (o órdenes superiores)
b) hipérboles
c) función exponencial, etc.

Los parámetros para todas las ecuaciones de acoplamiento se determinan con mayor frecuencia a partir del llamado sistemas de ecuaciones normales, cumpliendo con el requisito del “método de mínimos cuadrados” (LSM). Este requisito se puede escribir como o, para una relación lineal, es decir, se requiere determinar en qué valores de parámetros y la suma de las desviaciones al cuadrado y será mínimo. Habiendo encontrado las derivadas parciales de la suma especificada con respecto a y y equiparándolas a cero, es fácil escribir un sistema de ecuaciones, cuya solución viene dada por los parámetros de la función deseada, es decir ecuaciones de regresión.

Así, el sistema de ecuaciones normales con dependencia lineal tiene la forma:

Si la relación se expresa mediante una parábola de segundo orden

entonces el sistema de ecuaciones normales para encontrar los parámetros , , se ve así:

La segunda tarea - medir la proximidad de la dependencia - para todas las formas de comunicación se puede resolver mediante el cálculo de la relación de correlación teórica:

Varianza en una serie de valores ecualizados.
indicador de rendimiento;

Dispersión en la serie de valores reales. y.

Dado que la varianza refleja la variación en la serie sólo debido a la variación del factor X, y la dispersión refleja la variación y debido a todos los factores, entonces su relación, llamada coeficiente teórico de determinación, muestra qué proporción en la dispersión total de la serie y toma la varianza causada por la variación del factor X. la raíz cuadrada de la relación de estas varianzas nos da la relación de correlación teórica. Si = , entonces esto significa que el papel de otros factores en la variación y anulado, y la actitud:

Significa dependencia completa de la variación. y de X.

Si = 0, entonces esto significa que la variación X no afecta la variación de ninguna manera y, y en este caso.

Por tanto, el valor máximo que puede tomar la relación de correlación es 1, el valor mínimo es 0.

Es matemáticamente fácil demostrar que en el caso de una dependencia lineal, la relación de correlación puede reemplazarse por una expresión que se llama coeficiente de correlación lineal y se denota r, es decir. donde es el coeficiente de regresión en la ecuación de comunicación y es, en consecuencia, la desviación estándar en la serie X y en una fila y.

El coeficiente de correlación lineal se puede expresar mediante otras fórmulas idénticas a la primera, en particular:

o y también

El coeficiente de correlación lineal puede tomar valores de módulo de 0 a 1 (el signo “+” para una relación directa y el signo “-” para una relación inversa).

Consideremos resolver un problema sobre este tema.

Problema 1

Supongamos que los siguientes datos sobre la producción de productos estén disponibles para 10 empresas similares ( X) en miles de unidades y sobre el consumo de combustible equivalente ( y) en toneladas (columnas 1 y 2 de la tabla).

Se requiere encontrar la ecuación para la dependencia del consumo de combustible de la producción del producto (o ecuación de regresión y Por X) y medir la cercanía de la relación entre ellos.

Solución.

A. considerando la ecuación de regresión en forma de función lineal de la forma , encontramos los parámetros de esta ecuación ( y ) del sistema de ecuaciones normales

X	y	x2	xy	=1,16+0,547x	y 2

				3,9 4,4 5,5 5,5 6,6 6,6 8,8 12,1 12,1 14,3

Las cantidades , , necesarias para resolver se calculan en la tabla anterior. Los sustituimos en las ecuaciones y resolvemos el sistema:

A partir de aquí, habiendo encontrado previamente el coeficiente de correlación lineal r=0,96 se considera significativo, y la relación entre X Y y – real.

Preguntas de seguridad para el tema.:

1. Qué signos son efectivos, factoriales.

2. ¿Cuáles son los dos tipos principales de conexiones entre fenómenos? Explica su esencia.

3. Explicar la clasificación de las relaciones.

4. ¿Cuáles son las tareas de la estadística al estudiar las conexiones entre fenómenos?

5. Cuéntanos qué métodos conoces para identificar la presencia de una correlación entre dos características.

6. Qué indicadores se utilizan para caracterizar la fuerza de la influencia de unos factores sobre otros.

7. Explique el coeficiente de correlación múltiple.

8. ¿Qué son los “modelos de correlación-regresión” y cuál es su aplicación en el análisis y la previsión?

9. Explique el coeficiente de correlación lineal.

10. ¿Cuál es la esencia del método de mínimos cuadrados?

Bibliografía

1. Eliseeva I.I., Yuzbashev M.M. Teoría general de la estadística: Libro de texto / Ed. I.I. Eliseeva. 5ª ed., revisada. y adicional M.: Finanzas y Estadística, 2004.

2. Efimova M.R., Petrova E.V., Rumyantseva V.N. Teoría general de la estadística: libro de texto. – 2ª ed., rev. y adicional – M.: INFRA-M, 2000. – 416 p.

3. Teoría general de la estadística: Libro de texto / Ed. Equipo original Bashina, A.A. Espirina, 5ª ed. M., 1999.

4. Taller de teoría de la estadística: Proc. subsidio / Ed. REAL ACADEMIA DE BELLAS ARTES. Shmoilova. M.: Finanzas y Estadística, 1999.

5. Sidenko A.V., Popov G.Yu., Matveeva V.M. Estadística: libro de texto. M., 2000.

6. Estadísticas sociales: Libro de texto / Ed. I.I. Eliseeva. 3ª ed., revisada. y adicional M.: Finanzas y Estadística, 2003.

7. Estadísticas de bienes y servicios: Libro de texto / Ed. I.K. Belyavsky. M., 2002.

8. Estadística: Libro de texto / Ed. V.S. Mkhitaryan. M.: Economista, 2005

9. Teoría de la Estadística: Libro de texto/Ed. Profesor G.L. Gromiko. – M.: INFRA-M, 2000. – 414 p.

10. Economía y estadística de las empresas / Ed. DAKOTA DEL SUR. Ilyenkova. M., 2000

Capítulo 8. ESTUDIO ESTADÍSTICO DE LAS RELACIONES

8.1. Tipos de fenómenos y formas sociales.

conexiones entre ellos

El estudio estadístico de las relaciones se basa en el supuesto de una conexión e interacción universal de los fenómenos de la vida social. La interrelación e interdependencia se observan al considerar los indicadores de desempeño de cualquier empresa. Por ejemplo, un aumento de la productividad laboral implica una disminución de los costos unitarios. Aquellos fenómenos sociales (o sus características individuales) que influyen en los demás y provocan sus cambios se denominan factoriales. Aquellos fenómenos sociales (o sus características individuales) que cambian bajo la influencia de factores factoriales se denominan efectivos (la productividad laboral es un indicador de factores y el costo de producción es un indicador efectivo).

Según la naturaleza de la dependencia de los fenómenos, se hace una distinción entre conexiones funcionales (completas) y de correlación (incompletas) entre ellos. Funcional es una relación en la que cada valor de un indicador de factor corresponde a un valor muy específico del indicador resultante. Las dependencias funcionales se utilizan ampliamente en las ciencias exactas. En cuanto a los fenómenos sociales, se desarrollan bajo la influencia de muchos factores que, a su vez, interactúan entre sí. Es más, se sabe exactamente en qué medida cada uno de ellos influye en la magnitud del fenómeno. Este tipo de conexión se llama correlación. En las correlaciones entre causa y efecto no existe una correspondencia completa, sino que sólo se observa una relación conocida. Cada valor del indicador del factor corresponde a una serie de valores de la característica resultante. Sin embargo, y esto es muy importante, cuando los valores de la característica del factor cambian, el valor promedio de la característica resultante cambia.

Las conexiones entre fenómenos se pueden clasificar según otros criterios:

En dirección (adelante, atrás).
Por expresión analítica (lineal, no lineal).
Según la cercanía de la conexión o el grado de su aproximación a la funcional (fuerte, débil).

La conexión entre dos características se llama correlación de pares, la influencia de varias características de factores en la característica resultante se llama correlación múltiple.

8.2. Métodos para estudiar las relaciones entre los fenómenos y sus características.

El estudio de las relaciones es la tarea cognitiva más importante de la estadística, que resuelve con la ayuda de métodos especiales. Además de las agrupaciones analíticas, estos métodos incluyen: el método de comparación de series paralelas, el método del balance y métodos basados en las disposiciones y teoremas de la estadística matemática (correlación, factor, dispersión).

La esencia del método de comparación de series paralelas es que los resúmenes resultantes y el procesamiento del material se organizan en filas paralelas, ya sea en función del espacio o del tiempo. El estudio conjunto de este tipo de series permite rastrear la relación y dirección de los cambios en las características comparadas del fenómeno en estudio. Una condición importante para obtener resultados confiables al utilizar este método es la detección preliminar de una relación de causa y efecto entre las características en estudio.

La esencia del método del equilibrio es caracterizar los recursos del fenómeno en estudio y su distribución. El saldo más simple es el saldo de recursos materiales de la empresa, a saber: saldo al comienzo del período analizado + ingresos = gastos + saldo al final del período analizado. Está claro que dado que la recepción y el gasto de recursos materiales deben estar en cierta correspondencia (por ejemplo, en igualdad), se debe mantener una cierta proporcionalidad entre las partes (elementos) derecha e izquierda del saldo anterior. Las características de esta proporcionalidad deben encontrarse como resultado de la construcción del balance. Las posibilidades para caracterizar relaciones y proporciones se amplían significativamente si los ingresos del balance se dividen por fuentes (proveedores) y los gastos por destino (clientes). En este caso, el balance mostrará la relación no solo entre ingresos, gastos y saldos dentro de la empresa, sino también entre esta empresa y otras empresas, algunas de las cuales le suministran recursos materiales, mientras que otras consumen sus productos. Con el método del balance, es posible estudiar la rotación no solo de material, sino también de recursos laborales, efectivo y activos fijos.

En relación con las características indicadas de las dependencias de correlación, los métodos para estudiar relaciones basados en las disposiciones de la estadística matemática enfrentan dos tareas:

1). detectar esta dependencia del material fáctico y establecer una expresión analítica de la conexión;

2). medir la fuerza de la conexión.

Para resolver el primer problema, es necesario seleccionar factores y indicadores de desempeño, recopilar material fáctico relevante y procesarlo mediante construcciones gráficas.

El segundo problema se resuelve calculando coeficientes de correlación y parámetros de regresión.

Demostremos el método de análisis de correlación utilizando el ejemplo del establecimiento de una estrecha relación entre los indicadores del equipo eléctrico del trabajo y la productividad laboral, si se dispone del siguiente material fáctico:

Ahora bien, para resolver el primer problema resta determinar cuál de los dos indicadores analizados es factorial (X) y cuál es efectivo (Y), para luego presentar gráficamente la relación entre ellos. Es obvio que de los dos indicadores analizados, la potencia eléctrica del trabajo es un factor y su productividad es un indicador eficaz. Por tanto, en el sistema de coordenadas rectangulares, trazaremos los valores del primero a lo largo del eje de abscisas y los valores del segundo a lo largo del eje de ordenadas (ver Fig. 3).

Arroz. 3 Valores de factores e indicadores de desempeño.

Como se puede ver en la Fig. 3, los valores del indicador efectivo no se encuentran a lo largo de una línea recta que conecta sus valores extremos, sino en forma de una "nube" que se extiende a lo largo de esta línea recta. Existen técnicas especiales que permiten encontrar el tipo de expresión analítica de una conexión (recta, hipérbola, parábola, etc.) que mejor se corresponde con la dependencia funcional. La forma más simple de dependencia de la correlación se expresa mediante la ecuación y=a+bx, donde, en relación con el ejemplo que estamos considerando, y es la tasa de crecimiento de la productividad laboral; x tasa de crecimiento de los equipos eléctricos; a b parámetros de la ecuación.

Es posible medir la cercanía de la conexión (determinar los valores de a, b) entre dos indicadores (x, y) relacionados por una dependencia lineal resolviendo el siguiente sistema de ecuaciones:

donde n es el número de observaciones (en nuestro caso n=7).

Para resolver el sistema de ecuaciones construiremos una tabla en la que, junto con los datos iniciales, colocaremos los resultados de todos los cálculos intermedios necesarios, a saber:

Entonces el sistema de ecuaciones con dos incógnitas (a, b) toma la forma:

y su solución nos permite determinar su valor específico: a = -0,45;

pulg = 1,542. Por tanto, y = 1,542x 0,45. Sustituyendo valores específicos de x en esta ecuación (la llamada ecuación de regresión), obtenemos el valor calculado de la función -:

Comparando los valores de “y” y “” vemos que están próximos, pero no coinciden entre sí. Esto significa que la tasa de crecimiento de la productividad laboral está influenciada no sólo por la tasa de crecimiento de su oferta energética, sino también por otros factores que no se tuvieron en cuenta. Una característica cuantitativa de la cercanía de la relación entre el par de indicadores en estudio es el coeficiente de correlación entre ellos r, cuyos valores varían de

(1) a (+1) y cuanto mayor sea el valor absoluto, menor será la influencia distorsionante de factores no contabilizados.

El estudio de la dependencia estadística de una característica efectiva de varias características factoriales supone que la más significativa de ellas será seleccionada como la última. La introducción de una gran cantidad de factores complica la solución del problema. Su reducción imprudente lleva a que la ecuación no reproduzca el fenómeno en estudio. Los factores que tienen una relación funcional o cercana a la funcional entre sí no pueden incluirse en la ecuación. Cuando se introducen en la ecuación se observa el fenómeno de colinealidad (si hay dos factores) o multicolinealidad (si hay más de dos factores). La identificación de los fenómenos anteriores se lleva a cabo calculando coeficientes de correlación entre factores. Si el valor de los coeficientes de correlación entre factores es mayor o igual a 0,8, en investigaciones posteriores se descarta uno de estos factores. Este procedimiento no será necesario cuando se utilice el análisis factorial. El análisis factorial se diferencia en que, sin depender de una lista predeterminada de factores, ayuda a identificar los más importantes. Por ejemplo, un economista observa directamente muchos indicadores estadísticos diferentes de las actividades de una empresa para identificar patrones que influyen en el crecimiento de la productividad laboral (nivel educativo de los trabajadores, tasa de cambio de equipos, equipo eléctrico, antigüedad de los equipos, etc.). De una forma u otra, todos los factores reflejados por estos indicadores afectan la productividad laboral. Además, muchos de ellos están interconectados y reflejan esencialmente los mismos fenómenos desde diferentes lados. Utilizando las técnicas de análisis factorial de estas relaciones, es posible descubrir que, de hecho, solo unos pocos factores generalizadores (por ejemplo, el tamaño de la empresa, el nivel de organización laboral, la naturaleza del producto) que no fueron directamente observados durante el estudio tienen una influencia decisiva en el crecimiento de la productividad laboral. La tarea, por tanto, es identificar factores generalizadores ocultos. Los factores identificados permiten construir una ecuación de regresión múltiple con un número relativamente pequeño de coeficientes.

El análisis de varianza está diseñado para identificar la influencia de factores individuales en el resultado del experimento. La esencia de este método es que se agrupa un conjunto de observaciones según una característica del factor, encontrando el resultado promedio y la varianza para cada grupo. Luego se determina la varianza total y qué parte de ella se calcula depende de condiciones comunes a todos los grupos, qué parte depende del factor en estudio y qué parte depende de causas aleatorias. Y finalmente, utilizando un criterio especial, determinan qué tan significativas son las diferencias entre grupos de observaciones y, por tanto, si la influencia de determinados factores puede considerarse notable. Básicamente, el análisis de varianza sirve como etapa preliminar en el análisis de regresión de datos estadísticos, lo que permite identificar un número relativamente pequeño de parámetros de regresión, pero suficiente para los propósitos del estudio.

Bibliografía

Estadísticas socioeconómicas: taller / ed. V.N. Salina, E.P. Shpakovskaya. M.: Finanzas y Estadística, 2006.

Tipos de fenómenos sociales y formas de conexión entre ellos. Métodos para estudiar las relaciones entre los fenómenos y las características que los caracterizan.

Disponemos de la base de datos de información más grande de RuNet, por lo que siempre podrás encontrar consultas similares

Enviar su buen trabajo en la base de conocimientos es sencillo. Utilice el siguiente formulario

Los estudiantes, estudiantes de posgrado y jóvenes científicos que utilicen la base de conocimientos en sus estudios y trabajos le estarán muy agradecidos.

Publicado en http://www.allbest.ru/

Conferencia

Tema: Estudio estadístico de la relación entre indicadores.

1. Métodos de análisis de correlación y regresión de la relación entre indicadores de actividad comercial.

El estudio de las relaciones en el mercado de bienes y servicios es la función más importante de los trabajadores económicos. Es importante que estudiar la relación entre los indicadores de actividad comercial sea necesario no sólo para establecer la existencia de una conexión. Para fundamentar científicamente la previsión y la gestión racional del mecanismo de las relaciones de mercado, es importante dar certeza matemática a las conexiones identificadas. Sin una evaluación cuantitativa de las pautas de comunicación, es imposible llevar los resultados del desarrollo económico a un nivel tal que puedan utilizarse con fines prácticos.

Los indicadores estadísticos de la actividad comercial, que reflejan la interdependencia objetiva de los aspectos individuales de la actividad comercial, pueden consistir en los siguientes tipos principales de comunicación:

La relación del balance entre indicadores de actividad comercial caracteriza la relación entre las fuentes de fondos y su uso. Se expresa, por ejemplo, en la fórmula del balance de mercancías:

Él + P = V + Ok

El lado izquierdo de la fórmula caracteriza la oferta y el lado derecho caracteriza el uso de los recursos básicos. La importante importancia práctica de la fórmula de la balanza de productos básicos es que, en ausencia de una contabilidad cuantitativa para las ventas de bienes, el monto de las ventas minoristas de bienes individuales se determina sobre esta base.

Las relaciones entre componentes de los indicadores de actividad comercial se caracterizan por el hecho de que un cambio en un indicador estadístico está determinado por un cambio en los componentes incluidos en este indicador como multiplicadores:

a = bxc

En las estadísticas empresariales, las relaciones entre componentes se utilizan en el método del índice para identificar el papel de los factores individuales en la medición general de un indicador complejo.

ipq= Ip x Iq

La importancia práctica de los indicadores que constan de una relación de componentes es que permiten determinar el valor de uno de los componentes desconocidos.

Las relaciones factoriales se caracterizan por el hecho de que se manifiestan en una variación constante de los indicadores estudiados. En este caso, algunos indicadores actúan como indicadores de factores, mientras que otros actúan como indicadores de resultados. A su vez, las conexiones factoriales pueden considerarse funcionales y correlacionales. Con una conexión funcional, el cambio en la característica resultante (y) está completamente determinado por la acción del factor característica (x):

En una relación de correlación, el cambio en la característica resultante (y) se debe a la influencia de la característica del factor (x) no del todo, sino solo parcialmente, ya que la influencia de otros factores (e) es posible:

Por su naturaleza, las conexiones de correlación son conexiones relativas. Aquí, teniendo en cuenta el mismo valor de la característica del factor, son posibles diferentes valores de la característica resultante. Esto se debe a la presencia de otros factores que pueden ser diferentes en composición, dirección y fuerza de acción en unidades individuales de la población estadística. Por lo tanto, para la población estadística que se estudia en su conjunto, aquí se establece una relación en la que un cierto cambio en la característica del factor corresponde al cambio promedio en la característica resultante. En consecuencia, un rasgo característico de las correlaciones es que no aparecen en casos aislados, sino en grandes cantidades. En el estudio estadístico de correlaciones se determina la influencia de las características de los factores tenidos en cuenta, haciendo abstracción de otros argumentos. Al estudiar correlaciones, se establecen las siguientes tareas:

comprobar las disposiciones de la teoría económica sobre la posibilidad de una conexión entre los indicadores estudiados y dar a la conexión identificada una forma analítica de dependencia;

establecer estimaciones cuantitativas de la cercanía de la conexión, caracterizando la fuerza de la influencia de las características de los factores en los resultados.

Si se estudia la relación entre dos características, se trata de una correlación por pares. Si se estudia la relación entre muchas características, existe correlación múltiple.

2. Construcción de ecuaciones de funciones simuladas.

La metodología más desarrollada en teoría estadística es la denominada metodología de correlación de pares. Al estudiar la relación entre indicadores, se utilizan varios tipos de ecuaciones de relación lineales y curvilíneas:

lineal -

parabólico -

hiperbólico -

La determinación de los parámetros de la ecuación de regresión comienza con el hecho de establecer la conexión entre los indicadores considerados. Para ello, se calcula el coeficiente de correlación de pares:

Para sacar conclusiones sobre la importancia práctica del coeficiente de correlación resultante, se realiza una evaluación cualitativa basada en la escala de Chaddock:

Con valores de los índices de cercanía de conexión superiores a 0,7, la dependencia de la característica resultante de la factorial es alta, ya que el valor del coeficiente de determinación siempre será superior al 50%.

El coeficiente de determinación caracteriza qué proporción del indicador efectivo explica la influencia del factor en estudio:

Por tanto, si el coeficiente de correlación supera el 0,7 entre el indicador efectivo y el factor en estudio, existe una relación que explica el cambio en el indicador efectivo del factor en estudio en más del 50%.

Ejemplo: analizar datos sobre el precio medio del queso parmesano en la región de Donetsk durante varios años:

	Salario medio, grivnas.

Así, existe una alta dependencia del salario mensual promedio del año, es decir, el 92% de los salarios se explica por cambios en el año.

3. Evaluación de la adecuación y fiabilidad de la ecuación

correlación regresión estadística comercial

Los parámetros de las funciones seleccionadas para modelar se pueden encontrar de diferentes formas. El método más preciso es el método de mínimos cuadrados. En él se forma un sistema especial de ecuaciones para cada una de las funciones:

lineal -

parabólico -

hiperbólico -

En cada uno de los sistemas:

Y - indicador efectivo;

X - indicador de tiempo;

N - número de observaciones;

A, b, c - parámetros del modelo.

La cuenta regresiva del indicador de tiempo comienza desde 1. Según los valores conocidos de xey, todas las cantidades se determinan y sustituyen en el sistema. Como resultado, se obtiene un sistema de ecuaciones para parámetros desconocidos. Al resolver un sistema, se encuentran valores digitales específicos de los parámetros y se sustituyen en la solución de funciones de modelado que deben evaluarse y utilizarse en la práctica.

Ejemplo: calculemos la tabla auxiliar:

Creemos sistemas de ecuaciones para tres funciones y encontremos los valores de los parámetros de las ecuaciones:

modelo lineal: 1525 = 7a + 28b

7266 = 28a + 140b

a = -5,7 b = 53,04 y = -5,7+53,04x

modelo parabólico: 1525 = 7a + 28b + 140c

7266 = 28a + 140b + 784c

40248 = 140a + 784b + 4676c

a = 697,62 b = -114,08 c = 68,59 y = 697,62 - 114,08x + 68,59x2

modelo hiperbólico: 1525 = 7a + 2.59b

432,13 = 2,59a + 1,51b

a = 237,65 b = 53,49 y = 237,65 + 53,49/x

4. Estimación de los parámetros de la ecuación.

La adecuación de un modelo económico-matemático se puede establecer mediante el error medio de aproximación (porcentaje medio de discrepancia entre valores teóricos y prácticos):

donde y1 son los valores reales del indicador de desempeño;

y0 - valores teóricos encontrados a partir de la ecuación.

Al modelar indicadores económicos, lo más frecuente es que se permita un error del 5%. El modelo se considera adecuado y, por tanto, significativo si.

La selección del modelo más óptimo se puede realizar sobre la base de la desviación estándar residual (varianza residual):

donde l es el número de parámetros de la ecuación.

La mejor función será la que tenga la menor varianza residual.

La confiabilidad de la ecuación se evalúa mediante el criterio de Fisher, teniendo en cuenta el estadístico F:

¿Dónde está el valor medio del indicador efectivo?

Cuanto mayor sea el valor calculado de la prueba F, más significativo será el modelo calculado. El valor calculado se compara con el valor crítico, que se encuentra en las tablas de distribución de Fisher para los grados de libertad (l-1) y (n-l), estableciendo el nivel de significancia en 0,05 (error del 5%). Si la tabla F>F, entonces la ecuación se considera confiable con una probabilidad de 0,95. De lo contrario, la ecuación no se considera confiable.

Cálculo de función lineal:

			Aproximación		(U0 - U0av)2

Tabla F - 230,2

para una función parabólica:

			Aproximación		(U0 - U0av)2

Tabla F - 19,25

para una función hiperbólica:

			Aproximación		(U0 - U0av)2

Tabla F - 230,2

Por tanto, ninguna de las funciones presentadas es suficientemente fiable y no tiene importancia práctica debido a las grandes discrepancias entre los valores teóricos y reales del indicador efectivo.

Para caracterizar el contenido económico de los parámetros de las ecuaciones, lo más apropiado es utilizar coeficientes de elasticidad, que caracterizan en qué porcentaje en promedio la función cambiará con un cambio en el argumento en un 1% con un valor fijo de los factores restantes en Cualquier nivel:

donde Ei es el coeficiente de elasticidad del i-ésimo factor;

Parámetros de regresión del i-ésimo factor;

Valor medio del i-ésimo factor;

Valor medio del indicador efectivo.

Publicado en Allbest.ru

...

Documentos similares

Conceptos básicos de análisis de correlación y regresión. Cálculo de indicadores de la fuerza y cercanía de las conexiones entre fenómenos y procesos, las particularidades de su interpretación. Evaluación de los resultados del análisis de regresión lineal. Coeficiente de determinación múltiple.

prueba, añadido el 02/04/2013

Análisis de la esencia del beneficio, su papel en las actividades de la empresa, así como el procedimiento para su cálculo y análisis mediante métodos estadísticos. El concepto de rentabilidad y el estudio estadístico de sus indicadores. Aplicación del muestreo y método en problemas económicos y financieros.

trabajo del curso, añadido el 12/12/2012

Estudio estadístico de series temporales, tipos de indicadores. Cálculo del coeficiente de cierre. Cadena e indicador básico. Nivel medio de series dinámicas. Determinación del patrón general en el desarrollo del fenómeno. Estudio estadístico de variaciones estacionales.

conferencia, añadido el 27/04/2013

Principales características, objetivos y requisitos previos para la aplicación del método de correlación-regresión. Métodos de análisis de correlación y regresión. Kendall, Spearman, Fechner coeficiente de correlación de rangos. Determinar la cercanía de la relación entre indicadores.

prueba, añadido el 08/04/2013

Estudio estadístico y métodos de cálculo de indicadores del volumen de producción de bienes y servicios. Análisis de la dependencia del número de delitos del número de desempleados en la región central de Rusia utilizando un paquete de programas de aplicación para procesar hojas de cálculo.

trabajo del curso, agregado 19/03/2010

Estudio estadístico de la productividad laboral. Análisis de agrupaciones estructurales. Tipos y tareas de agrupaciones, conexiones entre ellas. Técnica de agrupación. Fórmula Sturgess. Estadísticas de relación capital-trabajo, productividad laboral y activos fijos.

trabajo del curso, añadido el 15/01/2009

Estudio estadístico de la dinámica de los indicadores del mercado asegurador. Construcción de una serie estadística para la agrupación de entidades aseguradoras por el monto de los ingresos en efectivo, cálculo de las características de la serie de distribución. Cálculo del error muestral del ingreso medio.

trabajo del curso, añadido el 03/01/2010

Formas y sistemas de remuneración, grado de prevalencia en la empresa OJSC "OZSK". Estudio estadístico de la composición y estructura del fondo salarial de la empresa. Cálculo y análisis de la dinámica FZP, factores determinantes. Evaluación cuantitativa de indicadores.

trabajo del curso, añadido el 11/08/2011

Análisis de correlación y regresión como objeto de estudio estadístico, sistema de indicadores estadísticos que lo caracterizan. Características y principios de aplicación del método de análisis de correlación-regresión. Construcción de una serie de distribución estadística.

trabajo del curso, añadido el 28/01/2014

Formas y sistemas de remuneración y grado de prevalencia en la empresa. Estudio estadístico de la composición y estructura del fondo salarial de la empresa. Análisis y cálculo de indicadores de dinámica salarial financiera. Evaluación cuantitativa de los factores que determinan su dinámica.

Estudio estadístico de la relación entre fenómenos socioeconómicos. Estudio estadístico de relaciones Estudio de interdependencia entre indicadores estadísticos

Enviar su buen trabajo en la base de conocimientos es sencillo. Utilice el siguiente formulario

Él + P = V + Ok

Las relaciones entre componentes de los indicadores de actividad comercial se caracterizan por el hecho de que un cambio en un indicador estadístico está determinado por un cambio en los componentes incluidos en este indicador como multiplicadores:

a = bxc

En las estadísticas empresariales, las relaciones entre componentes se utilizan en el método del índice para identificar el papel de los factores individuales en la medición general de un indicador complejo.

ipq= Ip x Iq

La importancia práctica de los indicadores que constan de una relación de componentes es que permiten determinar el valor de uno de los componentes desconocidos.

En una relación de correlación, el cambio en la característica resultante (y) se debe a la influencia de la característica del factor (x) no del todo, sino solo parcialmente, ya que la influencia de otros factores (e) es posible:

comprobar las disposiciones de la teoría económica sobre la posibilidad de una conexión entre los indicadores estudiados y dar a la conexión identificada una forma analítica de dependencia;

establecer estimaciones cuantitativas de la cercanía de la conexión, caracterizando la fuerza de la influencia de las características de los factores en los resultados.

Si se estudia la relación entre dos características, se trata de una correlación por pares. Si se estudia la relación entre muchas características, existe correlación múltiple.

2. Construcción de ecuaciones de funciones simuladas.

La metodología más desarrollada en teoría estadística es la denominada metodología de correlación de pares. Al estudiar la relación entre indicadores, se utilizan varios tipos de ecuaciones de relación lineales y curvilíneas:

lineal -

parabólico -

hiperbólico -

La determinación de los parámetros de la ecuación de regresión comienza con el hecho de establecer la conexión entre los indicadores considerados. Para ello, se calcula el coeficiente de correlación de pares:

Documentos similares