Coeficiente de regresión para la variable x. Conceptos básicos del análisis de datos

Calcular los coeficientes de las ecuaciones de regresión

El sistema de ecuaciones (7.8) basado en la DE disponible no se puede resolver de manera inequívoca, ya que el número de incógnitas es siempre mayor que el número de ecuaciones. Para superar este problema, se necesitan supuestos adicionales. El sentido común dicta: es aconsejable elegir los coeficientes del polinomio de tal manera que se asegure un error mínimo en la aproximación de la ED. Se pueden utilizar varias medidas para evaluar los errores de aproximación. La raíz del error cuadrático medio se utiliza ampliamente como medida de este tipo. Sobre esta base, se ha desarrollado un método especial para estimar los coeficientes de ecuaciones de regresión: el método de mínimos cuadrados (LSM). Este método permite obtener estimaciones de máxima verosimilitud de los coeficientes desconocidos de la ecuación de regresión bajo la opción de distribución normal, pero puede usarse para cualquier otra distribución de factores.

El MNC se basa en las siguientes disposiciones:

· los valores de los valores de error y los factores son independientes y, por lo tanto, no están correlacionados, es decir se supone que los mecanismos para generar interferencias no están relacionados con el mecanismo para generar valores de factores;

· la expectativa matemática del error ε debe ser igual a cero (el componente constante está incluido en el coeficiente un 0), es decir, el error es una cantidad centrada;

· la estimación muestral de la varianza del error debe ser mínima.

Consideremos el uso de MCO en relación con la regresión lineal de valores estandarizados. Para cantidades centradas uj coeficiente un 0 es igual a cero, entonces las ecuaciones de regresión lineal

. (7.9)

Aquí se ha introducido un signo especial “^” para indicar los valores del indicador calculados mediante la ecuación de regresión, en contraste con los valores obtenidos a partir de resultados observacionales.

Utilizando el método de mínimos cuadrados, se determinan los valores de los coeficientes de la ecuación de regresión que proporcionan un mínimo incondicional a la expresión.

El mínimo se encuentra igualando a cero todas las derivadas parciales de la expresión (7.10), tomadas con coeficientes desconocidos, y resolviendo el sistema de ecuaciones.

(7.11)

Realizar consistentemente las transformaciones y utilizar las estimaciones previamente introducidas de los coeficientes de correlación.

. (7.12)

Entonces, recibido t–1 ecuaciones lineales, que le permiten calcular los valores sin ambigüedades. un 2 , un 3 , ..., un t.

Si el modelo lineal es inexacto o los parámetros se miden de manera inexacta, entonces, en este caso, el método de mínimos cuadrados nos permite encontrar los valores de los coeficientes en los que el modelo lineal describe mejor el objeto real en el sentido de la desviación estándar seleccionada. criterio.

Cuando solo hay un parámetro, la ecuación de regresión lineal se convierte en

Coeficiente un 2 se encuentra a partir de la ecuación

Entonces, dado que r 2.2= 1, coeficiente requerido

a 2 = r y ,2 . (7.13)

La relación (7.13) confirma la afirmación anterior de que el coeficiente de correlación es una medida de la relación lineal entre dos parámetros estandarizados.

Sustituyendo el valor encontrado del coeficiente. un 2 en una expresión para w, teniendo en cuenta las propiedades de las cantidades centradas y normalizadas, obtenemos el valor mínimo de esta función igual a 1– r 2 años,2. Valor 1– r 2 y,2 se llama varianza residual de la variable aleatoria y relativo a una variable aleatoria tu 2. Caracteriza el error que se obtiene al sustituir el indicador por una función del parámetro υ= un 2 u 2. Sólo con | ry,2| = 1 la varianza residual es cero, por lo que no hay error al aproximar el indicador con una función lineal.

Pasando de valores de indicadores y parámetros centrados y normalizados

se puede obtener para los valores originales

Esta ecuación también es lineal con respecto al coeficiente de correlación. Es fácil ver que el centrado y la normalización para la regresión lineal permiten reducir la dimensión del sistema de ecuaciones en uno, es decir simplifique la solución al problema de determinar los coeficientes y dé a los coeficientes un significado claro.

El uso de mínimos cuadrados para funciones no lineales prácticamente no difiere del esquema considerado (solo el coeficiente a0 en la ecuación original no es igual a cero).

Por ejemplo, supongamos que es necesario determinar los coeficientes de regresión parabólica.

Varianza del error muestral

En base a esto podemos obtener el siguiente sistema de ecuaciones

Después de las transformaciones, el sistema de ecuaciones tomará la forma

Teniendo en cuenta las propiedades de los momentos de cantidades estandarizadas, escribimos

La determinación de coeficientes de regresión no lineal se basa en la resolución de un sistema de ecuaciones lineales. Para ello, puede utilizar paquetes universales de métodos numéricos o paquetes especializados para procesar datos estadísticos.

A medida que aumenta el grado de la ecuación de regresión, también aumenta el grado de los momentos de distribución de los parámetros utilizados para determinar los coeficientes. Así, para determinar los coeficientes de la ecuación de regresión de segundo grado se utilizan los momentos de distribución de parámetros hasta el cuarto grado inclusive. Se sabe que la precisión y confiabilidad de la estimación de momentos a partir de una muestra limitada de DE disminuye drásticamente a medida que aumenta su orden. El uso de polinomios de grado superior al segundo en ecuaciones de regresión es inapropiado.

La calidad de la ecuación de regresión resultante se evalúa por el grado de cercanía entre los resultados de las observaciones del indicador y los valores predichos por la ecuación de regresión en puntos dados del espacio de parámetros. Si los resultados son similares, entonces el problema del análisis de regresión puede considerarse resuelto. De lo contrario, debe cambiar la ecuación de regresión (elegir un grado diferente de polinomio o un tipo de ecuación completamente diferente) y repetir los cálculos para estimar los parámetros.

Si existen varios indicadores, el problema del análisis de regresión se resuelve de forma independiente para cada uno de ellos.

Al analizar la esencia de la ecuación de regresión, cabe señalar los siguientes puntos. El enfoque considerado no proporciona una evaluación separada (independiente) de los coeficientes: un cambio en el valor de un coeficiente implica un cambio en los valores de otros. Los coeficientes obtenidos no deben considerarse como la contribución del parámetro correspondiente al valor del indicador. La ecuación de regresión es solo una buena descripción analítica de la DE existente, y no una ley que describe la relación entre los parámetros y el indicador. Esta ecuación se utiliza para calcular los valores del indicador en un rango determinado de cambios de parámetros. Es de utilidad limitada para cálculos fuera de este rango, es decir se puede utilizar para resolver problemas de interpolación y, hasta cierto punto, para extrapolación.



La principal razón de la inexactitud del pronóstico no es tanto la incertidumbre de la extrapolación de la línea de regresión, sino la variación significativa del indicador debido a factores no tenidos en cuenta en el modelo. La limitación de la capacidad de previsión es la condición de estabilidad de los parámetros no tenidos en cuenta en el modelo y la naturaleza de la influencia de los factores del modelo tenidos en cuenta. Si el entorno externo cambia drásticamente, la ecuación de regresión compilada perderá su significado. No se pueden sustituir en la ecuación de regresión valores de factores que difieran significativamente de los presentados en el ED. Se recomienda no superar un tercio del rango de variación del parámetro tanto para el valor máximo como para el mínimo del factor.

El pronóstico obtenido al sustituir el valor esperado del parámetro en la ecuación de regresión es un punto. La probabilidad de que tal pronóstico se cumpla es insignificante. Es recomendable determinar el intervalo de confianza del pronóstico. Para los valores individuales del indicador, el intervalo debe tener en cuenta los errores en la posición de la línea de regresión y las desviaciones de los valores individuales de esta línea. El error promedio al predecir el indicador y para el factor x será

Dónde es el error promedio en la posición de la recta de regresión en la población en X = x k;

– evaluación de la varianza de la desviación del indicador de la línea de regresión en la población;

x k– valor esperado del factor.

Los límites de confianza del pronóstico, por ejemplo, para la ecuación de regresión (7.14), están determinados por la expresión

Término libre negativo un 0 en la ecuación de regresión para las variables originales significa que el dominio de existencia del indicador no incluye valores de parámetros cero. Si un 0 > 0, entonces el dominio de existencia del indicador incluye valores cero de los parámetros, y el coeficiente en sí caracteriza el valor promedio del indicador en ausencia de influencia de los parámetros.

Problema 7.2. Construya una ecuación de regresión para la capacidad del canal basada en la muestra especificada en la tabla. 7.1.

Solución. En relación con la muestra especificada, la construcción de la dependencia analítica se llevó a cabo principalmente en el marco del análisis de correlación: el rendimiento depende únicamente del parámetro de relación señal-ruido. Queda por sustituir los valores de los parámetros calculados previamente en la expresión (7.14). La ecuación de capacidad tomará la forma

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Los resultados del cálculo se presentan en la tabla. 7.5.

Tabla 7.5

N páginas Capacidad del canal Relación señal-ruido Valor de la función Error
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

El estudio de las dependencias de correlación se basa en el estudio de conexiones entre variables en las que los valores de una variable, que puede tomarse como variable dependiente, cambian "en promedio" dependiendo de los valores tomados por otra. variable, considerada como causa en relación con la variable dependiente. La acción de esta causa se lleva a cabo en condiciones de interacción compleja de varios factores, como resultado de lo cual la manifestación del patrón queda oscurecida por la influencia del azar. Al calcular los valores promedio del atributo efectivo para un grupo dado de valores del atributo-factor, se elimina parcialmente la influencia del azar. Al calcular los parámetros de la línea de comunicación teórica, se eliminan aún más y se obtiene un cambio inequívoco (de forma) en "y" con un cambio en el factor "x".

Para estudiar relaciones estocásticas se utiliza ampliamente el método de comparación de dos series paralelas, el método de agrupaciones analíticas, el análisis de correlación, el análisis de regresión y algunos métodos no paramétricos. En general, la tarea de la estadística en el campo del estudio de las relaciones no es sólo cuantificar su presencia, dirección y fuerza de la conexión, sino también determinar la forma (expresión analítica) de la influencia de las características de los factores sobre la resultante. Para solucionarlo se utilizan métodos de análisis de correlación y regresión.

CAPÍTULO 1. ECUACIÓN DE REGRESIÓN: FUNDAMENTOS TEÓRICOS

1.1. Ecuación de regresión: esencia y tipos de funciones.

La regresión (lat. regressio - movimiento inverso, transición de formas de desarrollo más complejas a otras menos complejas) es uno de los conceptos básicos en la teoría de la probabilidad y la estadística matemática, que expresa la dependencia del valor promedio de una variable aleatoria de los valores. de otra variable aleatoria o de varias variables aleatorias. Este concepto fue introducido por Francis Galton en 1886.

La línea de regresión teórica es la línea alrededor de la cual se agrupan los puntos del campo de correlación y que indica la dirección principal, la tendencia principal de la conexión.

La línea de regresión teórica debe reflejar el cambio en los valores promedio del atributo efectivo "y" a medida que cambian los valores del atributo del factor "x", siempre que todas las demás causas sean aleatorias en relación con el factor "x". , quedan completamente cancelados. En consecuencia, esta línea debe trazarse de modo que la suma de las desviaciones de los puntos del campo de correlación de los puntos correspondientes de la línea de regresión teórica sea igual a cero, y la suma de los cuadrados de estas desviaciones sea mínima.

y=f(x) - la ecuación de regresión es una fórmula para la relación estadística entre variables.

Una línea recta en un plano (en un espacio bidimensional) viene dada por la ecuación y=a+b*x. Con más detalle, la variable y se puede expresar en términos de una constante (a) y una pendiente (b) multiplicada por la variable x. A la constante a veces también se le llama término de intersección y a la pendiente a veces se le llama regresión o coeficiente B.

Una etapa importante del análisis de regresión es determinar el tipo de función con la que se caracteriza la dependencia entre características. La base principal debe ser un análisis significativo de la naturaleza de la dependencia que se está estudiando y su mecanismo. Al mismo tiempo, no siempre es posible fundamentar teóricamente la forma de conexión entre cada uno de los factores y el indicador de desempeño, ya que los fenómenos socioeconómicos en estudio son muy complejos y los factores que configuran su nivel están estrechamente entrelazados e interactúan. juntos. Por lo tanto, sobre la base del análisis teórico, a menudo se pueden sacar las conclusiones más generales sobre la dirección de la relación, la posibilidad de su cambio en la población en estudio, la legitimidad de utilizar una relación lineal, la posible presencia de valores extremos, etc. Un complemento necesario a tales supuestos debe ser un análisis de datos fácticos específicos.

Se puede obtener una idea aproximada de la línea de relación basándose en la línea de regresión empírica. La línea de regresión empírica suele ser una línea discontinua y tiene una ruptura más o menos significativa. Esto se explica por el hecho de que la influencia de otros factores no contabilizados que influyen en la variación de la característica resultante no se extingue por completo en el promedio, debido a un número insuficiente de observaciones, por lo que se puede utilizar una línea de comunicación empírica para seleccionar y Justificar el tipo de curva teórica, siempre que el número de observaciones sea suficientemente grande.

Uno de los elementos de estudios específicos es la comparación de varias ecuaciones de dependencia, basada en el uso de criterios de calidad para aproximar datos empíricos mediante versiones competitivas de modelos. Los siguientes tipos de funciones se utilizan con mayor frecuencia para caracterizar las relaciones de los indicadores económicos:

1. Lineal:

2. Hiperbólico:

3. Demostrativo:

4. Parabólico:

5. Poder:

6. Logarítmico:

7. Logística:

Un modelo con una variable explicativa y otra explicada es un modelo de regresión pareada. Si se utilizan dos o más variables explicativas (factoriales), entonces hablamos de utilizar un modelo de regresión múltiple. En este caso, se pueden seleccionar como opciones funciones lineales, exponenciales, hiperbólicas, exponenciales y de otro tipo que conectan estas variables.

Para encontrar los parámetros a y b de la ecuación de regresión, se utiliza el método de mínimos cuadrados. Al aplicar el método de mínimos cuadrados para encontrar la función que mejor se ajuste a los datos empíricos, se cree que la bolsa de cuadrados de desviaciones de los puntos empíricos de la línea de regresión teórica debe ser un valor mínimo.

El criterio de mínimos cuadrados se puede escribir de la siguiente manera:

En consecuencia, el uso del método de mínimos cuadrados para determinar los parámetros a y b de la recta que mejor coincide con los datos empíricos se reduce a un problema extremo.

En cuanto a las valoraciones, se pueden extraer las siguientes conclusiones:

1. Los estimadores de mínimos cuadrados son funciones de la muestra, lo que los hace fáciles de calcular.

2. Las estimaciones de mínimos cuadrados son estimaciones puntuales de los coeficientes de regresión teóricos.

3. La recta de regresión empírica pasa necesariamente por el punto x, y.

4. La ecuación de regresión empírica se construye de tal manera que la suma de las desviaciones

.

En la Figura 1 se presenta una representación gráfica de la línea de comunicación empírica y teórica.


El parámetro b en la ecuación es el coeficiente de regresión. En presencia de una correlación directa, el coeficiente de regresión es positivo y, en el caso de una correlación inversa, el coeficiente de regresión es negativo. El coeficiente de regresión muestra cuánto cambia en promedio el valor del atributo efectivo “y” cuando el atributo factorial “x” cambia en uno. Geométricamente, el coeficiente de regresión es la pendiente de la línea recta que representa la ecuación de correlación con respecto al eje "x" (para la ecuación

).

La rama del análisis estadístico multivariado dedicada a la recuperación de la dependencia se llama análisis de regresión. El término "análisis de regresión lineal" se utiliza cuando la función considerada depende linealmente de los parámetros estimados (la dependencia de variables independientes puede ser arbitraria). Teoría de la evaluación

parámetros desconocidos está bien desarrollado específicamente en el caso del análisis de regresión lineal. Si no hay linealidad y es imposible pasar a un problema lineal, entonces, por regla general, no se pueden esperar buenas propiedades de las estimaciones. Demostraremos enfoques en el caso de dependencias de varios tipos. Si la dependencia tiene la forma de un polinomio (polinomio). Si el cálculo de la correlación caracteriza la fuerza de la relación entre dos variables, entonces el análisis de regresión sirve para determinar el tipo de esta relación y permite predecir el valor de una variable (dependiente) en función del valor de otra variable (independiente). . Para realizar un análisis de regresión lineal, la variable dependiente debe tener una escala de intervalo (u ordinal). Al mismo tiempo, la regresión logística binaria revela la dependencia de una variable dicotómica de alguna otra variable relacionada con cualquier escala. Las mismas condiciones de aplicación se aplican al análisis probit. Si la variable dependiente es categórica, pero tiene más de dos categorías, entonces la regresión logística multinomial es un método apropiado para analizar relaciones no lineales entre variables que pertenecen a una escala de intervalo. Para ello se ha diseñado el método de regresión no lineal.

Coeficientes de regresión mostrar la intensidad de la influencia de los factores sobre el indicador de desempeño. Si se lleva a cabo una estandarización preliminar de los indicadores de factores, entonces b 0 es igual al valor promedio del indicador efectivo en el agregado. Los coeficientes b 1, b 2, ..., b n muestran en cuántas unidades se desvía el nivel del indicador efectivo de su valor promedio si los valores del indicador de factor se desvían del promedio de cero en una desviación estándar. Por tanto, los coeficientes de regresión caracterizan el grado de importancia de los factores individuales para aumentar el nivel del indicador de desempeño. Los valores específicos de los coeficientes de regresión se determinan a partir de datos empíricos según el método de mínimos cuadrados (como resultado de la resolución de sistemas de ecuaciones normales).

Línea de regresión- una línea que refleja con mayor precisión la distribución de puntos experimentales en un diagrama de dispersión y cuya pendiente caracteriza la relación entre dos variables de intervalo.

La línea de regresión se busca con mayor frecuencia en forma de función lineal (regresión lineal), que se aproxima mejor a la curva deseada. Esto se hace usando el método de mínimos cuadrados, cuando se minimiza la suma de las desviaciones al cuadrado de los realmente observados de sus estimaciones (es decir, estimaciones que utilizan una línea recta que pretende representar la relación de regresión deseada):

(M - tamaño de la muestra). Este enfoque se basa en el hecho bien conocido de que la cantidad que aparece en la expresión anterior adquiere un valor mínimo precisamente en el caso en que .
57. Principales tareas de la teoría de la correlación.

La teoría de la correlación es un aparato que evalúa la cercanía de las conexiones entre fenómenos que no se encuentran solo en relaciones de causa y efecto. Utilizando la teoría de la correlación, se evalúan las relaciones estocásticas, pero no causales. El autor, junto con M. L. Lukatskaya, intentó obtener estimaciones de las relaciones causales. Sin embargo, la cuestión de las relaciones causa-efecto de los fenómenos, de cómo identificar causa y efecto, sigue abierta y parece que a nivel formal es fundamentalmente irresoluble.

Teoría de la correlación y su aplicación al análisis de la producción.

La teoría de la correlación, que es una de las ramas de la estadística matemática, permite hacer suposiciones razonables sobre los posibles límites dentro de los cuales, con cierto grado de confiabilidad, se ubicará el parámetro en estudio si otros parámetros estadísticamente relacionados reciben ciertos valores.

En la teoría de la correlación, se acostumbra distinguir dos tareas principales.

Primera tarea Teoría de la correlación: para establecer la forma de correlación, es decir. tipo de función de regresión (lineal, cuadrática, etc.).

Segunda tarea Teoría de la correlación: evalúa la cercanía (fuerza) de la conexión de correlación.

La cercanía de la conexión de correlación (dependencia) Y de X se evalúa mediante la cantidad de dispersión de los valores de Y alrededor del promedio condicional. Una dispersión grande indica una dependencia débil de Y con respecto a X, una dispersión pequeña indica la presencia de una dependencia fuerte.
58. Tabla de correlación y sus características numéricas.

En la práctica, como resultado de observaciones independientes de las cantidades X e Y, por regla general, no se trata con el conjunto completo de todos los pares posibles de valores de estas cantidades, sino solo con una muestra limitada de la población general. y el volumen n de la población de muestra se define como el número de pares disponibles en la muestra.

Dejemos que el valor X en la muestra tome los valores x 1, x 2,....x m, donde el número de valores de este valor que difieren entre sí, y en el caso general, cada uno de ellos puede repetirse en la muestra. Deje que el valor Y en la muestra tome los valores y 1, y 2,....y k, donde k es el número de valores diferentes de este valor, y en el caso general, cada uno de ellos también puede ser repetido en la muestra. En este caso, los datos se ingresan en una tabla teniendo en cuenta la frecuencia de ocurrencia. Una tabla de este tipo con datos agrupados se denomina tabla de correlación.

La primera etapa del procesamiento estadístico de los resultados es la elaboración de una tabla de correlación.

Y\X x1 x2 ... xm n y
y 1 número 12 número 21 m1 n y1
y 2 número 22 m2 n y2
...
y k norte 1k norte 2k mk n yk
n x nx1 nx2 nxm norte

La primera fila de la parte principal de la tabla enumera en orden ascendente todos los valores de la cantidad X que se encuentran en la muestra. La primera columna también enumera en orden ascendente todos los valores de la cantidad Y que se encuentran en la muestra. En la intersección de las filas y columnas correspondientes, las frecuencias n ij (i = 1,2 ,...,m; j=1,2,...,k) son iguales al número de apariciones del par (xi ; y i) en la muestra. Por ejemplo, la frecuencia n 12 representa el número de apariciones del par (x 1; y 1) en la muestra.

También n xi n ij , 1≤i≤m, la suma de los elementos de la i-ésima columna, n yj n ij , 1≤j≤k, es la suma de los elementos de la j-ésima fila y n xi = n y j = n

Los análogos de las fórmulas obtenidas a partir de los datos de la tabla de correlación tienen la forma:


59. Líneas de regresión empírica y teórica.

Línea de regresión teórica En este caso se puede calcular a partir de los resultados de observaciones individuales. Para resolver un sistema de ecuaciones normales, necesitamos los mismos datos: x, y, xy y xr. Disponemos de datos sobre el volumen de producción de cemento y el volumen de activos fijos de producción en 1958. La tarea está planteada: estudiar la relación entre el volumen de producción de cemento (en términos físicos) y el volumen de activos fijos. [ 1 ]

Cuanto menos se desvíe la línea de regresión teórica (calculada a partir de la ecuación) de la real (empírica), menor será el error de aproximación promedio.

El proceso de encontrar la línea de regresión teórica implica ajustar la línea de regresión empírica utilizando el método de mínimos cuadrados.

El proceso de encontrar una recta de regresión teórica se llama alineamiento de la recta de regresión empírica y consiste en seleccionar y justificar el tipo; curva y cálculo de los parámetros de su ecuación.

La regresión empírica se construye sobre la base de datos de agrupación analíticos o combinacionales y representa la dependencia de los valores promedio del grupo del rasgo resultante de los valores promedio del grupo del rasgo del factor. La representación gráfica de la regresión empírica es una línea discontinua formada por puntos, cuyas abscisas son los valores promedio del grupo del rasgo del factor y las ordenadas son los valores promedio del grupo del rasgo del resultado. El número de puntos es igual al número de grupos en la agrupación.

La línea de regresión empírica refleja la tendencia principal de la relación considerada. Si la línea de regresión empírica se aproxima en apariencia a una línea recta, entonces podemos suponer la presencia de una correlación lineal entre las características. Y si la línea de conexión se acerca a la curva, esto puede deberse a la presencia de una relación de correlación curvilínea.
60. Coeficientes de correlación y regresión muestral.

Si la dependencia entre las características en el gráfico indica una correlación lineal, calcule coeficiente de correlación r, que le permite evaluar la cercanía de la relación entre variables, y también descubrir qué proporción de cambios en una característica se debe a la influencia de la característica principal y qué parte se debe a la influencia de otros factores. El coeficiente varía de –1 a +1. Si r=0, entonces no hay conexión entre las características. Igualdad r=0 solo indica la ausencia de una dependencia de correlación lineal, pero no la ausencia de correlación en absoluto, y mucho menos una dependencia estadística. Si r= ±1, entonces esto significa la presencia de una conexión completa (funcional). En este caso, todos los valores observados se ubican en la recta de regresión, que es una línea recta.
La importancia práctica del coeficiente de correlación está determinada por su valor al cuadrado, llamado coeficiente de determinación.
Regresión aproximada (descrita aproximadamente) mediante una función lineal y = kX + b. Para la regresión de Y sobre X, la ecuación de regresión es: `y x = ryx X + b; (1). La pendiente ryx de la regresión directa de Y sobre X se denomina coeficiente de regresión de Y sobre X.

Si la ecuación (1) se encuentra usando datos de muestra, entonces se llama ecuación de regresión de muestra. En consecuencia, ryx es el coeficiente de regresión muestral de Y sobre X, y b es el término ficticio muestral de la ecuación. El coeficiente de regresión mide la variación en Y por unidad de variación en X. Los parámetros de la ecuación de regresión (coeficientes ryx y b) se encuentran utilizando el método de mínimos cuadrados.
61. Evaluación de la importancia del coeficiente de correlación y la cercanía de la correlación en la población general

Importancia de los coeficientes de correlación comprobado mediante la prueba de Student:

Dónde - error cuadrático medio del coeficiente de correlación, que está determinado por la fórmula:

Si el valor calculado es mayor que el valor de la tabla, entonces podemos concluir que el valor del coeficiente de correlación es significativo. t encontrado a partir de la tabla de valores de la prueba t de Student. En este caso, se tiene en cuenta el número de grados de libertad. (V = norte - 1) y el nivel de confianza (en cálculos económicos, normalmente 0,05 o 0,01). En nuestro ejemplo, el número de grados de libertad es: PAG - 1 = 40 - 1 = 39. En el nivel de confianza R = 0,05; t= 2,02. Dado que (el valor real en todos los casos es mayor que el t-tabular), la relación entre los indicadores resultantes y factoriales es confiable y la magnitud de los coeficientes de correlación es significativa.

Estimación del coeficiente de correlación., calculado a partir de una muestra limitada, casi siempre difiere de cero. Pero esto no significa que el coeficiente de correlación población también es diferente de cero. Se requiere evaluar la importancia del valor muestral del coeficiente o, de acuerdo con la formulación de las tareas de prueba de hipótesis estadísticas, probar la hipótesis de que el coeficiente de correlación es igual a cero. Si la hipótesis norte Se rechazará 0 en el que el coeficiente de correlación es igual a cero, entonces el coeficiente de muestra es significativo y los valores correspondientes están relacionados mediante una relación lineal. Si la hipótesis norte Se aceptará 0, entonces la estimación del coeficiente no es significativa y los valores no están relacionados linealmente entre sí (si, por razones físicas, los factores pueden estar relacionados, entonces es mejor decir que esta relación no ha sido establecido en base a la DE disponible). Probar la hipótesis sobre la importancia de la estimación del coeficiente de correlación requiere conocer la distribución de esta variable aleatoria. Distribución del valor  yo estudiado sólo para el caso especial cuando las variables aleatorias uj Y Reino Unido distribuidos según la ley normal.

Como criterio para probar la hipótesis nula. norte 0 aplicar variable aleatoria . Si el módulo del coeficiente de correlación está relativamente lejos de la unidad, entonces el valor t si la hipótesis nula es verdadera, se distribuye según la ley de Student con norte– 2 grados de libertad. Hipótesis en competencia norte 1 corresponde a la afirmación de que el valor  yo distinto de cero (mayor o menor que cero). Por tanto, la región crítica es bilateral.
62. Cálculo del coeficiente de correlación muestral y construcción de la ecuación de regresión lineal muestral.

Coeficiente de correlación muestral se encuentra mediante la fórmula

donde están las desviaciones estándar muestrales de los valores y .

El coeficiente de correlación muestral muestra la cercanía de la relación lineal entre y: cuanto más cerca de la unidad, más fuerte es la relación lineal entre y.

La regresión lineal simple encuentra una relación lineal entre una variable de entrada y una variable de salida. Para hacer esto, se determina una ecuación de regresión: este es un modelo que refleja la dependencia de los valores de Y, el valor dependiente de Y de los valores de x, la variable independiente x y la población, descrita por nivelación. :

Dónde A0- término libre de la ecuación de regresión;

A1- coeficiente de ecuación de regresión

Luego se construye una línea recta correspondiente, llamada línea de regresión. Los coeficientes A0 y A1, también llamados parámetros del modelo, se seleccionan de tal manera que la suma de las desviaciones al cuadrado de los puntos correspondientes a observaciones de datos reales de la línea de regresión sea mínima. Los coeficientes se seleccionan mediante el método de mínimos cuadrados. En otras palabras, la regresión lineal simple describe un modelo lineal que se aproxima mejor a la relación entre una variable de entrada y una variable de salida.

Concepto de regresión. Dependencia entre variables X Y y se puede describir de diferentes maneras. En particular, cualquier forma de conexión puede expresarse mediante una ecuación general, donde y tratada como una variable dependiente, o funciones de otro - variable independiente x, llamada argumento. La correspondencia entre un argumento y una función se puede especificar mediante una tabla, fórmula, gráfica, etc. Cambiar una función dependiendo de un cambio en uno o más argumentos se llama regresión. Todos los medios utilizados para describir las correlaciones constituyen el contenido. análisis de regresión.

Para expresar regresión, ecuaciones de correlación o ecuaciones de regresión se utilizan series de regresión calculadas empíricamente y teóricamente, sus gráficas, llamadas líneas de regresión, así como coeficientes de regresión lineal y no lineal.

Los indicadores de regresión expresan la relación de correlación de forma bilateral, teniendo en cuenta los cambios en los valores medios de la característica. Y al cambiar valores X i firmar X y, por el contrario, muestran un cambio en los valores medios de la característica X según los valores modificados y i firmar Y. La excepción son las series temporales, o series temporales, que muestran cambios en las características a lo largo del tiempo. La regresión de tales series es unilateral.

Hay muchas formas y tipos diferentes de correlaciones. La tarea se reduce a identificar la forma de la conexión en cada caso concreto y expresarla con la ecuación de correlación adecuada, que permita anticipar posibles cambios en una característica. Y basado en cambios conocidos en otro X, relacionado con el primero correlacionalmente.

12.1 Regresión lineal

Ecuación de regresión. Resultados de observaciones realizadas sobre un objeto biológico particular basándose en características correlacionadas. X Y y, se puede representar mediante puntos en un plano construyendo un sistema de coordenadas rectangulares. El resultado es una especie de diagrama de dispersión que permite juzgar la forma y la cercanía de la relación entre distintas características. Muy a menudo esta relación parece una línea recta o puede aproximarse a ella.

Relación lineal entre variables X Y y se describe mediante una ecuación general, donde a B C D,... – parámetros de la ecuación que determinan las relaciones entre los argumentos X 1 , X 2 , X 3 , …, X metro y funciones.

En la práctica no se tienen en cuenta todos los argumentos posibles, sino sólo algunos argumentos, en el caso más sencillo, sólo uno:

En la ecuación de regresión lineal (1) a es el término libre y el parámetro b determina la pendiente de la línea de regresión con respecto a los ejes de coordenadas rectangulares. En geometría analítica este parámetro se llama pendiente, y en biometría – coeficiente de regresion. Una representación visual de este parámetro y la posición de las líneas de regresión. Y Por X Y X Por Y en el sistema de coordenadas rectangular se muestra la Fig. 1.

Arroz. 1 Líneas de regresión de Y por X y X por Y en el sistema

coordenadas rectangulares

Las líneas de regresión, como se muestra en la Fig. 1, se cruzan en el punto O (,), correspondientes a los valores promedio aritméticos de las características correlacionadas entre sí. Y Y X. Al construir gráficos de regresión, los valores de la variable independiente X se trazan a lo largo del eje de abscisas y los valores de la variable dependiente, o función Y, se trazan a lo largo del eje de ordenadas. Línea AB que pasa por el punto O (,. ) corresponde a la relación completa (funcional) entre las variables Y Y X, cuando el coeficiente de correlación . Cuanto más fuerte sea la conexión entre Y Y X, cuanto más cerca están las líneas de regresión de AB y, a la inversa, cuanto más débil es la conexión entre estas cantidades, más distantes están las líneas de regresión de AB. Si no hay conexión entre las características, las líneas de regresión forman ángulos rectos entre sí y .

Dado que los indicadores de regresión expresan la relación de correlación de forma bilateral, la ecuación de regresión (1) debe escribirse de la siguiente manera:

La primera fórmula determina los valores promedio cuando cambia la característica. X por unidad de medida, para el segundo: valores promedio al cambiar en una unidad de medida del atributo Y.

Coeficiente de regresion. El coeficiente de regresión muestra cuánto, en promedio, es el valor de una característica. y cambia cuando la medida de otro, correlacionado con, cambia en uno Y firmar X. Este indicador está determinado por la fórmula.

Aqui estan los valores s multiplicado por el tamaño de los intervalos de clase λ , si se encontraron a partir de series de variación o tablas de correlación.

El coeficiente de regresión se puede calcular sin calcular las desviaciones estándar. s y Y s X según la fórmula

Si se desconoce el coeficiente de correlación, el coeficiente de regresión se determina de la siguiente manera:

Relación entre coeficientes de regresión y correlación. Comparando las fórmulas (11.1) (tema 11) y (12.5), vemos: su numerador tiene el mismo valor, lo que indica una conexión entre estos indicadores. Esta relación se expresa por la igualdad.

Por tanto, el coeficiente de correlación es igual a la media geométrica de los coeficientes. b yx Y b xy. La fórmula (6) permite, en primer lugar, basándose en los valores conocidos de los coeficientes de regresión. b yx Y b xy determinar el coeficiente de regresión R xy y en segundo lugar, comprobar la exactitud del cálculo de este indicador de correlación. R xy entre diferentes características X Y Y.

Al igual que el coeficiente de correlación, el coeficiente de regresión caracteriza sólo una relación lineal y va acompañado de un signo más para una relación positiva y un signo menos para una relación negativa.

Determinación de parámetros de regresión lineal. Se sabe que la suma de las desviaciones al cuadrado es una variante. X i del promedio es el valor más pequeño, es decir, este teorema forma la base del método de mínimos cuadrados. En cuanto a la regresión lineal [ver fórmula (1)] el requisito de este teorema se satisface mediante un determinado sistema de ecuaciones llamado normal:

Solución conjunta de estas ecuaciones con respecto a los parámetros. a Y b conduce a los siguientes resultados:

;

;

, desde donde y.

Considerando la naturaleza bidireccional de la relación entre las variables Y Y X, fórmula para determinar el parámetro A debe expresarse así:

Y . (7)

Parámetro b, o coeficiente de regresión, se determina mediante las siguientes fórmulas:

Construcción de series de regresión empírica. Si hay una gran cantidad de observaciones, el análisis de regresión comienza con la construcción de series de regresión empírica. Serie de regresión empírica se forma calculando a partir de los valores de una característica variable X valores medios de otro, correlacionados con X firmar Y. En otras palabras, la construcción de series de regresión empírica se reduce a encontrar promedios grupales a partir de los valores correspondientes de las características Y y X.

Una serie de regresión empírica es una serie doble de números que se pueden representar mediante puntos en un plano y luego, al conectar estos puntos con segmentos de línea recta, se puede obtener una línea de regresión empírica. Las series de regresión empírica, especialmente sus gráficas, llamadas líneas de regresión, dan una idea clara de la forma y la cercanía de la correlación entre diferentes características.

Alineamiento de series de regresión empírica. Los gráficos de series de regresión empírica resultan, por regla general, no ser líneas suaves, sino líneas discontinuas. Esto se explica por el hecho de que, junto con las razones principales que determinan el patrón general en la variabilidad de las características correlacionadas, su magnitud se ve afectada por la influencia de numerosas razones secundarias que causan fluctuaciones aleatorias en los puntos nodales de regresión. Para identificar la tendencia principal (tendencia) de la variación conjugada de características correlacionadas, es necesario reemplazar las líneas discontinuas con líneas de regresión suaves y fluidas. El proceso de reemplazar líneas discontinuas por líneas suaves se llama alineación de series empíricas Y líneas de regresión.

Método de alineación gráfica. Este es el método más simple que no requiere trabajo computacional. Su esencia se reduce a lo siguiente. La serie de regresión empírica se representa como un gráfico en un sistema de coordenadas rectangular. Luego, se delinean visualmente los puntos medios de regresión, a lo largo de los cuales se dibuja una línea continua usando una regla o patrón. La desventaja de este método es obvia: no excluye la influencia de las propiedades individuales del investigador en los resultados de la alineación de las líneas de regresión empírica. Por lo tanto, en los casos en que se necesita una mayor precisión al reemplazar las líneas de regresión discontinuas por líneas suaves, se utilizan otros métodos para alinear series empíricas.

Método de media móvil. La esencia de este método se reduce al cálculo secuencial de promedios aritméticos de dos o tres términos adyacentes de una serie empírica. Este método es especialmente conveniente en los casos en que la serie empírica está representada por una gran cantidad de términos, de modo que la pérdida de dos de ellos, los extremos, inevitable con este método de alineación, no afectará notablemente su estructura.

Método de mínimos cuadrados. Este método fue propuesto a principios del siglo XIX por A.M. Legendre y, independientemente de él, K. Gauss. Le permite alinear con mayor precisión series empíricas. Este método, como se muestra arriba, se basa en el supuesto de que la suma de las desviaciones al cuadrado es una opción. X i de su promedio hay un valor mínimo, es decir de ahí el nombre del método, que se utiliza no solo en ecología, sino también en tecnología. El método de mínimos cuadrados es objetivo y universal; se utiliza en una amplia variedad de casos para encontrar ecuaciones empíricas para series de regresión y determinar sus parámetros.

El requisito del método de mínimos cuadrados es que los puntos teóricos de la línea de regresión deben obtenerse de tal manera que la suma de las desviaciones al cuadrado de estos puntos para las observaciones empíricas y i era mínimo, es decir

Calculando el mínimo de esta expresión de acuerdo con los principios del análisis matemático y transformándolo de cierta manera, se puede obtener un sistema de los llamados ecuaciones normales, en el que los valores desconocidos son los parámetros requeridos de la ecuación de regresión, y los coeficientes conocidos están determinados por los valores empíricos de las características, generalmente las sumas de sus valores y sus productos cruzados.

Regresión lineal múltiple. La relación entre varias variables suele expresarse mediante una ecuación de regresión múltiple, que puede ser lineal Y no lineal. En su forma más simple, la regresión múltiple se expresa como una ecuación con dos variables independientes ( X, z):

Dónde a– término libre de la ecuación; b Y C– parámetros de la ecuación. Para encontrar los parámetros de la ecuación (10) (usando el método de mínimos cuadrados), se utiliza el siguiente sistema de ecuaciones normales:

Serie dinámica. Alineación de filas. Los cambios en las características a lo largo del tiempo forman los llamados series de tiempo o serie dinámica. Un rasgo característico de tales series es que la variable independiente X aquí es siempre el factor tiempo, y la variable dependiente Y es una característica cambiante. Dependiendo de la serie de regresión, la relación entre las variables X e Y es unilateral, ya que el factor tiempo no depende de la variabilidad de las características. A pesar de estas características, las series dinámicas pueden compararse con series de regresión y procesarse utilizando los mismos métodos.

Al igual que las series de regresión, las series de dinámica empírica están influenciadas no solo por los principales, sino también por numerosos factores secundarios (aleatorios) que oscurecen la tendencia principal en la variabilidad de las características, que en el lenguaje estadístico se llama tendencia.

El análisis de series de tiempo comienza con la identificación de la forma de la tendencia. Para ello, la serie temporal se representa como un gráfico lineal en un sistema de coordenadas rectangular. En este caso, los puntos de tiempo (años, meses y otras unidades de tiempo) se trazan a lo largo del eje de abscisas y los valores de la variable dependiente Y se trazan a lo largo del eje de ordenadas si existe una relación lineal entre las variables X. e Y (tendencia lineal), el método de mínimos cuadrados es el más apropiado para alinear las series de tiempo es una ecuación de regresión en forma de desviaciones de los términos de la serie de la variable dependiente Y de la media aritmética de la serie de la independiente variableX:

Aquí está el parámetro de regresión lineal.

Características numéricas de series dinámicas. Las principales características numéricas generalizadoras de las series dinámicas incluyen significado geometrico y una media aritmética cercana a ella. Caracterizan la tasa promedio a la que cambia el valor de la variable dependiente durante ciertos períodos de tiempo:

Una evaluación de la variabilidad de los miembros de la serie dinámica es Desviación Estándar. Al elegir ecuaciones de regresión para describir series temporales, se tiene en cuenta la forma de la tendencia, que puede ser lineal (o reducida a lineal) y no lineal. La exactitud de la elección de la ecuación de regresión generalmente se juzga por la similitud de los valores calculados y observados empíricamente de la variable dependiente. Una solución más precisa a este problema es el análisis de regresión del método de varianza (tema 12, párrafo 4).

Correlación de series temporales. A menudo es necesario comparar la dinámica de series temporales paralelas relacionadas entre sí según determinadas condiciones generales, por ejemplo, para descubrir la relación entre la producción agrícola y el crecimiento del número de cabezas de ganado durante un determinado período de tiempo. En tales casos, la característica de la relación entre las variables X e Y es coeficiente de correlación R xy (en presencia de una tendencia lineal).

Se sabe que la tendencia de las series temporales suele quedar oscurecida por las fluctuaciones en la serie de la variable dependiente Y. Esto plantea un doble problema: medir la dependencia entre series comparadas, sin excluir la tendencia, y medir la dependencia entre miembros vecinos de la misma serie, excluyendo la tendencia. En el primer caso, el indicador de la cercanía de la conexión entre las series temporales comparadas es coeficiente de correlación(si la relación es lineal), en el segundo – coeficiente de autocorrelación. Estos indicadores tienen diferentes significados, aunque se calculan utilizando las mismas fórmulas (ver tema 11).

Es fácil ver que el valor del coeficiente de autocorrelación se ve afectado por la variabilidad de los miembros de la serie de la variable dependiente: cuanto menos se desvían los miembros de la serie de la tendencia, mayor será el coeficiente de autocorrelación, y viceversa.

Con una relación de tipo lineal entre las dos características en estudio, además de calcular las correlaciones, se utiliza el cálculo del coeficiente de regresión.

En el caso de una correlación lineal, cada cambio en una característica corresponde a un cambio muy definido en otra característica. Sin embargo, el coeficiente de correlación muestra esta relación sólo en cantidades relativas, en fracciones de unidad. Con la ayuda del análisis de regresión, este valor de relación se obtiene en unidades nombradas. La cantidad en que la primera característica cambia en promedio cuando la segunda cambia en una unidad de medida se llama coeficiente de regresión.

A diferencia del análisis de regresión de correlación, proporciona información más amplia, ya que al calcular dos coeficientes de regresión Rx/año Y RU/х Es posible determinar tanto la dependencia del primer signo del segundo como del segundo del primero. Expresar una relación de regresión mediante una ecuación permite determinar el valor de otra característica en función de un determinado valor de una característica.

El coeficiente de regresión R es el producto del coeficiente de correlación y la relación de las desviaciones cuadradas calculadas para cada característica. Se calcula según la fórmula.

donde, R - coeficiente de regresión; SH es la desviación estándar de la primera característica, que cambia debido a un cambio en la segunda; SУ - desviación estándar de la segunda característica en relación con cuyo cambio cambia la primera característica; r es el coeficiente de correlación entre estas características; x - función; y -argumento.

Esta fórmula determina el valor de x cuando y cambia en una unidad de medida. Si es necesario el cálculo inverso, puede encontrar el valor de y cuando x cambia por unidad de medida usando la fórmula:


En este caso, el papel activo en el cambio de una característica en relación a otra cambia respecto a la fórmula anterior, el argumento pasa a ser una función y viceversa; Los valores de SX y SY se toman en una expresión con nombre.

Existe una relación clara entre los valores de r y R, que se expresa en el hecho de que el producto de la regresión de x sobre y por la regresión de y sobre x es igual al cuadrado del coeficiente de correlación, es decir

Rx/y * Ry/x = r2

Esto indica que el coeficiente de correlación representa la media geométrica de ambos valores de los coeficientes de regresión de una muestra determinada. Esta fórmula se puede utilizar para comprobar la precisión de los cálculos.

Al procesar material digital en máquinas calculadoras, se pueden utilizar fórmulas detalladas de coeficientes de regresión:

R o


Para un coeficiente de regresión, se puede calcular su error de representatividad. El error del coeficiente de regresión es igual al error del coeficiente de correlación multiplicado por la razón de las razones cuadráticas:

El criterio de confiabilidad del coeficiente de regresión se calcula mediante la fórmula habitual:

como resultado, es igual al criterio de confiabilidad del coeficiente de correlación:

La confiabilidad del valor tR se establece usando la tabla de Student en  = n - 2, donde n es el número de pares de observaciones.

Regresión curvilínea.

REGRESIÓN CURVILINEAL. Cualquier regresión no lineal en la que la ecuación de regresión para los cambios en una variable (y) en función de t cambia en otra (x) es una ecuación cuadrática, cúbica o de orden superior. Aunque siempre es matemáticamente posible obtener una ecuación de regresión que se ajuste a cada "garabato" de la curva, la mayoría de estas perturbaciones surgen de errores de muestreo o de medición, y un ajuste tan "perfecto" no logra nada. No siempre es fácil determinar si una regresión curvilínea se ajusta a un conjunto de datos, aunque existen pruebas estadísticas para determinar si cada potencia superior de la ecuación aumenta significativamente el grado de ajuste de ese conjunto de datos.

El ajuste de curvas se realiza de la misma manera que el ajuste de líneas rectas. La línea de regresión debe satisfacer la condición de suma mínima de distancias al cuadrado a cada punto del campo de correlación. En este caso, en la ecuación (1), y representa el valor calculado de la función, determinado utilizando la ecuación de la relación curvilínea seleccionada en base a los valores reales de x j. Por ejemplo, si se elige una parábola de segundo orden para aproximar la conexión, entonces y = a + b x + cx2, (14) y la diferencia entre un punto que se encuentra en la curva y un punto dado en el campo de correlación con el correspondiente. El argumento se puede escribir de manera similar a la ecuación (3) en la forma yj = yj (a + bx + cx2) (15) En este caso, la suma de las distancias al cuadrado desde cada punto del campo de correlación hasta la nueva línea de regresión en el caso de una parábola de segundo orden tendrá la forma: S 2 = yj 2 = 2 (16) Con base en la condición mínima de esta suma, las derivadas parciales de S 2 con respecto a a, b y c son iguales a cero. Realizadas las transformaciones necesarias, obtenemos un sistema de tres ecuaciones con tres incógnitas para determinar a, by c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Resolviendo el sistema de ecuaciones para a, byc, encontramos los valores numéricos de los coeficientes de regresión. Los valores y, x, x2, yx, yx2, x3, x4 se encuentran directamente a partir de los datos de medición de producción. Una evaluación de la cercanía de la conexión para una dependencia curvilínea es la relación de correlación teórica xy, que es la raíz cuadrada de la relación de dos dispersiones: el cuadrado medio p2 de las desviaciones de los valores calculados y" j de la función según la ecuación de regresión encontrada desde el valor medio aritmético Y del valor y hasta las desviaciones cuadráticas medias y2 de los valores reales de la función y j de su valor medio aritmético: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) El cuadrado de la relación de correlación xy2 muestra la proporción de la variabilidad total de la variable dependiente y, debido a la variabilidad del argumento x . Este indicador se llama coeficiente de determinación. A diferencia del coeficiente de correlación, el valor de la relación de correlación solo puede tomar valores positivos de 0 a 1. En ausencia total de conexión, la relación de correlación es igual a cero, en presencia de una conexión funcional es igual a uno, y en presencia de una conexión de regresión de diferente intensidad, la relación de correlación toma valores entre cero y uno. La elección del tipo de curva es de gran importancia en el análisis de regresión, ya que la precisión de la aproximación y las estimaciones estadísticas de la cercanía de la relación dependen del tipo de relación elegida. El método más sencillo para seleccionar el tipo de curva es construir campos de correlación y seleccionar los tipos apropiados de ecuaciones de regresión según la ubicación de los puntos en estos campos. Los métodos de análisis de regresión permiten encontrar valores numéricos de coeficientes de regresión para tipos complejos de relaciones entre parámetros, descritos, por ejemplo, mediante polinomios de alto grado. A menudo, la forma de la curva se puede determinar en función de la naturaleza física del proceso o fenómeno considerado. Tiene sentido utilizar polinomios de alto grado para describir procesos que cambian rápidamente si los límites de fluctuación de los parámetros de estos procesos son significativos. En relación con los estudios del proceso metalúrgico, basta con utilizar curvas de orden inferior, por ejemplo una parábola de segundo orden. Esta curva puede tener un extremo que, como ha demostrado la práctica, es suficiente para describir diversas características del proceso metalúrgico. Los resultados de los cálculos de los parámetros de la relación de correlación pareada serían confiables y tendrían valor práctico si la información utilizada se obtuviera en condiciones de amplios límites de fluctuaciones de argumentos, siendo todos los demás parámetros del proceso constantes. En consecuencia, los métodos para estudiar la correlación por pares de parámetros se pueden utilizar para resolver problemas prácticos sólo cuando se tiene confianza en la ausencia de otras influencias serias en la función distintas del argumento analizado. En condiciones de producción, es imposible realizar el proceso de esta forma durante mucho tiempo. Sin embargo, si tenemos información sobre los principales parámetros del proceso que influyen en sus resultados, entonces matemáticamente podemos eliminar la influencia de estos parámetros y aislar en “forma pura” la relación entre la función y el argumento que nos interesa. Esta conexión se llama privada o individual. Para determinarlo se utiliza el método de regresión múltiple.

Relación de correlación.

El ratio de correlación y el índice de correlación son características numéricas que están estrechamente relacionadas con el concepto de variable aleatoria, o más precisamente, con un sistema de variables aleatorias. Por tanto, para introducir y definir su significado y función, es necesario explicar el concepto de sistema de variables aleatorias y algunas propiedades inherentes a ellas.

Dos o más variables aleatorias que describen un determinado fenómeno se denominan sistema o complejo de variables aleatorias.

Un sistema de varias variables aleatorias X, Y, Z,…, W generalmente se denota por (X, Y, Z,…, W).

Por ejemplo, un punto en un plano no se describe por una coordenada, sino por dos, y en el espacio, incluso por tres.

Las propiedades de un sistema de varias variables aleatorias no se limitan a las propiedades de las variables aleatorias individuales incluidas en el sistema, sino que también incluyen conexiones mutuas (dependencias) entre variables aleatorias. Por tanto, al estudiar un sistema de variables aleatorias, se debe prestar atención a la naturaleza y el grado de dependencia. Esta dependencia puede ser más o menos pronunciada, más o menos estrecha. Y en otros casos, las variables aleatorias resultan prácticamente independientes.

Se dice que una variable aleatoria Y es independiente de una variable aleatoria X si la ley de distribución de la variable aleatoria Y no depende del valor que toma X.

Cabe señalar que la dependencia e independencia de las variables aleatorias es siempre un fenómeno mutuo: si Y no depende de X, entonces el valor de X no depende de Y. Teniendo esto en cuenta, podemos dar la siguiente definición de independencia. de variables aleatorias.

Las variables aleatorias X e Y se denominan independientes si la ley de distribución de cada una de ellas no depende del valor que tome la otra. De lo contrario, las cantidades X e Y se denominan dependientes.

La ley de distribución de una variable aleatoria es cualquier relación que establece una conexión entre los posibles valores de una variable aleatoria y las probabilidades correspondientes.

El concepto de "dependencia" de variables aleatorias, que se utiliza en la teoría de la probabilidad, es algo diferente del concepto habitual de "dependencia" de variables, que se utiliza en matemáticas. Por tanto, un matemático entiende por "dependencia" sólo un tipo de dependencia: la llamada dependencia funcional, completa y rígida. Dos cantidades X e Y se denominan funcionalmente dependientes si, conociendo el valor de una de ellas, se puede determinar con precisión el valor de la otra.

En la teoría de la probabilidad, nos encontramos con un tipo de dependencia ligeramente diferente: la dependencia probabilística. Si el valor Y está relacionado con el valor X mediante una dependencia probabilística, entonces, conociendo el valor de X, es imposible indicar con precisión el valor de Y, pero se puede indicar su ley de distribución, dependiendo del valor que tenga el valor X. tomado.

La relación probabilística puede ser más o menos estrecha; A medida que aumenta la rigidez de la dependencia probabilística, se acerca cada vez más a la funcional. Por tanto, la dependencia funcional puede considerarse como un caso extremo y límite de la dependencia probabilística más cercana. Otro caso extremo es la completa independencia de las variables aleatorias. Entre estos dos casos extremos se encuentran todas las gradaciones de dependencia probabilística, desde la más fuerte hasta la más débil.

En la práctica se encuentra a menudo la dependencia probabilística entre variables aleatorias. Si las variables aleatorias X e Y están en una relación probabilística, esto no significa que con un cambio en el valor de X, el valor de Y cambia de una manera completamente definida; esto sólo significa que a medida que cambia el valor de X, el valor de Y tiende también a cambiar (aumentar o disminuir a medida que aumenta X). Esta tendencia se observa sólo en términos generales y en cada caso individual es posible que se produzcan desviaciones.



¿Te gustó el artículo? ¡Compartir con tus amigos!