¿Qué muestra el coeficiente a1 en el modelo de regresión? Múltiple y no lineal

El coeficiente de regresión es el valor absoluto por el cual, en promedio, el valor de una característica cambia cuando otra característica asociada cambia en una unidad de medida específica. Definición de regresión. La relación entre y y x determina el signo del coeficiente de regresión b (si > 0 - relación directa, en caso contrario - inversa). El modelo de regresión lineal es el más utilizado y estudiado en econometría.

1.4. Error de aproximación. Evaluamos la calidad de la ecuación de regresión utilizando el error de aproximación absoluto. Los valores predichos de los factores se sustituyen en el modelo y se obtienen estimaciones puntuales predictivas del indicador en estudio. Por tanto, los coeficientes de regresión caracterizan el grado de importancia de los factores individuales para aumentar el nivel del indicador de desempeño.

Coeficiente de regresión

Consideremos ahora el problema 1 de las tareas de análisis de regresión dadas en la p. 300-301. Uno de los resultados matemáticos de la teoría de la regresión lineal dice que el estimador, N, es el estimador insesgado con la varianza mínima en la clase de todos los estimadores lineales insesgados. Por ejemplo, es posible calcular el número de resfriados en promedio para ciertos valores de la temperatura media mensual del aire en el período otoño-invierno.

Línea de regresión y ecuación de regresión.

La regresión sigma se utiliza para construir una escala de regresión, que refleja la desviación de los valores de la característica resultante de su valor promedio trazado en la línea de regresión. 1, x2, x3 y los valores promedio correspondientes y1, y2 y3, así como los valores más pequeños (y - σrу/х) y más grandes (y + σrу/х) (y) para construir una escala de regresión. Conclusión. Así, la escala de regresión dentro de los valores calculados del peso corporal permite determinarlo con cualquier otro valor de altura o evaluar el desarrollo individual del niño.

En forma matricial, la ecuación de regresión (RE) se escribe como: Y=BX+U(\displaystyle Y=BX+U), donde U(\displaystyle U) es la matriz de error. El uso estadístico de la palabra regresión proviene del fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

La regresión lineal por pares se puede ampliar para incluir más de una variable independiente; en este caso se conoce como regresión múltiple. Tanto para los valores atípicos como para las observaciones “influyentes” (puntos), se utilizan modelos, con y sin su inclusión, y se presta atención a los cambios en las estimaciones (coeficientes de regresión).

Debido a la relación lineal, esperamos que cambie a medida que cambia, y a esto lo llamamos la variación que se debe o se explica por regresión. Si esto es cierto, entonces la mayor parte de la variación se explicará mediante la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea se ajusta bien a los datos. La diferencia representa el porcentaje de varianza que no puede explicarse mediante regresión.

Este método se utiliza para representar visualmente la forma de conexión entre los indicadores económicos estudiados. Con base en el campo de correlación, podemos plantear la hipótesis (para la población) de que la relación entre todos los valores posibles de X e Y es lineal.

Las razones de la existencia de un error aleatorio: 1. No incluir variables explicativas significativas en el modelo de regresión; 2. Agregación de variables. Sistema de ecuaciones normales. En nuestro ejemplo, la conexión es directa. Para predecir la variable dependiente del atributo resultante, es necesario conocer los valores predichos de todos los factores incluidos en el modelo.

Comparación de coeficientes de correlación y regresión.

Con una probabilidad del 95% es posible garantizar que el valor Y para un número ilimitado de observaciones no quedará fuera de los límites de los intervalos encontrados. Si el valor calculado con (lang=EN-US>n-m-1) grados de libertad es mayor que el valor tabulado en un nivel de significancia determinado, entonces el modelo se considera significativo. De este modo se garantiza que no exista correlación entre desviaciones eventuales y, en particular, entre desviaciones adyacentes.

Coeficientes de regresión y su interpretación.

En la mayoría de los casos, la autocorrelación positiva es causada por la influencia direccional constante de algunos factores que no se tienen en cuenta en el modelo. La autocorrelación negativa significa esencialmente que a una desviación positiva le sigue una negativa y viceversa.

¿Qué es la regresión?

2. Inercia. Muchos indicadores económicos (inflación, desempleo, PNB, etc.) tienen un cierto carácter cíclico asociado a la ondulación de la actividad empresarial. En muchas áreas de producción y otras áreas, los indicadores económicos responden a los cambios en las condiciones económicas con retraso (desfase temporal).

Si se lleva a cabo una estandarización preliminar de los indicadores de factores, entonces b0 es igual al valor promedio del indicador efectivo en su conjunto. Los valores específicos de los coeficientes de regresión se determinan a partir de datos empíricos según el método de mínimos cuadrados (como resultado de la resolución de sistemas de ecuaciones normales).

La ecuación de regresión lineal tiene la forma y = bx + a + ε Aquí ε es un error aleatorio (desviación, perturbación). Dado que el error es superior al 15%, no es aconsejable utilizar esta ecuación como regresión. Al sustituir los valores de x apropiados en la ecuación de regresión, podemos determinar los valores alineados (predichos) del indicador de desempeño y(x) para cada observación.

¿Qué es la regresión?

Considere dos variables continuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Coloquemos los puntos en un diagrama de dispersión bidimensional y digamos que tenemos relación lineal, si los datos se aproximan mediante una línea recta.

Si creemos que y depende de incógnita, y cambios en y son causadas precisamente por cambios en incógnita, podemos determinar la línea de regresión (regresión y en incógnita), que describe mejor la relación lineal entre estas dos variables.

El uso estadístico de la palabra regresión proviene del fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

Demostró que aunque los padres altos tienden a tener hijos altos, la altura promedio de los hijos es más baja que la de sus padres altos. La altura promedio de los hijos "regresó" y "retrocedió" hacia la altura promedio de todos los padres de la población. Así, en promedio, los padres altos tienen hijos más bajos (pero todavía bastante altos), y los padres bajos tienen hijos más altos (pero todavía bastante bajos).

Línea de regresión

Una ecuación matemática que estima una recta de regresión lineal simple (por pares):

incógnita llamada variable independiente o predictor.

Y- variable dependiente o variable de respuesta. Este es el valor que esperamos y(en promedio) si conocemos el valor incógnita, es decir. este es el "valor previsto" y»

  • a- miembro libre (intersección) de la línea de evaluación; este es el significado Y, Cuando x=0(Figura 1).
  • b- pendiente o gradiente de la línea estimada; representa la cantidad por la cual Y aumenta en promedio si aumentamos incógnita por una unidad.
  • a Y b se llaman coeficientes de regresión de la línea estimada, aunque este término a menudo se usa solo para b.

La regresión lineal por pares se puede ampliar para incluir más de una variable independiente; en este caso se le conoce como regresión múltiple.

Fig.1. Línea de regresión lineal que muestra la intersección a y la pendiente b (la cantidad Y aumenta a medida que x aumenta en una unidad)

Método de mínimos cuadrados

Realizamos análisis de regresión utilizando una muestra de observaciones donde a Y b- estimaciones muestrales de los parámetros verdaderos (generales), α y β, que determinan la línea de regresión lineal en la población (población general).

El método más simple para determinar coeficientes. a Y b es método de mínimos cuadrados(EMN).

El ajuste se evalúa observando los residuos (distancia vertical de cada punto desde la línea, por ejemplo, residual = observado y- predicho y, Arroz. 2).

Se elige la recta de mejor ajuste de modo que la suma de los cuadrados de los residuos sea mínima.

Arroz. 2. Línea de regresión lineal con residuos representados (líneas de puntos verticales) para cada punto.

Supuestos de regresión lineal

Entonces, para cada valor observado, el resto es igual a la diferencia y el valor predicho correspondiente. Cada resto puede ser positivo o negativo.

Puede utilizar residuos para probar los siguientes supuestos detrás de la regresión lineal:

  • Los residuos se distribuyen normalmente con media cero;

Si los supuestos de linealidad, normalidad y/o varianza constante son cuestionables, podemos transformar o calcular una nueva línea de regresión para la cual se cumplan estos supuestos (por ejemplo, usar una transformación logarítmica, etc.).

Valores anómalos (valores atípicos) y puntos de influencia

Una observación "influyente", si se omite, cambia una o más estimaciones de los parámetros del modelo (es decir, pendiente o intercepción).

Un valor atípico (una observación que es inconsistente con la mayoría de los valores en un conjunto de datos) puede ser una observación "influyente" y puede detectarse fácilmente visualmente inspeccionando un diagrama de dispersión bivariado o un diagrama residual.

Tanto para los valores atípicos como para las observaciones “influyentes” (puntos), se utilizan modelos, con y sin su inclusión, y se presta atención a los cambios en las estimaciones (coeficientes de regresión).

Al realizar un análisis, no se deben descartar automáticamente los valores atípicos o los puntos de influencia, ya que simplemente ignorarlos puede afectar los resultados obtenidos. Estudie siempre las razones de estos valores atípicos y analícelas.

Hipótesis de regresión lineal

Al construir una regresión lineal, se prueba la hipótesis nula de que la pendiente general de la recta de regresión β es igual a cero.

Si la pendiente de la recta es cero, no existe una relación lineal entre y: el cambio no afecta

Para probar la hipótesis nula de que la pendiente verdadera es cero, puede utilizar el siguiente algoritmo:

Calcule el estadístico de prueba igual a la razón , que está sujeta a una distribución con grados de libertad, donde el error estándar del coeficiente


,

- estimación de la dispersión de los residuos.

Normalmente, si se alcanza el nivel de significancia, se rechaza la hipótesis nula.


donde es el punto porcentual de la distribución con grados de libertad, que da la probabilidad de una prueba bilateral

Este es el intervalo que contiene la pendiente general con una probabilidad del 95%.

Para muestras grandes, digamos, podemos aproximarnos con un valor de 1,96 (es decir, el estadístico de prueba tenderá a distribuirse normalmente)

Evaluación de la calidad de la regresión lineal: coeficiente de determinación R 2

Debido a la relación lineal y esperamos que cambie a medida que , y llámelo la variación que se debe o se explica por la regresión. La variación residual debe ser lo más pequeña posible.

Si esto es cierto, entonces la mayor parte de la variación se explicará mediante la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea se ajusta bien a los datos.

La proporción de la varianza total que se explica mediante la regresión se llama coeficiente de determinación, generalmente expresado como porcentaje y denotado R 2(en regresión lineal pareada esta es la cantidad r 2, cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

La diferencia representa el porcentaje de varianza que no puede explicarse mediante regresión.

No existe una prueba formal para evaluar; debemos confiar en el juicio subjetivo para determinar la bondad del ajuste de la línea de regresión.

Aplicar una línea de regresión al pronóstico

Puede utilizar una línea de regresión para predecir un valor a partir de un valor en el extremo del rango observado (nunca extrapolar más allá de estos límites).

Predecimos la media de los observables que tienen un valor particular ingresando ese valor en la ecuación de la línea de regresión.

Entonces, si predecimos como Utilice este valor predicho y su error estándar para estimar un intervalo de confianza para la media poblacional verdadera.

Repetir este procedimiento para diferentes valores le permite construir límites de confianza para esta línea. Esta es la banda o área que contiene la línea verdadera, por ejemplo con un nivel de confianza del 95%.

Planes de regresión simples

Los diseños de regresión simples contienen un predictor continuo. Si hay 3 observaciones con valores predictores P, como 7, 4 y 9, y el diseño incluye un efecto de primer orden P, entonces la matriz de diseño X será

y la ecuación de regresión usando P para X1 es

Y = b0 + b1P

Si un diseño de regresión simple contiene un efecto de orden superior en P, como un efecto cuadrático, entonces los valores en la columna X1 en la matriz de diseño se elevarán a la segunda potencia:

y la ecuación tomará la forma

Y = b0 + b1 P2

Los métodos de codificación restringidos por sigma y sobreparametrizados no se aplican a diseños de regresión simples y otros diseños que contienen sólo predictores continuos (porque simplemente no hay predictores categóricos). Independientemente del método de codificación elegido, los valores de las variables continuas se incrementan en consecuencia y se utilizan como valores para las variables X. En este caso, no se realiza ninguna grabación. Además, al describir planes de regresión, se puede omitir la consideración de la matriz de diseño X y trabajar únicamente con la ecuación de regresión.

Ejemplo: análisis de regresión simple

Este ejemplo utiliza los datos presentados en la tabla:

Arroz. 3. Tabla de datos iniciales.

Datos compilados a partir de una comparación de los censos de 1960 y 1970 en 30 condados seleccionados al azar. Los nombres de los condados se presentan como nombres de observación. La información sobre cada variable se presenta a continuación:

Arroz. 4. Tabla de especificaciones variables.

Problema de investigación

Para este ejemplo se analizará la correlación entre la tasa de pobreza y el grado que predice el porcentaje de familias que se encuentran por debajo de la línea de pobreza. Por lo tanto, trataremos la variable 3 (Pt_Poor) como la variable dependiente.

Podemos plantear una hipótesis: los cambios en el tamaño de la población y el porcentaje de familias que están por debajo del umbral de pobreza están relacionados. Parece razonable esperar que la pobreza conduzca a la emigración, por lo que habría una correlación negativa entre el porcentaje de personas por debajo del umbral de pobreza y el cambio poblacional. Por lo tanto, trataremos la variable 1 (Pop_Chng) como una variable predictiva.

Ver resultados

Coeficientes de regresión

Arroz. 5. Coeficientes de regresión de Pt_Poor sobre Pop_Chng.

En la intersección de la fila Pop_Chng y la columna Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

el coeficiente no estandarizado para la regresión de Pt_Poor en Pop_Chng es -0,40374. Esto significa que por cada unidad de disminución de la población, hay un aumento en la tasa de pobreza de .40374. Los límites de confianza superior e inferior (predeterminado) del 95% para este coeficiente no estandarizado no incluyen cero, por lo que el coeficiente de regresión es significativo en el nivel p.

Distribución de variables

Los coeficientes de correlación pueden sobreestimarse o subestimarse significativamente si en los datos hay grandes valores atípicos. Estudiemos la distribución de la variable dependiente Pt_Pobres por distrito. Para hacer esto, construyamos un histograma de la variable Pt_Poor.

Arroz. 6. Histograma de la variable Pt_Poor.

Como puede verse, la distribución de esta variable difiere notablemente de la distribución normal. Sin embargo, aunque incluso dos condados (las dos columnas de la derecha) tienen un porcentaje mayor de familias que están por debajo del umbral de pobreza de lo esperado bajo una distribución normal, parecen estar "dentro del rango".

Arroz. 7. Histograma de la variable Pt_Poor.

Este juicio es algo subjetivo. La regla general es que se deben considerar los valores atípicos si la observación (u observaciones) no se encuentran dentro del intervalo (media ± 3 veces la desviación estándar). En este caso, vale la pena repetir el análisis con y sin valores atípicos para asegurar que no tengan un efecto importante en la correlación entre los miembros de la población.

diagrama de dispersión

Si una de las hipótesis es a priori sobre la relación entre variables dadas, entonces es útil probarla en el gráfico del diagrama de dispersión correspondiente.

Arroz. 8. Diagrama de dispersión.

El diagrama de dispersión muestra una clara correlación negativa (-.65) entre las dos variables. También muestra el intervalo de confianza del 95% para la línea de regresión, es decir, existe un 95% de probabilidad de que la línea de regresión se encuentre entre las dos curvas de puntos.

Criterios de importancia

Arroz. 9. Tabla que contiene criterios de significancia.<.001 .

La prueba para el coeficiente de regresión Pop_Chng confirma que Pop_Chng está fuertemente relacionado con Pt_Poor, p

En pocas palabras

Con una relación de tipo lineal entre las dos características en estudio, además de calcular las correlaciones, se utiliza el cálculo del coeficiente de regresión.

En el caso de una correlación lineal, cada cambio en una característica corresponde a un cambio muy definido en otra característica. Sin embargo, el coeficiente de correlación muestra esta relación sólo en cantidades relativas, en fracciones de unidad. Con la ayuda del análisis de regresión, este valor de relación se obtiene en unidades nombradas. La cantidad en que la primera característica cambia en promedio cuando la segunda cambia en una unidad de medida se llama coeficiente de regresión.

A diferencia del análisis de regresión de correlación, proporciona información más amplia, ya que al calcular dos coeficientes de regresión Rx/año Y RU/х Es posible determinar tanto la dependencia del primer signo del segundo como del segundo del primero. Expresar una relación de regresión mediante una ecuación permite determinar el valor de otra característica en función de un determinado valor de una característica.

El coeficiente de regresión R es el producto del coeficiente de correlación y la relación de las desviaciones cuadradas calculadas para cada característica. Se calcula según la fórmula.

donde, R - coeficiente de regresión; SH es la desviación estándar de la primera característica, que cambia debido a un cambio en la segunda; SУ - desviación estándar de la segunda característica en relación con cuyo cambio cambia la primera característica; r es el coeficiente de correlación entre estas características; x - función; y -argumento.

Esta fórmula determina el valor de x cuando y cambia en una unidad de medida. Si es necesario el cálculo inverso, puede encontrar el valor de y cuando x cambia por unidad de medida usando la fórmula:


En este caso, el papel activo en el cambio de una característica en relación a otra cambia respecto a la fórmula anterior, el argumento pasa a ser una función y viceversa; Los valores de SX y SY se toman en una expresión con nombre.

Existe una relación clara entre los valores de r y R, que se expresa en el hecho de que el producto de la regresión de x sobre y por la regresión de y sobre x es igual al cuadrado del coeficiente de correlación, es decir

Rx/y * Ry/x = r2

Esto indica que el coeficiente de correlación representa la media geométrica de ambos valores de los coeficientes de regresión de una muestra determinada. Esta fórmula se puede utilizar para comprobar la precisión de los cálculos.

Al procesar material digital en máquinas calculadoras, se pueden utilizar fórmulas detalladas de coeficientes de regresión:

R o


Para un coeficiente de regresión, se puede calcular su error de representatividad. El error del coeficiente de regresión es igual al error del coeficiente de correlación multiplicado por la razón de las razones cuadráticas:

El criterio de fiabilidad del coeficiente de regresión se calcula mediante la fórmula habitual:

como resultado, es igual al criterio de confiabilidad del coeficiente de correlación:

La confiabilidad del valor tR se establece usando la tabla de Student en  = n - 2, donde n es el número de pares de observaciones.

Regresión curvilínea.

REGRESIÓN CURVILINEAL. Cualquier regresión no lineal en la que la ecuación de regresión para los cambios en una variable (y) en función de t cambia en otra (x) es una ecuación cuadrática, cúbica o de orden superior. Aunque siempre es matemáticamente posible obtener una ecuación de regresión que se ajuste a cada "garabato" de la curva, la mayoría de estas perturbaciones surgen de errores de muestreo o de medición, y un ajuste tan "perfecto" no logra nada. No siempre es fácil determinar si una regresión curvilínea se ajusta a un conjunto de datos, aunque existen pruebas estadísticas para determinar si cada potencia superior de la ecuación aumenta significativamente el grado de ajuste de ese conjunto de datos.

El ajuste de curvas se realiza de la misma manera que el ajuste de líneas rectas. La línea de regresión debe satisfacer la condición de suma mínima de distancias al cuadrado a cada punto del campo de correlación. En este caso, en la ecuación (1), y representa el valor calculado de la función, determinado utilizando la ecuación de la relación curvilínea seleccionada en base a los valores reales de x j. Por ejemplo, si se elige una parábola de segundo orden para aproximar la conexión, entonces y = a + b x + cx2, (14) y la diferencia entre un punto que se encuentra en la curva y un punto dado en el campo de correlación con un valor apropiado. El argumento se puede escribir de manera similar a la ecuación (3) en la forma yj = yj (a + bx + cx2) (15) En este caso, la suma de las distancias al cuadrado desde cada punto del campo de correlación hasta la nueva línea de regresión en el caso de una parábola de segundo orden tendrá la forma: S 2 = yj 2 = 2 (16) Con base en la condición mínima de esta suma, las derivadas parciales de S 2 con respecto a a, b y c son iguales a cero. Realizadas las transformaciones necesarias, obtenemos un sistema de tres ecuaciones con tres incógnitas para determinar a, by c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Resolviendo el sistema de ecuaciones para a, byc, encontramos los valores numéricos de los coeficientes de regresión. Los valores de y, x, x2, yx, yx2, x3, x4 se encuentran directamente a partir de los datos de medición de producción. Una evaluación de la cercanía de la conexión para una dependencia curvilínea es la relación de correlación teórica xy, que es la raíz cuadrada de la relación de dos dispersiones: el cuadrado medio p2 de las desviaciones de los valores calculados y" j de la función según la ecuación de regresión encontrada desde el valor medio aritmético Y del valor y a las desviaciones cuadráticas medias y2 de los valores reales de la función y j de su valor medio aritmético: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) El cuadrado de la relación de correlación xy2 muestra la proporción de la variabilidad total de la variable dependiente y, debido a la variabilidad del argumento x . Este indicador se llama coeficiente de determinación. A diferencia del coeficiente de correlación, el valor de la relación de correlación solo puede tomar valores positivos de 0 a 1. En ausencia total de conexión, la relación de correlación es igual a cero, en presencia de una conexión funcional es igual a uno, y en presencia de una conexión de regresión de proximidad variable, la relación de correlación toma valores entre cero y uno. La elección del tipo de curva es de gran importancia en el análisis de regresión, ya que la precisión de la aproximación y las estimaciones estadísticas de la cercanía de la relación dependen del tipo de relación elegida. El método más sencillo para seleccionar el tipo de curva es construir campos de correlación y seleccionar los tipos apropiados de ecuaciones de regresión según la ubicación de los puntos en estos campos. Los métodos de análisis de regresión permiten encontrar valores numéricos de coeficientes de regresión para tipos complejos de relaciones entre parámetros, descritos, por ejemplo, mediante polinomios de alto grado. A menudo, la forma de la curva se puede determinar en función de la naturaleza física del proceso o fenómeno considerado. Tiene sentido utilizar polinomios de alto grado para describir procesos que cambian rápidamente si los límites de fluctuación de los parámetros de estos procesos son significativos. En relación con los estudios del proceso metalúrgico, basta con utilizar curvas de orden inferior, por ejemplo, una parábola de segundo orden. Esta curva puede tener un extremo que, como ha demostrado la práctica, es suficiente para describir diversas características del proceso metalúrgico. Los resultados de los cálculos de los parámetros de la relación de correlación pareada serían confiables y tendrían valor práctico si la información utilizada se obtuviera en condiciones de amplios límites de fluctuaciones de argumentos, siendo todos los demás parámetros del proceso constantes. En consecuencia, los métodos para estudiar la correlación por pares de parámetros se pueden utilizar para resolver problemas prácticos sólo cuando se tiene confianza en la ausencia de otras influencias serias sobre la función distintas del argumento analizado. En condiciones de producción, es imposible realizar el proceso de esta forma durante mucho tiempo. Sin embargo, si tenemos información sobre los principales parámetros del proceso que influyen en sus resultados, entonces matemáticamente podemos excluir la influencia de estos parámetros y aislar en “forma pura” la relación entre la función y el argumento que nos interesa. Esta conexión se llama privada o individual. Para determinarlo se utiliza el método de regresión múltiple.

Relación de correlación.

El índice de correlación y el índice de correlación son características numéricas que están estrechamente relacionadas con el concepto de variable aleatoria, o más precisamente, con un sistema de variables aleatorias. Por tanto, para introducir y definir su significado y función, es necesario explicar el concepto de sistema de variables aleatorias y algunas propiedades inherentes a ellas.

Dos o más variables aleatorias que describen un determinado fenómeno se denominan sistema o complejo de variables aleatorias.

Un sistema de varias variables aleatorias X, Y, Z,…, W generalmente se denota por (X, Y, Z,…, W).

Por ejemplo, un punto en un plano no se describe por una coordenada, sino por dos, y en el espacio, incluso por tres.

Las propiedades de un sistema de varias variables aleatorias no se limitan a las propiedades de las variables aleatorias individuales incluidas en el sistema, sino que también incluyen conexiones mutuas (dependencias) entre variables aleatorias. Por tanto, al estudiar un sistema de variables aleatorias, se debe prestar atención a la naturaleza y el grado de dependencia. Esta dependencia puede ser más o menos pronunciada, más o menos estrecha. Y en otros casos, las variables aleatorias resultan prácticamente independientes.

Se dice que una variable aleatoria Y es independiente de una variable aleatoria X si la ley de distribución de la variable aleatoria Y no depende del valor que toma X.

Cabe señalar que la dependencia e independencia de las variables aleatorias es siempre un fenómeno mutuo: si Y no depende de X, entonces el valor de X no depende de Y. Teniendo esto en cuenta, podemos dar la siguiente definición de independencia. de variables aleatorias.

Las variables aleatorias X e Y se denominan independientes si la ley de distribución de cada una de ellas no depende del valor que tome la otra. De lo contrario, las cantidades X e Y se denominan dependientes.

La ley de distribución de una variable aleatoria es cualquier relación que establece una conexión entre los posibles valores de una variable aleatoria y sus correspondientes probabilidades.

El concepto de "dependencia" de variables aleatorias, que se utiliza en la teoría de la probabilidad, es algo diferente del concepto habitual de "dependencia" de variables, que se utiliza en matemáticas. Por lo tanto, un matemático entiende por "dependencia" sólo un tipo de dependencia: la dependencia completa, rígida, la llamada dependencia funcional. Dos cantidades X e Y se denominan funcionalmente dependientes si, conociendo el valor de una de ellas, se puede determinar con precisión el valor de la otra.

En la teoría de la probabilidad, nos encontramos con un tipo de dependencia ligeramente diferente: la dependencia probabilística. Si el valor Y está relacionado con el valor X mediante una dependencia probabilística, entonces, conociendo el valor de X, es imposible indicar con precisión el valor de Y, pero se puede indicar su ley de distribución, dependiendo del valor que tenga el valor X. tomado.

La relación probabilística puede ser más o menos estrecha; A medida que aumenta la rigidez de la dependencia probabilística, se acerca cada vez más a la funcional. Por tanto, la dependencia funcional puede considerarse como un caso extremo y límite de la dependencia probabilística más cercana. Otro caso extremo es la total independencia de las variables aleatorias. Entre estos dos casos extremos se encuentran todas las gradaciones de dependencia probabilística, desde la más fuerte hasta la más débil.

En la práctica se encuentra a menudo la dependencia probabilística entre variables aleatorias. Si las variables aleatorias X e Y están en una relación probabilística, esto no significa que con un cambio en el valor de X, el valor de Y cambia de una manera muy definida; esto sólo significa que a medida que cambia el valor de X, el valor de Y tiende también a cambiar (aumentar o disminuir a medida que aumenta X). Esta tendencia se observa sólo en términos generales y en cada caso individual es posible que se produzcan desviaciones.

El estudio de las dependencias de correlación se basa en el estudio de conexiones entre variables en las que los valores de una variable, que puede tomarse como variable dependiente, cambian "en promedio" dependiendo de los valores tomados por otra. variable, considerada como causa en relación con la variable dependiente. La acción de esta causa se lleva a cabo en condiciones de interacción compleja de varios factores, como resultado de lo cual la manifestación del patrón queda oscurecida por la influencia del azar. Al calcular los valores promedio del atributo efectivo para un grupo dado de valores del atributo-factor, se elimina parcialmente la influencia del azar. Al calcular los parámetros de la línea de comunicación teórica, se eliminan aún más y se obtiene un cambio inequívoco (de forma) en "y" con un cambio en el factor "x".

Para estudiar relaciones estocásticas se utiliza ampliamente el método de comparación de dos series paralelas, el método de agrupaciones analíticas, el análisis de correlación, el análisis de regresión y algunos métodos no paramétricos. En general, la tarea de la estadística en el campo del estudio de las relaciones no es sólo cuantificar su presencia, dirección y fuerza de la conexión, sino también determinar la forma (expresión analítica) de la influencia de las características de los factores sobre la resultante. Para solucionarlo se utilizan métodos de análisis de correlación y regresión.

CAPÍTULO 1. ECUACIÓN DE REGRESIÓN: FUNDAMENTOS TEÓRICOS

1.1. Ecuación de regresión: esencia y tipos de funciones.

La regresión (lat. regressio - movimiento inverso, transición de formas de desarrollo más complejas a otras menos complejas) es uno de los conceptos básicos en la teoría de la probabilidad y la estadística matemática, que expresa la dependencia del valor promedio de una variable aleatoria de los valores. de otra variable aleatoria o de varias variables aleatorias. Este concepto fue introducido por Francis Galton en 1886.

La línea de regresión teórica es la línea alrededor de la cual se agrupan los puntos del campo de correlación y que indica la dirección principal, la tendencia principal de la conexión.

La línea de regresión teórica debe reflejar el cambio en los valores promedio del atributo efectivo "y" a medida que cambian los valores del atributo del factor "x", siempre que todas las demás causas sean aleatorias en relación con el factor "x". , quedan completamente cancelados. En consecuencia, esta línea debe trazarse de modo que la suma de las desviaciones de los puntos del campo de correlación de los puntos correspondientes de la línea de regresión teórica sea igual a cero, y la suma de los cuadrados de estas desviaciones sea mínima.

y=f(x) - la ecuación de regresión es una fórmula para la relación estadística entre variables.

Una línea recta en un plano (en un espacio bidimensional) viene dada por la ecuación y=a+b*x. Con más detalle, la variable y se puede expresar en términos de una constante (a) y una pendiente (b) multiplicada por la variable x. A la constante a veces también se le llama término de intersección y a la pendiente a veces se le llama regresión o coeficiente B.

Una etapa importante del análisis de regresión es determinar el tipo de función con la que se caracteriza la dependencia entre características. La base principal debe ser un análisis significativo de la naturaleza de la dependencia que se está estudiando y su mecanismo. Al mismo tiempo, no siempre es posible fundamentar teóricamente la forma de conexión entre cada uno de los factores y el indicador de desempeño, ya que los fenómenos socioeconómicos en estudio son muy complejos y los factores que configuran su nivel están estrechamente entrelazados e interactúan. unos con otros. Por lo tanto, sobre la base del análisis teórico, a menudo se pueden sacar las conclusiones más generales sobre la dirección de la relación, la posibilidad de su cambio en la población en estudio, la legitimidad de utilizar una relación lineal, la posible presencia de valores extremos, etc. Un complemento necesario a tales supuestos debe ser un análisis de datos fácticos específicos.

Se puede obtener una idea aproximada de la línea de relación basándose en la línea de regresión empírica. La línea de regresión empírica suele ser una línea discontinua y tiene una ruptura más o menos significativa. Esto se explica por el hecho de que la influencia de otros factores no contabilizados que influyen en la variación de la característica resultante no se extingue por completo en el promedio, debido a un número insuficiente de observaciones, por lo que se puede utilizar una línea de comunicación empírica para seleccionar y Justificar el tipo de curva teórica, siempre que el número de observaciones sea suficientemente grande.

Uno de los elementos de estudios específicos es la comparación de varias ecuaciones de dependencia, basada en el uso de criterios de calidad para aproximar datos empíricos mediante versiones competitivas de modelos. Los siguientes tipos de funciones se utilizan con mayor frecuencia para caracterizar las relaciones de los indicadores económicos:

1. Lineal:

2. Hiperbólico:

3. Demostrativo:

4. Parabólico:

5. Poder:

6. Logarítmico:

7. Logística:

Un modelo con una variable explicativa y otra explicada es un modelo de regresión pareada. Si se utilizan dos o más variables explicativas (factoriales), entonces hablamos de utilizar un modelo de regresión múltiple. En este caso, se pueden seleccionar como opciones funciones lineales, exponenciales, hiperbólicas, exponenciales y de otro tipo que conectan estas variables.

Para encontrar los parámetros a y b de la ecuación de regresión, se utiliza el método de mínimos cuadrados. Al aplicar el método de mínimos cuadrados para encontrar la función que mejor se ajuste a los datos empíricos, se cree que la bolsa de cuadrados de desviaciones de los puntos empíricos de la línea de regresión teórica debe ser un valor mínimo.

El criterio de mínimos cuadrados se puede escribir de la siguiente manera:

En consecuencia, el uso del método de mínimos cuadrados para determinar los parámetros a y b de la recta que mejor coincide con los datos empíricos se reduce a un problema extremo.

En cuanto a las valoraciones, se pueden extraer las siguientes conclusiones:

1. Los estimadores de mínimos cuadrados son funciones de la muestra, lo que los hace fáciles de calcular.

2. Las estimaciones de mínimos cuadrados son estimaciones puntuales de los coeficientes de regresión teóricos.

3. La recta de regresión empírica pasa necesariamente por el punto x, y.

4. La ecuación de regresión empírica se construye de tal manera que la suma de las desviaciones

.

En la Figura 1 se presenta una representación gráfica de la línea de comunicación empírica y teórica.


El parámetro b en la ecuación es el coeficiente de regresión. En presencia de una correlación directa, el coeficiente de regresión es positivo y, en el caso de una correlación inversa, el coeficiente de regresión es negativo. El coeficiente de regresión muestra cuánto cambia en promedio el valor del atributo efectivo “y” cuando el atributo factorial “x” cambia en uno. Geométricamente, el coeficiente de regresión es la pendiente de la línea recta que representa la ecuación de correlación con respecto al eje "x" (para la ecuación

).

La rama del análisis estadístico multivariado dedicada a la reconstrucción de dependencias se llama análisis de regresión. El término "análisis de regresión lineal" se utiliza cuando la función considerada depende linealmente de los parámetros estimados (la dependencia de variables independientes puede ser arbitraria). Teoría de la evaluación

parámetros desconocidos está bien desarrollado específicamente en el caso del análisis de regresión lineal. Si no hay linealidad y es imposible pasar a un problema lineal, entonces, por regla general, no se pueden esperar buenas propiedades de las estimaciones. Demostraremos enfoques en el caso de dependencias de varios tipos. Si la dependencia tiene la forma de un polinomio (polinomio). Si el cálculo de la correlación caracteriza la fuerza de la relación entre dos variables, entonces el análisis de regresión sirve para determinar el tipo de esta relación y permite predecir el valor de una variable (dependiente) en función del valor de otra variable (independiente). . Para realizar un análisis de regresión lineal, la variable dependiente debe tener una escala de intervalo (u ordinal). Al mismo tiempo, la regresión logística binaria revela la dependencia de una variable dicotómica de alguna otra variable relacionada con cualquier escala. Las mismas condiciones de aplicación se aplican al análisis probit. Si la variable dependiente es categórica pero tiene más de dos categorías, entonces la regresión logística multinomial es un método adecuado para analizar relaciones no lineales entre variables que pertenecen a una escala de intervalo. Para ello se ha diseñado el método de regresión no lineal.

Concepto de regresión. Dependencia entre variables incógnita Y y se puede describir de diferentes maneras. En particular, cualquier forma de conexión puede expresarse mediante una ecuación general, donde y tratada como una variable dependiente, o funciones de otro - variable independiente x, llamada argumento. La correspondencia entre un argumento y una función se puede especificar mediante una tabla, fórmula, gráfica, etc. Cambiar una función dependiendo de un cambio en uno o más argumentos se llama regresión. Todos los medios utilizados para describir las correlaciones constituyen el contenido. análisis de regresión.

Para expresar regresión, ecuaciones de correlación o ecuaciones de regresión, se utilizan series de regresión calculadas empíricamente y teóricamente, sus gráficas, llamadas líneas de regresión, así como coeficientes de regresión lineal y no lineal.

Los indicadores de regresión expresan la relación de correlación de forma bilateral, teniendo en cuenta los cambios en los valores medios de la característica. Y al cambiar valores incógnita i firmar incógnita y, por el contrario, muestran un cambio en los valores medios de la característica incógnita según los valores modificados y i firmar Y. La excepción son las series temporales, o series temporales, que muestran cambios en las características a lo largo del tiempo. La regresión de tales series es unilateral.

Hay muchas formas y tipos diferentes de correlaciones. La tarea se reduce a identificar la forma de la conexión en cada caso concreto y expresarla con la ecuación de correlación adecuada, que permita anticipar posibles cambios en una característica. Y basado en cambios conocidos en otro incógnita, relacionado con el primero correlacionalmente.

12.1 Regresión lineal

Ecuación de regresión. Resultados de observaciones realizadas sobre un objeto biológico particular basándose en características correlacionadas. incógnita Y y, se puede representar mediante puntos en un plano construyendo un sistema de coordenadas rectangulares. El resultado es una especie de diagrama de dispersión que permite juzgar la forma y la cercanía de la relación entre diferentes características. Muy a menudo esta relación parece una línea recta o puede aproximarse a ella.

Relación lineal entre variables incógnita Y y se describe mediante una ecuación general, donde a, b, c, d,... – parámetros de la ecuación que determinan las relaciones entre los argumentos incógnita 1 , x 2 , x 3 , …, x metro y funciones.

En la práctica no se tienen en cuenta todos los argumentos posibles, sino sólo algunos argumentos, en el caso más sencillo, sólo uno:

En la ecuación de regresión lineal (1) a es el término libre y el parámetro b determina la pendiente de la línea de regresión con respecto a los ejes de coordenadas rectangulares. En geometría analítica este parámetro se llama pendiente, y en biometría – coeficiente de regresión. Una representación visual de este parámetro y la posición de las líneas de regresión. Y Por incógnita Y incógnita Por Y en el sistema de coordenadas rectangular se muestra la Fig. 1.

Arroz. 1 Líneas de regresión de Y por X y X por Y en el sistema

coordenadas rectangulares

Las líneas de regresión, como se muestra en la Fig. 1, se cruzan en el punto O (,), correspondientes a los valores promedio aritméticos de las características correlacionadas entre sí. Y Y incógnita. Al construir gráficos de regresión, los valores de la variable independiente X se trazan a lo largo del eje de abscisas y los valores de la variable dependiente, o función Y, se trazan a lo largo del eje de ordenadas. Línea AB que pasa por el punto O (,. ) corresponde a la relación completa (funcional) entre las variables Y Y incógnita, cuando el coeficiente de correlación . Cuanto más fuerte sea la conexión entre Y Y incógnita, cuanto más cerca están las líneas de regresión de AB y, a la inversa, cuanto más débil es la conexión entre estas cantidades, más distantes están las líneas de regresión de AB. Si no hay conexión entre las características, las líneas de regresión forman ángulos rectos entre sí y .

Dado que los indicadores de regresión expresan la relación de correlación de forma bilateral, la ecuación de regresión (1) debe escribirse de la siguiente manera:

La primera fórmula determina los valores promedio cuando cambia la característica. incógnita por unidad de medida, para el segundo: valores promedio al cambiar en una unidad de medida del atributo Y.

Coeficiente de regresión. El coeficiente de regresión muestra cuánto, en promedio, es el valor de una característica. y cambia cuando la medida de otro, correlacionado con, cambia en uno Y firmar incógnita. Este indicador está determinado por la fórmula.

Aquí están los valores. s multiplicado por el tamaño de los intervalos de clase λ , si se encontraron a partir de series de variación o tablas de correlación.

El coeficiente de regresión se puede calcular sin calcular las desviaciones estándar. s y Y s incógnita según la fórmula

Si se desconoce el coeficiente de correlación, el coeficiente de regresión se determina de la siguiente manera:

Relación entre coeficientes de regresión y correlación. Comparando las fórmulas (11.1) (tema 11) y (12.5), vemos: su numerador tiene el mismo valor, lo que indica una conexión entre estos indicadores. Esta relación se expresa por la igualdad.

Por tanto, el coeficiente de correlación es igual a la media geométrica de los coeficientes. b yx Y b xy. La fórmula (6) permite, en primer lugar, basándose en los valores conocidos de los coeficientes de regresión. b yx Y b xy determinar el coeficiente de regresión R xy y en segundo lugar, comprobar la exactitud del cálculo de este indicador de correlación. R xy entre diferentes características incógnita Y Y.

Al igual que el coeficiente de correlación, el coeficiente de regresión caracteriza sólo una relación lineal y va acompañado de un signo más para una relación positiva y un signo menos para una relación negativa.

Determinación de parámetros de regresión lineal. Se sabe que la suma de las desviaciones al cuadrado es una variante. incógnita i del promedio es el valor más pequeño, es decir, este teorema forma la base del método de mínimos cuadrados. En cuanto a la regresión lineal [ver fórmula (1)] el requisito de este teorema se satisface mediante un determinado sistema de ecuaciones llamado normal:

Solución conjunta de estas ecuaciones con respecto a los parámetros. a Y b conduce a los siguientes resultados:

;

;

, desde donde y.

Considerando la naturaleza bidireccional de la relación entre las variables Y Y incógnita, fórmula para determinar el parámetro A debe expresarse así:

Y . (7)

Parámetro b, o coeficiente de regresión, se determina mediante las siguientes fórmulas:

Construcción de series de regresión empírica. Si hay una gran cantidad de observaciones, el análisis de regresión comienza con la construcción de series de regresión empírica. Serie de regresión empírica se forma calculando a partir de los valores de una característica variable incógnita valores medios de otro, correlacionados con incógnita firmar Y. En otras palabras, la construcción de series de regresión empírica se reduce a encontrar promedios grupales a partir de los valores correspondientes de las características Y y X.

Una serie de regresión empírica es una serie doble de números que se pueden representar mediante puntos en un plano y luego, al conectar estos puntos con segmentos de línea recta, se puede obtener una línea de regresión empírica. Las series de regresión empírica, especialmente sus gráficas, llamadas líneas de regresión, dan una idea clara de la forma y la cercanía de la correlación entre diferentes características.

Alineamiento de series de regresión empírica. Los gráficos de series de regresión empírica resultan, por regla general, no ser líneas suaves, sino líneas discontinuas. Esto se explica por el hecho de que, junto con las razones principales que determinan el patrón general en la variabilidad de las características correlacionadas, su magnitud se ve afectada por la influencia de numerosas razones secundarias que causan fluctuaciones aleatorias en los puntos nodales de regresión. Para identificar la tendencia principal (tendencia) de la variación conjugada de características correlacionadas, es necesario reemplazar las líneas discontinuas con líneas de regresión suaves y fluidas. El proceso de reemplazar líneas discontinuas por líneas suaves se llama alineación de series empíricas Y líneas de regresión.

Método de alineación gráfica. Este es el método más simple que no requiere trabajo computacional. Su esencia se reduce a lo siguiente. La serie de regresión empírica se representa como un gráfico en un sistema de coordenadas rectangular. Luego, se delinean visualmente los puntos medios de regresión, a lo largo de los cuales se dibuja una línea continua usando una regla o patrón. La desventaja de este método es obvia: no excluye la influencia de las propiedades individuales del investigador en los resultados de la alineación de las líneas de regresión empírica. Por lo tanto, en los casos en que se necesita una mayor precisión al reemplazar las líneas de regresión discontinuas por líneas suaves, se utilizan otros métodos para alinear series empíricas.

Método de media móvil. La esencia de este método se reduce al cálculo secuencial de promedios aritméticos de dos o tres términos adyacentes de una serie empírica. Este método es especialmente conveniente en los casos en que la serie empírica está representada por una gran cantidad de términos, de modo que la pérdida de dos de ellos, los extremos, inevitable con este método de alineación, no afectará notablemente su estructura.

Método de mínimos cuadrados. Este método fue propuesto a principios del siglo XIX por A.M. Legendre y, independientemente de él, K. Gauss. Le permite alinear con mayor precisión series empíricas. Este método, como se muestra arriba, se basa en el supuesto de que la suma de las desviaciones al cuadrado es una opción. incógnita i de su promedio hay un valor mínimo, es decir de ahí el nombre del método, que se utiliza no solo en ecología, sino también en tecnología. El método de mínimos cuadrados es objetivo y universal; se utiliza en una amplia variedad de casos para encontrar ecuaciones empíricas para series de regresión y determinar sus parámetros.

El requisito del método de mínimos cuadrados es que los puntos teóricos de la línea de regresión deben obtenerse de tal manera que la suma de las desviaciones al cuadrado de estos puntos para las observaciones empíricas y i era mínimo, es decir

Calculando el mínimo de esta expresión de acuerdo con los principios del análisis matemático y transformándolo de cierta manera, se puede obtener un sistema de los llamados ecuaciones normales, en el que los valores desconocidos son los parámetros requeridos de la ecuación de regresión, y los coeficientes conocidos están determinados por los valores empíricos de las características, generalmente las sumas de sus valores y sus productos cruzados.

Regresión lineal múltiple. La relación entre varias variables suele expresarse mediante una ecuación de regresión múltiple, que puede ser lineal Y no lineal. En su forma más simple, la regresión múltiple se expresa como una ecuación con dos variables independientes ( incógnita, z):

Dónde a– término libre de la ecuación; b Y do– parámetros de la ecuación. Para encontrar los parámetros de la ecuación (10) (usando el método de mínimos cuadrados), se utiliza el siguiente sistema de ecuaciones normales:

Serie dinámica. Alineación de filas. Los cambios en las características a lo largo del tiempo forman los llamados serie de tiempo o serie dinámica. Un rasgo característico de tales series es que la variable independiente X aquí es siempre el factor tiempo, y la variable dependiente Y es una característica cambiante. Dependiendo de la serie de regresión, la relación entre las variables X e Y es unilateral, ya que el factor tiempo no depende de la variabilidad de las características. A pesar de estas características, las series dinámicas pueden compararse con series de regresión y procesarse utilizando los mismos métodos.

Al igual que las series de regresión, las series empíricas de dinámica están influenciadas no solo por los factores principales, sino también por numerosos factores secundarios (aleatorios) que oscurecen la tendencia principal en la variabilidad de las características, que en el lenguaje estadístico se llama tendencia.

El análisis de series de tiempo comienza con la identificación de la forma de la tendencia. Para ello, la serie temporal se representa como un gráfico lineal en un sistema de coordenadas rectangular. En este caso, los puntos de tiempo (años, meses y otras unidades de tiempo) se trazan a lo largo del eje de abscisas y los valores de la variable dependiente Y se trazan a lo largo del eje de ordenadas si existe una relación lineal entre las variables X. e Y (tendencia lineal), el método de mínimos cuadrados es el más apropiado para alinear las series de tiempo es una ecuación de regresión en forma de desviaciones de los términos de la serie de la variable dependiente Y de la media aritmética de la serie de la independiente variableX:

Aquí está el parámetro de regresión lineal.

Características numéricas de series dinámicas. Las principales características numéricas generalizadoras de las series dinámicas incluyen media geométrica y una media aritmética cercana a ella. Caracterizan la tasa promedio a la que cambia el valor de la variable dependiente durante ciertos períodos de tiempo:

Una evaluación de la variabilidad de los miembros de la serie dinámica es desviación estándar. Al elegir ecuaciones de regresión para describir series temporales, se tiene en cuenta la forma de la tendencia, que puede ser lineal (o reducida a lineal) y no lineal. La exactitud de la elección de la ecuación de regresión generalmente se juzga por la similitud de los valores calculados y observados empíricamente de la variable dependiente. Una solución más precisa a este problema es el análisis de regresión del método de varianza (tema 12, párrafo 4).

Correlación de series temporales. A menudo es necesario comparar la dinámica de series temporales paralelas relacionadas entre sí según determinadas condiciones generales, por ejemplo, para descubrir la relación entre la producción agrícola y el crecimiento del número de cabezas de ganado durante un determinado período de tiempo. En tales casos, la característica de la relación entre las variables X e Y es coeficiente de correlación R xy (en presencia de una tendencia lineal).

Se sabe que la tendencia de las series temporales suele quedar oscurecida por las fluctuaciones en la serie de la variable dependiente Y. Esto plantea un doble problema: medir la dependencia entre series comparadas, sin excluir la tendencia, y medir la dependencia entre miembros vecinos de la misma serie, excluyendo la tendencia. En el primer caso, el indicador de la cercanía de la conexión entre las series temporales comparadas es coeficiente de correlación(si la relación es lineal), en el segundo – coeficiente de autocorrelación. Estos indicadores tienen diferentes significados, aunque se calculan utilizando las mismas fórmulas (ver tema 11).

Es fácil ver que el valor del coeficiente de autocorrelación se ve afectado por la variabilidad de los miembros de la serie de la variable dependiente: cuanto menos se desvían los miembros de la serie de la tendencia, mayor será el coeficiente de autocorrelación, y viceversa.



¿Te gustó el artículo? ¡Comparte con tus amigos!