Métodos de estimación de parámetros de regresión lineal. Planes de regresión simples

La ecuación de regresión siempre se complementa con un indicador de la cercanía de la conexión. Cuando se utiliza la regresión lineal, dicho indicador es el coeficiente de correlación lineal r yt. Existen diferentes modificaciones de la fórmula del coeficiente de correlación lineal.

Debe tenerse en cuenta que el valor del coeficiente de correlación lineal evalúa la cercanía de la conexión entre las características consideradas en su forma lineal. Por tanto, la proximidad del valor absoluto del coeficiente de correlación lineal a cero no significa que no exista conexión entre las características.

Para evaluar la calidad del ajuste de una función lineal, se calcula el cuadrado del coeficiente de correlación lineal r yt 2, llamado coeficiente de determinación. El coeficiente de determinación caracteriza la proporción de la varianza de la característica efectiva en t explicada por la regresión en la varianza total de la característica efectiva.

La ecuación de regresión no lineal, así como la de dependencia lineal, se complementa con un indicador de correlación, a saber, el índice de correlación R.

Una parábola de segundo orden, como un polinomio de orden superior, cuando se linealiza toma la forma de una ecuación de regresión múltiple. Si, cuando se linealiza, una ecuación de regresión que no es lineal con respecto a la variable explicada toma la forma de una ecuación de regresión lineal pareada, entonces se puede utilizar un coeficiente de correlación lineal para evaluar la cercanía de la relación, cuyo valor en este caso coincidirá con el índice de correlación.

La situación es diferente cuando las transformaciones de la ecuación a forma lineal involucran una variable dependiente. En este caso, el coeficiente de correlación lineal basado en los valores de las características transformadas proporciona solo una estimación aproximada de la cercanía de la relación y no coincide numéricamente con el índice de correlación. Entonces, para una función de potencia

después de pasar a la ecuación logarítmicamente lineal

lny = lna + blnx

Se puede encontrar un coeficiente de correlación lineal no para los valores reales de las variables x e y, sino para sus logaritmos, es decir, r lnylnx. En consecuencia, el cuadrado de su valor caracterizará la relación entre la suma factorial de las desviaciones al cuadrado y el total, pero no para y, sino para sus logaritmos:

Mientras tanto, al calcular el índice de correlación se utilizan las sumas de las desviaciones al cuadrado de la característica y, y no sus logaritmos. Para ello se determinan los valores teóricos de la característica resultante, es decir, como el antilogaritmo del valor calculado por la ecuación y la suma residual de cuadrados como.

El denominador del cálculo R 2 yx implica la suma total de las desviaciones al cuadrado de los valores reales y de su valor promedio, y el denominador r 2 lnxlny participa en el cálculo. Los numeradores y denominadores de los indicadores considerados difieren en consecuencia:

  • - en el índice de correlación y
  • - en el coeficiente de correlación.

Debido a la similitud de los resultados y la simplicidad de los cálculos utilizando programas de computadora, el coeficiente de correlación lineal se usa ampliamente para caracterizar la cercanía de la conexión para funciones no lineales.

A pesar de la cercanía de los valores de R y r o R ​​y r en funciones no lineales con transformación del valor de la característica y, conviene recordar que si, con una dependencia lineal de las características, el mismo coeficiente de correlación caracteriza la regresión, debe recordarse que si, con una dependencia lineal de las características, un mismo coeficiente de correlación caracteriza a la regresión y, desde entonces, con una dependencia curvilínea para la función y=j(x) no es igual para la regresión x =f(y).

Dado que el cálculo del índice de correlación utiliza la relación del factor y la suma total de las desviaciones al cuadrado, tiene el mismo significado que el coeficiente de determinación. En estudios especiales, el valor de las relaciones no lineales se denomina índice de determinación.

La evaluación de la importancia del índice de correlación se realiza de la misma manera que la evaluación de la confiabilidad del coeficiente de correlación.

El índice de correlación se utiliza para probar la importancia de la ecuación de regresión no lineal general mediante la prueba F de Fisher.

El valor m caracteriza el número de grados de libertad para la suma factorial de cuadrados, y (n - m - 1) - el número de grados de libertad para la suma residual de cuadrados.

Para una función de potencia m = 1 y la fórmula del criterio F toma la misma forma que para una dependencia lineal:

Para una parábola de segundo grado

y = a 0 + a 1 x + a 2 x 2 +em = 2

El criterio F también se puede calcular en la tabla de análisis de varianza de los resultados de regresión, como se mostró para la función lineal.

El índice de determinación se puede comparar con el coeficiente de determinación para justificar la posibilidad de utilizar una función lineal. Cuanto mayor es la curvatura de la línea de regresión, menor es el coeficiente de determinación del índice de determinación. La similitud de estos indicadores significa que no es necesario complicar la forma de la ecuación de regresión y se puede utilizar una función lineal.

En la práctica, si la diferencia entre el índice de determinación y el coeficiente de determinación no supera 0,1, entonces se considera justificada la suposición de una forma lineal de la relación.

Si t hecho >t tabla, entonces las diferencias entre los indicadores de correlación considerados son significativas y es imposible reemplazar la regresión no lineal con una ecuación de función lineal. Prácticamente, si el valor t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Los fenómenos económicos, por regla general, están determinados por una gran cantidad de factores que actúan simultánea y acumulativamente. En este sentido, a menudo surge la tarea de estudiar la dependencia de una variable. en de varias variables explicativas ( x1, x2,…, xk) que se puede resolver usando análisis de correlación múltiple y regresión.

Cuando se estudia la dependencia utilizando métodos de regresión múltiple, el problema se formula de la misma manera que cuando se utiliza la regresión pareada, es decir se requiere determinar la expresión analítica de la forma de conexión entre la característica resultante en y características del factor x, x2,..., xk, encuentre la función, donde k es el número de características de los factores

La regresión múltiple se utiliza ampliamente para resolver problemas de demanda, rentabilidad de las acciones, en el estudio de la función de costos de producción, en cálculos macroeconómicos y en una serie de otras cuestiones econométricas. Actualmente, la regresión múltiple es uno de los métodos más comunes en econometría. El objetivo principal de la regresión múltiple es construir un modelo con una gran cantidad de factores, determinando al mismo tiempo la influencia de cada uno de ellos por separado, así como su impacto combinado en el indicador modelado.

Debido a las peculiaridades del método de mínimos cuadrados en la regresión múltiple, como en la regresión por pares, solo se utilizan ecuaciones lineales y ecuaciones reducidas a forma lineal mediante la transformación de variables. La ecuación más utilizada es una ecuación lineal, que se puede escribir de la siguiente manera:

a 0 , a 1, …, a k – parámetros del modelo (coeficientes de regresión);

ε j – variable aleatoria (valor restante).

Coeficiente de regresión A j muestra en qué cantidad en promedio cambiará el atributo efectivo y, si una variable incógnita j aumento por unidad de medida a un valor fijo (constante) de otros factores incluidos en la ecuación de regresión. Parámetros en incógnita son llamados coeficientes de regresión "puros" .

Ejemplo.

Supongamos que la dependencia del gasto en alimentación de un conjunto de familias se caracteriza por la siguiente ecuación:

y– gastos familiares durante un mes en alimentación, mil rublos;

incógnita 1 – ingreso mensual por miembro de la familia, miles de rublos;

incógnita 2 – tamaño de la familia, personas.

El análisis de esta ecuación nos permite sacar conclusiones: un aumento de los ingresos por miembro de la familia de mil rublos. Los gastos de alimentación aumentarán en un promedio de 350 rublos. con el mismo tamaño familiar promedio. Es decir, el 35% de los gastos familiares adicionales se gastan en alimentación. Un aumento en el tamaño de la familia con los mismos ingresos implica un aumento adicional en el costo de los alimentos de 730 rublos. El primer parámetro no está sujeto a interpretación económica.

La fiabilidad de cada uno de los parámetros del modelo se evalúa mediante la prueba t de Student. Para cualquiera de los parámetros del modelo a j, el valor del criterio t se calcula mediante la fórmula , Dónde


S ε – desviación estándar (cuadrática media) de la ecuación de regresión)

determinado por la fórmula

El coeficiente de regresión a j se considera suficientemente confiable si el valor calculado t- criterio con ( norte - k - 1) los grados de libertad exceden el valor de la tabla, es decir t cálculo > t A jn-k-1. Si no se confirma la confiabilidad del coeficiente de regresión, entonces debería confirmarse; conclusión sobre la insignificancia en el modelo factorial j característica y la necesidad de eliminarla del modelo o sustituirla por otra característica factorial.

Los coeficientes del modelo de regresión desempeñan un papel importante en la evaluación de la influencia de los factores. Sin embargo, directamente con su ayuda es imposible comparar las características de los factores según el grado de influencia sobre la variable dependiente debido a la diferencia en las unidades de medida y los diferentes grados de variabilidad. Para eliminar tales diferencias, utilice coeficientes de elasticidad parcial mi j y coeficientes beta β j.

Fórmula para calcular el coeficiente de elasticidad.

Dónde

a j – coeficiente de regresión factorial j,

Valor medio de la característica efectiva.

Valor medio de la característica. j

El coeficiente de elasticidad muestra en qué porcentaje cambia la variable dependiente. en cuando el factor cambia j en un 1%.

Fórmula para determinar el coeficiente beta.

, Dónde

S xj – desviación estándar del factor j;

S y - desviación estándar del factor y.

β - coeficiente muestra en qué parte de la desviación estándar S y la variable dependiente cambiará en con un cambio en la variable independiente correspondiente incógnita j por el valor de su desviación estándar con un valor fijo de las restantes variables independientes.

La participación de la influencia de un determinado factor en la influencia total de todos los factores se puede estimar mediante el valor coeficientes delta Δ j.

Estos coeficientes le permiten clasificar los factores según el grado de influencia de los factores sobre la variable dependiente.

Fórmula para determinar el coeficiente delta.

r yj – coeficiente de correlación por pares entre el factor j y la variable dependiente;

R 2 – coeficiente de determinación múltiple.

El coeficiente de determinación múltiple se utiliza para evaluaciones de calidad múltiples modelos de regresión.

Fórmula para determinar el coeficiente de determinación múltiple.

El coeficiente de determinación muestra la proporción de variación en la característica resultante que está bajo la influencia de las características del factor, es decir Determina qué proporción de variación en un rasgo en se tiene en cuenta en el modelo y se debe a la influencia sobre el mismo de los factores incluidos en el modelo. Cuanto más cerca R 2 a uno, mayor será la calidad del modelo

Al sumar variables independientes, el valor R 2 aumenta, por lo que el coeficiente R 2 debe ajustarse por el número de variables independientes utilizando la fórmula

Para prueba de significancia del modelo Para la regresión se utiliza la prueba F de Fisher. Está determinado por la fórmula.

Si el valor calculado del criterio con y 1, = k Y γ 2 = (n - k- 1) grados de libertad mayores que la tabla en un nivel de significancia dado, entonces el modelo se considera significativo.

Como medida de la precisión del modelo, se utiliza el error estándar, que es la relación entre la suma de los cuadrados de los niveles del componente residual y el valor (n - k -1):

El enfoque clásico para estimar los parámetros de un modelo lineal se basa en método de mínimos cuadrados (LSM). El sistema de ecuaciones normales tiene la forma:

El sistema se puede resolver utilizando uno de los métodos más conocidos: método de Gauss, método de Cramer, etc.

Ejemplo 15.

Para cuatro empresas de la región (Cuadro 41), se estudia la dependencia de la producción por empleado. y(miles de rublos) de la puesta en servicio de nuevos activos fijos (% del valor de los activos al final del año) y de la proporción de trabajadores altamente calificados en el número total de trabajadores (%). Necesitas escribir una ecuación de regresión múltiple.

Cuadro 41 – Dependencia de la producción de productos por empleado

Puede comprobar la importancia de los parámetros de la ecuación de regresión utilizando el estadístico t.

Ejercicio:
Para un grupo de empresas que producen el mismo tipo de producto, se consideran funciones de costos:
y = α + βx;
y = αxβ;
y = αβx;
y = α + β / x;
donde y son los costos de producción, miles de unidades.
x – producción, miles de unidades.

Requerido:
1. Construya ecuaciones de regresión por pares y a partir de x:

  • lineal;
  • fuerza;
  • demostrativo;
  • hipérbola equilátera.
2. Calcule el coeficiente lineal de correlación de pares y el coeficiente de determinación. Extraer conclusiones.
3. Evalúe la significancia estadística de la ecuación de regresión en su conjunto.
4. Evaluar la significación estadística de los parámetros de regresión y correlación.
5. Realizar una previsión de costes de producción con una producción prevista del 195% del nivel medio.
6. Evaluar la precisión del pronóstico, calcular el error de pronóstico y su intervalo de confianza.
7. Evaluar el modelo mediante el error promedio de aproximación.

Solución:

1. La ecuación es y = α + βx
1. Parámetros de la ecuación de regresión.
Valores medios

Dispersión

Desviación estándar

Coeficiente de correlación

La relación entre el rasgo Y y el factor X es fuerte y directa.
Ecuación de regresión

Coeficiente de determinación
R 2 = 0,94 2 = 0,89, es decir en el 88,9774% de los casos, los cambios en x conducen a cambios en y. En otras palabras, la precisión al seleccionar la ecuación de regresión es alta.

incógnita y x2 y 2 x∙y y(x) (y-y cp) 2 (y-y(x)) 2 (xx p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Nota: los valores de y(x) se encuentran a partir de la ecuación de regresión resultante:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Estimación de los parámetros de la ecuación de regresión.
Importancia del coeficiente de correlación

Usando la tabla de Student encontramos Ttable
Tabla T (n-m-1;α/2) = (11;0,05/2) = 1,796
Como Tob > Ttabl, rechazamos la hipótesis de que el coeficiente de correlación es igual a 0. En otras palabras, el coeficiente de correlación es estadísticamente significativo.

Análisis de la precisión de la determinación de estimaciones de coeficientes de regresión.





Sa = 0,1712
Intervalos de confianza para la variable dependiente

Calculemos los límites del intervalo en el que se concentrará el 95% de los valores posibles de Y con un número ilimitado de observaciones y X = 1
(-20.41;56.24)
Probar hipótesis sobre los coeficientes de una ecuación de regresión lineal.
1) estadística t


Se confirma la significación estadística del coeficiente de regresión a.

La significación estadística del coeficiente de regresión b no está confirmada.
Intervalo de confianza para los coeficientes de la ecuación de regresión
Determinemos los intervalos de confianza de los coeficientes de regresión, que con una confiabilidad del 95% quedarán como sigue:
(a - t S a ; a + t S a )
(1.306;1.921)
(b - t b S b ; b + t b S b )
(-9.2733;41.876)
donde t = 1,796
2) Estadística F


Fkp = 4,84
Dado que F > Fkp, el coeficiente de determinación es estadísticamente significativo

¿Qué es la regresión?

Considere dos variables continuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Coloquemos los puntos en un diagrama de dispersión bidimensional y digamos que tenemos relación lineal, si los datos se aproximan mediante una línea recta.

Si creemos que y depende de incógnita, y cambios en y son causadas precisamente por cambios en incógnita, podemos determinar la línea de regresión (regresión y en incógnita), que describe mejor la relación lineal entre estas dos variables.

El uso estadístico de la palabra regresión proviene del fenómeno conocido como regresión a la media, atribuido a Sir Francis Galton (1889).

Demostró que aunque los padres altos tienden a tener hijos altos, la altura promedio de los hijos es más baja que la de sus padres altos. La altura promedio de los hijos "regresó" y "retrocedió" hacia la altura promedio de todos los padres de la población. Así, en promedio, los padres altos tienen hijos más bajos (pero todavía bastante altos), y los padres bajos tienen hijos más altos (pero todavía bastante bajos).

Línea de regresión

Una ecuación matemática que estima una recta de regresión lineal simple (por pares):

incógnita llamada variable independiente o predictor.

Y- variable dependiente o variable de respuesta. Este es el valor que esperamos y(en promedio) si conocemos el valor incógnita, es decir. este es el "valor previsto" y»

  • a- miembro libre (intersección) de la línea de evaluación; este es el significado Y, Cuando x=0(Figura 1).
  • b- pendiente o gradiente de la línea estimada; representa la cantidad por la cual Y aumenta en promedio si aumentamos incógnita por una unidad.
  • a Y b se llaman coeficientes de regresión de la línea estimada, aunque este término a menudo se usa solo para b.

La regresión lineal por pares se puede ampliar para incluir más de una variable independiente; en este caso se le conoce como regresión múltiple.

Fig.1. Línea de regresión lineal que muestra la intersección a y la pendiente b (la cantidad Y aumenta a medida que x aumenta en una unidad)

Método de mínimos cuadrados

Realizamos análisis de regresión utilizando una muestra de observaciones donde a Y b- estimaciones muestrales de los parámetros verdaderos (generales), α y β, que determinan la línea de regresión lineal en la población (población general).

El método más simple para determinar coeficientes. a Y b es método de mínimos cuadrados(EMN).

El ajuste se evalúa observando los residuos (la distancia vertical de cada punto desde la línea, por ejemplo, residual = observado y- predicho y, Arroz. 2).

Se elige la recta de mejor ajuste de modo que la suma de los cuadrados de los residuos sea mínima.

Arroz. 2. Línea de regresión lineal con residuos representados (líneas de puntos verticales) para cada punto.

Supuestos de regresión lineal

Entonces, para cada valor observado, el resto es igual a la diferencia y el valor predicho correspondiente. Cada resto puede ser positivo o negativo.

Puede utilizar residuos para probar los siguientes supuestos detrás de la regresión lineal:

  • Los residuos se distribuyen normalmente con media cero;

Si los supuestos de linealidad, normalidad y/o varianza constante son cuestionables, podemos transformar o calcular una nueva línea de regresión para la cual se cumplan estos supuestos (por ejemplo, usar una transformación logarítmica, etc.).

Valores anómalos (valores atípicos) y puntos de influencia

Una observación "influyente", si se omite, cambia una o más estimaciones de los parámetros del modelo (es decir, pendiente o intersección).

Un valor atípico (una observación que es inconsistente con la mayoría de los valores en un conjunto de datos) puede ser una observación "influyente" y puede detectarse fácilmente visualmente inspeccionando un diagrama de dispersión bivariado o un diagrama residual.

Tanto para los valores atípicos como para las observaciones “influyentes” (puntos), se utilizan modelos, con y sin su inclusión, y se presta atención a los cambios en las estimaciones (coeficientes de regresión).

Al realizar un análisis, no se deben descartar automáticamente los valores atípicos o puntos de influencia, ya que simplemente ignorarlos puede afectar los resultados obtenidos. Estudie siempre las razones de estos valores atípicos y analícelas.

Hipótesis de regresión lineal

Al construir una regresión lineal, se prueba la hipótesis nula de que la pendiente general de la recta de regresión β es igual a cero.

Si la pendiente de la recta es cero, no existe una relación lineal entre y: el cambio no afecta

Para probar la hipótesis nula de que la pendiente verdadera es cero, puede utilizar el siguiente algoritmo:

Calcule el estadístico de prueba igual a la razón , que está sujeta a una distribución con grados de libertad, donde el error estándar del coeficiente


,

- estimación de la dispersión de los residuos.

Normalmente, si se alcanza el nivel de significancia, se rechaza la hipótesis nula.


donde es el punto porcentual de la distribución con grados de libertad, que da la probabilidad de una prueba bilateral

Este es el intervalo que contiene la pendiente general con una probabilidad del 95%.

Para muestras grandes, digamos, podemos aproximarnos con un valor de 1,96 (es decir, el estadístico de prueba tenderá a tener una distribución normal)

Evaluación de la calidad de la regresión lineal: coeficiente de determinación R 2

Debido a la relación lineal y esperamos que cambie a medida que , y llámelo la variación que se debe o se explica por la regresión. La variación residual debe ser lo más pequeña posible.

Si esto es cierto, entonces la mayor parte de la variación se explicará mediante la regresión y los puntos estarán cerca de la línea de regresión, es decir, la línea se ajusta bien a los datos.

La proporción de la varianza total que se explica mediante la regresión se llama coeficiente de determinación, generalmente expresado como porcentaje y denotado R 2(en regresión lineal pareada esta es la cantidad r 2, cuadrado del coeficiente de correlación), le permite evaluar subjetivamente la calidad de la ecuación de regresión.

La diferencia representa el porcentaje de varianza que no puede explicarse mediante regresión.

No existe una prueba formal para evaluar; debemos confiar en el juicio subjetivo para determinar la bondad del ajuste de la línea de regresión.

Aplicar una línea de regresión al pronóstico

Puede utilizar una línea de regresión para predecir un valor a partir de un valor en el extremo del rango observado (nunca extrapolar más allá de estos límites).

Predecimos la media de los observables que tienen un valor particular ingresando ese valor en la ecuación de la línea de regresión.

Entonces, si predecimos como Utilice este valor predicho y su error estándar para estimar un intervalo de confianza para la media poblacional verdadera.

Repetir este procedimiento para diferentes valores le permite construir límites de confianza para esta línea. Esta es la banda o área que contiene la línea verdadera, por ejemplo con un nivel de confianza del 95%.

Planes de regresión simples

Los diseños de regresión simples contienen un predictor continuo. Si hay 3 observaciones con valores predictores P, como 7, 4 y 9, y el diseño incluye un efecto de primer orden P, entonces la matriz de diseño X será

y la ecuación de regresión usando P para X1 es

Y = b0 + b1P

Si un diseño de regresión simple contiene un efecto de orden superior en P, como un efecto cuadrático, entonces los valores en la columna X1 en la matriz de diseño se elevarán a la segunda potencia:

y la ecuación tomará la forma

Y = b0 + b1 P2

Los métodos de codificación sobreparametrizados y restringidos por sigma no se aplican a diseños de regresión simples y otros diseños que contienen sólo predictores continuos (porque simplemente no hay predictores categóricos). Independientemente del método de codificación elegido, los valores de las variables continuas se incrementan en consecuencia y se utilizan como valores para las variables X. En este caso, no se realiza ninguna grabación. Además, al describir planes de regresión, se puede omitir la consideración de la matriz de diseño X y trabajar únicamente con la ecuación de regresión.

Ejemplo: análisis de regresión simple

Este ejemplo utiliza los datos presentados en la tabla:

Arroz. 3. Tabla de datos iniciales.

Datos compilados a partir de una comparación de los censos de 1960 y 1970 en 30 condados seleccionados al azar. Los nombres de los condados se presentan como nombres de observación. La información sobre cada variable se presenta a continuación:

Arroz. 4. Tabla de especificaciones variables.

Problema de investigación

Para este ejemplo se analizará la correlación entre la tasa de pobreza y el grado que predice el porcentaje de familias que se encuentran por debajo de la línea de pobreza. Por lo tanto, trataremos la variable 3 (Pt_Poor) como la variable dependiente.

Podemos plantear una hipótesis: los cambios en el tamaño de la población y el porcentaje de familias que están por debajo del umbral de pobreza están relacionados. Parece razonable esperar que la pobreza conduzca a la emigración, por lo que habría una correlación negativa entre el porcentaje de personas por debajo del umbral de pobreza y el cambio poblacional. Por lo tanto, trataremos la variable 1 (Pop_Chng) como una variable predictora.

Ver resultados

Coeficientes de regresión

Arroz. 5. Coeficientes de regresión de Pt_Poor sobre Pop_Chng.

En la intersección de la fila Pop_Chng y la columna Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

el coeficiente no estandarizado para la regresión de Pt_Poor en Pop_Chng es -0,40374. Esto significa que por cada unidad de disminución de la población, hay un aumento en la tasa de pobreza de .40374. Los límites de confianza superior e inferior (predeterminado) del 95% para este coeficiente no estandarizado no incluyen cero, por lo que el coeficiente de regresión es significativo en el nivel p.

Distribución de variables

Los coeficientes de correlación pueden sobreestimarse o subestimarse significativamente si en los datos hay grandes valores atípicos. Estudiemos la distribución de la variable dependiente Pt_Pobres por distrito. Para hacer esto, construyamos un histograma de la variable Pt_Poor.

Como puede verse, la distribución de esta variable difiere notablemente de la distribución normal. Sin embargo, aunque incluso dos condados (las dos columnas de la derecha) tienen un porcentaje más alto de familias que están por debajo del umbral de pobreza de lo esperado bajo una distribución normal, parecen estar "dentro del rango".

Arroz. 7. Histograma de la variable Pt_Poor.

Este juicio es algo subjetivo. La regla general es que se deben considerar los valores atípicos si la observación (u observaciones) no se encuentran dentro del intervalo (media ± 3 veces la desviación estándar). En este caso, vale la pena repetir el análisis con y sin valores atípicos para asegurar que no tengan un efecto importante en la correlación entre los miembros de la población.

diagrama de dispersión

Si una de las hipótesis es a priori sobre la relación entre variables dadas, entonces es útil probarla en el gráfico del diagrama de dispersión correspondiente.

Arroz. 8. Diagrama de dispersión.

El diagrama de dispersión muestra una clara correlación negativa (-.65) entre las dos variables. También muestra el intervalo de confianza del 95% para la línea de regresión, es decir, existe un 95% de probabilidad de que la línea de regresión se encuentre entre las dos curvas discontinuas.

Criterios de importancia

Arroz. 9. Tabla que contiene criterios de significancia.

La prueba para el coeficiente de regresión Pop_Chng confirma que Pop_Chng está fuertemente relacionado con Pt_Poor, p<.001 .

En pocas palabras

Este ejemplo mostró cómo analizar un diseño de regresión simple. También se presentaron interpretaciones de coeficientes de regresión estandarizados y no estandarizados. Se analiza la importancia de estudiar la distribución de respuesta de una variable dependiente y se demuestra una técnica para determinar la dirección y la fuerza de la relación entre un predictor y una variable dependiente.

Análisis de correlación.

Ecuación de regresión emparejada.

Usando el método gráfico.

Este método se utiliza para representar visualmente la forma de conexión entre los indicadores económicos estudiados. Para ello, se dibuja un gráfico en un sistema de coordenadas rectangular, los valores individuales de la característica resultante Y se trazan a lo largo del eje de ordenadas y los valores individuales de la característica del factor X se trazan a lo largo del eje de abscisas.

El conjunto de puntos de las características resultante y factorial se llama campo de correlación.

Con base en el campo de correlación, podemos plantear la hipótesis (para la población) de que la relación entre todos los valores posibles de X e Y es lineal.

La ecuación de regresión lineal es y = bx + a + ε

Aquí ε es un error aleatorio (desviación, perturbación).

Razones de la existencia de un error aleatorio:

1. No incluir variables explicativas significativas en el modelo de regresión;

2. Agregación de variables. Por ejemplo, la función de consumo total es un intento de expresar en general el agregado de decisiones de gasto individuales. Esta es sólo una aproximación de relaciones individuales que tienen diferentes parámetros.

3. Descripción incorrecta de la estructura del modelo;

4. Especificación funcional incorrecta;

5. Errores de medición.

Dado que las desviaciones ε i para cada observación específica i son aleatorias y sus valores en la muestra son desconocidos, entonces:

1) a partir de las observaciones x i y y i solo se pueden obtener estimaciones de los parámetros α y β

2) Las estimaciones de los parámetros α y β del modelo de regresión son los valores a y b, respectivamente, que son de naturaleza aleatoria, porque corresponder a una muestra aleatoria;

Entonces, la ecuación de regresión de estimación (construida a partir de datos de muestra) tendrá la forma y = bx + a + ε, donde e i son los valores observados (estimaciones) de los errores ε i, y a y b son, respectivamente, estimaciones de los parámetros α y β del modelo de regresión que deben encontrarse.

Para estimar los parámetros α y β, se utiliza el método de mínimos cuadrados (método de mínimos cuadrados). El método de mínimos cuadrados proporciona las mejores estimaciones (consistentes, eficientes e imparciales) de los parámetros de la ecuación de regresión.

Pero sólo si se cumplen ciertas premisas respecto del término aleatorio (ε) y la variable independiente (x).

Formalmente, el criterio MCO se puede escribir de la siguiente manera:

S = ∑(y yo - y * yo) 2 → min

Sistema de ecuaciones normales.

un norte + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Para nuestros datos, el sistema de ecuaciones tiene la forma

15a + 186,4b = 17,01

186,4a + 2360,9b = 208,25

De la primera ecuación expresamos A y sustituye en la segunda ecuación:

Obtenemos coeficientes de regresión empírica: b = -0,07024, a = 2,0069

Ecuación de regresión (ecuación de regresión empírica):

y = -0,07024 x + 2,0069

Coeficientes de regresión empírica a Y b son sólo estimaciones de los coeficientes teóricos β i, y la ecuación en sí refleja sólo la tendencia general en el comportamiento de las variables consideradas.

Para calcular los parámetros de regresión, construiremos una tabla de cálculo (Tabla 1)

1. Parámetros de la ecuación de regresión.

Medios de muestra.

Variaciones de muestra:

Desviación estándar

1.1. Coeficiente de correlación

Covarianza.

Calculamos el indicador de cercanía de la conexión. Este indicador es el coeficiente de correlación lineal muestral, que se calcula mediante la fórmula:

El coeficiente de correlación lineal toma valores de –1 a +1.

Las conexiones entre características pueden ser débiles y fuertes (estrechas). Sus criterios se evalúan según la escala de Chaddock:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

En nuestro ejemplo, la relación entre el rasgo Y y el factor X es alta e inversa.

Además, el coeficiente de correlación de pares lineales se puede determinar mediante el coeficiente de regresión b:

1.2. Ecuación de regresión(estimación de la ecuación de regresión).

La ecuación de regresión lineal es y = -0,0702 x + 2,01

A los coeficientes de una ecuación de regresión lineal se les puede dar un significado económico.

El coeficiente de regresión b = -0,0702 muestra el cambio promedio en el indicador efectivo (en unidades de medida y) con un aumento o disminución en el valor del factor x por unidad de su medida. En este ejemplo, con un aumento de 1 unidad, y disminuye en -0,0702 en promedio.

El coeficiente a = 2,01 muestra formalmente el nivel previsto de y, pero sólo si x = 0 está cerca de los valores de la muestra.

Pero si x=0 está lejos de los valores muestrales de x, entonces una interpretación literal puede conducir a resultados incorrectos, e incluso si la línea de regresión describe los valores muestrales observados con bastante precisión, no hay garantía de que esto también lo haga. Este será el caso al extrapolar hacia la izquierda o hacia la derecha.

Al sustituir los valores de x apropiados en la ecuación de regresión, podemos determinar los valores alineados (predichos) del indicador de desempeño y(x) para cada observación.

La relación entre y y x determina el signo del coeficiente de regresión b (si > 0 - relación directa, en caso contrario - inversa). En nuestro ejemplo, la conexión es inversa.

1.3. Coeficiente de elasticidad.

No es aconsejable utilizar coeficientes de regresión (en el ejemplo b) para evaluar directamente la influencia de los factores sobre una característica resultante si existe una diferencia en las unidades de medida del indicador resultante y y la característica del factor x.

Para estos fines se calculan los coeficientes de elasticidad y los coeficientes beta.

El coeficiente de elasticidad promedio E muestra en qué porcentaje en promedio cambiará el resultado en el agregado en de su valor promedio cuando el factor cambia incógnita en un 1% de su valor medio.

El coeficiente de elasticidad se encuentra mediante la fórmula:

El coeficiente de elasticidad es menor que 1. Por lo tanto, si X cambia en un 1%, Y cambiará menos del 1%. En otras palabras, la influencia de X sobre Y no es significativa.

coeficiente beta

coeficiente beta muestra en qué parte del valor de su desviación estándar cambiará el valor promedio de la característica resultante cuando la característica del factor cambia en el valor de su desviación estándar con el valor de las variables independientes restantes fijados en un nivel constante:

Aquellos. un aumento de x en la desviación estándar S x conducirá a una disminución del valor medio de Y en 0,82 desviaciones estándar S y .

1.4. error de aproximación.

Evaluemos la calidad de la ecuación de regresión utilizando el error de aproximación absoluta. Error de aproximación promedio: desviación promedio de los valores calculados de los reales:

Un error de aproximación entre el 5% y el 7% indica un buen ajuste de la ecuación de regresión a los datos originales.

Dado que el error es inferior al 7%, esta ecuación se puede utilizar como regresión.



¿Te gustó el artículo? ¡Comparte con tus amigos!