Con base en los datos de la tabla de correlación, construya un campo de correlación. Ver páginas donde se menciona el término campo de correlación

El análisis de regresión y correlación son métodos de investigación estadística. Estas son las formas más comunes de mostrar la dependencia de un parámetro de una o más variables independientes.

A continuación, utilizando ejemplos prácticos específicos, consideraremos estos dos análisis muy populares entre los economistas. También daremos un ejemplo de obtención de resultados al combinarlos.

Análisis de regresión en Excel

Muestra la influencia de algunos valores (independientes, independientes) sobre la variable dependiente. Por ejemplo, ¿cómo depende el número de población económicamente activa del número de empresas, los salarios y otros parámetros? O: ¿cómo afectan las inversiones extranjeras, los precios de la energía, etc. al nivel del PIB?

El resultado del análisis le permite resaltar prioridades. Y en base a los principales factores, predecir, planificar el desarrollo de áreas prioritarias y tomar decisiones de gestión.

La regresión ocurre:

  • lineal (y = a + bx);
  • parabólico (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potencia (y = a*x^b);
  • hiperbólico (y = b/x + a);
  • logarítmico (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Veamos un ejemplo de cómo construir un modelo de regresión en Excel e interpretar los resultados. Tomemos el tipo de regresión lineal.

Tarea. En seis empresas se analizó el salario mensual medio y el número de empleados que renunciaban. Es necesario determinar la dependencia del número de empleados que renuncian del salario medio.

El modelo de regresión lineal se ve así:

Y = a 0 + a 1 x 1 +…+a k x k.

Donde a son coeficientes de regresión, x son variables influyentes, k es el número de factores.

En nuestro ejemplo, Y es el indicador de empleados que renuncian. El factor que influye son los salarios (x).

Excel tiene funciones integradas que pueden ayudarlo a calcular los parámetros de un modelo de regresión lineal. Pero el complemento "Paquete de análisis" lo hará más rápido.

Activemos una poderosa herramienta analítica:

Una vez activado, el complemento estará disponible en la pestaña Datos.

Ahora hagamos el análisis de regresión en sí.



En primer lugar, prestamos atención al R cuadrado y a los coeficientes.

R cuadrado es el coeficiente de determinación. En nuestro ejemplo: 0,755 o 75,5%. Esto significa que los parámetros calculados del modelo explican el 75,5% de la relación entre los parámetros estudiados. Cuanto mayor sea el coeficiente de determinación, mejor será el modelo. Bueno, por encima de 0,8. Malo: menos de 0,5 (un análisis de este tipo difícilmente puede considerarse razonable). En nuestro ejemplo – “no está mal”.

El coeficiente 64,1428 muestra cuál será Y si todas las variables del modelo considerado son iguales a 0. Es decir, el valor del parámetro analizado también está influenciado por otros factores no descritos en el modelo.

El coeficiente -0,16285 muestra el peso de la variable X sobre Y. Es decir, el salario mensual promedio dentro de este modelo afecta el número de personas que abandonan con un peso de -0,16285 (este es un pequeño grado de influencia). El signo “-” indica un impacto negativo: cuanto mayor es el salario, menos personas renuncian. Lo cual es justo.



Análisis de correlación en Excel

El análisis de correlación ayuda a determinar si existe una relación entre los indicadores en una o dos muestras. Por ejemplo, entre el tiempo de funcionamiento de una máquina y el coste de las reparaciones, el precio del equipo y la duración del funcionamiento, la altura y el peso de los niños, etc.

Si hay una conexión, entonces un aumento en un parámetro conduce a un aumento (correlación positiva) o una disminución (negativa) del otro. El análisis de correlación ayuda al analista a determinar si el valor de un indicador se puede utilizar para predecir el posible valor de otro.

El coeficiente de correlación se denota por r. Varía de +1 a -1. La clasificación de correlaciones para diferentes áreas será diferente. Cuando el coeficiente es 0, no existe una relación lineal entre muestras.

Veamos cómo encontrar el coeficiente de correlación usando Excel.

Para encontrar coeficientes emparejados, se utiliza la función CORREL.

Objetivo: Determinar si existe relación entre el tiempo de operación de un torno y el costo de su mantenimiento.

Coloque el cursor en cualquier celda y presione el botón fx.

  1. En la categoría “Estadística”, seleccione la función CORREL.
  2. Argumento “Array 1” - el primer rango de valores – tiempo de funcionamiento de la máquina: A2:A14.
  3. Argumento “Array 2” - segundo rango de valores – costo de reparación: B2:B14. Haga clic en Aceptar.

Para determinar el tipo de conexión, es necesario observar el número absoluto del coeficiente (cada campo de actividad tiene su propia escala).

Para el análisis de correlación de varios parámetros (más de 2), es más conveniente utilizar "Análisis de datos" (el complemento "Paquete de análisis"). Debe seleccionar la correlación de la lista y designar la matriz. Todo.

Los coeficientes resultantes se mostrarán en la matriz de correlación. Como esto:

Análisis de correlación y regresión.

En la práctica, estas dos técnicas suelen utilizarse juntas.

Ejemplo:


Ahora los datos del análisis de regresión se han hecho visibles.

Para estudio experimental de dependencias entre variables aleatorias. X y Y realizar una serie de experimentos independientes. Resultado i- el experimento da un par de valores (x r, y g), yo = 1, 2,..., PAG.

Las cantidades que caracterizan diversas propiedades de los objetos pueden ser independientes o estar interrelacionadas. Las formas de manifestación de las relaciones son muy diversas. Los dos tipos más comunes son conexiones funcionales (completas) y de correlación (incompletas).

Cuando dos cantidades dependen funcionalmente del valor de una -xh corresponde necesariamente a uno o más valores definidos con precisión de otra cantidad -y ( . Muy a menudo, aparecen conexiones funcionales en física y química. En situaciones reales, existe un número infinitamente grande de propiedades del objeto mismo y del entorno externo que se influyen entre sí, por lo que este tipo de conexión no existe; en otras palabras, las conexiones funcionales son abstracciones matemáticas.

La influencia de factores generales y la presencia de patrones objetivos en el comportamiento de los objetos sólo conducen a la manifestación de dependencia estadística. La estadística es una dependencia en la que un cambio en una de las cantidades implica un cambio en la distribución de otras (otra), y estas otras cantidades toman ciertos valores con ciertas probabilidades. En este caso, la dependencia funcional debe considerarse un caso especial de dependencia estadística: el valor de un factor corresponde a los valores de otros factores con una probabilidad igual a uno. Un caso especial más importante de dependencia estadística es la dependencia de correlación, que caracteriza la relación entre los valores de unas variables aleatorias y el valor medio de otras, aunque en cada caso individual cualquier valor interrelacionado puede tomar valores diferentes.

Una relación de correlación (que también se llama incompleta o estadística) aparece en promedio, para observaciones masivas, cuando los valores dados de la variable dependiente corresponden a un cierto número de valores probables de la variable independiente. Explicación: la complejidad de las relaciones entre los factores analizados, cuya interacción está influenciada por variables aleatorias no contabilizadas. Por lo tanto, la conexión entre signos aparece sólo en promedio, en la mayoría de los casos. En una conexión de correlación, cada valor de argumento corresponde a valores de función distribuidos aleatoriamente en un intervalo determinado.

El término "correlación" fue utilizado por primera vez por el paleontólogo francés J. Cuvier, quien derivó la "ley de correlación de partes y órganos de animales" (esta ley permite reconstruir la apariencia de un animal completo a partir de partes del cuerpo encontradas). Este término fue introducido en la estadística por el biólogo y estadístico inglés F. Galton (no solo una relación, sino "como una conexión": correlación).

Las dependencias de correlación se encuentran en todas partes. Por ejemplo, en agricultura, esta podría ser la relación entre el rendimiento y la cantidad de fertilizante aplicado. Evidentemente, estos últimos intervienen en la formación del cultivo. Pero para cada campo o parcela específica, la misma cantidad de fertilizante aplicado provocará un aumento diferente en el rendimiento, ya que interactúan otros factores (clima, condición del suelo, etc.), que forman el resultado final. Sin embargo, en promedio, se observa esta relación: un aumento en la masa de fertilizantes aplicados conduce a un aumento en el rendimiento.

El método más sencillo para identificar conexiones entre las características que se estudian es construir una tabla de correlación; su representación visual es el campo de correlación. Es una gráfica donde los valores de jq se trazan en el eje de abscisas, y en el eje de ordenadas. yx. Por la ubicación de los puntos y su concentración en una determinada dirección, se puede juzgar cualitativamente la presencia de una conexión.

Arroz. 7.3.

En la figura 2 se muestra una correlación positiva entre variables aleatorias, cercana a una funcional parabólica. 6.1 , A. En la Fig. 6.1, b muestra un ejemplo de una correlación negativa débil, y en la Fig. 6.1, V - un ejemplo de variables aleatorias prácticamente no correlacionadas. La correlación es alta si la dependencia “puede representarse” en el gráfico mediante una línea recta (con pendiente positiva o negativa).

1. Tema del trabajo.

2. Breve información teórica.

3. El orden de trabajo.

4. Datos iniciales para desarrollar un modelo matemático.

5. Resultados del desarrollo de un modelo matemático.

6. Resultados del estudio modelo. Construyendo un pronóstico.

7. Conclusiones.

En las tareas 2 a 4, puede utilizar Excel PPP para calcular las características del modelo.

Trabajo número 1.

Construcción de modelos de regresión pareados. Comprobación de residuos para detectar heterocedasticidad.

Para 15 empresas que producen el mismo tipo de producto, se conocen los valores de dos características:

X - producción, miles de unidades;

y - Costos de producción, millones de rublos.

X y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Requerido:

1. Construya un campo de correlación y formule una hipótesis sobre la forma de la conexión..

2. Construir modelos:

Regresión de pares lineales.

Regresión semilogarítmica por pares.

2.3 Regresión de pares de potencias.
Para esto:


2. Evalúe la cercanía de la conexión utilizando un coeficiente (índice)
correlaciones.

3. Evalúe la calidad del modelo utilizando el coeficiente (índice)
determinación y error medio de aproximación
.

4. Dar utilizando el coeficiente de elasticidad promedio.
Evaluación comparativa de la fuerza de la relación entre el factor y el resultado.
.

5. Con F-Criterio de Fisher para evaluar la confiabilidad estadística de los resultados del modelo de regresión..

Con base en los valores de las características calculadas en los párrafos 2 a 5, seleccione la mejor ecuación de regresión.

Utilizando el método de Golfreld-Quandt, verifique la heterocedasticidad de los residuos.

Construimos un campo de correlación.

Analizando la ubicación de los puntos del campo de correlación, asumimos que la relación entre los signos X Y en puede ser lineal, es decir y=a+bx, o tipo no lineal: y=a+blnx, y = ax b.

Con base en la teoría de la relación en estudio, asumimos que se obtiene la relación en de X amable y=a+bx, porque los costos de producción y se puede dividir en dos tipos: constante, independiente del volumen de producción - a, como alquiler, mantenimiento administrativo, etc.; y variables que cambian proporcionalmente a la producción bx, como el consumo de materiales, electricidad, etc.


2.1.Modelo de regresión de pares lineales.

2.1.1. Calculemos los parámetros. a Y b regresión lineal y=a+bx.

Construimos la tabla de cálculo 1.

tabla 1

Opciones a Y b ecuaciones

Y x = a + bx


Dividido por norte b:

Ecuación de regresión:

=11,591+0,871x

Con un aumento en la producción de productos de mil rublos. Los costos de producción aumentan en 0,871 millones de rublos. En promedio, los costos fijos ascienden a 11,591 millones de rublos.

2.1.2. Evaluaremos la cercanía de la conexión utilizando el coeficiente de correlación de pares lineales.

Primero determinemos las desviaciones estándar de las características.

Desviaciones estandar:

Coeficiente de correlación:

entre los signos X Y Y Se observa una correlación lineal muy estrecha.

2.1.3. Evaluemos la calidad del modelo construido.

es decir, este modelo explica el 90,5% de la varianza total en, la proporción de varianza inexplicable representa el 9,5%.

Por tanto, la calidad del modelo es alta.

A i .

Primero, a partir de la ecuación de regresión, determinamos los valores teóricos para cada valor de factor.

error de aproximación Yo, yo=1…15:

Error de aproximación promedio:

2.1.4. Determinemos el coeficiente de elasticidad promedio:

Muestra que con un aumento en la producción del 1%, los costos de producción aumentan en un promedio del 0,515%.

2.1.5. Evaluemos la significancia estadística de la ecuación resultante.
Comprobemos la hipótesis. H 0 que la dependencia identificada en de X es de naturaleza aleatoria, es decir, la ecuación resultante es estadísticamente insignificante. Tomemos α=0,05. Encontremos el valor de la tabla (crítico) F- Prueba de Fisher:

Encontremos el valor real F- Criterio de Fisher:

de ahí la hipótesis H 0 H 1 X Y y no es casual.

Construyamos la ecuación resultante.

2.2. Modelo de regresión semilogarítmica por pares.

2.2.1. Calculemos los parámetros. A Y b en regresión:

y x =a +blnх.

Linealicemos esta ecuación, denotando:

y=a + bz.

Opciones a Y b ecuaciones

= a+bz

determinado por el método de mínimos cuadrados:


Calculamos la Tabla 2.

Tabla 2

Dividido por norte y resolviendo por el método de Cramer, obtenemos una fórmula para determinar b:

Ecuación de regresión:

= -1,136 + 9,902z

2.2.2. Evaluemos la cercanía de la conexión entre las características. en Y X.

porque la ecuacion y = a + mln x lineal con respecto a los parámetros A Y b y su linealización no estuvo relacionada con la transformación de la variable dependiente _ en, entonces la cercanía de la relación entre las variables en Y X, estimado utilizando el índice de correlación de pares Rxy, también se puede determinar utilizando el coeficiente de correlación de pares lineales r yz

Desviación Estándar z:

El valor del índice de correlación es cercano a 1, por lo tanto, entre las variables en Y X existe una correlación muy estrecha del tipo = a + bz.

2.2.3. Evaluemos la calidad del modelo construido.

Determinemos el coeficiente de determinación:

es decir, este modelo explica el 83,8% de la variación total del resultado en, la proporción de variación inexplicable representa el 16,2%. Por tanto, la calidad del modelo es alta.

Encontremos el error de aproximación promedio. A i .

Primero, a partir de la ecuación de regresión, determinamos los valores teóricos para cada valor de factor. error de aproximación Yo,:

, i=1…15.

Error de aproximación promedio:

.

El error es pequeño, la calidad del modelo es alta.

2.2.4. Determinemos el coeficiente de elasticidad promedio:

Muestra que con un aumento en la producción del 1%, los costos de producción aumentan en un promedio del 0,414%.

2.2.5. Evaluemos la significancia estadística de la ecuación resultante.
Comprobemos la hipótesis. H 0 que la dependencia identificada en de X es de naturaleza aleatoria, es decir la ecuación resultante es estadísticamente insignificante. Tomemos α=0,05.

Encontremos el valor de la tabla (crítico) F-Criterio de Fisher:

Encontremos el valor real F-Criterio de Fisher:

de ahí la hipótesis H 0 rechazada, hipótesis alternativa aceptada H 1: con probabilidad 1-α=0.95, la ecuación resultante es estadísticamente significativa, la relación entre las variables X Y y no es casual.

Construyamos una ecuación de regresión en el campo de correlación.

2.3. Modelo de regresión de pares de potencias.

2.3.1. Calculemos los parámetros. A Y b regresión de potencia:

El cálculo de parámetros va precedido del procedimiento de linealización de esta ecuación:

y cambiando variables:

Y=lny, X=lnx, A=lna

Parámetros de ecuación:

determinado por el método de mínimos cuadrados:


Calculamos la Tabla 3.

Definimos b:

Ecuación de regresión:

Construyamos una ecuación de regresión en el campo de correlación:

2.3.2. Evaluemos la cercanía de la conexión entre las características. en Y X usando el índice de correlación de pares Ryx.

Primero calculemos el valor teórico. para cada valor de factor X, y luego:

Valor del índice de correlación Rxy cerca de 1, por lo tanto entre variables en Y X Existe una correlación muy estrecha de la forma:

2.3.3. Evaluemos la calidad del modelo construido.

Determinemos el índice de determinación:

R 2=0,936 2 =0,878,

es decir, este modelo explica el 87,6% de la variación total del resultado y, y la variación inexplicable representa el 12,4%.

La calidad del modelo es alta.

Encontremos el valor del error de aproximación promedio.

error de aproximación Yo, yo=1…15:

Error de aproximación promedio:

El error es pequeño, la calidad del modelo es alta.

2.3.4. Determinemos el coeficiente de elasticidad promedio:

Muestra que con un aumento en la producción del 1%, los costos de producción aumentan en un promedio del 0,438%.

2.3.5. Evaluemos la significancia estadística de la ecuación resultante.

Comprobemos la hipótesis. H 0 que la dependencia identificada en de X es de naturaleza aleatoria, es decir, la ecuación resultante es estadísticamente insignificante. Tomemos α=0,05.

valor de la tabla (crítico) F-Criterio de Fisher:

valor actual F-Criterio de Fisher:

de ahí la hipótesis H 0 rechazada, hipótesis alternativa aceptada H 1: con probabilidad 1-α=0.95, la ecuación resultante es estadísticamente significativa, la relación entre las variables X Y y no es casual.

Tabla 3

3. Elegir la mejor ecuación.

Hagamos una tabla de los resultados de la investigación obtenidos.

Tabla 4

Analizamos la tabla y sacamos conclusiones.

ú Las tres ecuaciones resultaron ser estadísticamente significativas y confiables, tienen un coeficiente de correlación (índice) cercano a 1, un coeficiente de determinación (índice) alto (cercano a 1) y un error de aproximación dentro de límites aceptables.

ú Al mismo tiempo, las características del modelo lineal indican que describe la relación entre características algo mejor que los modelos semilogarítmico y de potencia. X Y Ud.

ú Por lo tanto, elegimos un modelo lineal como ecuación de regresión.

Cuando se plantea la cuestión de la correlación entre dos características estadísticas X e Y, se lleva a cabo un experimento con registro paralelo de sus valores.

Ejemplo 8.1.

Determine si el resultado de un salto de longitud en carrera (signo X) depende del valor de la velocidad de carrera final (signo Y). Para responder a esta pregunta, paralelamente al registro del resultado X de cada salto de un atleta o grupo de atletas, también se registra el valor de la velocidad final de despegue Y. Que sean así:

Tabla 5

I
xi (cm)
yi (m/s) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Presentemos la Tabla 5 en forma de gráfico en un sistema de coordenadas rectangular, donde trazaremos la longitud del salto (X) en el eje horizontal, y el valor de la velocidad final de despegue en este salto (Y) en el eje vertical.
función PlayMyFlash(cmd)( Corel_.TPlay(cmd); )

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Arroz. 8. Gráfico de campo de correlación.

Llamaremos campo de correlación a la zona de dispersión de los puntos así obtenidos en el gráfico. Al analizar visualmente el campo de correlación en la Figura 8, se puede ver que parece alargarse a lo largo de una línea recta. Esta imagen es típica de la llamada relación de correlación lineal entre características. En este caso, se puede suponer en general que con un aumento en la velocidad final de despegue, la longitud del salto también aumenta y viceversa. Aquellos. Existe una relación directa (positiva) entre las características consideradas.

Junto con este ejemplo, entre muchos otros campos de correlación posibles, se puede distinguir el siguiente (Fig. 9-11):

La Figura 9 también muestra una relación lineal, pero a medida que aumentan los valores de un atributo, los valores del otro disminuyen, y viceversa, es decir. retroalimentación o negativa. Se puede suponer que en la Figura 11 los puntos del campo de correlación están dispersos alrededor de algún tipo de línea curva. En este caso dicen que existe una correlación curvilínea entre las características.

Con respecto al campo de correlación que se muestra en la Figura 10, no se puede decir que los puntos estén ubicados a lo largo de alguna línea recta o curva, tiene forma esférica; En este caso, dicen que las características X e Y no dependen una de otra.

Además, el campo de correlación se puede utilizar para juzgar aproximadamente la cercanía de la conexión de correlación, si esta conexión existe. Aquí dicen: cuantos menos puntos haya dispersos alrededor de la línea promedio imaginaria, más estrecha será la correlación entre las características consideradas.

El análisis visual de los campos de correlación ayuda a comprender la esencia de la relación de correlación y nos permite hacer suposiciones sobre la presencia, dirección y cercanía de la conexión. Pero es imposible decir con seguridad si existe o no una conexión entre los signos, una conexión lineal o curvilínea, una conexión estrecha (confiable) o débil (poco fiable), utilizando este método. El método más preciso para identificar y evaluar la relación lineal entre características es el método de determinar varios indicadores de correlación a partir de datos estadísticos.

3. Coeficientes de correlación y sus propiedades.

A menudo para determinar la confiabilidad de la relación entre dos características. (X,Y) usar Coeficiente de correlación de Spearman no paramétrico (rango) y coeficiente de correlación paramétrico de Pearson. . El valor de estos indicadores de correlación está determinado por las siguientes fórmulas:

(1)

Donde: dx - rangos de datos estadísticos de la característica x;

dy - rangos de datos estadísticos de la característica y.

(2)

Donde: - datos estadísticos de la característica x,

Datos estadísticos de la característica y.

Estos coeficientes tienen las siguientes características poderosas:

1. Basándose en los coeficientes de correlación, sólo se puede juzgar una correlación lineal entre características. No se puede decir nada sobre una conexión curvilínea con su ayuda.
2. Los valores de los coeficientes de correlación son una cantidad adimensional que no puede ser menor que -1 ni mayor que +1, es decir
3.
4. Si los valores de los coeficientes de correlación son cero, es decir = 0 o = 0, entonces la conexión entre las características x, y ausente.
5. Si los valores de los coeficientes de correlación son negativos, es decir< 0 или < 0, то связь между признаками Х и Y contrarrestar.
6. Si los valores de los coeficientes de correlación son positivos, es decir > 0 o y > 0, entonces la relación entre las características X e Y derecho(positivo).
7. Si los coeficientes de correlación toman valores +1 o -1, es decir = ± 1 o = ± 1, entonces la relación entre las características X e Y lineal (funcional).
8. La fiabilidad de la correlación entre características no puede juzgarse únicamente por la magnitud de los coeficientes de correlación. Esta confiabilidad también depende de número de grados de libertad.

Donde: n es el número de pares correlacionados de datos estadísticos de las características X e Y.

Cuanto mayor sea n, mayor será la confiabilidad de la relación con el mismo coeficiente de correlación.

Además de las propiedades comunes enumeradas, los coeficientes de correlación considerados también tienen diferencias. Su principal diferencia es que el coeficiente de Pearson ( se puede utilizar sólo si la distribución de las características X e Y es normal, el coeficiente de Spearman () se puede utilizar para características con cualquier tipo de distribución. Si las características en cuestión tienen una distribución normal, entonces es más conveniente determinar la presencia de una conexión de correlación utilizando el coeficiente de Pearson (), ya que en este caso tendrá un error menor que el coeficiente de Spearman ().

Ejemplo 8.2.

Utilizando el coeficiente de correlación de rango de Spearman, determine si existe una relación entre los resultados del salto de longitud en carrera (X) y la velocidad final de carrera (Y) de un grupo de atletas (datos del Ejemplo 8.1, Tabla 5).

En la fórmula (1), dx y dy son los rangos de datos estadísticos, es decir coloca la opción en su conjunto clasificado. Si en conjunto hay varios datos idénticos, entonces sus rangos son iguales y se determinan como el valor promedio de los lugares ocupados por estas opciones. Por ejemplo,

Datos xi
rangos dx 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Usando esta regla, determinaremos los rangos de los datos en la Tabla 5. Por conveniencia, escribiremos todo en el formato de la Tabla 6.

Tabla 6

dx dy dx-dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

En este caso tenemos 8 pares de valores, es decir 8 pares correlacionados. Esto significa n = 8. Sustituyendo el resultado en la fórmula (1), tendremos:

Conclusión:

(0,92 > 0) , luego entre los signos X y Y Ud. X), y viceversa: a medida que disminuye la velocidad de despegue, la longitud del salto disminuye. La confiabilidad del coeficiente de correlación de Spearman se determina a partir de la tabla de valores críticos del coeficiente de correlación de rango.

b) porque Si el valor resultante del coeficiente de correlación = 0,9 es mayor que el valor de la tabla = 0,88, correspondiente al nivel b = 99%, entonces la confianza en la exactitud de la conclusión (a) es superior al 99%. Tal confiabilidad nos permite extender la conclusión (a) a toda la población, es decir para todos los saltadores de longitud.

Si no hay una verificación preliminar de la normalidad de la distribución de las poblaciones consideradas, entonces, si el coeficiente de correlación de Pearson no es confiable, la presencia de una conexión también debe verificarse utilizando el coeficiente de Spearman.

Ejemplo 8.3.

El coeficiente de correlación de rango se puede utilizar para identificar relaciones entre variables que tienen cualquier distribución estadística. Pero si estas variables tienen una distribución normal (gaussiana), entonces la relación se puede establecer con mayor precisión utilizando el coeficiente de correlación normalizado (Bravais-Pearson).

Supongamos que en nuestro ejemplo y - corresponden a la ley de distribución normal y verifiquemos la conexión entre los resultados de la prueba. X y Y utilizando el cálculo del coeficiente de correlación normalizado.

De la fórmula (1) se desprende claramente que para el cálculo es necesario encontrar los valores medios de las características. X,Y y la desviación de cada dato estadístico de su media. Conociendo estos valores, podrás encontrar las cantidades para las que no es difícil calcular

Con base en los datos de la Tabla 5, complete la Tabla 7:

Tabla 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 · 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 · 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Sustituyendo la suma de la columna 7 en el numerador de la fórmula (1) y las sumas de las columnas 3 y 6 en el denominador, obtenemos:

Conclusión:

a) porque el valor del coeficiente de correlación es positivo (0.92>0) , entonces entre X y Y hay una conexión directa, es decir al aumentar la velocidad de despegue (signo Y) la longitud del salto aumenta (signo X) y viceversa: a medida que disminuye la velocidad de despegue, la longitud del salto disminuye. Es muy importante conocer la confianza en la exactitud de la conclusión obtenida.

parte teorica

Para diferenciar la dirección de influencia de una característica sobre otra, se introdujeron los conceptos de conexiones positivas y negativas.

Si con un aumento (disminución) en un atributo, los valores de otro generalmente aumentan (disminuyen), entonces dicha correlación se llama directa o positiva.

Si con un aumento (disminución) en un atributo los valores de otro generalmente disminuyen (aumentan), entonces dicha correlación se llama inversa o negativa.

Campos de correlación y su uso en el análisis de correlación preliminar.

Cuando se plantea la cuestión de la correlación entre dos características estadísticas X e Y, se lleva a cabo un experimento con registro paralelo de sus valores.

Ejemplo -
Llamaremos campo de correlación a la zona de dispersión de los puntos así obtenidos en el gráfico. Al analizar visualmente el campo de correlación en la Figura 8, se puede ver que parece alargarse a lo largo de una línea recta. Esta imagen es típica de la llamada relación de correlación lineal entre características. En este caso, se puede suponer en general que con un aumento en la velocidad final de despegue, la longitud del salto también aumenta y viceversa. Aquellos. Existe una relación directa (positiva) entre las características consideradas.

Junto con este ejemplo, entre muchos otros campos de correlación posibles, se puede distinguir el siguiente (Fig. 9-11):

La Figura 9 también muestra una relación lineal, pero a medida que aumentan los valores de un atributo, los valores del otro disminuyen, y viceversa, es decir. retroalimentación o negativa. Se puede suponer que en la Figura 11 los puntos del campo de correlación están dispersos alrededor de algún tipo de línea curva. En este caso dicen que existe una correlación curvilínea entre las características.

Con respecto al campo de correlación que se muestra en la Figura 10, no se puede decir que los puntos estén ubicados a lo largo de alguna línea recta o curva, tiene forma esférica; En este caso, dicen que las características X e Y no dependen una de otra.



Además, el campo de correlación se puede utilizar para juzgar aproximadamente la cercanía de la conexión de correlación, si esta conexión existe. Aquí dicen: cuantos menos puntos haya dispersos alrededor de la línea promedio imaginaria, más estrecha será la correlación entre las características consideradas.

El análisis visual de los campos de correlación ayuda a comprender la esencia de la relación de correlación y nos permite hacer suposiciones sobre la presencia, dirección y cercanía de la conexión. Pero es imposible decir con seguridad si existe o no una conexión entre los signos, una conexión lineal o curvilínea, una conexión estrecha (confiable) o débil (poco fiable), utilizando este método. El método más preciso para identificar y evaluar la relación lineal entre características es el método de determinar varios indicadores de correlación a partir de datos estadísticos.

3. Coeficientes de correlación y sus propiedades.

A menudo para determinar la confiabilidad de la relación entre dos características. (X,Y) usar Coeficiente de correlación de Spearman no paramétrico (rango) y coeficiente de correlación paramétrico de Pearson. . El valor de estos indicadores de correlación está determinado por las siguientes fórmulas:

(1)

Donde: dx - rangos de datos estadísticos de la característica x;

dy - rangos de datos estadísticos de la característica y.

(2)

Donde: - datos estadísticos de la característica x,

Datos estadísticos de la característica y.

Estos coeficientes tienen las siguientes características poderosas:

1. Basándose en los coeficientes de correlación, sólo se puede juzgar una correlación lineal entre características. No se puede decir nada sobre una conexión curvilínea con su ayuda.
2. Los valores de los coeficientes de correlación son una cantidad adimensional que no puede ser menor que -1 ni mayor que +1, es decir
3.
4. Si los valores de los coeficientes de correlación son cero, es decir = 0 o = 0, entonces la conexión entre las características x, y ausente.
5. Si los valores de los coeficientes de correlación son negativos, es decir< 0 или < 0, то связь между признаками Х и Y contrarrestar.
6. Si los valores de los coeficientes de correlación son positivos, es decir > 0 o y > 0, entonces la relación entre las características X e Y derecho(positivo).
7. Si los coeficientes de correlación toman valores +1 o -1, es decir = ± 1 o = ± 1, entonces la relación entre las características X e Y lineal (funcional).
8. La fiabilidad de la correlación entre características no puede juzgarse únicamente por la magnitud de los coeficientes de correlación. Esta confiabilidad también depende de número de grados de libertad.

Parte práctica.

Determine el coeficiente de correlación entre la temperatura corporal y la frecuencia del pulso y evalúe la relación identificada.



¿Te gustó el artículo? ¡Compartir con tus amigos!