Covarianza y coeficiente de correlación. Momento de correlación, variables aleatorias continuas, dependencia lineal.

4 páginas (archivo Word)

Ver todas las páginas


Fragmento del texto de la obra.

Dónde

para variables aleatorias discretas Xi Y y

, y)dxdy

para variables aleatorias continuas,

El momento de correlación sirve para caracterizar la relación entre variables aleatorias. En particular, para las variables aleatorias independientes X e Y, el momento de correlación Cxy es igual a cero.

Por definición, el momento de correlación tiene una dimensión igual al producto de las dimensiones de las cantidades X e Y. Esto significa que la magnitud del momento de correlación depende de las unidades de medida de las variables aleatorias. Por ejemplo, si al medir los valores de X e Y en centímetros, el resultado es C.” 2 cm2, luego al medir X e Y en milímetros obtenemos Cxy = 200 mm2. Esta dependencia del momento de correlación de las unidades de medida dificulta la comparación de diferentes sistemas de variables aleatorias. Para eliminar este inconveniente, se introduce una característica adimensional de la relación entre las cantidades X e Y, llamada coeficiente de correlación:

Si las variables aleatorias X e Y son independientes, entonces r", = O. Si las variables aleatorias X e Y están relacionadas por la dependencia lineal exacta Y = ax + b, entonces rxy = l para a>O y b. = - para a z O. En general, la doble desigualdad -1 S rxyS es cierta

La propiedad de independencia de dos variables aleatorias X e Y en el caso general no es equivalente a su falta de correlación (es decir, la igualdad rn. = 0). Sin embargo, esto es cierto para los componentes distribuidos normalmente de una variable aleatoria bidimensional.

La ley de distribución de un sistema de dos variables aleatorias discretas (X, A viene dada por la siguiente tabla

) leyes de distribución de variables aleatorias X e Y;

2) la ley de distribución condicional de la variable aleatoria X, siempre que Y = 1;

3) expectativas matemáticas IH), Ts U) y el centro de dispersión;

4) dispersiones de D(X) y DUE;

5) momento de correlación Cdu y coeficiente de correlación b.

1. Sumando las probabilidades a lo largo de las filas, obtenemos las probabilidades de los posibles valores de la variable aleatoria X: = 0,4, p(l) = 0,2, p(4) = 0,4. En consecuencia, la ley de distribución del valor X tiene la siguiente forma

Comprueba: 0,4 + 1.

Sumando las probabilidades entre las columnas, obtenemos las probabilidades de los posibles valores de la variable aleatoria Y: = 0,1, p(l) = 0,3, AZ) = 0,6. Escribamos la ley de distribución de la cantidad Y.

Compruebe: (),l + 0,3 + 0,6 =

2.
Encontremos las probabilidades condicionales para la variable aleatoria X, siempre que Y = Y-2 = 1: p(-l f 1) = -P12

Dado que la distribución (X 1 Y = 1) tiene la siguiente tabla

H. Con base en la definición, calculamos las expectativas matemáticas:

5. Creemos una tabla del sistema de variables aleatorias centrifugadas.

x, Y, donde Y = Y-t = Y -1,9

Calculemos el momento de correlación:

(-3,9) 0-2,4 (-0,9)

Un sistema de dos variables aleatorias continuas (X, Y) tiene una distribución uniforme en la región D = “x, y) - S x S 3, O S y S x + l).

) densidad de distribución;

2) probabilidad Ch X, Y) de golpear el área

3) densidades A(x) y Ku) de la distribución de variables aleatorias X e Y, así como densidades condicionales e y(ylx);

4) funciones y F20) distribuciones de variables aleatorias X e Y;

5) expectativas matemáticas M(X) y el centro de dispersión;

6) dispersión y Tsu);

7) momento de correlación Sl. y coeficiente de correlación

1. Por condición, la función de densidad tiene la forma a, si -lSxS3 y 0SySx+l, O, si (x, y) E D

Para encontrar el parámetro a, usamos la relación f(x, y)dy.dy = , donde el dominio de integración D se muestra en la Fig. 7.

La región D está limitada a la izquierda y a la derecha por las líneas x = -1 y x = 3, y por debajo y por arriba por las líneas O e Y2(x) = x + 1. Pasando a la integral repetida, tenemos:

3

fady= gaur X +1 D = fa(x + l)dx =

8a. Dado que 8a = 1, ENTONCES una función z y DENSIDAD 8

parece

-, Si

Oh, si (x,y) E).

2. Representamos la región G, que es un círculo de radio 2 con centro en el punto (2, O) (ver Fig. 8). Dado que la función Ax, y) es igual a cero fuera

3. Encontremos las densidades A(x) y limo:

Es por eso

Por eso,

Para O S y S 4 obtenemos de manera similar

COMITÉ ESTATAL DE CIENCIA Y TECNOLOGÍA DE LA REPÚBLICA DE AZERBAIYÁN

CENTRO DE INVESTIGACIÓN Y FORMACIÓN DE BAKÚ

ESTUDIANTE DE POSGRADO DEL DEPARTAMENTO DE CIRUGÍA PEDIÁTRICA

UMA que lleva el nombre de N. NARIMANOV

MUKHTAROVA EMIL GASAN feo

MOMENTOS DE CORRELACIÓN. COEFICIENTE DE CORRELACIÓN

INTRODUCCIÓN

Teoría de probabilidad es una ciencia matemática que estudia patrones en fenómenos aleatorios.

¿Qué se entiende por fenómenos aleatorios?

En el estudio científico de problemas físicos y técnicos, a menudo se encuentran fenómenos de un tipo especial, que suelen denominarse aleatorios. Fenómeno aleatorio- Se trata de un fenómeno que, cuando se repite la misma experiencia, se desarrolla de forma algo diferente.

Pongamos un ejemplo de un fenómeno aleatorio.

El mismo cuerpo se pesa varias veces en una balanza analítica: los resultados de los pesajes repetidos son algo diferentes entre sí. Estas diferencias se deben a la influencia de diversos factores menores que acompañan a la operación de pesaje, como vibraciones aleatorias del equipo, errores en la lectura del instrumento, etc.

Es obvio que no existe un solo fenómeno físico en la naturaleza en el que los elementos de aleatoriedad no estén presentes en un grado u otro. No importa cuán precisas y detalladas sean las condiciones experimentales, es imposible garantizar que cuando se repita el experimento, los resultados coincidan completa y exactamente.

Los accidentes acompañan inevitablemente a cualquier fenómeno natural. Sin embargo, en una serie de problemas prácticos estos elementos aleatorios pueden despreciarse, considerando su diagrama simplificado en lugar de un fenómeno real, es decir. modelo, y suponiendo que bajo las condiciones experimentales dadas el fenómeno se desarrolla de una manera muy definida. Al mismo tiempo, entre los innumerables factores que influyen en este fenómeno, se destacan los más importantes, fundamentales y decisivos. Simplemente se ignora la influencia de otros factores menores. Al estudiar patrones en el marco de una determinada teoría, los principales factores que influyen en un fenómeno particular se incluyen en los conceptos o definiciones con los que opera la teoría en cuestión.

Como cualquier ciencia que desarrolla una teoría general de cualquier gama de fenómenos, la teoría de la probabilidad también contiene una serie de conceptos básicos en los que se basa. Naturalmente, no todos los conceptos básicos pueden definirse estrictamente, ya que definir un concepto significa reducirlo a otros más conocidos. Este proceso debe ser finito y terminar con conceptos primarios que sólo se explican.

Uno de los primeros conceptos de la teoría de la probabilidad es el concepto de evento.

Bajo evento Se entiende cualquier hecho que pueda ocurrir o no como resultado de la experiencia.

Pongamos ejemplos de eventos.

A - el nacimiento de un niño o una niña;

B - selección de una u otra apertura en una partida de ajedrez;

C - perteneciente a uno u otro signo del zodíaco.

Considerando los eventos anteriores, vemos que cada uno de ellos tiene algún grado de posibilidad: algunos mayores, otros menores. Para comparar cuantitativamente eventos entre sí según el grado de posibilidad, obviamente, es necesario asociar a cada evento un cierto número, que es mayor cuanto más posible es el evento. Este número se llama probabilidad de un evento. Por tanto, la probabilidad de un evento es una característica numérica del grado de posibilidad objetiva de un evento.

La unidad de probabilidad se considera la probabilidad de un evento confiable igual a 1, y el rango de cambios en las probabilidades de cualquier evento es un número de 0 a 1.

La probabilidad suele denotarse con la letra P.

Veamos el ejemplo del eterno problema del Hamlet de Shakespeare "¿ser o no ser?" ¿Cómo se puede determinar la probabilidad de un evento?

Es bastante obvio que una persona, un objeto y cualquier otro fenómeno pueden estar en uno de dos y no más estados: presencia (“ser”) y ausencia (“no ser”). Es decir, hay dos eventos posibles, pero sólo uno puede suceder. Esto significa que la probabilidad de, por ejemplo, existencia es 1/2.

Además del concepto de evento y probabilidad, uno de los conceptos principales de la teoría de la probabilidad es el concepto de variable aleatoria.

Variable aleatoria es una cantidad que, como resultado de un experimento, puede tomar uno u otro valor, y no se sabe de antemano cuál.

Las variables aleatorias que toman sólo valores separados entre sí y que se pueden enumerar de antemano se denominan variables aleatorias continuas o discretas.

Por ejemplo:

1. Número de pacientes supervivientes y fallecidos.

2. El número total de niños de pacientes ingresados ​​en el hospital durante la noche.

Las variables aleatorias cuyos posibles valores llenan continuamente un determinado intervalo se denominan variables aleatorias continuas.

Por ejemplo, error de pesaje en una balanza analítica.

Tenga en cuenta que la teoría de probabilidad moderna opera principalmente con variables aleatorias, en lugar de eventos, en los que se basaba principalmente la teoría "clásica" de la probabilidad.

MOMENTOS DE CORRELACIÓN. COEFICIENTE DE CORRELACIÓN.

Momentos de correlación, coeficiente de correlación. - Estas son características numéricas que están estrechamente relacionadas con el concepto de variable aleatoria introducido anteriormente, o más precisamente con un sistema de variables aleatorias. Por tanto, para introducir y definir su significado y función, es necesario explicar el concepto de sistema de variables aleatorias y algunas propiedades inherentes a ellas.

Dos o más variables aleatorias que describen algún fenómeno se llaman sistema o complejo de variables aleatorias.

Un sistema de varias variables aleatorias X, Y, Z,…, W generalmente se denota por (X, Y, Z,…, W).

Por ejemplo, un punto en un plano no se describe por una coordenada, sino por dos, y en el espacio, incluso por tres.

Las propiedades de un sistema de varias variables aleatorias no se limitan a las propiedades de las variables aleatorias individuales incluidas en el sistema, sino que también incluyen conexiones mutuas (dependencias) entre variables aleatorias. Por tanto, al estudiar un sistema de variables aleatorias, se debe prestar atención a la naturaleza y el grado de dependencia. Esta dependencia puede ser más o menos pronunciada, más o menos estrecha. Y en otros casos, las variables aleatorias resultan prácticamente independientes.

La variable aleatoria Y se llama independiente de una variable aleatoria X, si la ley de distribución de la variable aleatoria Y no depende del valor que tomó X.

Cabe señalar que la dependencia e independencia de las variables aleatorias es siempre un fenómeno mutuo: si Y no depende de X, entonces el valor de X no depende de Y. Teniendo esto en cuenta, podemos dar la siguiente definición de independencia. de variables aleatorias.

Las variables aleatorias X e Y se llaman independientes si la ley de distribución de cada una de ellas no depende del valor que tome la otra. De lo contrario, las cantidades X e Y se llaman dependiente.

Ley de distribución Una variable aleatoria es cualquier relación que establece una conexión entre los posibles valores de una variable aleatoria y sus correspondientes probabilidades.

El concepto de "dependencia" de variables aleatorias, que se utiliza en la teoría de la probabilidad, es algo diferente del concepto habitual de "dependencia" de variables, que se utiliza en matemáticas. Por tanto, un matemático entiende por "dependencia" sólo un tipo de dependencia: la llamada dependencia funcional, completa y rígida. Dos cantidades X e Y se denominan funcionalmente dependientes si, conociendo el valor de una de ellas, se puede determinar con precisión el valor de la otra.

En la teoría de la probabilidad, existe un tipo de dependencia ligeramente diferente: dependencia probabilística. Si el valor Y está relacionado con el valor X mediante una dependencia probabilística, entonces, conociendo el valor de X, es imposible indicar con precisión el valor de Y, pero se puede indicar su ley de distribución, dependiendo del valor que tenga el valor X. tomado.

La relación probabilística puede ser más o menos estrecha; A medida que aumenta la rigidez de la dependencia probabilística, se acerca cada vez más a la funcional. Por tanto, la dependencia funcional puede considerarse como un caso extremo y límite de la dependencia probabilística más cercana. Otro caso extremo es la total independencia de las variables aleatorias. Entre estos dos casos extremos se encuentran todas las gradaciones de dependencia probabilística, desde la más fuerte hasta la más débil.

En la práctica se encuentra a menudo la dependencia probabilística entre variables aleatorias. Si las variables aleatorias X e Y están en una relación probabilística, esto no significa que con un cambio en el valor de X, el valor de Y cambia de una manera completamente definida; esto sólo significa que con un cambio en el valor de X, el valor de Y

tiende a cambiar también (aumentar o disminuir a medida que X aumenta). Esta tendencia se observa sólo en términos generales y en cada caso individual es posible que se produzcan desviaciones.

Ejemplos de dependencia probabilística.

Seleccionemos al azar un paciente con peritonitis. La variable aleatoria T es el tiempo desde el inicio de la enfermedad, la variable aleatoria O es el nivel de alteraciones homeostáticas. Existe una relación clara entre estos valores, ya que el valor T es una de las razones más importantes para determinar el valor O.

Al mismo tiempo, existe una relación probabilística más débil entre la variable aleatoria T y la variable aleatoria M, que refleja la mortalidad en una determinada patología, ya que la variable aleatoria, aunque influye en la variable aleatoria O, no es el principal determinante.

Además, si consideramos el valor T y el valor B (la edad del cirujano), estos valores son prácticamente independientes.

Hasta ahora hemos discutido las propiedades de los sistemas de variables aleatorias, dando sólo una explicación verbal. Sin embargo, existen características numéricas a través de las cuales se estudian las propiedades tanto de variables aleatorias individuales como de un sistema de variables aleatorias.

Para caracterizar la correlación entre cantidades se utiliza el momento de corrección y el coeficiente de correlación.

Definición 2. Momento de correlaciónµ xy de las variables aleatorias X e Y es la expectativa matemática del producto de las desviaciones de estas variables

Para calcular el momento de correlación de cantidades discretas, se utiliza la expresión

(3.12)

y para los continuos – la expresión

(3.13)

Observación. El momento de correlación µ xy se puede reescribir en la forma

(3.14)

De hecho, utilizando las propiedades de la expectativa matemática (ver §§ 2.2; 2.6), tenemos

Teorema. El momento de correlación de dos variables aleatorias independientes X e Y es igual a cero.

Prueba. Según la observación

y dado que X e Y son variables aleatorias independientes, entonces (ver §§ 2.2; 2.6)

y, por tanto, µ xy =0.

De la definición del momento de correlación se deduce que tiene una dimensión igual al producto de las dimensiones de las cantidades X e Y, es decir su valor depende de las unidades de medida de las variables aleatorias. Por tanto, para las mismas dos cantidades, la magnitud del momento de correlación puede tener valores diferentes dependiendo de las unidades en las que se midieron las cantidades. Para eliminar este inconveniente, acordamos tomar una cantidad adimensional como medida de la relación (dependencia) de dos variables aleatorias X e Y.

Dónde σx =σ(X), σy =σ(Y), llamado coeficiente de correlación.

Ejemplo 1. Sea una variable aleatoria discreta bidimensional (X,Y) especificada por la ley de distribución:

y por lo tanto,

Sumando las probabilidades en las columnas, encontramos las probabilidades de los posibles valores de Y:

De ahí la ley de distribución Y:

Y
pag 1\3 1\2 1\6

y por lo tanto,

Por eso,

Por tanto, el coeficiente de correlación

Teorema. El valor absoluto del momento de correlación de dos variables aleatorias no excede el producto de sus desviaciones estándar:

Prueba. Introduciendo la variable aleatoria Dónde Encontremos su varianza. Tenemos

(cualquier variación no es negativa). De aquí

Al ingresar una variable aleatoria , de igual manera encontraremos

Como resultado tenemos

Definición 2. Variables aleatorias X e Y se denominan no correlacionados si = 0, y correlacionados si

Ejemplo 1. Variables aleatorias independientes X y Y no están correlacionados, ya que debido a la relación (3.12) = 0.

Ejemplo 2. Dejemos que las variables aleatorias X Y Y están conectados por una dependencia lineal. Encontremos el coeficiente de correlación. Tenemos:

Por tanto, el coeficiente de correlación de variables aleatorias relacionadas por una dependencia lineal es igual a ±1 (más precisamente, =1 si A>0 y =-1 si A<0).

Observemos algunas propiedades del coeficiente de correlación.

Del ejemplo 1 se deduce:

1) Si X e Y son variables aleatorias independientes, entonces el coeficiente de correlación es cero.

Tenga en cuenta que la afirmación inversa es, en términos generales, falsa. (Como prueba, consulte el trabajo).

2) El valor absoluto del coeficiente de correlación no excede la unidad:

De hecho, dividir ambos lados de la desigualdad (3.16) por el producto , llegamos a la desigualdad deseada.

3) Como puede verse en la fórmula (3.15), teniendo en cuenta la fórmula (3.14), el coeficiente de correlación caracteriza la magnitud relativa de la desviación de la expectativa matemática del producto del producto de las expectativas matemáticas. M(X) M(Y) cantidades X Y y. Dado que esta desviación ocurre sólo para cantidades dependientes, podemos decir que El coeficiente de correlación caracteriza la cercanía de la relación entre X e Y.

3. Correlación lineal. Este tipo de correlación es bastante común.

Definición de dependencia de correlación entre variables aleatorias. X y Y llamado correlación lineal, si ambas funciones de regresión y son lineales. En este caso, ambas líneas de regresión son rectas; se les llama regresiones directas.

Derivemos las ecuaciones de regresión directa. Y en X, aquellos. encontremos el coeficiente de la función lineal

denotemos M(X) = a, M(Y)= b, M[(X - a) 2 ]= , M[(Y –b 2)]= . Utilizando las propiedades de MO (§§ 2.2; 2.6) encontramos:

M(Y) = M= METRO(AX + B) = AM(X) + B,

aquellos. b = Aa + B, dónde B=b-Aa.

M(XY)= M[Xg(X)\= M(AX 2 + BX) = AM(X 2) + BM(X)= AM(X 2) + (b- Aa)a,

o, según la propiedad 1 de dispersión (§§ 2.3; 2.6),

El coeficiente resultante se llama coeficiente de regresión Y en X y se denota por:

Por tanto, la ecuación de regresión directa Y en X parece

De manera similar, puedes obtener la ecuación de regresión directa de X sobre Y.

Para describir un sistema de dos variables aleatorias, además de las expectativas matemáticas y las varianzas de los componentes, se utilizan otras características, que incluyen momento de correlación Y coeficiente de correlación(mencionado brevemente al final de T.8.p.8.6) .

Momento de correlación(o covarianza, o momento de conexión) dos variables aleatorias X Y Y llamado m.o. producto de las desviaciones de estas cantidades (ver igualdad (5) cláusula 8.6):

Corolario 1. Para el momento de correlación r.v. X Y Y También son válidas las siguientes igualdades:

,

donde se encuentra el correspondiente r.v. centralizado. X Y Y (ver cláusula 8.6.).

En este caso: si
es un d.s.v. bidimensional, entonces la covarianza se calcula mediante la fórmula

(8)
;

Si
es un n.s.v. bidimensional, entonces la covarianza se calcula mediante la fórmula

(9)

Las fórmulas (8) y (9) se obtuvieron con base en las fórmulas (6) de la cláusula 12.1. Hay una fórmula computacional.

(10)

que se deriva de la definición (9) y se basa en las propiedades del MO, de hecho,

En consecuencia, las fórmulas (36) y (37) se pueden reescribir en la forma

(11)
;

El momento de correlación sirve para caracterizar la relación entre cantidades. X Y Y.

Como se mostrará a continuación, el momento de correlación es igual a cero si X Y Y son independiente;

Por lo tanto, si el momento de correlación no es igual a cero, entoncesXYYson variables aleatorias dependientes.

Teorema 12.1.Momento de correlación de dos variables aleatorias independientes.XYYes igual a cero, es decir para r.v. independiente.XYY,

Prueba. Porque X Y Y variables aleatorias independientes, entonces sus desviaciones

Y

t también independiente. Usando las propiedades de la expectativa matemática (la expectativa matemática del producto de r.v.s independientes es igual al producto de las expectativas matemáticas de los factores
,
, Es por eso

Comentario. De este teorema se deduce que si
entonces s.v. X Y Y dependiente y en tales casos r.v. X Y Y llamado correlacionado. Sin embargo, del hecho de que
no sigue la independencia r.v. X Y Y.

En este caso (
s.v. X Y Y llamado no correlacionado, Así, de la independencia se sigue no correlacionado; la afirmación inversa es, en términos generales, falsa (consulte el ejemplo 2 a continuación).

Consideremos las principales propiedades del momento de correlación.

Cpropiedades de covarianza:

1. La covarianza es simétrica, es decir
.

Esto se deriva directamente de la fórmula (38).

2. Hay igualdades: es decir dispersión r.v. es su covarianza consigo mismo.

Estas igualdades se derivan directamente de la definición de dispersión e igualdad (38), respectivamente, para

3. Son válidas las siguientes igualdades:

Estas igualdades se derivan de la definición de varianza y covarianza de r.v.
Y , propiedades 2.

Por definición de dispersión (teniendo en cuenta la centralidad de r.v.
) tenemos

Ahora, con base en (33) y las propiedades 2 y 3, obtenemos la primera propiedad 3 (con signo más).

De manera similar, la segunda parte de la propiedad 3 se deriva de la igualdad

4. Dejar
números constantes,
entonces las igualdades son válidas:

Por lo general, estas propiedades se denominan propiedades de homogeneidad y periodicidad de primer orden en los argumentos.

Demostremos la primera igualdad y usaremos las propiedades de m.o.
.

Teorema 12.2.Valor absolutomomento de correlación de dos variables aleatorias arbitrariasXYYno excede la media geométrica de sus varianzas: es decir

Prueba. Tenga en cuenta que para r.v. independientes. la desigualdad se cumple (ver Teorema 12.1.). Entonces, dejemos que r.v. X Y Y dependiente. Consideremos el r.v. estándar.
Y
y calcular la dispersión de r.v.
teniendo en cuenta la propiedad 3, tenemos: por un lado
Por otro lado

Por lo tanto, teniendo en cuenta el hecho de que
Y - r.v. normalizado (estandarizado), luego para ellos m.o. es igual a cero y la varianza es igual a 1, por lo tanto, usando la propiedad de m.o.
obtenemos

y por lo tanto, basándose en el hecho de que
obtenemos

De ello se deduce que es decir

=

La afirmación ha sido probada.

De la definición y propiedades de la covarianza se deduce que caracteriza tanto el grado de dependencia de r.v como su dispersión alrededor de un punto.
La dimensión de la covarianza es igual al producto de las dimensiones de las variables aleatorias. X Y Y. En otras palabras, la magnitud del momento de correlación depende de las unidades de medida de las variables aleatorias. Por esta razón, para las mismas dos cantidades X Y Y, la magnitud del momento de correlación tendrá diferentes valores dependiendo de las unidades en las que se midieron los valores.

Dejemos, por ejemplo, X Y Y se midieron en centímetros y
; si se mide X Y Y en milímetros, entonces
Esta característica del momento de correlación es la desventaja de esta característica numérica, ya que la comparación de los momentos de correlación de diferentes sistemas de variables aleatorias se vuelve difícil.

Para eliminar este inconveniente, se introduce una nueva característica numérica: " coeficiente de correlación».

Coeficiente de correlación
variables aleatorias
Y se llama relación entre el momento de correlación y el producto de las desviaciones estándar de estas cantidades:

(13)
.

Desde la dimensión
igual al producto de las dimensiones de cantidades
Y ,
tiene la dimensión de magnitud
σ y tiene la dimensión de magnitud , Eso
es solo un número (es decir, " cantidad adimensional"). Por tanto, el valor del coeficiente de correlación no depende de la elección de las unidades de medida de r.v., esto es ventaja coeficiente de correlación antes del momento de correlación.

En T.8. cláusula 8.3 introdujimos el concepto normalizado s.v.
, fórmula (18), y se ha demostrado el teorema de que
Y
(Ver también Teorema 8.2.). Aquí demostramos la siguiente afirmación.

Teorema 12.3. Para cualesquiera dos variables aleatorias
Y la igualdad es verdadera
.En otras palabras, el coeficiente de correlación
dos cualesquiera con
.V.XYYigual al momento de correlación de sus correspondientes normalizados s.v.
Y .

Prueba. Por definición de variables aleatorias normalizadas
Y

Y
.

Teniendo en cuenta la propiedad de la expectativa matemática: y la igualdad (40) obtenemos

La afirmación ha sido probada.

Veamos algunas propiedades comunes del coeficiente de correlación.

Propiedades del coeficiente de correlación:

1. El coeficiente de correlación en valor absoluto no supera 1, es decir

Esta propiedad se deriva directamente de la fórmula (41): la definición del coeficiente de correlación y el teorema 13.5. (ver igualdad (40)).

2. Si las variables aleatorias
Y son independientes, el coeficiente de correlación actual es cero, es decir
.

Esta propiedad es una consecuencia directa de la igualdad (40) y el teorema 13.4.

Formulemos la siguiente propiedad como un teorema separado.

Teorema 12.4.

Si r.v.
Y están interconectados por una dependencia funcional lineal, es decir
Eso

donde

Y por el contrario, si
,
Eso s.v.
Y están interconectados por una dependencia funcional lineal, es decir hay constantes
Y
tal que se cumple la igualdad

Prueba. Dejar
Entonces Con base en la propiedad 4 de la covarianza, tenemos

y ya que, por lo tanto

Por eso,
. Se obtiene la igualdad en una dirección. dejar más
, Entonces

Se deben considerar dos casos: 1)
y 2)
Entonces, consideremos el primer caso. Entonces por definición
y por tanto de la igualdad
, Dónde
. En nuestro caso
, por lo tanto de la igualdad (ver la demostración del Teorema 13.5.)

=
,

entendemos eso
, Medio
es constante. Porque
y desde entonces
en realidad,

.

Por eso,


.

De manera similar, se demuestra que para
se lleva a cabo (¡compruébalo tú mismo!)

,
.

Algunas conclusiones:

1. Si
Y independientes.v., entonces

2. Si r.v.
Y están linealmente relacionados entre sí, entonces
.

3. En otros casos
:

En este caso dicen que r.v.
Y interconectado correlacion positiva, Si
en casos
correlación negativa. Cuanto más cerca
a uno, más razón para creer que r.v.
Y están conectados por una relación lineal.

Nótese que los momentos de correlación y las dispersiones del sistema de r.v. generalmente dado matriz de correlación:

.

Obviamente, el determinante de la matriz de correlación satisface:

Como ya se señaló, si dos variables aleatorias son dependientes, entonces pueden ser como correlacionado, entonces no correlacionado. En otras palabras, el momento de correlación de dos cantidades dependientes puede ser no igual a cero, pero tal vez igual a cero.

Ejemplo 1. La ley de distribución de un r.v discreto viene dada por la tabla.


Encuentra el coeficiente de correlación

Solución. Encontrar las leyes de distribución de componentes.
Y :


Ahora calculemos el m.o. componentes:

Estos valores se pueden encontrar a partir de la tabla de distribución de r.v.

Asimismo,
encuéntrelo usted mismo.

Calculemos las varianzas de los componentes y usemos la fórmula computacional:

Creemos una ley de distribución.
, y luego encontramos
:

Al compilar una tabla de la ley de distribución, se deben realizar los siguientes pasos:

1) dejar solo significados diferentes de todos los productos posibles
.

2) para determinar la probabilidad de un valor dado
, Necesitar

sumar todas las probabilidades correspondientes ubicadas en la intersección de la tabla principal que favorecen la ocurrencia de un valor dado.

En nuestro ejemplo, r.v. toma solo tres valores diferentes
. Aquí el primer valor (
) corresponde al producto
desde la segunda línea y
de la primera columna, por lo que en su intersección hay un número de probabilidad
similarmente

que se obtiene de la suma de las probabilidades ubicadas en las intersecciones de la primera fila y la primera columna, respectivamente (0,15; 0,40; 0,05) y un valor
, que está en la intersección de la segunda fila y la segunda columna, y finalmente,
, que está en la intersección de la segunda fila y la tercera columna.

De nuestra tabla encontramos:

Encontramos el momento de correlación usando la fórmula (38):

Encuentre el coeficiente de correlación usando la fórmula (41)

Por tanto, una correlación negativa.

Ejercicio. Ley de distribución de r.v. discreta. dado por tabla


Encuentra el coeficiente de correlación

Veamos un ejemplo donde hay dos variables aleatorias dependientes puede ser no correlacionado.

Ejemplo 2. Variable aleatoria bidimensional
)
dado por la función de densidad

Probemos que
Y dependiente , Pero no correlacionado variables aleatorias.

Solución. Utilicemos las densidades de distribución de los componentes previamente calculadas.
Y :

Desde entonces
Y cantidades dependientes. Probar no correlacionado
Y , basta con asegurarse de que

Encontremos el momento de correlación usando la fórmula:

Dado que la función diferencial
simétrico respecto al eje oy, Eso
similarmente
, debido a la simetría
relativo al eje BUEY. Por lo tanto, sacando un factor constante

La integral interna es igual a cero (el integrando es impar, los límites de integración son simétricos con respecto al origen), por lo tanto,
, es decir. variables aleatorias dependientes
Y no están correlacionados entre sí.

Entonces, de la correlación de dos variables aleatorias se desprende su dependencia, pero de la falta de correlación todavía es imposible concluir que estas variables sean independientes.

Sin embargo, para r.v. de distribución normal. tal conclusión es excepto aquellos. de no correlacionado Normalmente distribuido s.v. los fluye independencia.

El siguiente párrafo está dedicado a esta cuestión.

Los momentos de correlación, el coeficiente de correlación son características numéricas que están estrechamente relacionadas con el concepto de variable aleatoria introducido anteriormente, o más precisamente con un sistema de variables aleatorias. Por tanto, para introducir y definir su significado y función, es necesario explicar el concepto de sistema de variables aleatorias y algunas propiedades inherentes a ellas.

Dos o más variables aleatorias que describen un determinado fenómeno se denominan sistema o complejo de variables aleatorias.

Un sistema de varias variables aleatorias X, Y, Z,…, W generalmente se denota por (X, Y, Z,…, W).

Por ejemplo, un punto en un plano no se describe por una coordenada, sino por dos, y en el espacio, incluso por tres.

Las propiedades de un sistema de varias variables aleatorias no se limitan a las propiedades de las variables aleatorias individuales incluidas en el sistema, sino que también incluyen conexiones mutuas (dependencias) entre variables aleatorias. Por tanto, al estudiar un sistema de variables aleatorias, se debe prestar atención a la naturaleza y el grado de dependencia. Esta dependencia puede ser más o menos pronunciada, más o menos estrecha. Y en otros casos, las variables aleatorias resultan prácticamente independientes.

Se dice que una variable aleatoria Y es independiente de una variable aleatoria X si la ley de distribución de la variable aleatoria Y no depende del valor de X.

Cabe señalar que la dependencia e independencia de las variables aleatorias es siempre un fenómeno mutuo: si Y no depende de X, entonces el valor de X no depende de Y. Teniendo esto en cuenta, podemos dar la siguiente definición de independencia. de variables aleatorias.

Las variables aleatorias X e Y se llaman independientes si la ley de distribución de cada una de ellas no depende del valor que tome la otra. De lo contrario, las cantidades X e Y se denominan dependientes.

La ley de distribución de una variable aleatoria es cualquier relación que establece una conexión entre los posibles valores de una variable aleatoria y las probabilidades correspondientes.

El concepto de "dependencia" de variables aleatorias, que se utiliza en la teoría de la probabilidad, es algo diferente del concepto habitual de "dependencia" de variables, que se utiliza en matemáticas. Por tanto, un matemático entiende por "dependencia" sólo un tipo de dependencia: la llamada dependencia funcional, completa y rígida. Dos cantidades X e Y se denominan funcionalmente dependientes si, conociendo el valor de una de ellas, se puede determinar con precisión el valor de la otra.

En la teoría de la probabilidad, nos encontramos con un tipo de dependencia ligeramente diferente: la dependencia probabilística. Si el valor Y está relacionado con el valor X mediante una dependencia probabilística, entonces, conociendo el valor de X, es imposible indicar con precisión el valor de Y, pero se puede indicar su ley de distribución, dependiendo del valor que tenga el valor X. tomado.

La relación probabilística puede ser más o menos estrecha; A medida que aumenta la rigidez de la dependencia probabilística, se acerca cada vez más a la funcional. Por tanto, la dependencia funcional puede considerarse como un caso extremo y límite de la dependencia probabilística más cercana. Otro caso extremo es la total independencia de las variables aleatorias. Entre estos dos casos extremos se encuentran todas las gradaciones de dependencia probabilística, desde la más fuerte hasta la más débil.

En la práctica se encuentra a menudo la dependencia probabilística entre variables aleatorias. Si las variables aleatorias X e Y están en una relación probabilística, esto no significa que con un cambio en el valor de X, el valor de Y cambia de una manera completamente definida; esto sólo significa que con un cambio en el valor de X, el valor de Y

tiende a cambiar también (aumentar o disminuir a medida que X aumenta). Esta tendencia se observa sólo en términos generales y en cada caso individual es posible que se produzcan desviaciones.

Ejemplos de dependencia probabilística.

Seleccionemos al azar un paciente con peritonitis. La variable aleatoria T es el tiempo desde el inicio de la enfermedad, la variable aleatoria O es el nivel de alteraciones homeostáticas. Existe una relación clara entre estos valores, ya que el valor T es una de las razones más importantes para determinar el valor O.

Al mismo tiempo, existe una relación probabilística más débil entre la variable aleatoria T y la variable aleatoria M, que refleja la mortalidad en una determinada patología, ya que la variable aleatoria, aunque influye en la variable aleatoria O, no es el principal determinante.

Además, si consideramos el valor T y el valor B (la edad del cirujano), estos valores son prácticamente independientes.

Hasta ahora hemos discutido las propiedades de los sistemas de variables aleatorias, dando sólo una explicación verbal. Sin embargo, existen características numéricas a través de las cuales se estudian las propiedades tanto de variables aleatorias individuales como de un sistema de variables aleatorias.

Una de las características más importantes de una variable aleatoria de distribución normal es su expectativa matemática.

Considere una variable aleatoria discreta X que tiene valores posibles X 1, X2, ... , xn con probabilidades p1, p2, ... , рn. Necesitamos caracterizar con algún número la posición de los valores de una variable aleatoria en el eje de abscisas, teniendo en cuenta que estos valores tienen diferentes significados. Para ello suelen utilizar la denominada “media ponderada” de los valores Xi y cada valor Xi al promediar se debe tener en cuenta con un “peso” proporcional a la probabilidad de este valor. Así, si denotamos el “promedio ponderado” por M[X] o mx, obtenemos

o, dado que,

La expectativa matemática de una variable aleatoria es la suma de los productos de todos los valores posibles de una variable aleatoria y las probabilidades de estos valores.

Para mayor claridad, consideremos una interpretación mecánica del concepto introducido. Dejemos que los puntos con abscisas x 1 se ubiquen en el eje de abscisas, x2, …, xn, en el que las masas se concentran respectivamente p1, p2, … , рn, y. Entonces la expectativa matemática no es más que la abscisa del centro de gravedad de un determinado sistema de puntos materiales.

La fórmula (1) para la expectativa matemática corresponde al caso de una variable aleatoria discreta. Para un valor continuo X, la expectativa matemática, naturalmente, no se expresa como una suma, sino como una integral:

donde es la densidad de distribución del valor X.

La fórmula (2) se obtiene de la fórmula (1) si reemplazamos los valores individuales en ella Xi cambiando continuamente el parámetro X, las probabilidades correspondientes Pi elemento de probabilidad f(x)dx, la suma final - una integral.

En la interpretación mecánica, la expectativa matemática de una variable aleatoria continua conserva el mismo significado: la abscisa del centro de gravedad en el caso en que la distribución de masa a lo largo de la abscisa es continua con la densidad f(x).

Cabe señalar que no existe una expectativa matemática para todas las variables aleatorias, lo que, sin embargo, según algunos científicos, no es de gran interés para la práctica.

Además de la expectativa matemática, también son importantes otras variables numéricas aleatorias (los momentos).

El concepto de momento es muy utilizado en mecánica para describir la distribución de masas (momentos estadísticos, momentos de inercia, etc.). En la teoría de la probabilidad se utilizan exactamente las mismas técnicas para describir las propiedades básicas de la distribución de una variable aleatoria. Muy a menudo, en la práctica se utilizan dos tipos de momentos: inicial y central.

El momento inicial de orden s de una variable aleatoria discontinua X es una suma de la forma

Evidentemente, esta definición coincide con la definición del momento inicial de orden s en mecánica, si en el eje de abscisas en los puntos x 1, ..., xn masa concentrada p1, …, рn.

Para una variable aleatoria continua X, el momento inicial de orden s se llama integral

Es obvio que

aquellos. el momento inicial del enésimo orden de una variable aleatoria X no es más que la expectativa matemática del enésimo grado de esta variable aleatoria.

Antes de definir el momento central, introducimos el concepto de "variable aleatoria centrada".

Sea una variable aleatoria X con expectativa matemática m x . Una variable aleatoria centrada correspondiente al valor X es la desviación de la variable aleatoria X de su expectativa matemática

Es fácil ver que la expectativa matemática de una variable aleatoria centrada es igual a cero.

Centrar una variable aleatoria equivale a mover el origen de coordenadas a un punto cuya abscisa sea igual a la expectativa matemática.

El momento central de orden s de una variable aleatoria X es la expectativa matemática del enésimo grado de la variable aleatoria centrada correspondiente:

Para una variable aleatoria discontinua, el momento central se expresa mediante la suma

y para continuo - por la integral

De suma importancia es el segundo momento central, que se llama dispersión y se denota D[X]. Para la varianza tenemos

La dispersión de una variable aleatoria es una característica de la dispersión, la dispersión de los valores de una variable aleatoria alrededor de su expectativa matemática. La palabra "dispersión" en sí misma significa "dispersión".

La interpretación mecánica de la dispersión no es más que el momento de inercia de una determinada distribución de masa con respecto al centro de gravedad.

En la práctica, la cantidad también se utiliza a menudo.

llamada desviación estándar (también conocida como “estándar”) de la variable aleatoria X.

Pasemos ahora a considerar las características de los sistemas de variables aleatorias.

El momento inicial de orden k,s del sistema (X, Y) es la esperanza matemática del producto X k e Y s,

xk=M.

El momento central de orden k,s de un sistema (X, Y) es la expectativa matemática del producto de las potencias k-ésima y s-ésima de las correspondientes cantidades centradas:

Para variables aleatorias discontinuas

donde p ij es la probabilidad de que el sistema (X, Y) tome los valores ( xi, yj), y la suma se considera sobre todos los valores posibles de las variables aleatorias X,Y.

Para variables aleatorias continuas

donde f(x,y) es la densidad de distribución del sistema.

Además de los números k y s, que caracterizan el orden del momento en relación con cantidades individuales, también se considera el orden total del momento k + s, igual a la suma de los exponentes de X e Y. el orden total, los momentos se clasifican en primero, segundo, etc. En la práctica, normalmente sólo se aplican el primer y el segundo momento.

Los primeros momentos iniciales representan las expectativas matemáticas de los valores X e Y incluidos en el sistema.

y1.0=mx y0.1=mi.

Conjunto de expectativas matemáticas m x , mi es una característica de la posición del sistema. Geométricamente, estas son las coordenadas del punto medio del plano alrededor del cual se dispersa el punto (X, Y).

Los segundos momentos centrales de los sistemas también juegan un papel importante en la práctica. Dos de ellos representan las variaciones de los valores X e Y.

caracterizando la dispersión de un punto aleatorio en la dirección de los ejes Ox y Oy.

El segundo momento central desplazado juega un papel especial:

llamado momento de correlación (de lo contrario, el "momento de conexión") de las variables aleatorias X e Y.

El momento de correlación es una característica de un sistema de variables aleatorias que describe, además de la dispersión de los valores X e Y, también la conexión entre ellos. Para verificar esto, observamos que el momento de correlación de las variables aleatorias independientes es igual a cero.

Tenga en cuenta que el momento de correlación caracteriza no solo la dependencia de las cantidades, sino también su dispersión. Por tanto, para caracterizar la relación entre cantidades (X;Y) en su forma pura, pasamos del momento K xy a la característica

Dónde yx, yy- desviaciones estándar de los valores X e Y. Esta característica se denomina coeficiente de correlación de los valores X e Y.

De la fórmula (3) se desprende claramente que para variables aleatorias independientes el coeficiente de correlación es igual a cero, ya que para tales variables kxy=0.

Variables aleatorias para las cuales rxy=0, se denominan no correlacionados (no relacionados).

Sin embargo, tenga en cuenta que la naturaleza no correlacionada de las variables aleatorias no implica su independencia.

El coeficiente de correlación no caracteriza ninguna dependencia, sino sólo la denominada dependencia lineal. La dependencia probabilística lineal de las variables aleatorias es que cuando una variable aleatoria aumenta, la otra tiende a aumentar (o disminuir) según una ley lineal. Por tanto, el coeficiente de correlación caracteriza el grado de cercanía de la relación lineal entre variables aleatorias.

Existen varios métodos para determinar el coeficiente de correlación. Sin embargo, daremos un ejemplo utilizando el coeficiente de correlación de momento mixto de Pearson, donde

usando una tabla de datos (en nuestro ejemplo, el contenido relativo de linfocitos T en % y el nivel de IgG en g/l):

Sustituyendo los valores obtenidos en la fórmula (4), obtenemos

Es decir, el coeficiente de correlación de la dinámica de los linfocitos T y la inmunoglobulina G en niños con peritonitis es 0,9933, lo que indica una alta conexión entre estos indicadores.



¿Te gustó el artículo? ¡Compartir con tus amigos!