Covariance et coefficient de corrélation. Moment de corrélation, variables aléatoires continues, dépendance linéaire

4 pages (fichier Word)

Afficher toutes les pages


Fragment du texte de l'œuvre

pour les variables aléatoires discrètes Xi Y et

, y)dxdy

pour les variables aléatoires continues,

Le moment de corrélation sert à caractériser la relation entre des variables aléatoires. En particulier, pour les variables aléatoires indépendantes X et Y, le moment de corrélation Cxy est égal à zéro.

Par définition, le moment de corrélation a une dimension égale au produit des dimensions des quantités X et Y. Cela signifie que l'amplitude du moment de corrélation dépend des unités de mesure des variables aléatoires. Par exemple, si en mesurant les valeurs de X et Y en centimètres, le résultat est C. » 2 cm2, puis en mesurant X et Y en millimètres, nous obtenons Cxy = 200 mm2. Cette dépendance du moment de corrélation par rapport aux unités de mesure rend difficile la comparaison de différents systèmes de variables aléatoires. Pour éliminer cet inconvénient, une caractéristique sans dimension rry de la relation entre les quantités X et Y, appelée coefficient de corrélation, est introduite :

Si les variables aléatoires X et Y sont indépendantes, alors r", = O. Si les variables aléatoires X et Y sont liées par la dépendance linéaire exacte Y = ax + b, alors rxy = l pour a>O et b. = - pour a z O. En général, la double inégalité -1 S rxyS est vraie

La propriété d'indépendance de deux variables aléatoires X et Y dans le cas général n'est pas équivalente à leur décorrélation (c'est-à-dire l'égalité rn. = 0). Cependant, pour les composantes normalement distribuées d’une variable aléatoire bidimensionnelle, cela est vrai.

La loi de distribution d'un système de deux variables aléatoires discrètes (X, A est donnée par le tableau suivant

) lois de distribution des variables aléatoires X et Y ;

2) la loi de distribution conditionnelle de la variable aléatoire X, à condition que Y = 1 ;

3) les attentes mathématiques IH), Ts U) et le centre de dispersion ;

4) dispersions de D(X) et DUE ;

5) moment de corrélation Cdu et coefficient de corrélation b.

1. En additionnant les probabilités le long des lignes, on obtient les probabilités des valeurs possibles de la variable aléatoire X : = 0,4, p(l) = 0,2, p(4) = 0,4. Par conséquent, la loi de distribution de la valeur X a la forme suivante

Vérifiez : 0,4 + 1.

En additionnant les probabilités à travers les colonnes, nous obtenons les probabilités des valeurs possibles de la variable aléatoire Y : = 0,1, p(l) = 0,3, AZ) = 0,6. Écrivons la loi de distribution de la quantité Y

Vérifier : (),l + 0,3 + 0,6 =

2.
Trouvons les probabilités conditionnelles pour la variable aléatoire X, à condition que Y = Y-2 = 1 : p(-l f 1) = -P12

Puisque la distribution (X 1 Y = 1) a le tableau suivant

H. Sur la base de la définition, nous calculons les attentes mathématiques :

5. Créons un tableau du système de variables aléatoires centrifugées

x, Y, où Y = Y-t = Y -1,9

Calculons le moment de corrélation :

(-3,9) 0-2,4 (-0,9)

Un système de deux variables aléatoires continues (X, Y) a une distribution uniforme dans la région D = « x, y) - S x S 3, O S y S x + l).

) densité de distribution ;

2) probabilité Ch X, Y) de toucher la zone

3) densités A(x) et Ku) de la distribution des variables aléatoires X et Y, ainsi que densités conditionnelles et y(ylx) ;

4) fonctions et F20) distributions de variables aléatoires X et Y ;

5) les attentes mathématiques M(X) et le centre de dispersion ;

6) dispersion et TSU);

7) moment de corrélation Sl. et coefficient de corrélation

1. Par condition, la fonction de densité a la forme a, si -lSxS3 et 0SySx+l, O, si (x, y) E D

Pour trouver le paramètre a, nous utilisons la relation f(x, y)dy.dy = , où le domaine d'intégration D est représenté sur la Fig. 7.

La région D est délimitée à gauche et à droite par les droites x = -1 et x = 3, et en bas et au-dessus par les droites O et Y2(x) = x + 1. En passant à l'intégrale répétée, on a :

3

fady= gaur X +1 D = fa(x + l)dx =

8a. Puisque 8a = 1, ALORS une fonction z- et DENSITÉ 8

ressemble à

-, Si

Oh, si (x,y) E).

2. Représentons la région G, qui est un cercle de rayon 2 dont le centre est le point (2, O) (voir Fig. 8). Puisque la fonction Ax, y) est égale à zéro en dehors

3. Trouvons les densités A(x) et limon :

C'est pourquoi

Ainsi,

Pour O S y S 4 nous obtenons de la même manière

COMITÉ D'ÉTAT POUR LA SCIENCE ET LA TECHNOLOGIE DE LA RÉPUBLIQUE D'AZERBAÏDJAN

CENTRE DE RECHERCHE ET DE FORMATION DE BAKOU

ÉTUDIANT DIPLÔMÉ DU DÉPARTEMENT DE CHIRURGIE PÉDIATRIQUE

AMU du nom de N. NARIMANOV

MUKHTAROVA EMIL GASAN ogly

MOMENTS DE CORRÉLATION. COEFFICIENT DE CORRÉLATION

INTRODUCTION

Théorie des probabilités est une science mathématique qui étudie les modèles de phénomènes aléatoires.

Qu’entend-on par phénomènes aléatoires ?

Dans l'étude scientifique des problèmes physiques et techniques, on rencontre souvent des phénomènes d'un type particulier, communément appelés aléatoires. Phénomène aléatoire- c'est un phénomène qui, lorsque la même expérience est répétée à plusieurs reprises, se déroule quelque peu différemment.

Donnons un exemple de phénomène aléatoire.

Le même corps est pesé plusieurs fois sur une balance analytique : les résultats des pesées répétées sont quelque peu différents les uns des autres. Ces différences sont dues à l'influence de divers facteurs mineurs accompagnant l'opération de pesée, tels que les vibrations aléatoires de l'équipement, les erreurs de lecture de l'instrument, etc.

Il est évident qu’il n’existe pas un seul phénomène physique dans la nature dans lequel des éléments aléatoires ne seraient pas présents à un degré ou à un autre. Même si les conditions expérimentales sont fixées avec précision et en détail, il est impossible de garantir que lorsque l'expérience est répétée, les résultats coïncident complètement et exactement.

Les accidents accompagnent inévitablement tout phénomène naturel. Cependant, dans un certain nombre de problèmes pratiques, ces éléments aléatoires peuvent être négligés, considérant son schéma simplifié au lieu d'un phénomène réel, c'est-à-dire : modèle, et en supposant que dans les conditions expérimentales données, le phénomène se déroule d'une manière très définie. Dans le même temps, parmi les innombrables facteurs qui influencent ce phénomène, on distingue les plus importants, les plus fondamentaux et les plus décisifs. L’influence d’autres facteurs mineurs est tout simplement négligée. Lors de l'étude de modèles dans le cadre d'une certaine théorie, les principaux facteurs influençant un phénomène particulier sont inclus dans les concepts ou définitions avec lesquels fonctionne la théorie en question.

Comme toute science développant une théorie générale d’un ensemble de phénomènes, la théorie des probabilités contient également un certain nombre de concepts de base sur lesquels elle se fonde. Naturellement, tous les concepts de base ne peuvent pas être définis de manière stricte, car définir un concept signifie le réduire à d’autres, plus connus. Ce processus doit être fini et se terminer par des concepts primaires qui sont seulement expliqués.

L’un des premiers concepts de la théorie des probabilités est le concept d’événement.

Sous événement tout fait qui peut ou non se produire à la suite de l'expérience est compris.

Donnons des exemples d'événements.

A - la naissance d'un garçon ou d'une fille ;

B - sélection de l'une ou l'autre ouverture dans une partie d'échecs ;

C - appartenant à l'un ou l'autre signe du zodiaque.

En considérant les événements ci-dessus, nous voyons que chacun d’eux a un certain degré de possibilité : certains plus grands, d’autres moins. Afin de comparer quantitativement les événements entre eux selon leur degré de possibilité, il est évidemment nécessaire d'associer à chaque événement un certain nombre, qui est d'autant plus grand que l'événement est possible. Ce nombre s'appelle la probabilité d'un événement. Ainsi, la probabilité d'un événement est une caractéristique numérique du degré de possibilité objective d'un événement.

L'unité de probabilité est considérée comme la probabilité d'un événement fiable égale à 1, et la plage de changements dans les probabilités de tout événement est un nombre de 0 à 1.

La probabilité est généralement désignée par la lettre P.

Regardons l'exemple de l'éternel problème du Hamlet de Shakespeare « être ou ne pas être ? Comment déterminer la probabilité d’un événement ?

Il est bien évident qu'une personne, un objet et tout autre phénomène peuvent être dans l'un des deux états suivants : présence (« être ») et absence (« ne pas être »). Autrement dit, il y a deux événements possibles, mais un seul peut se produire. Cela signifie que la probabilité d'existence, par exemple, est de 1/2.

Outre le concept d'événement et de probabilité, l'un des principaux concepts de la théorie des probabilités est le concept de variable aléatoire.

Variable aléatoire est une quantité qui, à la suite de l'expérience, peut prendre telle ou telle valeur, et on ne sait pas à l'avance laquelle.

Les variables aléatoires qui prennent uniquement des valeurs distinctes les unes des autres et qui peuvent être listées à l'avance sont appelées variables aléatoires continues ou discrètes.

Par exemple:

1. Nombre de patients survivants et décédés.

2. Le nombre total d’enfants parmi les patients admis à l’hôpital pendant la nuit.

Les variables aléatoires dont les valeurs possibles remplissent continuellement un certain intervalle sont appelées variables aléatoires continues.

Par exemple, erreur de pesée sur une balance analytique.

Notez que la théorie moderne des probabilités fonctionne principalement avec des variables aléatoires, plutôt qu’avec des événements, sur lesquels la théorie « classique » des probabilités était principalement basée.

MOMENTS DE CORRÉLATION. COEFFICIENT DE CORRÉLATION.

Moments de corrélation, coefficient de corrélation - ce sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire introduite ci-dessus, ou plus précisément à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un phénomène sont appelées système ou complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins étroite. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

La variable aléatoire Y est appelée indépendantà partir d'une variable aléatoire X, si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur que X a prise.

Il est à noter que la dépendance et l'indépendance des variables aléatoires sont toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur X ne dépend pas de Y. Compte tenu de cela, on peut donner la définition suivante de l'indépendance de variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que prend l'autre. Sinon, les valeurs de X et Y sont appelées dépendant.

Loi de répartition Une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et leurs probabilités correspondantes.

Le concept de « dépendance » des variables aléatoires, utilisé en théorie des probabilités, est quelque peu différent du concept habituel de « dépendance » des variables, utilisé en mathématiques. Ainsi, un mathématicien par « dépendance » entend un seul type de dépendance : la dépendance complète, rigide, dite fonctionnelle. Deux quantités X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, vous pouvez déterminer avec précision la valeur de l'autre.

En théorie des probabilités, il existe un type de dépendance légèrement différent : dépendance probabiliste. Si la valeur Y est liée à la valeur X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de la valeur de la valeur X. pris.

La relation probabiliste peut être plus ou moins étroite ; À mesure que la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de dépendance probabiliste la plus proche. Un autre cas extrême est l’indépendance totale des variables aléatoires. Entre ces deux cas extrêmes se situent tous les degrés de dépendance probabiliste – du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée dans la pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change d'une manière tout à fait définie ; cela signifie seulement qu'avec un changement dans la valeur de X, la valeur de Y

a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée que de manière générale et des écarts sont possibles dans chaque cas individuel.

Exemples de dépendance probabiliste.

Sélectionnons au hasard un patient atteint de péritonite. la variable aléatoire T est le temps écoulé depuis le début de la maladie, la variable aléatoire O est le niveau de troubles homéostatiques. Il existe une relation claire entre ces valeurs, puisque la valeur T est l’une des raisons les plus importantes déterminant la valeur O.

Dans le même temps, il existe une relation probabiliste plus faible entre la variable aléatoire T et la variable aléatoire M, qui reflète la mortalité dans une pathologie donnée, puisque la variable aléatoire, bien qu'elle influence la variable aléatoire O, n'est pas le déterminant principal.

De plus, si l'on considère la valeur T et la valeur B (l'âge du chirurgien), alors ces valeurs sont pratiquement indépendantes.

Jusqu’à présent, nous avons discuté des propriétés des systèmes de variables aléatoires, en ne donnant qu’une explication verbale. Cependant, il existe des caractéristiques numériques grâce auxquelles les propriétés des variables aléatoires individuelles et d'un système de variables aléatoires sont étudiées.

Pour caractériser la corrélation entre grandeurs, le moment de correction et le coefficient de corrélation sont utilisés.

Définition 2. Moment de corrélationµ xy des variables aléatoires X et Y est l'espérance mathématique du produit des écarts de ces variables

Pour calculer le moment de corrélation de quantités discrètes, l'expression est utilisée

(3.12)

et pour les continus – l'expression

(3.13)

Remarque. Le moment de corrélation µ xy peut être réécrit sous la forme

(3.14)

En effet, en utilisant les propriétés de l'espérance mathématique (voir §§ 2.2 ; 2.6), on a

Théorème. Le moment de corrélation de deux variables aléatoires indépendantes X et Y est égal à zéro.

Preuve. D'après la remarque

et puisque X et Y sont des variables aléatoires indépendantes, alors (voir §§ 2.2 ; 2.6)

et donc µxy =0.

De la définition du moment de corrélation, il résulte qu'il a une dimension égale au produit des dimensions des quantités X et Y, c'est-à-dire sa valeur dépend des unités de mesure des variables aléatoires. Par conséquent, pour les deux mêmes grandeurs, l'amplitude du moment de corrélation peut avoir des valeurs différentes selon les unités dans lesquelles les grandeurs ont été mesurées. Pour éliminer cet inconvénient, nous avons convenu de prendre une quantité sans dimension comme mesure de la relation (dépendance) de deux variables aléatoires X et Y.

σ x = σ (X), σ y = σ (Y), appelé Coefficient de corrélation.

Exemple 1. Soit une variable aléatoire discrète bidimensionnelle (X,Y) spécifiée par la loi de distribution :

et donc,

En additionnant les probabilités dans les colonnes, on retrouve les probabilités des valeurs possibles de Y :

D'où la loi de répartition Y :

Oui
p 1\3 1\2 1\6

et donc,

Ainsi,

Ainsi, le coefficient de corrélation

Théorème. La valeur absolue du moment de corrélation de deux variables aléatoires ne dépasse pas le produit de leurs écarts types :

Preuve. Présentation de la variable aléatoire Trouvons sa variance. Nous avons

(tout écart est non négatif). D'ici

En saisissant une variable aléatoire , de même nous trouverons

En conséquence nous avons

Définition 2. Variables aléatoires X et Y sont dits non corrélés si = 0, et corrélés si

Exemple 1. Variables aléatoires indépendantes X et Y ne sont pas corrélés, puisque du fait de la relation (3.12) = 0.

Exemple 2. Laissez les variables aléatoires X Et Oui sont reliés par une dépendance linéaire. Trouvons le coefficient de corrélation. Nous avons:

Ainsi, le coefficient de corrélation des variables aléatoires liées par une dépendance linéaire est égal à ±1 (plus précisément =1 si A>0 et =-1 si UN<0).

Notons quelques propriétés du coefficient de corrélation.

De l'exemple 1, il résulte :

1) Si X et Y sont des variables aléatoires indépendantes, alors le coefficient de corrélation est nul.

Notez que l’affirmation inverse est, d’une manière générale, fausse. (Pour preuve, voir l'ouvrage.)

2) La valeur absolue du coefficient de corrélation ne dépasse pas l'unité :

En effet, en divisant les deux côtés de l’inégalité (3.16) par le produit , on arrive à l'inégalité souhaitée.

3) Comme le montre la formule (3.15) prenant en compte la formule (3.14), le coefficient de corrélation caractérise l'ampleur relative de l'écart de l'espérance mathématique du produit par rapport au produit des espérances mathématiques M(X) M(Y) quantités X Et Y. Puisque cet écart ne se produit que pour les quantités dépendantes, on peut dire que Le coefficient de corrélation caractérise l'étroitesse de la relation entre X et Y.

3. Corrélation linéaire. Ce type de corrélation est assez courant.

Définition. Dépendance de corrélation entre variables aléatoires. X et Y appelé corrélation linéaire, si les deux fonctions de régression sont linéaires. Dans ce cas, les deux droites de régression sont droites ; elles sont appelées régressions directes.

Dérivons les équations de régression directe Oui sur X, ceux. trouvons le coefficient de la fonction linéaire

Notons M(X) = une, M(Y)= b, M[(X - a) 2 ]= , M[(Oui –b 2)]= . En utilisant les propriétés de MO (§§ 2.2 ; 2.6) on trouve :

M(Oui) = M= M(AX + B) = AM(X) + B,

ceux. b = Aa + B,B=b-Aa.

M(XY)= M[Xg(X)\= M(AX 2 + BX) = AM(X 2) + BM(X)= AM(X 2) + (b- Aa)a,

ou, selon la propriété 1 de dispersion (§§ 2.3 ; 2.6),

Le coefficient résultant est appelé coefficient de régression Y sur X et est noté par :

Ainsi, l'équation de régression directe Oui sur X ressemble à

De même, on peut obtenir l'équation de régression directe de X sur Y

Pour décrire un système de deux variables aléatoires, en plus des attentes mathématiques et des variances des composants, d'autres caractéristiques sont utilisées, notamment moment de corrélation Et Coefficient de corrélation(brièvement mentionné à la fin de T.8.p.8.6) .

Moment de corrélation(ou covariance, ou moment de connexion) deux variables aléatoires X Et Oui appelé m.o. produit des écarts de ces quantités (voir égalité (5) clause 8.6) :

Corollaire 1. Pour le moment de corrélation r.v. X Et Oui les égalités suivantes sont également valables :

,

où le r.v. centralisé correspondant. X Et Oui (voir article 8.6.).

Dans ce cas : si
est un d.s.v. bidimensionnel, alors la covariance est calculée par la formule

(8)
;

Si
est un n.s.v. bidimensionnel, alors la covariance est calculée par la formule

(9)

Les formules (8) et (9) ont été obtenues sur la base des formules (6) du paragraphe 12.1. Il existe une formule de calcul

(10)

qui est dérivé de la définition (9) et basé sur les propriétés du MO, en effet,

Par conséquent, les formules (36) et (37) peuvent être réécrites sous la forme

(11)
;

Le moment de corrélation sert à caractériser la relation entre les quantités X Et Oui.

Comme nous le verrons ci-dessous, le moment de corrélation est égal à zéro si X Et Oui sont indépendant;

Par conséquent, si le moment de corrélation n’est pas égal à zéro, alorsXEtOuisont des variables aléatoires dépendantes.

Théorème 12.1.Moment de corrélation de deux variables aléatoires indépendantesXEtOuiest égal à zéro, c'est-à-dire pour rv indépendantXEtOui,

Preuve. Parce que X Et Oui variables aléatoires indépendantes, puis leurs écarts

Et

Tégalement indépendant. Utiliser les propriétés de l'espérance mathématique (l'espérance mathématique du produit des valeurs indépendantes est égale au produit des espérances mathématiques des facteurs
,
, C'est pourquoi

Commentaire. De ce théorème il résulte que si
puis s.v. X Et Oui dépendant et dans de tels cas r.v. X Et Oui appelé corrélé. Cependant, du fait que
ne suit pas l'indépendance r.v. X Et Oui.

Dans ce cas (
s.v. X Et Oui appelé non corrélé, Ainsi, de l’indépendance découle non corrélé; l'affirmation inverse est, d'une manière générale, fausse (voir l'exemple 2 ci-dessous.)

Considérons les principales propriétés du moment de corrélation.

Cpropriétés de covariance :

1. La covariance est symétrique, c'est-à-dire
.

Cela découle directement de la formule (38).

2. Il y a des égalités : c'est-à-dire dispersion r.v. est sa covariance avec lui-même.

Ces égalités découlent directement de la définition de la dispersion et de l'égalité (38), respectivement, pour

3. Les égalités suivantes sont valables :

Ces égalités sont dérivées de la définition de la variance et de la covariance de r.v.
Et , propriétés 2.

Par définition de dispersion (en tenant compte de la centralité de r.v.
) nous avons

Maintenant, sur la base de (33) et des propriétés 2 et 3, nous obtenons la première propriété (avec un signe plus) 3.

De même, la deuxième partie de la propriété 3 est dérivée de l'égalité

4. Laisser
nombres constants,
alors les égalités sont valables :

Habituellement, ces propriétés sont appelées propriétés d'homogénéité et de périodicité du premier ordre dans les arguments.

Démontrons la première égalité, et nous utiliserons les propriétés de m.o.
.

Théorème 12.2.Valeur absoluemoment de corrélation de deux variables aléatoires arbitrairesXEtOuine dépasse pas la moyenne géométrique de leurs variances : c'est-à-dire

Preuve. Notez que pour les r.v. indépendants. l'inégalité est vraie (voir Théorème 12.1.). Alors, laissez R.V. X Et Oui dépendant. Considérons le r.v. standard.
Et
et calculer la dispersion de r.v.
en tenant compte de la propriété 3, on a : d'une part
D'un autre côté

Par conséquent, compte tenu du fait que
Et - r.v. normalisé (standardisé), puis pour eux m.o. est égal à zéro et la variance est égale à 1, donc en utilisant la propriété de m.o.
on a

et donc, basé sur le fait que
on a

Il s'ensuit que c'est-à-dire

=

La déclaration a été prouvée.

De la définition et des propriétés de la covariance, il s'ensuit qu'elle caractérise à la fois le degré de dépendance des r.v et leur diffusion autour d'un point.
La dimension de covariance est égale au produit des dimensions des variables aléatoires X Et Oui. En d’autres termes, l’ampleur du moment de corrélation dépend des unités de mesure des variables aléatoires. Pour cette raison, pour les deux mêmes quantités X Et Oui, l'amplitude du moment de corrélation aura des valeurs différentes selon les unités dans lesquelles les valeurs ont été mesurées.

Laissez, par exemple, X Et Oui ont été mesurés en centimètres et
; si mesuré X Et Oui en millimètres, alors
Cette caractéristique du moment de corrélation constitue l'inconvénient de cette caractéristique numérique, car la comparaison des moments de corrélation de différents systèmes de variables aléatoires devient difficile.

Afin d'éliminer cet inconvénient, une nouvelle caractéristique numérique est introduite - " Coefficient de corrélation».

Coefficient de corrélation
Variables aléatoires
Et est appelé le rapport du moment de corrélation au produit des écarts types de ces grandeurs :

(13)
.

Depuis la dimension
égal au produit des dimensions des quantités
Et ,
a la dimension de la grandeur
σ oui a la dimension de la grandeur , Que
n'est qu'un nombre (c'est-à-dire " quantité sans dimension"). Ainsi, la valeur du coefficient de corrélation ne dépend pas du choix des unités de mesure de r.v., c'est avantage coefficient de corrélation avant le moment de corrélation.

Dans T.8. clause 8.3, nous avons introduit le concept normalisé s.v.
, formule (18), et le théorème a été prouvé que
Et
(Voir aussi Théorème 8.2.). Nous prouvons ici l’énoncé suivant.

Théorème 12.3. Pour deux variables aléatoires quelconques
Et l'égalité est vraie
.En d'autres termes, le coefficient de corrélation
deux quelconques avec
.V.XEtOuiégal au moment de corrélation de leur correspondant normalisé s.v.
Et .

Preuve. Par définition de variables aléatoires normalisées
Et

Et
.

Compte tenu de la propriété d'espérance mathématique : et l'égalité (40) on obtient

La déclaration a été prouvée.

Examinons quelques propriétés couramment rencontrées du coefficient de corrélation.

Propriétés du coefficient de corrélation :

1. Le coefficient de corrélation en valeur absolue ne dépasse pas 1, c'est-à-dire

Cette propriété découle directement de la formule (41) - la définition du coefficient de corrélation et du théorème 13.5. (voir égalité (40)).

2. Si des variables aléatoires
Et sont indépendants, le coefficient de corrélation actuel est nul, c'est-à-dire
.

Cette propriété est une conséquence directe de l'égalité (40) et du théorème 13.4.

Formulons la propriété suivante comme un théorème distinct.

Théorème 12.4.

Si r.v.
Et sont interconnectés par une dépendance fonctionnelle linéaire, c'est-à-dire
Que

Et au contraire, si
,
Que s.v.
Et sont interconnectés par une dépendance fonctionnelle linéaire, c'est-à-dire il y a des constantes
Et
de telle sorte que l'égalité soit vraie

Preuve. Laisser
Alors Basé sur la propriété 4 de covariance, nous avons

et puisque, , donc

Ainsi,
. L'égalité dans un sens est obtenue. Laissez plus loin
, Alors

deux cas doivent être considérés : 1)
et 2)
Considérons donc le premier cas. Alors par définition
et donc de l'égalité
, Où
. Dans notre cas
, donc de l'égalité (voir la preuve du théorème 13.5.)

=
,

nous comprenons ça
, Moyens
est constante. Parce que
et depuis
vraiment,

.

Ainsi,


.

De même, on montre que pour
a lieu (vérifiez-le vous-même !)

,
.

Quelques conclusions :

1. Si
Et indépendants.v., alors

2. Si le véhicule récréatif
Et sont linéairement liés les uns aux autres, alors
.

3. Dans d'autres cas
:

Dans ce cas, ils disent que r.v.
Et interconnecté correlation positive, Si
dans les cas
corrélation négative. Le plus proche
à un, raison de plus de croire que r.v.
Et sont reliés par une relation linéaire.

Notez que les moments de corrélation et les dispersions du système de r.v. habituellement donné matrice de corrélation:

.

Évidemment, le déterminant de la matrice de corrélation satisfait :

Comme déjà noté, si deux variables aléatoires sont dépendantes, alors elles peuvent être comme corrélé, donc sans corrélation. En d’autres termes, le moment de corrélation de deux grandeurs dépendantes peut être pas égal à zéro, mais peut-être égal à zéro.

Exemple 1. La loi de distribution d'un r.v discret est donnée par le tableau


Trouver le coefficient de corrélation

Solution. Trouver les lois de distribution des composants
Et :


Calculons maintenant le m.o. Composants:

Ces valeurs ont pu être trouvées sur la base du tableau de distribution r.v.

De même,
trouvez-le vous-même.

Calculons les variances des composants et utilisons la formule de calcul :

Créons une loi de distribution
, et puis nous trouvons
:

Lors de l'élaboration d'un tableau de la loi de répartition, vous devez effectuer les étapes suivantes :

1) ne laisser que des significations différentes à tous les produits possibles
.

2) pour déterminer la probabilité d'une valeur donnée
, besoin de

additionner toutes les probabilités correspondantes situées à l'intersection du tableau principal qui favorisent l'occurrence d'une valeur donnée.

Dans notre exemple, r.v. ne prend que trois valeurs différentes
. Ici la première valeur (
) correspond au produit
de la deuxième ligne et
de la première colonne, donc à leur intersection il y a un nombre de probabilité
de la même manière

qui est obtenu à partir de la somme des probabilités situées aux intersections de la première ligne et de la première colonne, respectivement (0,15 ; 0,40 ; 0,05) et d'une valeur
, qui se trouve à l'intersection de la deuxième ligne et de la deuxième colonne, et enfin,
, qui se trouve à l'intersection de la deuxième ligne et de la troisième colonne.

De notre tableau nous trouvons :

On trouve le moment de corrélation à l'aide de la formule (38) :

Trouvez le coefficient de corrélation à l'aide de la formule (41)

Donc une corrélation négative.

Exercice. Loi de distribution des r.v. discrets donné par tableau


Trouver le coefficient de corrélation

Regardons un exemple où il y a deux variables aléatoires dépendantes peut être sans corrélation.

Exemple 2. Variable aléatoire bidimensionnelle
)
donné par la fonction de densité

Prouvons que
Et dépendant , Mais non corrélé Variables aléatoires.

Solution. Utilisons les densités de distribution des composants précédemment calculées
Et :

Depuis lors
Et quantités dépendantes. Prouver non corrélé
Et , il suffit de s'assurer que

Trouvons le moment de corrélation à l'aide de la formule :

Puisque la fonction différentielle
symétrique par rapport à l'axe OY, Que
de la même manière
, en raison de la symétrie
par rapport à l'axe BŒUF. Par conséquent, en retirant un facteur constant

L'intégrale interne est égale à zéro (l'intégrande est impaire, les limites d'intégration sont symétriques par rapport à l'origine), donc,
, c'est à dire. variables aléatoires dépendantes
Et ne sont pas corrélés entre eux.

Ainsi, de la corrélation de deux variables aléatoires découle leur dépendance, mais de la non-corrélation il est encore impossible de conclure que ces variables sont indépendantes.

Cependant, pour les r.v. normalement distribués. une telle conclusion est sauf ceux. depuis non corrélé normalement distribué s.v. les fait couler indépendance.

Le paragraphe suivant est consacré à cette question.

Moments de corrélation, coefficient de corrélation sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire introduite ci-dessus, ou plus précisément à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un certain phénomène sont appelées un système ou un complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins étroite. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante d’une variable aléatoire X si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur que prend X.

Il est à noter que la dépendance et l'indépendance des variables aléatoires sont toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur X ne dépend pas de Y. Compte tenu de cela, on peut donner la définition suivante de l'indépendance de variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que prend l'autre. Sinon, les quantités X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et les probabilités correspondantes.

Le concept de « dépendance » des variables aléatoires, utilisé en théorie des probabilités, est quelque peu différent du concept habituel de « dépendance » des variables, utilisé en mathématiques. Ainsi, un mathématicien par « dépendance » entend un seul type de dépendance : la dépendance complète, rigide, dite fonctionnelle. Deux quantités X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, vous pouvez déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, nous rencontrons un type de dépendance légèrement différent : une dépendance probabiliste. Si la valeur Y est liée à la valeur X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de la valeur de la valeur X. pris.

La relation probabiliste peut être plus ou moins étroite ; À mesure que la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de dépendance probabiliste la plus proche. Un autre cas extrême est l’indépendance totale des variables aléatoires. Entre ces deux cas extrêmes se situent tous les degrés de dépendance probabiliste – du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée dans la pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change d'une manière tout à fait définie ; cela signifie seulement qu'avec un changement dans la valeur de X, la valeur de Y

a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée que de manière générale et des écarts sont possibles dans chaque cas individuel.

Exemples de dépendance probabiliste.

Sélectionnons au hasard un patient atteint de péritonite. la variable aléatoire T est le temps écoulé depuis le début de la maladie, la variable aléatoire O est le niveau de troubles homéostatiques. Il existe une relation claire entre ces valeurs, puisque la valeur T est l’une des raisons les plus importantes déterminant la valeur O.

Dans le même temps, il existe une relation probabiliste plus faible entre la variable aléatoire T et la variable aléatoire M, qui reflète la mortalité dans une pathologie donnée, puisque la variable aléatoire, bien qu'elle influence la variable aléatoire O, n'est pas le déterminant principal.

De plus, si l'on considère la valeur T et la valeur B (l'âge du chirurgien), alors ces valeurs sont pratiquement indépendantes.

Jusqu’à présent, nous avons discuté des propriétés des systèmes de variables aléatoires, en ne donnant qu’une explication verbale. Cependant, il existe des caractéristiques numériques grâce auxquelles les propriétés des variables aléatoires individuelles et d'un système de variables aléatoires sont étudiées.

L'une des caractéristiques les plus importantes d'une variable aléatoire d'une distribution normale est son espérance mathématique.

Considérons une variable aléatoire discrète X ayant des valeurs possibles X 1, X2, ... , Xn avec probabilités p1, p2, ... , рn. nous devons caractériser par un nombre la position des valeurs d'une variable aléatoire sur l'axe des abscisses, en tenant compte du fait que ces valeurs ont des significations différentes. À cette fin, ils utilisent généralement ce que l’on appelle la « moyenne pondérée » des valeurs XI, et chaque valeur XI lors de la moyenne, elle doit être prise en compte avec un « poids » proportionnel à la probabilité de cette valeur. Ainsi, si l’on note la « moyenne pondérée » par M[X] ou MX, on a

ou, étant donné que,

L'espérance mathématique d'une variable aléatoire est la somme des produits de toutes les valeurs possibles d'une variable aléatoire et des probabilités de ces valeurs.

Pour plus de clarté, considérons une interprétation mécanique du concept introduit. Soit les points d'abscisses x 1 situés sur l'axe des abscisses, x2, …, xn, dans lequel les masses sont concentrées respectivement p1, p2, … , рn, et. Alors l’espérance mathématique n’est rien d’autre que l’abscisse du centre de gravité d’un système donné de points matériels.

La formule (1) de l'espérance mathématique correspond au cas d'une variable aléatoire discrète. Pour une valeur continue X, l'espérance mathématique, naturellement, s'exprime non pas comme une somme, mais comme une intégrale :

où est la densité de distribution de la valeur X.

La formule (2) est obtenue à partir de la formule (1) si nous y remplaçons des valeurs individuelles XI paramètre X en constante évolution, les probabilités correspondantes piélément de probabilité f(x)dx, la somme finale - une intégrale.

Dans l'interprétation mécanique, l'espérance mathématique d'une variable aléatoire continue conserve le même sens - l'abscisse du centre de gravité dans le cas où la distribution de masse le long de l'abscisse est continue avec la densité f(x).

Il convient de noter que l'espérance mathématique n'existe pas pour toutes les variables aléatoires, ce qui, selon certains scientifiques, ne présente toutefois pas d'intérêt significatif pour la pratique.

En plus de l’espérance mathématique, d’autres variables aléatoires numériques – les moments – sont également importantes.

La notion de moment est largement utilisée en mécanique pour décrire la répartition des masses (moments statistiques, moments d'inertie, etc.). Exactement les mêmes techniques sont utilisées en théorie des probabilités pour décrire les propriétés fondamentales de la distribution d’une variable aléatoire. Le plus souvent, deux types de moments sont utilisés en pratique : initial et central.

Le moment initial du ième ordre d'une variable aléatoire discontinue X est une somme de la forme

Evidemment, cette définition coïncide avec la définition du moment initial d'ordre s en mécanique, si sur l'axe des abscisses aux points x 1, ..., xn masse concentrée p1, …, рn.

Pour une variable aléatoire continue X, le moment initial du ième ordre est appelé l'intégrale

Il est évident que

ceux. le moment initial du ième ordre d'une variable aléatoire X n'est rien de plus que l'espérance mathématique du ième degré de cette variable aléatoire.

Avant de définir le moment central, nous introduisons le concept de « variable aléatoire centrée ».

Soit une variable aléatoire X avec une espérance mathématique m x . Une variable aléatoire centrée correspondant à la valeur X est l'écart de la variable aléatoire X par rapport à son espérance mathématique

Il est facile de voir que l’espérance mathématique d’une variable aléatoire centrée est égale à zéro.

Centrer une variable aléatoire équivaut à déplacer l'origine des coordonnées vers un point dont l'abscisse est égale à l'espérance mathématique.

Le moment central d'ordre s d'une variable aléatoire X est l'espérance mathématique du ième degré de la variable aléatoire centrée correspondante :

Pour une variable aléatoire discontinue, le ième moment central est exprimé par la somme

et pour continu - par l'intégrale

Le deuxième moment central est de la plus haute importance, appelé dispersion et noté D[X]. Pour la variance que nous avons

La dispersion d'une variable aléatoire est une caractéristique de la dispersion, la dispersion des valeurs d'une variable aléatoire autour de son espérance mathématique. Le mot « dispersion » lui-même signifie « dispersion ».

L'interprétation mécanique de la dispersion n'est rien d'autre que le moment d'inertie d'une distribution de masse donnée par rapport au centre de gravité.

Dans la pratique, la quantité est aussi souvent utilisée

appelé écart type (autrement appelé « standard ») de la variable aléatoire X.

Passons maintenant à l'examen des caractéristiques des systèmes de variables aléatoires.

Le moment d'ordre initial k,s du système (X, Y) est l'espérance mathématique du produit de X k et Y s,

xk, s=M.

Le moment central d'ordre k,s du système (X, Y) est l'espérance mathématique du produit des k-ème et s-ème puissances des quantités centrées correspondantes :

Pour les variables aléatoires discontinues

où p ij est la probabilité que le système (X, Y) prenne les valeurs ( xi, yj), et la somme est considérée sur toutes les valeurs possibles des variables aléatoires X,Y.

Pour les variables aléatoires continues

où f(x,y) est la densité de distribution du système.

En plus des nombres k et s, qui caractérisent l'ordre du moment par rapport aux grandeurs individuelles, l'ordre total du moment k + s, égal à la somme des exposants de X et Y, est également considéré selon. l'ordre total, les moments sont classés en premier, deuxième, etc. En pratique, seuls les premier et deuxième instants sont généralement appliqués.

Les premiers instants initiaux représentent les attentes mathématiques des valeurs X et Y incluses dans le système

y1.0=MX y0.1= mon.

Ensemble d'attentes mathématiques m x , mon est une caractéristique de la position du système. Géométriquement, ce sont les coordonnées du milieu du plan autour duquel le point (X, Y) est dispersé.

Les seconds moments centraux des systèmes jouent également un rôle important dans la pratique. Deux d'entre eux représentent les variances des valeurs X et Y

caractérisant la diffusion d'un point aléatoire dans la direction des axes Ox et Oy.

Le deuxième moment central déplacé joue un rôle particulier :

appelé le moment de corrélation (sinon - le « moment de connexion ») des variables aléatoires X et Y.

Le moment de corrélation est une caractéristique d'un système de variables aléatoires qui décrit, outre la dispersion des valeurs X et Y, également la connexion entre elles. Afin de vérifier cela, notons que le moment de corrélation des variables aléatoires indépendantes est égal à zéro.

A noter que le moment de corrélation caractérise non seulement la dépendance des grandeurs, mais aussi leur dispersion. Ainsi, pour caractériser la relation entre les grandeurs (X;Y) sous sa forme pure, on passe de l'instant K xy à la caractéristique

yx, aaa- les écarts types des valeurs X et Y. Cette caractéristique est appelée coefficient de corrélation des valeurs X et Y.

D'après la formule (3), il est clair que pour les variables aléatoires indépendantes, le coefficient de corrélation est égal à zéro, puisque pour de telles variables kxy=0.

Variables aléatoires pour lesquelles rxy=0, sont appelés non corrélés (non liés).

Notons cependant que le caractère non corrélé des variables aléatoires n’implique pas leur indépendance.

Le coefficient de corrélation ne caractérise aucune dépendance, mais uniquement la dépendance dite linéaire. La dépendance probabiliste linéaire des variables aléatoires est que lorsqu'une variable aléatoire augmente, l'autre tend à augmenter (ou diminuer) selon une loi linéaire. Ainsi, le coefficient de corrélation caractérise le degré de proximité de la relation linéaire entre variables aléatoires.

Il existe plusieurs méthodes pour déterminer le coefficient de corrélation. Cependant, nous donnerons un exemple utilisant le coefficient de corrélation des moments mixtes de Pearson, où

à l'aide d'un tableau de données (dans notre exemple, la teneur relative en lymphocytes T en % et le taux d'IgG en g/l) :

En substituant les valeurs obtenues dans la formule (4), on obtient

C'est-à-dire que le coefficient de corrélation de la dynamique des lymphocytes T et de l'immunoglobuline G chez les enfants atteints de péritonite est de 0,9933, ce qui indique un lien élevé entre ces indicateurs.



Avez-vous aimé l'article? Partage avec tes amis!