Coefficient de régression pour la variable x. Bases de l'analyse des données

Calcul des coefficients de l'équation de régression

Le système d'équations (7.8) basé sur l'ED disponible ne peut pas être résolu sans ambiguïté, car le nombre d'inconnues est toujours supérieur au nombre d'équations. Pour surmonter ce problème, des hypothèses supplémentaires sont nécessaires. Le bon sens veut : il convient de choisir les coefficients du polynôme de manière à assurer une erreur minimale d'approximation de l'ED. Diverses mesures peuvent être utilisées pour évaluer les erreurs d’approximation. L’erreur quadratique moyenne est largement utilisée comme mesure. Sur cette base, une méthode spéciale d'estimation des coefficients des équations de régression a été développée - la méthode des moindres carrés (LSM). Cette méthode vous permet d'obtenir des estimations du maximum de vraisemblance des coefficients inconnus de l'équation de régression sous l'option de distribution normale, mais elle peut être utilisée pour toute autre distribution de facteurs.

Le MNC repose sur les dispositions suivantes :

· les valeurs des valeurs d'erreur et des facteurs sont indépendantes, et donc décorrélées, c'est-à-dire on suppose que les mécanismes de génération d'interférences ne sont pas liés au mécanisme de génération de valeurs de facteurs ;

· l'espérance mathématique de l'erreur ε doit être égale à zéro (la composante constante est incluse dans le coefficient un 0), autrement dit, l’erreur est une grandeur centrée ;

· l'estimation par échantillon de la variance de l'erreur doit être minimale.

Considérons l'utilisation des MCO en relation avec la régression linéaire de valeurs standardisées. Pour les grandeurs centrées tu j coefficient un 0 est égal à zéro, alors les équations de régression linéaire

. (7.9)

Un signe spécial « ^ » a été introduit ici pour désigner les valeurs de l'indicateur calculées à l'aide de l'équation de régression, contrairement aux valeurs obtenues à partir des résultats d'observation.

En utilisant la méthode des moindres carrés, de telles valeurs des coefficients de l'équation de régression sont déterminées qui fournissent un minimum inconditionnel à l'expression

Le minimum est trouvé en assimilant à zéro toutes les dérivées partielles de l'expression (7.10), prises en compte les coefficients inconnus, et en résolvant le système d'équations

(7.11)

Effectuer systématiquement les transformations et utiliser les estimations des coefficients de corrélation introduites précédemment

. (7.12)

Donc reçu T–1 équations linéaires, qui permettent de calculer sans ambiguïté les valeurs une 2 , une 3 , …, une t.

Si le modèle linéaire est inexact ou si les paramètres sont mesurés de manière inexacte, alors dans ce cas, la méthode des moindres carrés nous permet de trouver les valeurs des coefficients pour lesquelles le modèle linéaire décrit le mieux l'objet réel dans le sens de l'écart type sélectionné. critère.

Lorsqu’il n’y a qu’un seul paramètre, l’équation de régression linéaire devient

Coefficient un 2 se trouve à partir de l’équation

Alors, étant donné que r 2.2= 1, coefficient requis

un 2 = r y ,2 . (7.13)

La relation (7.13) confirme l'affirmation précédente selon laquelle le coefficient de corrélation est une mesure de la relation linéaire entre deux paramètres standardisés.

Remplacement de la valeur trouvée du coefficient un 2 en une expression pour w, en tenant compte des propriétés des grandeurs centrées et normalisées, on obtient la valeur minimale de cette fonction égale à 1– r 2 ans,2. Valeur 1– r 2 ans,2 est appelée la variance résiduelle de la variable aléatoire oui par rapport à une variable aléatoire toi 2. Il caractérise l'erreur obtenue en remplaçant l'indicateur par une fonction du paramètre υ= un 2 u 2. Uniquement avec | r y,2| = 1, la variance résiduelle est nulle et il n'y a donc aucune erreur lors de l'approximation de l'indicateur avec une fonction linéaire.

Passer des valeurs d'indicateurs et de paramètres centrées et normalisées

peut être obtenu pour les valeurs originales

Cette équation est également linéaire par rapport au coefficient de corrélation. Il est facile de voir que le centrage et la normalisation pour la régression linéaire permettent de réduire d'une unité la dimension du système d'équations, c'est-à-dire simplifier la solution au problème de la détermination des coefficients et donner aux coefficients eux-mêmes une signification claire.

L'utilisation des moindres carrés pour les fonctions non linéaires n'est pratiquement pas différente du schéma considéré (seul le coefficient a0 dans l'équation d'origine n'est pas égal à zéro).

Par exemple, supposons qu'il soit nécessaire de déterminer les coefficients de régression parabolique

Écart d'erreur de l'échantillon

Sur cette base, nous pouvons obtenir le système d'équations suivant

Après transformations, le système d'équations prendra la forme

Compte tenu des propriétés des moments des grandeurs standardisées, on écrit

La détermination des coefficients de régression non linéaire repose sur la résolution d'un système d'équations linéaires. Pour ce faire, vous pouvez utiliser des packages universels de méthodes numériques ou des packages spécialisés pour le traitement des données statistiques.

À mesure que le degré de l’équation de régression augmente, le degré des moments de distribution des paramètres utilisés pour déterminer les coefficients augmente également. Ainsi, pour déterminer les coefficients de l'équation de régression du deuxième degré, on utilise les moments de distribution des paramètres jusqu'au quatrième degré inclus. On sait que la précision et la fiabilité de l’estimation des moments à partir d’un échantillon limité de DE diminuent fortement à mesure que leur ordre augmente. L’utilisation de polynômes de degré supérieur au second dans les équations de régression est inappropriée.

La qualité de l'équation de régression résultante est évaluée par le degré de proximité entre les résultats des observations de l'indicateur et les valeurs prédites par l'équation de régression en des points donnés de l'espace des paramètres. Si les résultats sont proches, alors le problème de l’analyse de régression peut être considéré comme résolu. Sinon, vous devez modifier l'équation de régression (choisir un degré de polynôme différent ou un type d'équation complètement différent) et répéter les calculs pour estimer les paramètres.

S'il existe plusieurs indicateurs, le problème de l'analyse de régression est résolu indépendamment pour chacun d'eux.

En analysant l'essence de l'équation de régression, les points suivants doivent être notés. L'approche considérée ne fournit pas d'évaluation séparée (indépendante) des coefficients - une modification de la valeur d'un coefficient entraîne une modification des valeurs des autres. Les coefficients obtenus ne doivent pas être considérés comme la contribution du paramètre correspondant à la valeur de l'indicateur. L'équation de régression n'est qu'une bonne description analytique de l'ED existant, et non une loi décrivant la relation entre les paramètres et l'indicateur. Cette équation est utilisée pour calculer les valeurs de l'indicateur dans une plage donnée de changements de paramètres. Son utilité est limitée pour les calculs en dehors de cette plage, c'est-à-dire il peut être utilisé pour résoudre des problèmes d'interpolation et, dans une mesure limitée, pour l'extrapolation.



La principale raison de l'inexactitude de la prévision n'est pas tant l'incertitude de l'extrapolation de la droite de régression, mais plutôt la variation importante de l'indicateur due à des facteurs non pris en compte dans le modèle. La limitation de la capacité de prévision est la condition de stabilité des paramètres non pris en compte dans le modèle et la nature de l'influence des facteurs du modèle pris en compte. Si l'environnement extérieur change fortement, l'équation de régression compilée perdra son sens. Vous ne pouvez pas substituer dans l'équation de régression des valeurs de facteurs qui diffèrent significativement de ceux présentés dans l'ED. Il est recommandé de ne pas dépasser le tiers de la plage de variation du paramètre tant pour les valeurs maximales que minimales du facteur.

La prévision obtenue en substituant la valeur attendue du paramètre dans l'équation de régression est un point. La probabilité qu’une telle prévision se réalise est négligeable. Il est conseillé de déterminer l'intervalle de confiance de la prévision. Pour les valeurs individuelles de l'indicateur, l'intervalle doit prendre en compte les erreurs de position de la ligne de régression et les écarts des valeurs individuelles par rapport à cette ligne. L'erreur moyenne dans la prédiction de l'indicateur y pour le facteur x sera

est l'erreur moyenne sur la position de la droite de régression dans la population à X = xk;

– évaluation de la variance de l'écart de l'indicateur par rapport à la droite de régression dans la population ;

xk– valeur attendue du facteur.

Les limites de confiance de la prévision, par exemple pour l'équation de régression (7.14), sont déterminées par l'expression

Terme gratuit négatif un 0 dans l'équation de régression pour les variables d'origine signifie que le domaine d'existence de l'indicateur n'inclut pas les valeurs nulles des paramètres. Si un 0 > 0, alors le domaine d'existence de l'indicateur comprend les valeurs nulles des paramètres, et le coefficient lui-même caractérise la valeur moyenne de l'indicateur en l'absence d'influences des paramètres.

Problème 7.2. Construisez une équation de régression pour la capacité du canal sur la base de l'échantillon spécifié dans le tableau. 7.1.

Solution. Par rapport à l'échantillon spécifié, la construction de la dépendance analytique a été principalement réalisée dans le cadre de l'analyse de corrélation : le débit ne dépend que du paramètre de rapport signal sur bruit. Il reste à substituer les valeurs des paramètres précédemment calculées dans l'expression (7.14). L’équation de la capacité prendra la forme

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Les résultats du calcul sont présentés dans le tableau. 7.5.

Tableau 7.5

SUBST pp Capacité des canaux Rapport signal sur bruit Valeur de la fonction Erreur
Oui X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

L'étude des dépendances de corrélation repose sur l'étude de telles connexions entre variables dans lesquelles les valeurs d'une variable, qui peut être considérée comme variable dépendante, changent « en moyenne » en fonction des valeurs prises par une autre variable, considérée comme une cause par rapport à la variable dépendante. L'action de cette cause s'effectue dans des conditions d'interaction complexe de divers facteurs, de sorte que la manifestation du modèle est obscurcie par l'influence du hasard. En calculant les valeurs moyennes de l'attribut effectif pour un groupe donné de valeurs de l'attribut-facteur, l'influence du hasard est en partie éliminée. En calculant les paramètres de la ligne de communication théorique, ils sont encore éliminés et un changement sans ambiguïté (de forme) de « y » avec un changement du facteur « x » est obtenu.

Pour étudier les relations stochastiques, la méthode de comparaison de deux séries parallèles, la méthode des regroupements analytiques, l'analyse de corrélation, l'analyse de régression et certaines méthodes non paramétriques sont largement utilisées. En général, la tâche des statistiques dans le domaine de l'étude des relations n'est pas seulement de quantifier leur présence, leur direction et la force de leur connexion, mais aussi de déterminer la forme (expression analytique) de l'influence des caractéristiques factorielles sur celle qui en résulte. Pour le résoudre, des méthodes d'analyse de corrélation et de régression sont utilisées.

CHAPITRE 1. ÉQUATION DE RÉGRESSION : FONDEMENTS THÉORIQUES

1.1. Équation de régression : essence et types de fonctions

La régression (lat. regressio - mouvement inverse, transition de formes de développement plus complexes à des formes moins complexes) est l'un des concepts de base de la théorie des probabilités et des statistiques mathématiques, exprimant la dépendance de la valeur moyenne d'une variable aléatoire sur les valeurs d'une autre variable aléatoire ou de plusieurs variables aléatoires. Ce concept a été introduit par Francis Galton en 1886.

La droite de régression théorique est la droite autour de laquelle sont regroupés les points du champ de corrélation et qui indique la direction principale, la tendance principale de la connexion.

La droite de régression théorique doit refléter le changement des valeurs moyennes de l'attribut effectif « y » à mesure que les valeurs de l'attribut du facteur « x » changent, à condition que toutes les autres causes, aléatoires par rapport au facteur « x » , sont totalement annulés. Par conséquent, cette droite doit être tracée de telle sorte que la somme des écarts des points du champ de corrélation par rapport aux points correspondants de la droite de régression théorique soit égale à zéro, et la somme des carrés de ces écarts soit minimale.

y=f(x) - l'équation de régression est une formule pour la relation statistique entre les variables.

Une ligne droite sur un plan (dans un espace bidimensionnel) est donnée par l'équation y=a+b*x. Plus en détail, la variable y peut être exprimée en termes d'une constante (a) et d'une pente (b) multipliée par la variable x. La constante est parfois également appelée terme à l’origine, et la pente est parfois appelée régression ou coefficient B.

Une étape importante de l'analyse de régression consiste à déterminer le type de fonction avec laquelle la dépendance entre les caractéristiques est caractérisée. La base principale devrait être une analyse significative de la nature de la dépendance étudiée et de son mécanisme. Dans le même temps, il n'est pas toujours possible de justifier théoriquement la forme de lien entre chacun des facteurs et l'indicateur de performance, car les phénomènes socio-économiques étudiés sont très complexes et les facteurs qui façonnent leur niveau sont étroitement liés et interagissent. avec l'un l'autre. Par conséquent, sur la base de l'analyse théorique, les conclusions les plus générales peuvent souvent être tirées concernant l'orientation de la relation, la possibilité de son évolution dans la population étudiée, la légitimité de l'utilisation d'une relation linéaire, la présence éventuelle de valeurs extrêmes, etc. Un complément nécessaire à ces hypothèses devrait être une analyse de données factuelles spécifiques.

Une idée approximative de la ligne de relation peut être obtenue sur la base de la ligne de régression empirique. La droite de régression empirique est généralement une ligne brisée et présente une cassure plus ou moins importante. Cela s'explique par le fait que l'influence d'autres facteurs non pris en compte qui influencent la variation de la caractéristique résultante est incomplètement éteinte dans la moyenne, en raison du nombre insuffisamment grand d'observations. Par conséquent, une ligne de communication empirique peut être utilisée pour sélectionner et justifier le type de courbe théorique, à condition que le nombre d'observations soit suffisamment grand.

L'un des éléments d'études spécifiques est la comparaison de diverses équations de dépendance, basée sur l'utilisation de critères de qualité pour approximer les données empiriques par des versions concurrentes de modèles. Les types de fonctions suivants sont le plus souvent utilisés pour caractériser les relations entre indicateurs économiques :

1. Linéaire :

2. Hyperbolique :

3. Démonstratif :

4. Parabolique :

5. Puissance :

6. Logarithmique :

7. Logistique :

Un modèle avec une variable explicative et une variable expliquée est un modèle de régression apparié. Si deux variables explicatives (factorielles) ou plus sont utilisées, on parle alors d'utilisation d'un modèle de régression multiple. Dans ce cas, des fonctions linéaires, exponentielles, hyperboliques, exponentielles et autres types de fonctions reliant ces variables peuvent être sélectionnées comme options.

Pour trouver les paramètres a et b de l'équation de régression, la méthode des moindres carrés est utilisée. Lors de l'application de la méthode des moindres carrés pour trouver une fonction qui correspond le mieux aux données empiriques, on pense que le sac de carrés d'écarts de points empiriques par rapport à la droite de régression théorique devrait être une valeur minimale.

Le critère des moindres carrés peut s’écrire comme suit :

Par conséquent, l’utilisation de la méthode des moindres carrés pour déterminer les paramètres a et b de la droite qui correspondent le mieux aux données empiriques se réduit à un problème extrême.

Concernant les évaluations, les conclusions suivantes peuvent être tirées :

1. Les estimateurs des moindres carrés sont des fonctions de l’échantillon, ce qui les rend faciles à calculer.

2. Les estimations des moindres carrés sont des estimations ponctuelles des coefficients de régression théoriques.

3. La droite de régression empirique passe nécessairement par le point x, y.

4. L'équation de régression empirique est construite de telle manière que la somme des écarts

.

Une représentation graphique de la ligne de communication empirique et théorique est présentée à la figure 1.


Le paramètre b dans l'équation est le coefficient de régression. En présence d'une corrélation directe, le coefficient de régression est positif, et en cas de corrélation inverse, le coefficient de régression est négatif. Le coefficient de régression montre de combien en moyenne la valeur de l'attribut effectif « y » change lorsque l'attribut facteur « x » change de un. Géométriquement, le coefficient de régression est la pente de la droite représentant l'équation de corrélation par rapport à l'axe « x » (pour l'équation

).

La branche de l'analyse statistique multivariée consacrée à la reconstruction des dépendances est appelée analyse de régression. Le terme « analyse de régression linéaire » est utilisé lorsque la fonction considérée dépend linéairement des paramètres estimés (la dépendance aux variables indépendantes peut être arbitraire). Théorie de l'évaluation

Les paramètres inconnus sont bien développés spécifiquement dans le cas de l’analyse de régression linéaire. S'il n'y a pas de linéarité et qu'il est impossible de passer à un problème linéaire, alors, en règle générale, on ne peut pas s'attendre à de bonnes propriétés des estimations. Nous démontrerons des approches dans le cas de dépendances de différents types. Si la dépendance a la forme d'un polynôme (polynôme). Si le calcul de corrélation caractérise la force de la relation entre deux variables, alors l'analyse de régression sert à déterminer le type de cette relation et permet de prédire la valeur d'une variable (dépendante) en fonction de la valeur d'une autre variable (indépendante). . Pour effectuer une analyse de régression linéaire, la variable dépendante doit avoir une échelle d'intervalle (ou ordinale). Dans le même temps, la régression logistique binaire révèle la dépendance d'une variable dichotomique à l'égard d'une autre variable liée à n'importe quelle échelle. Les mêmes conditions d’application s’appliquent à l’analyse probit. Si la variable dépendante est catégorielle mais comporte plus de deux catégories, alors la régression logistique multinomiale est une méthode appropriée ; les relations non linéaires entre les variables appartenant à une échelle d'intervalle peuvent être analysées. La méthode de régression non linéaire est conçue à cet effet.

Coefficients de régression montrer l'intensité de l'influence des facteurs sur l'indicateur de performance. Si une normalisation préalable des indicateurs factoriels est effectuée, alors b 0 est égal à la valeur moyenne de l'indicateur effectif dans l'ensemble. Les coefficients b 1, b 2, ..., b n montrent de combien d'unités le niveau de l'indicateur de performance s'écarte de sa valeur moyenne si les valeurs de l'indicateur factoriel s'écartent de la moyenne de zéro d'un écart type. Ainsi, les coefficients de régression caractérisent le degré d'importance des facteurs individuels pour augmenter le niveau de l'indicateur de performance. Les valeurs spécifiques des coefficients de régression sont déterminées à partir de données empiriques selon la méthode des moindres carrés (à la suite de la résolution de systèmes d'équations normales).

Ligne de régression- une ligne qui reflète le plus fidèlement la répartition des points expérimentaux sur le diagramme de dispersion et dont l'inclinaison de la pente caractérise la relation entre deux variables d'intervalle.

La droite de régression est le plus souvent recherchée sous la forme d'une fonction linéaire (régression linéaire), qui se rapproche le plus de la courbe recherchée. Cela se fait en utilisant la méthode des moindres carrés, lorsque la somme des écarts carrés des écarts réellement observés par rapport à leurs estimations est minimisée (c'est-à-dire les estimations utilisant une ligne droite censée représenter la relation de régression souhaitée) :

(M - taille de l'échantillon). Cette approche repose sur le fait bien connu que le montant apparaissant dans l'expression ci-dessus prend une valeur minimale précisément pour le cas où .
57. Principales tâches de la théorie des corrélations.

La théorie de la corrélation est un appareil qui évalue l'étroitesse des liens entre des phénomènes qui ne relèvent pas uniquement de relations de cause à effet. À l’aide de la théorie des corrélations, les relations stochastiques, mais non causales, sont évaluées. L'auteur, en collaboration avec M. L. Lukatskaya, a tenté d'obtenir des estimations des relations causales. Cependant, la question des relations de cause à effet des phénomènes, de la manière d'identifier la cause et l'effet, reste ouverte, et il semble qu'au niveau formel elle soit fondamentalement insoluble.

Théorie de la corrélation et son application à l'analyse de la production.

La théorie de la corrélation, qui est l'une des branches de la statistique mathématique, permet de faire des hypothèses raisonnables sur les limites possibles dans lesquelles, avec un certain degré de fiabilité, le paramètre étudié se situera si d'autres paramètres statistiquement liés reçoivent certaines valeurs.

En théorie des corrélations, il est d’usage de distinguer deux tâches principales.

Première tâche théorie de la corrélation - pour établir la forme de corrélation, c'est-à-dire type de fonction de régression (linéaire, quadratique, etc.).

Deuxième tâche théorie de la corrélation - évaluer l'étroitesse (force) de la connexion de corrélation.

L'étroitesse de la connexion de corrélation (dépendance) de Y sur X est évaluée par le degré de dispersion des valeurs Y autour de la moyenne conditionnelle. Une grande dispersion indique une faible dépendance de Y à l'égard de X, une petite dispersion indique la présence d'une forte dépendance.
58. Tableau de corrélation et ses caractéristiques numériques.

En pratique, à la suite d'observations indépendantes des quantités X et Y, en règle générale, on ne traite pas l'ensemble de toutes les paires possibles de valeurs de ces quantités, mais seulement un échantillon limité de la population générale, et le volume n de la population échantillon est défini comme le nombre de paires disponibles dans l'échantillon.

Soit la valeur X dans l'échantillon prendre les valeurs x 1, x 2,....x m, où le nombre de valeurs de cette valeur qui diffèrent les unes des autres, et dans le cas général, chacune d'elles peut être répété dans l’échantillon. Soit la valeur Y dans l'échantillon prend les valeurs y 1, y 2,....y k, où k est le nombre de valeurs différentes de cette valeur, et dans le cas général, chacune d'elles peut aussi être répété dans l’échantillon. Dans ce cas, les données sont saisies dans un tableau en tenant compte de la fréquence d'occurrence. Un tel tableau avec des données groupées est appelé corrélation.

La première étape du traitement statistique des résultats est l'élaboration d'un tableau de corrélation.

Y\X x1 x2 ... xm n o
et 1 numéro 12 numéro 21 m1 n y1
et 2 numéro 22 m2 n y2
...
ouais n 1k n 2k nmk n ouais
nx nx1 nx2 nxm n

La première ligne de la partie principale du tableau répertorie par ordre croissant toutes les valeurs de la quantité X trouvées dans l'échantillon. La première colonne répertorie également par ordre croissant toutes les valeurs de la quantité Y trouvées dans l'échantillon. A l'intersection des lignes et colonnes correspondantes, des fréquences n ij (i = 1,2 ,...,m; j=1,2,...,k) égales au nombre d'occurrences du couple (x i ; y i) dans l'échantillon. Par exemple, la fréquence n 12 représente le nombre d'occurrences du couple (x 1 ;y 1) dans l'échantillon.

De plus, n xi n ij , 1≤i≤m, est la somme des éléments de la i-ème colonne, n yj n ij , 1≤j≤k, est la somme des éléments de la j-ème ligne et n xi = n yj = n

Les analogues des formules obtenues à partir des données du tableau de corrélation ont la forme :


59. Lignes de régression empiriques et théoriques.

Droite de régression théorique peut être calculé dans ce cas à partir des résultats d’observations individuelles. Pour résoudre un système d’équations normales, nous avons besoin des mêmes données : x, y, xy et xr. Nous disposons de données sur le volume de production de ciment et le volume des immobilisations de production en 1958. La tâche est fixée : étudier la relation entre le volume de production de ciment (en termes physiques) et le volume des immobilisations. [ 1 ]

Moins la droite de régression théorique (calculée à partir de l’équation) s’écarte de la droite réelle (empirique), plus l’erreur d’approximation moyenne est faible.

Le processus de recherche d'une droite de régression théorique consiste à ajuster la droite de régression empirique à l'aide de la méthode des moindres carrés.

Le processus de recherche d'une droite de régression théorique est appelé alignement de la droite de régression empirique et consiste à sélectionner et justifier le type ; courbe et calcul des paramètres de son équation.

La régression empirique est construite selon des données de regroupement analytiques ou combinatoires et représente la dépendance des valeurs moyennes de groupe du trait de résultat sur les valeurs moyennes de groupe du trait factoriel. La représentation graphique de la régression empirique est une ligne brisée composée de points dont les abscisses sont les valeurs moyennes de groupe du trait factoriel, et les ordonnées sont les valeurs moyennes de groupe du trait résultat. Le nombre de points est égal au nombre de groupes composant le regroupement.

La droite de régression empirique reflète la tendance principale de la relation considérée. Si la droite de régression empirique se rapproche en apparence d’une ligne droite, alors nous pouvons supposer la présence d’une corrélation linéaire entre les caractéristiques. Et si la ligne de connexion se rapproche de la courbe, cela peut être dû à la présence d'une relation de corrélation curviligne.
60. Exemples de coefficients de corrélation et de régression.

Si la dépendance entre les caractéristiques sur le graphique indique une corrélation linéaire, calculez Coefficient de corrélation r, qui vous permet d'évaluer l'étroitesse de la relation entre les variables, et également de savoir quelle proportion des changements d'une caractéristique est due à l'influence de la caractéristique principale et quelle part est due à l'influence d'autres facteurs. Le coefficient varie de –1 à +1. Si r=0, alors il n’y a aucun lien entre les caractéristiques. Égalité r=0 indique uniquement l’absence de dépendance de corrélation linéaire, mais pas du tout l’absence de corrélation, et encore moins de dépendance statistique. Si r= ±1, cela signifie alors la présence d'une connexion complète (fonctionnelle). Dans ce cas, toutes les valeurs observées se situent sur la droite de régression, qui est une droite.
La signification pratique du coefficient de corrélation est déterminée par sa valeur au carré, appelée coefficient de détermination.
Régression approximée (décrite approximativement) par une fonction linéaire y = kX + b. Pour la régression de Y sur X, l'équation de régression est : `y x = ryx X + b ; (1). La pente ryx de la régression directe de Y sur X est appelée coefficient de régression de Y sur X.

Si l'équation (1) est trouvée à l'aide d'échantillons de données, alors elle est appelée exemple d'équation de régression. En conséquence, ryx est le coefficient de régression d'échantillon de Y sur X, et b est le terme fictif d'échantillon de l'équation. Le coefficient de régression mesure la variation de Y par variation unitaire de X. Les paramètres de l'équation de régression (coefficients ryx et b) sont trouvés à l'aide de la méthode des moindres carrés.
61. Évaluation de l'importance du coefficient de corrélation et de l'étroitesse de la corrélation dans la population générale

Importance des coefficients de corrélation vérifié à l'aide du test de Student :

- erreur quadratique moyenne du coefficient de corrélation, qui est déterminée par la formule :

Si la valeur calculée est supérieure à la valeur du tableau, alors nous pouvons conclure que la valeur du coefficient de corrélation est significative. t trouvé à partir du tableau des valeurs du test t de Student. Dans ce cas, le nombre de degrés de liberté est pris en compte (V = n- 1) et le niveau de confiance (dans les calculs économiques, généralement 0,05 ou 0,01). Dans notre exemple, le nombre de degrés de liberté est : P- 1 = 40 - 1 = 39. Au niveau de confiance R. = 0,05; t= 2,02. Étant donné que (la valeur réelle dans tous les cas est supérieure à celle du tableau t), la relation entre les indicateurs résultants et factoriels est fiable et l'ampleur des coefficients de corrélation est significative.

Estimation du coefficient de corrélation, calculé à partir d’un échantillon limité, diffère presque toujours de zéro. Mais cela ne signifie pas que le coefficient de corrélation population est également différent de zéro. Il est nécessaire d'évaluer la signification de la valeur d'échantillon du coefficient ou, conformément à la formulation des tâches de test d'hypothèses statistiques, de tester l'hypothèse selon laquelle le coefficient de corrélation est égal à zéro. Si l'hypothèse N 0 que le coefficient de corrélation est égal à zéro sera rejeté, alors le coefficient d'échantillon est significatif et les valeurs correspondantes sont liées par une relation linéaire. Si l'hypothèse N 0 sera accepté, alors l'estimation du coefficient n'est pas significative et les valeurs ne sont pas linéairement liées les unes aux autres (si, pour des raisons physiques, les facteurs peuvent être liés, alors il vaut mieux dire que cette relation n'a pas été établi en fonction de l’ED disponible). Tester l’hypothèse sur la signification de l’estimation du coefficient de corrélation nécessite de connaître la distribution de cette variable aléatoire. Distribution de la valeur  jeétudié uniquement pour le cas particulier où les variables aléatoires U j Et Royaume-Uni distribué selon la loi normale.

Comme critère pour tester l'hypothèse nulle N 0 appliquer une variable aléatoire . Si le module du coefficient de corrélation est relativement éloigné de l'unité, alors la valeur t si l’hypothèse nulle est vraie, elle est distribuée selon la loi de Student avec n– 2 degrés de liberté. Hypothèse concurrente N 1 correspond à l’affirmation selon laquelle la valeur  je différent de zéro (supérieur ou inférieur à zéro). La région critique est donc bilatérale.
62. Calcul du coefficient de corrélation de l'échantillon et construction de l'équation de régression en ligne droite de l'échantillon.

Exemple de coefficient de corrélation se trouve par la formule

où sont les exemples d'écarts types des valeurs et .

Le coefficient de corrélation de l'échantillon montre l'étroitesse de la relation linéaire entre et : plus la relation linéaire entre et est proche de l'unité, plus elle est forte.

La régression linéaire simple trouve une relation linéaire entre une variable d'entrée et une variable de sortie. Pour ce faire, une équation de régression est déterminée - il s'agit d'un modèle qui reflète la dépendance des valeurs de Y, la valeur dépendante de Y sur les valeurs de x, la variable indépendante x et la population, décrite par nivellement :

A0- terme libre de l'équation de régression ;

A1- coefficient d'équation de régression

Ensuite, une droite correspondante est construite, appelée droite de régression. Les coefficients A0 et A1, également appelés paramètres du modèle, sont sélectionnés de telle sorte que la somme des carrés des écarts des points correspondant aux observations de données réelles de la droite de régression soit minimale. Les coefficients sont sélectionnés selon la méthode des moindres carrés. En d’autres termes, la régression linéaire simple décrit un modèle linéaire qui se rapproche le mieux de la relation entre une variable d’entrée et une variable de sortie.

Concept de régression. Dépendance entre variables X Et oui peut être décrit de différentes manières. En particulier, toute forme de connexion peut être exprimée par une équation générale, où oui traité comme une variable dépendante, ou les fonctions d'une autre - variable indépendante x, appelée argument. La correspondance entre un argument et une fonction peut être spécifiée par un tableau, une formule, un graphique, etc. Changer une fonction en fonction d'un changement d'un ou plusieurs arguments est appelé régression. Tous les moyens utilisés pour décrire les corrélations constituent le contenu analyse de régression.

Pour exprimer la régression, les équations de corrélation ou équations de régression, des séries de régression empiriques et théoriquement calculées, leurs graphiques, appelés droites de régression, ainsi que des coefficients de régression linéaires et non linéaires sont utilisés.

Les indicateurs de régression expriment la relation de corrélation de manière bilatérale, en tenant compte des changements dans les valeurs moyennes de la caractéristique Oui lors du changement de valeurs X je signe X, et, à l'inverse, montrer un changement dans les valeurs moyennes de la caractéristique X selon les valeurs modifiées oui je signe Oui. L'exception concerne les séries chronologiques, ou séries chronologiques, montrant les changements de caractéristiques au fil du temps. La régression de telles séries est unilatérale.

Il existe de nombreuses formes et types différents de corrélations. La tâche consiste à identifier la forme de la connexion dans chaque cas spécifique et à l'exprimer avec l'équation de corrélation appropriée, ce qui nous permet d'anticiper les changements possibles d'une caractéristique. Oui basé sur des changements connus dans un autre X, lié au premier de manière corrélationnelle.

12.1 Régression linéaire

Équation de régression. Résultats d'observations réalisées sur un objet biologique particulier basées sur des caractéristiques corrélées X Et oui, peut être représenté par des points sur un plan en construisant un système de coordonnées rectangulaires. Le résultat est une sorte de diagramme de dispersion qui permet de juger de la forme et de l’étroitesse de la relation entre diverses caractéristiques. Très souvent, cette relation ressemble à une ligne droite ou peut être approchée par une ligne droite.

Relation linéaire entre les variables X Et oui est décrit par une équation générale, où a B c d,... – paramètres de l'équation qui déterminent les relations entre les arguments X 1 , X 2 , X 3 , …, X m et fonctions.

En pratique, tous les arguments possibles ne sont pas pris en compte, mais seulement certains arguments dans le cas le plus simple, un seul :

Dans l'équation de régression linéaire (1) un est le terme libre, et le paramètre b détermine la pente de la ligne de régression par rapport aux axes de coordonnées rectangulaires. En géométrie analytique, ce paramètre est appelé pente, et en biométrie – Coefficient de régression. Une représentation visuelle de ce paramètre et la position des droites de régression Oui Par X Et X Par Oui dans le système de coordonnées rectangulaires donne la Fig. 1.

Riz. 1 Droites de régression de Y par X et de X par Y dans le système

Coordonnées rectangulaires

Les droites de régression, comme le montre la figure 1, se coupent au point O (,), correspondant aux valeurs moyennes arithmétiques des caractéristiques corrélées entre elles Oui Et X. Lors de la construction de graphiques de régression, les valeurs de la variable indépendante X sont tracées le long de l'axe des abscisses et les valeurs de la variable dépendante, ou fonction Y, sont tracées le long de l'axe des ordonnées. Ligne AB passant par le point O (, ) correspond à la relation (fonctionnelle) complète entre les variables Oui Et X, lorsque le coefficient de corrélation . Plus le lien entre Oui Et X, plus les droites de régression sont proches de AB, et, à l'inverse, plus le lien entre ces quantités est faible, plus les droites de régression sont éloignées de AB. S'il n'y a aucun lien entre les caractéristiques, les droites de régression sont perpendiculaires les unes aux autres et .

Étant donné que les indicateurs de régression expriment la relation de corrélation de manière bilatérale, l'équation de régression (1) doit s'écrire comme suit :

La première formule détermine les valeurs moyennes lorsque la caractéristique change X par unité de mesure, pour la seconde - valeurs moyennes lors du changement d'une unité de mesure de l'attribut Oui.

Coefficient de régression. Le coefficient de régression montre à quel point en moyenne la valeur d'une caractéristique oui change lorsque la mesure d'un autre, corrélée avec, change d'un Oui signe X. Cet indicateur est déterminé par la formule

Voici les valeurs s multiplié par la taille des intervalles de classe λ , s'ils ont été trouvés à partir de séries de variations ou de tableaux de corrélation.

Le coefficient de régression peut être calculé sans calculer les écarts types s oui Et s X selon la formule

Si le coefficient de corrélation est inconnu, le coefficient de régression est déterminé comme suit :

Relation entre les coefficients de régression et de corrélation. En comparant les formules (11.1) (thème 11) et (12.5), on voit : leur numérateur a la même valeur, ce qui indique un lien entre ces indicateurs. Cette relation s'exprime par l'égalité

Ainsi, le coefficient de corrélation est égal à la moyenne géométrique des coefficients b yx Et b xy. La formule (6) permet, d'une part, à partir des valeurs connues des coefficients de régression b yx Et b xy déterminer le coefficient de régression R. xy, et d'autre part, vérifier l'exactitude du calcul de cet indicateur de corrélation R. xy entre des caractéristiques variables X Et Oui.

Comme le coefficient de corrélation, le coefficient de régression caractérise uniquement une relation linéaire et est accompagné d'un signe plus pour une relation positive et d'un signe moins pour une relation négative.

Détermination des paramètres de régression linéaire. On sait que la somme des écarts au carré est une variante X je de la moyenne est la plus petite valeur, c'est-à-dire Ce théorème constitue la base de la méthode des moindres carrés. Concernant la régression linéaire [voir formule (1)] l'exigence de ce théorème est satisfaite par un certain système d'équations appelé normale:

Solution conjointe de ces équations par rapport aux paramètres un Et b conduit aux résultats suivants :

;

;

, d'où et.

Compte tenu de la nature bidirectionnelle de la relation entre les variables Oui Et X, formule pour déterminer le paramètre UN devrait s'exprimer ainsi :

Et . (7)

Paramètre b, ou coefficient de régression, est déterminé par les formules suivantes :

Construction de séries de régression empiriques. S'il existe un grand nombre d'observations, l'analyse de régression commence par la construction de séries de régression empiriques. Série de régression empirique est formé en calculant les valeurs d'une caractéristique variable X valeurs moyennes d'un autre, corrélées avec X signe Oui. En d'autres termes, la construction de séries de régression empirique revient à trouver des moyennes de groupe à partir des valeurs correspondantes des caractéristiques Y et X.

Une série de régression empirique est une double série de nombres qui peuvent être représentés par des points sur un plan, puis, en reliant ces points par des segments de droite, une ligne de régression empirique peut être obtenue. Séries de régression empiriques, notamment leurs graphiques, appelées droites de régression, donnent une idée claire de la forme et de l'étroitesse de la corrélation entre différentes caractéristiques.

Alignement des séries de régression empirique. En règle générale, les graphiques des séries de régression empirique ne sont pas des lignes lisses, mais des lignes brisées. Cela s'explique par le fait que, outre les principales raisons qui déterminent le schéma général de la variabilité des caractéristiques corrélées, leur ampleur est affectée par l'influence de nombreuses raisons secondaires qui provoquent des fluctuations aléatoires dans les points nodaux de régression. Pour identifier la tendance principale (tendance) de la variation conjuguée des caractéristiques corrélées, il est nécessaire de remplacer les lignes brisées par des lignes de régression lisses et fluides. Le processus de remplacement des lignes brisées par des lignes lisses s'appelle alignement de séries empiriques Et droites de régression.

Méthode d'alignement graphique. Il s’agit de la méthode la plus simple qui ne nécessite aucun travail informatique. Son essence se résume à ce qui suit. La série de régression empirique est représentée sous forme de graphique dans un système de coordonnées rectangulaires. Ensuite, les points médians de la régression sont visuellement délimités, le long desquels une ligne continue est tracée à l'aide d'une règle ou d'un motif. L'inconvénient de cette méthode est évident : elle n'exclut pas l'influence des propriétés individuelles du chercheur sur les résultats d'alignement des droites de régression empirique. Par conséquent, dans les cas où une plus grande précision est nécessaire lors du remplacement des lignes de régression brisées par des droites lisses, d'autres méthodes d'alignement des séries empiriques sont utilisées.

Méthode de moyenne mobile. L'essence de cette méthode se résume au calcul séquentiel de moyennes arithmétiques à partir de deux ou trois termes adjacents d'une série empirique. Cette méthode est particulièrement pratique dans les cas où la série empirique est représentée par un grand nombre de termes, de sorte que la perte de deux d'entre eux - les extrêmes, inévitable avec cette méthode d'alignement, n'affectera pas sensiblement sa structure.

Méthode des moindres carrés. Cette méthode a été proposée au début du XIXe siècle par A.M. Legendre et, indépendamment de lui, K. Gauss. Il vous permet d'aligner avec la plus grande précision les séries empiriques. Cette méthode, comme indiqué ci-dessus, repose sur l'hypothèse que la somme des carrés des écarts est une option X je à partir de leur moyenne, il y a une valeur minimale, c'est-à-dire d'où le nom de la méthode, qui est utilisée non seulement en écologie, mais aussi en technologie. La méthode des moindres carrés est objective et universelle ; elle est utilisée dans une grande variété de cas pour trouver des équations empiriques pour des séries de régression et déterminer leurs paramètres.

L'exigence de la méthode des moindres carrés est que les points théoriques de la droite de régression doivent être obtenus de telle manière que la somme des écarts carrés par rapport à ces points pour les observations empiriques oui jeétait minime, c'est-à-dire

En calculant le minimum de cette expression conformément aux principes de l'analyse mathématique et en le transformant d'une certaine manière, on peut obtenir un système dit équations normales, dans lequel les valeurs inconnues sont les paramètres requis de l'équation de régression, et les coefficients connus sont déterminés par les valeurs empiriques des caractéristiques, généralement les sommes de leurs valeurs et de leurs produits vectoriels.

La régression linéaire multiple. La relation entre plusieurs variables est généralement exprimée par une équation de régression multiple, qui peut être linéaire Et non linéaire. Dans sa forme la plus simple, la régression multiple s'exprime sous la forme d'une équation à deux variables indépendantes ( X, z):

un– terme libre de l'équation ; b Et c– paramètres de l'équation. Pour trouver les paramètres de l'équation (10) (en utilisant la méthode des moindres carrés), le système d'équations normales suivant est utilisé :

Série dynamique. Alignement des lignes. Les changements de caractéristiques au fil du temps forment ce qu'on appelle des séries chronologiques ou série dynamique. Une caractéristique de ces séries est que la variable indépendante X est ici toujours le facteur temps et la variable dépendante Y est une caractéristique changeante. Selon les séries de régression, la relation entre les variables X et Y est unilatérale, puisque le facteur temps ne dépend pas de la variabilité des caractéristiques. Malgré ces caractéristiques, les séries dynamiques peuvent être assimilées à des séries de régression et traitées selon les mêmes méthodes.

Comme les séries de régression, les séries empiriques de dynamiques subissent l'influence non seulement des facteurs principaux, mais également de nombreux facteurs secondaires (aléatoires) qui obscurcissent la tendance principale de la variabilité des caractéristiques, ce que l'on appelle dans le langage statistique s'orienter.

L'analyse des séries chronologiques commence par l'identification de la forme de la tendance. Pour ce faire, la série chronologique est représentée sous forme de graphique linéaire dans un système de coordonnées rectangulaires. Dans ce cas, les points temporels (années, mois et autres unités de temps) sont tracés le long de l'axe des abscisses et les valeurs de la variable dépendante Y sont tracées le long de l'axe des ordonnées s'il existe une relation linéaire entre les variables X. et Y (tendance linéaire), la méthode des moindres carrés est la plus appropriée pour aligner les séries temporelles est une équation de régression sous forme d'écarts des termes de la série de la variable dépendante Y par rapport à la moyenne arithmétique de la série des variables indépendantes variable X :

Voici le paramètre de régression linéaire.

Caractéristiques numériques des séries dynamiques. Les principales caractéristiques numériques généralisantes des séries dynamiques comprennent Moyenne géométrique et une moyenne arithmétique proche. Ils caractérisent le taux moyen auquel la valeur de la variable dépendante évolue sur certaines périodes de temps :

Une évaluation de la variabilité des membres de la série dynamique est écart-type. Lors du choix des équations de régression pour décrire les séries chronologiques, la forme de la tendance est prise en compte, qui peut être linéaire (ou réduite à linéaire) et non linéaire. L'exactitude du choix de l'équation de régression est généralement jugée par la similitude des valeurs empiriquement observées et calculées de la variable dépendante. Une solution plus précise à ce problème est la méthode d'analyse de régression de la variance (thème 12, paragraphe 4).

Corrélation des séries chronologiques. Il est souvent nécessaire de comparer la dynamique de séries chronologiques parallèles liées les unes aux autres par certaines conditions générales, par exemple pour découvrir la relation entre la production agricole et la croissance du cheptel sur une certaine période de temps. Dans de tels cas, la caractéristique de la relation entre les variables X et Y est Coefficient de corrélation R xy (en présence d'une tendance linéaire).

On sait que la tendance des séries temporelles est, en règle générale, masquée par les fluctuations de la série de la variable dépendante Y. Cela pose un double problème : mesurer la dépendance entre séries comparées, sans exclure la tendance, et mesurer la dépendance entre membres voisins d’une même série, hors tendance. Dans le premier cas, l'indicateur de l'étroitesse du lien entre les séries chronologiques comparées est Coefficient de corrélation(si la relation est linéaire), dans le second – coefficient d'autocorrélation. Ces indicateurs ont des significations différentes, bien qu'ils soient calculés à l'aide des mêmes formules (voir thème 11).

Il est facile de voir que la valeur du coefficient d'autocorrélation est affectée par la variabilité des membres de la série de la variable dépendante : moins les membres de la série s'écartent de la tendance, plus le coefficient d'autocorrélation est élevé, et vice versa.

Avec une relation de type linéaire entre les deux caractéristiques étudiées, en plus du calcul des corrélations, le calcul du coefficient de régression est utilisé.

Dans le cas d’une corrélation linéaire, chaque changement d’une caractéristique correspond à un changement très précis d’une autre caractéristique. Cependant, le coefficient de corrélation ne montre cette relation qu'en quantités relatives - en fractions d'unité. À l'aide d'une analyse de régression, cette valeur de relation est obtenue en unités nommées. La quantité dont la première caractéristique change en moyenne lorsque la seconde change d'une unité de mesure est appelée coefficient de régression.

Contrairement à l'analyse de régression de corrélation, elle fournit des informations plus larges, puisqu'en calculant deux coefficients de régression Rx/y Et Rу/х Il est possible de déterminer à la fois la dépendance du premier signe par rapport au second, et celle du second par rapport au premier. Exprimer une relation de régression à l'aide d'une équation permet de déterminer la valeur d'une autre caractéristique en fonction d'une certaine valeur d'une caractéristique.

Le coefficient de régression R est le produit du coefficient de corrélation et du rapport des écarts carrés calculés pour chaque caractéristique. Il est calculé selon la formule

où, R - coefficient de régression ; SH est l'écart type de la première caractéristique, qui change en raison d'un changement dans la seconde ; SУ - écart type de la deuxième caractéristique en relation avec le changement dont la première caractéristique change ; r est le coefficient de corrélation entre ces caractéristiques ; x-fonction ; y est un argument.

Cette formule détermine la valeur de x lorsque y change d'une unité de mesure. Si un calcul inverse est nécessaire, vous pouvez trouver la valeur de y lorsque x change par unité de mesure en utilisant la formule :


Dans ce cas, le rôle actif dans le changement d'une caractéristique par rapport à une autre change par rapport à la formule précédente, l'argument devient une fonction et vice versa. Les valeurs de SX et SY sont prises dans une expression nommée.

Il existe une relation claire entre les valeurs de r et R, qui s'exprime dans le fait que le produit de la régression de x sur y par la régression de y sur x est égal au carré du coefficient de corrélation, c'est-à-dire

Rx/y * Ry/x = r2

Cela indique que le coefficient de corrélation est la moyenne géométrique des deux valeurs des coefficients de régression d'un échantillon donné. Cette formule peut être utilisée pour vérifier l'exactitude des calculs.

Lors du traitement de matériel numérique sur des machines à calculer, des formules détaillées de coefficients de régression peuvent être utilisées :

R ou


Pour un coefficient de régression, son erreur de représentativité peut être calculée. L'erreur du coefficient de régression est égale à l'erreur du coefficient de corrélation multipliée par le rapport des rapports quadratiques :

Le critère de fiabilité du coefficient de régression est calculé selon la formule habituelle :

de ce fait, il est égal au critère de fiabilité du coefficient de corrélation :

La fiabilité de la valeur tR est établie à l'aide du tableau de Student à  = n - 2, où n est le nombre de paires d'observations.

Régression curviligne.

RÉGRESSION, CURVILINÉAIRE. Toute régression non linéaire dans laquelle l'équation de régression pour les modifications d'une variable (y) en fonction de t change dans une autre (x) est une équation quadratique, cubique ou d'ordre supérieur. Bien qu’il soit toujours mathématiquement possible d’obtenir une équation de régression qui s’adapte à chaque gribouillis de la courbe, la plupart de ces perturbations résultent d’erreurs d’échantillonnage ou de mesure, et un tel ajustement « parfait » ne donne aucun résultat. Il n'est pas toujours facile de déterminer si une régression curviligne correspond à un ensemble de données, bien qu'il existe des tests statistiques pour déterminer si chaque puissance supérieure de l'équation augmente de manière significative le degré d'ajustement de cet ensemble de données.

L'ajustement de courbe est effectué de la même manière par les moindres carrés que l'ajustement de ligne droite. La droite de régression doit satisfaire la condition de somme minimale des carrés des distances à chaque point du champ de corrélation. Dans ce cas, dans l'équation (1), y représente la valeur calculée de la fonction, déterminée à l'aide de l'équation de la relation curviligne sélectionnée basée sur les valeurs réelles de x j. Par exemple, si une parabole du second ordre est choisie pour approximer la connexion, alors y = a + b x + cx2, (14) et la différence entre un point situé sur la courbe et un point donné dans le champ de corrélation avec un point approprié. L'argument peut être écrit de la même manière que l'équation (3) sous la forme yj = yj (a + bx + cx2) (15) Dans ce cas, la somme des carrés des distances de chaque point du champ de corrélation à la nouvelle droite de régression dans le cas d'une parabole du second ordre aura la forme : S 2 = yj 2 = 2 (16) D'après la condition minimale de cette somme, les dérivées partielles de S 2 par rapport à a, b et c sont égales à zéro. Après avoir effectué les transformations nécessaires, nous obtenons un système de trois équations à trois inconnues pour déterminer a, b et c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). En résolvant le système d'équations pour a, b et c, on retrouve les valeurs numériques des coefficients de régression. Les valeurs y, x, x2, yx, yx2, x3, x4 sont trouvées directement à partir des données de mesure de production. Une évaluation de l'étroitesse de la connexion pour une dépendance curviligne est le rapport de corrélation théorique xy, qui est la racine carrée du rapport de deux dispersions : le carré moyen p2 des écarts des valeurs calculées y" j de la fonction selon l'équation de régression trouvée de la valeur moyenne arithmétique Y de la valeur y aux écarts quadratiques moyens y2 des valeurs réelles de la fonction y j par rapport à sa valeur moyenne arithmétique : xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Le carré du rapport de corrélation xy2 montre la part de la variabilité totale de la variable dépendante y, due à la variabilité de l'argument x . Cet indicateur est appelé coefficient de détermination. Contrairement au coefficient de corrélation, la valeur du rapport de corrélation ne peut prendre que des valeurs positives de 0 à 1. En l'absence totale de connexion, le rapport de corrélation est égal à zéro, en présence d'une connexion fonctionnelle il est égal à un, et en présence d'une connexion de régression d'étanchéité variable, le rapport de corrélation prend des valeurs comprises entre zéro et un . Le choix du type de courbe est d'une grande importance dans l'analyse de régression, puisque la précision de l'approximation et des estimations statistiques de l'étroitesse de la relation dépend du type de relation choisi. La méthode la plus simple pour sélectionner le type de courbe consiste à construire des champs de corrélation et à sélectionner les types appropriés d'équations de régression en fonction de l'emplacement des points sur ces champs. Les méthodes d'analyse de régression permettent de trouver des valeurs numériques de coefficients de régression pour des types complexes de relations entre paramètres, décrits par exemple par des polynômes de degrés élevés. Souvent, la forme de la courbe peut être déterminée en fonction de la nature physique du processus ou du phénomène considéré. Il est logique d'utiliser des polynômes de degrés élevés pour décrire des processus à évolution rapide si les limites de fluctuation des paramètres de ces processus sont significatives. En ce qui concerne les études du procédé métallurgique, il suffit d'utiliser des courbes d'ordre inférieur, par exemple une parabole du second ordre. Cette courbe peut avoir un extremum qui, comme le montre la pratique, est tout à fait suffisant pour décrire diverses caractéristiques du processus métallurgique. Les résultats des calculs des paramètres de la relation de corrélation appariée seraient fiables et auraient une valeur pratique si les informations utilisées étaient obtenues dans des conditions de larges limites de fluctuations d'arguments, tous les autres paramètres du processus étant constants. Par conséquent, les méthodes d'étude de la corrélation par paire de paramètres ne peuvent être utilisées pour résoudre des problèmes pratiques que lorsqu'il existe une confiance dans l'absence d'autres influences sérieuses sur la fonction autres que l'argument analysé. Dans des conditions de production, il est impossible de mener à bien le processus pendant une longue période. Cependant, si nous disposons d'informations sur les principaux paramètres du processus qui influencent ses résultats, alors mathématiquement nous pouvons exclure l'influence de ces paramètres et isoler sous « forme pure » la relation entre la fonction et l'argument qui nous intéresse. Une telle connexion est dite privée ou individuelle. Pour le déterminer, la méthode de régression multiple est utilisée.

Relation de corrélation.

Le rapport de corrélation et l'indice de corrélation sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire, ou plus précisément à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un certain phénomène sont appelées un système ou un complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins étroite. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante d’une variable aléatoire X si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur que prend X.

Il est à noter que la dépendance et l'indépendance des variables aléatoires sont toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur X ne dépend pas de Y. Compte tenu de cela, on peut donner la définition suivante de l'indépendance de variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que prend l'autre. Sinon, les quantités X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et leurs probabilités correspondantes.

Le concept de « dépendance » des variables aléatoires, utilisé en théorie des probabilités, est quelque peu différent du concept habituel de « dépendance » des variables, utilisé en mathématiques. Ainsi, un mathématicien par « dépendance » entend un seul type de dépendance : la dépendance complète, rigide, dite fonctionnelle. Deux quantités X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, vous pouvez déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, nous rencontrons un type de dépendance légèrement différent : une dépendance probabiliste. Si la valeur Y est liée à la valeur X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de la valeur de la valeur X. pris.

La relation probabiliste peut être plus ou moins étroite ; À mesure que la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de dépendance probabiliste la plus proche. Un autre cas extrême est l’indépendance totale des variables aléatoires. Entre ces deux cas extrêmes se situent tous les degrés de dépendance probabiliste – du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée dans la pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change d'une manière tout à fait définie ; cela signifie seulement que lorsque la valeur de X change, la valeur de Y a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée que de manière générale et des écarts sont possibles dans chaque cas individuel.



Avez-vous aimé l'article? Partage avec tes amis!