Que montre le coefficient a1 dans le modèle de régression ? Multiple et non linéaire

Le coefficient de régression est la valeur absolue par laquelle, en moyenne, la valeur d'une caractéristique change lorsqu'une autre caractéristique associée change d'une unité de mesure spécifiée. Définition de la régression. La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Le modèle de régression linéaire est le plus couramment utilisé et le plus étudié en économétrie.

1.4. Erreur d'approximation. Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Les valeurs prédites des facteurs sont substituées dans le modèle et des estimations ponctuelles prédictives de l'indicateur étudié sont obtenues. Ainsi, les coefficients de régression caractérisent le degré d'importance des facteurs individuels pour augmenter le niveau de l'indicateur de performance.

Coefficient de régression

Considérons maintenant le problème 1 des tâches d'analyse de régression données à la p. 300-301. L’un des résultats mathématiques de la théorie de la régression linéaire indique que l’estimateur N est l’estimateur sans biais présentant la variance minimale dans la classe de tous les estimateurs linéaires sans biais. Par exemple, vous pouvez calculer le nombre de rhumes en moyenne à certaines valeurs de la température mensuelle moyenne de l'air pendant la période automne-hiver.

Droite de régression et équation de régression

Le sigma de régression est utilisé pour construire une échelle de régression, qui reflète l'écart des valeurs de la caractéristique résultante par rapport à sa valeur moyenne tracée sur la droite de régression. 1, x2, x3 et les valeurs moyennes correspondantes y1, y2 y3, ainsi que les valeurs les plus petites (y - σrу/х) et les plus grandes (y + σrу/х) (y) pour construire une échelle de régression. Conclusion. Ainsi, l'échelle de régression dans les limites des valeurs calculées du poids corporel permet de le déterminer à toute autre valeur de taille ou d'évaluer le développement individuel de l'enfant.

Sous forme matricielle, l'équation de régression (RE) s'écrit : Y=BX+U(\displaystyle Y=BX+U), où U(\displaystyle U) est la matrice d'erreur. L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on parle de régression multiple. Tant pour les valeurs aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention est portée aux changements dans les estimations (coefficients de régression).

En raison de la relation linéaire, nous nous attendons à ce qui change à mesure que cela change, et nous appelons cela la variation due ou expliquée par la régression. Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données. La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Cette méthode est utilisée pour représenter visuellement la forme de connexion entre les indicateurs économiques étudiés. Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Les raisons de l'existence d'une erreur aléatoire : 1. Défaut d'inclure des variables explicatives significatives dans le modèle de régression ; 2. Agrégation de variables. Système d'équations normales. Dans notre exemple, la connexion est directe. Pour prédire la variable dépendante de l'attribut résultant, il est nécessaire de connaître les valeurs prédites de tous les facteurs inclus dans le modèle.

Comparaison des coefficients de corrélation et de régression

Avec une probabilité de 95 %, il est possible de garantir que la valeur Y pour un nombre illimité d'observations ne sortira pas des limites des intervalles trouvés. Si la valeur calculée avec lang=EN-US>n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif. Cela garantit qu'il n'y a aucune corrélation entre d'éventuels écarts et, en particulier, entre des écarts adjacents.

Coefficients de régression et leur interprétation

Dans la plupart des cas, une autocorrélation positive est causée par l’influence directionnelle constante de certains facteurs non pris en compte dans le modèle. Une autocorrélation négative signifie essentiellement qu’un écart positif est suivi d’un écart négatif et vice versa.

Qu’est-ce que la régression ?

2. Inertie. De nombreux indicateurs économiques (inflation, chômage, PNB, etc.) présentent un certain caractère cyclique lié à l'ondulation de l'activité des entreprises. Dans de nombreux domaines de production et autres, les indicateurs économiques réagissent aux changements des conditions économiques avec un retard (décalage temporel).

Si une normalisation préalable des indicateurs factoriels est effectuée, alors b0 est égal à la valeur moyenne de l'indicateur effectif dans l'ensemble. Les valeurs spécifiques des coefficients de régression sont déterminées à partir de données empiriques selon la méthode des moindres carrés (à la suite de la résolution de systèmes d'équations normales).

L'équation de régression linéaire a la forme y = bx + a + ε Ici ε est une erreur aléatoire (déviation, perturbation). L’erreur étant supérieure à 15 %, il n’est pas conseillé d’utiliser cette équation comme régression. En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de x, et des changements dans oui sont causés précisément par des changements dans x, on peut déterminer la droite de régression (régression oui sur x), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Droite de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

x appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur x, c'est-à-dire c'est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig.1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente x pour une unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Figure 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La méthode la plus simple pour déterminer les coefficients un Et b est méthode des moindres carrés(MNC).

L'ajustement est évalué en regardant les résidus (distance verticale de chaque point de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à l’extrémité de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une valeur particulière en insérant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur standard pour estimer un intervalle de confiance pour la vraie moyenne de la population.

Répéter cette procédure pour différentes valeurs permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

et l'équation de régression utilisant P pour X1 est

Y = b0 + b1P

Si un plan de régression simple contient un effet d'ordre supérieur sur P, tel qu'un effet quadratique, alors les valeurs de la colonne X1 dans la matrice de plan seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles se trouvant en dessous du seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté conduise à l’émigration, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Afficher les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle générale est que les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.<.001 .

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p

Conclusion

Avec une relation de type linéaire entre les deux caractéristiques étudiées, en plus du calcul des corrélations, le calcul du coefficient de régression est utilisé.

Dans le cas d’une corrélation linéaire, chaque changement d’une caractéristique correspond à un changement très précis d’une autre caractéristique. Cependant, le coefficient de corrélation ne montre cette relation qu'en quantités relatives - en fractions d'unité. À l'aide d'une analyse de régression, cette valeur de relation est obtenue en unités nommées. La quantité dont la première caractéristique change en moyenne lorsque la seconde change d'une unité de mesure est appelée coefficient de régression.

Contrairement à l'analyse de régression de corrélation, elle fournit des informations plus larges, puisqu'en calculant deux coefficients de régression Rx/y Et Rу/х Il est possible de déterminer à la fois la dépendance du premier signe par rapport au second, et celle du second par rapport au premier. Exprimer une relation de régression à l'aide d'une équation permet de déterminer la valeur d'une autre caractéristique en fonction d'une certaine valeur d'une caractéristique.

Le coefficient de régression R est le produit du coefficient de corrélation et du rapport des écarts carrés calculés pour chaque caractéristique. Il est calculé selon la formule

où, R - coefficient de régression ; SH est l'écart type de la première caractéristique, qui change en raison d'un changement dans la seconde ; SУ - écart type de la deuxième caractéristique en relation avec le changement dont la première caractéristique change ; r est le coefficient de corrélation entre ces caractéristiques ; x-fonction ; y -argument.

Cette formule détermine la valeur de x lorsque y change d'une unité de mesure. Si un calcul inverse est nécessaire, vous pouvez trouver la valeur de y lorsque x change par unité de mesure en utilisant la formule :


Dans ce cas, le rôle actif dans le changement d'une caractéristique par rapport à une autre change par rapport à la formule précédente, l'argument devient une fonction et vice versa. Les valeurs de SX et SY sont prises dans une expression nommée.

Il existe une relation claire entre les valeurs de r et R, qui s'exprime dans le fait que le produit de la régression de x sur y par la régression de y sur x est égal au carré du coefficient de corrélation, c'est-à-dire

Rx/y * Ry/x = r2

Cela indique que le coefficient de corrélation représente la moyenne géométrique des deux valeurs des coefficients de régression d'un échantillon donné. Cette formule peut être utilisée pour vérifier l'exactitude des calculs.

Lors du traitement de matériel numérique sur des machines à calculer, des formules détaillées de coefficients de régression peuvent être utilisées :

R ou


Pour un coefficient de régression, son erreur de représentativité peut être calculée. L'erreur du coefficient de régression est égale à l'erreur du coefficient de corrélation multipliée par le rapport des rapports quadratiques :

Le critère de fiabilité du coefficient de régression est calculé selon la formule habituelle :

de ce fait, il est égal au critère de fiabilité du coefficient de corrélation :

La fiabilité de la valeur tR est établie à l'aide du tableau de Student à  = n - 2, où n est le nombre de paires d'observations.

Régression curviligne.

RÉGRESSION, CURVILINÉAIRE. Toute régression non linéaire dans laquelle l'équation de régression pour les modifications d'une variable (y) en fonction de t change dans une autre (x) est une équation quadratique, cubique ou d'ordre supérieur. Bien qu'il soit toujours mathématiquement possible d'obtenir une équation de régression qui s'adapte à chaque « gribouillis » de la courbe, la plupart de ces perturbations proviennent d'erreurs d'échantillonnage ou de mesure, et un tel ajustement « parfait » ne permet d'obtenir aucun résultat. Il n'est pas toujours facile de déterminer si une régression curviligne correspond à un ensemble de données, bien qu'il existe des tests statistiques pour déterminer si chaque puissance supérieure de l'équation augmente de manière significative le degré d'ajustement de cet ensemble de données.

L'ajustement de courbe est effectué de la même manière par les moindres carrés que l'ajustement de ligne droite. La droite de régression doit satisfaire la condition de somme minimale des carrés des distances à chaque point du champ de corrélation. Dans ce cas, dans l'équation (1), y représente la valeur calculée de la fonction, déterminée à l'aide de l'équation de la relation curviligne sélectionnée basée sur les valeurs réelles de x j. Par exemple, si une parabole du second ordre est choisie pour approximer la connexion, alors y = a + b x + cx2, (14) et la différence entre un point situé sur la courbe et un point donné dans le champ de corrélation avec un point approprié. L’argument peut être écrit de la même manière que l’équation (3) sous la forme yj = yj (a + bx + cx2) (15) Dans ce cas, la somme des carrés des distances de chaque point du champ de corrélation à la nouvelle droite de régression dans le cas d'une parabole du second ordre aura la forme : S 2 = yj 2 = 2 (16) D'après la condition minimale de cette somme, les dérivées partielles de S 2 par rapport à a, b et c sont égales à zéro. Après avoir effectué les transformations nécessaires, nous obtenons un système de trois équations à trois inconnues pour déterminer a, b et c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). En résolvant le système d'équations pour a, b et c, on retrouve les valeurs numériques des coefficients de régression. Les valeurs de y, x, x2, yx, yx2, x3, x4 sont trouvées directement à partir des données de mesure de production. Une évaluation de l'étroitesse de la connexion pour une dépendance curviligne est le rapport de corrélation théorique xy, qui est la racine carrée du rapport de deux dispersions : le carré moyen p2 des écarts des valeurs calculées y" j de la fonction selon l'équation de régression trouvée de la valeur moyenne arithmétique Y de la valeur y aux écarts quadratiques moyens y2 des valeurs réelles de la fonction y j par rapport à sa valeur moyenne arithmétique : xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Le carré du rapport de corrélation xy2 montre la part de la variabilité totale de la variable dépendante y, due à la variabilité de l'argument x . Cet indicateur est appelé coefficient de détermination. Contrairement au coefficient de corrélation, la valeur du rapport de corrélation ne peut prendre que des valeurs positives de 0 à 1. En l'absence totale de connexion, le rapport de corrélation est égal à zéro, en présence d'une connexion fonctionnelle il est égal à un, et en présence d'une connexion de régression de proximité variable, le rapport de corrélation prend des valeurs comprises entre zéro et un . Le choix du type de courbe est d'une grande importance dans l'analyse de régression, puisque la précision de l'approximation et des estimations statistiques de l'étroitesse de la relation dépend du type de relation choisi. La méthode la plus simple pour sélectionner le type de courbe consiste à construire des champs de corrélation et à sélectionner les types appropriés d'équations de régression en fonction de l'emplacement des points sur ces champs. Les méthodes d'analyse de régression permettent de trouver des valeurs numériques de coefficients de régression pour des types complexes de relations entre paramètres, décrits par exemple par des polynômes de degrés élevés. Souvent, la forme de la courbe peut être déterminée en fonction de la nature physique du processus ou du phénomène considéré. Il est logique d'utiliser des polynômes de degrés élevés pour décrire des processus à évolution rapide si les limites de fluctuation des paramètres de ces processus sont significatives. En ce qui concerne les études du procédé métallurgique, il suffit d'utiliser des courbes d'ordre inférieur, par exemple une parabole du second ordre. Cette courbe peut avoir un extremum qui, comme le montre la pratique, est tout à fait suffisant pour décrire diverses caractéristiques du processus métallurgique. Les résultats des calculs des paramètres de la relation de corrélation appariée seraient fiables et auraient une valeur pratique si les informations utilisées étaient obtenues dans des conditions de larges limites de fluctuations d'arguments, tous les autres paramètres du processus étant constants. Par conséquent, les méthodes d'étude de la corrélation par paire de paramètres ne peuvent être utilisées pour résoudre des problèmes pratiques que lorsqu'il existe une confiance dans l'absence d'autres influences sérieuses sur la fonction autres que l'argument analysé. Dans les conditions de production, il est impossible de réaliser le processus de cette manière pendant une longue période. Cependant, si nous disposons d'informations sur les principaux paramètres du processus qui influencent ses résultats, alors mathématiquement nous pouvons exclure l'influence de ces paramètres et isoler sous « forme pure » la relation entre la fonction et l'argument qui nous intéresse. Une telle connexion est dite privée ou individuelle. Pour le déterminer, la méthode de régression multiple est utilisée.

Relation de corrélation.

Le rapport de corrélation et l'indice de corrélation sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire, ou plus précisément à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un certain phénomène sont appelées un système ou un complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins étroite. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante d’une variable aléatoire X si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur que prend X.

Il est à noter que la dépendance et l'indépendance des variables aléatoires sont toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur X ne dépend pas de Y. Compte tenu de cela, on peut donner la définition suivante de l'indépendance de variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que prend l'autre. Sinon, les quantités X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et leurs probabilités correspondantes.

Le concept de « dépendance » des variables aléatoires, utilisé en théorie des probabilités, est quelque peu différent du concept habituel de « dépendance » des variables, utilisé en mathématiques. Ainsi, un mathématicien par « dépendance » entend un seul type de dépendance : la dépendance complète, rigide, dite fonctionnelle. Deux quantités X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, vous pouvez déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, nous rencontrons un type de dépendance légèrement différent : une dépendance probabiliste. Si la valeur Y est liée à la valeur X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de la valeur de la valeur X. pris.

La relation probabiliste peut être plus ou moins étroite ; À mesure que la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de la dépendance probabiliste la plus proche. Un autre cas extrême est l’indépendance totale des variables aléatoires. Entre ces deux cas extrêmes se situent tous les degrés de dépendance probabiliste – du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée dans la pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change d'une manière très définie ; cela signifie seulement que lorsque la valeur de X change, la valeur de Y a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée que de manière générale et des écarts sont possibles dans chaque cas individuel.

L'étude des dépendances de corrélation repose sur l'étude de telles connexions entre variables dans lesquelles les valeurs d'une variable, qui peut être considérée comme variable dépendante, changent « en moyenne » en fonction des valeurs prises par une autre variable, considérée comme une cause par rapport à la variable dépendante. L'action de cette cause s'effectue dans des conditions d'interaction complexe de divers facteurs, de sorte que la manifestation du modèle est obscurcie par l'influence du hasard. En calculant les valeurs moyennes de l'attribut effectif pour un groupe donné de valeurs de l'attribut-facteur, l'influence du hasard est en partie éliminée. En calculant les paramètres de la ligne de communication théorique, ils sont encore éliminés et un changement sans ambiguïté (de forme) de « y » avec un changement du facteur « x » est obtenu.

Pour étudier les relations stochastiques, la méthode de comparaison de deux séries parallèles, la méthode des regroupements analytiques, l'analyse de corrélation, l'analyse de régression et certaines méthodes non paramétriques sont largement utilisées. En général, la tâche des statistiques dans le domaine de l'étude des relations n'est pas seulement de quantifier leur présence, leur direction et la force de leur connexion, mais aussi de déterminer la forme (expression analytique) de l'influence des caractéristiques factorielles sur celle qui en résulte. Pour le résoudre, des méthodes d'analyse de corrélation et de régression sont utilisées.

CHAPITRE 1. ÉQUATION DE RÉGRESSION : FONDEMENTS THÉORIQUES

1.1. Équation de régression : essence et types de fonctions

La régression (lat. regressio - mouvement inverse, transition de formes de développement plus complexes à des formes moins complexes) est l'un des concepts de base de la théorie des probabilités et des statistiques mathématiques, exprimant la dépendance de la valeur moyenne d'une variable aléatoire sur les valeurs d'une autre variable aléatoire ou de plusieurs variables aléatoires. Ce concept a été introduit par Francis Galton en 1886.

La droite de régression théorique est la droite autour de laquelle sont regroupés les points du champ de corrélation et qui indique la direction principale, la tendance principale de la connexion.

La droite de régression théorique doit refléter le changement des valeurs moyennes de l'attribut effectif « y » à mesure que les valeurs de l'attribut du facteur « x » changent, à condition que toutes les autres causes, aléatoires par rapport au facteur « x » , sont totalement annulés. Par conséquent, cette droite doit être tracée de telle sorte que la somme des écarts des points du champ de corrélation par rapport aux points correspondants de la droite de régression théorique soit égale à zéro, et la somme des carrés de ces écarts soit minimale.

y=f(x) - l'équation de régression est une formule pour la relation statistique entre les variables.

Une ligne droite sur un plan (dans un espace bidimensionnel) est donnée par l'équation y=a+b*x. Plus en détail, la variable y peut être exprimée en termes d'une constante (a) et d'une pente (b) multipliée par la variable x. La constante est parfois également appelée terme à l’origine, et la pente est parfois appelée régression ou coefficient B.

Une étape importante de l'analyse de régression consiste à déterminer le type de fonction avec laquelle la dépendance entre les caractéristiques est caractérisée. La base principale devrait être une analyse significative de la nature de la dépendance étudiée et de son mécanisme. Dans le même temps, il n'est pas toujours possible de justifier théoriquement la forme de lien entre chacun des facteurs et l'indicateur de performance, car les phénomènes socio-économiques étudiés sont très complexes et les facteurs qui façonnent leur niveau sont étroitement liés et interagissent. les uns avec les autres. Par conséquent, sur la base de l'analyse théorique, les conclusions les plus générales peuvent souvent être tirées concernant l'orientation de la relation, la possibilité de son évolution dans la population étudiée, la légitimité de l'utilisation d'une relation linéaire, la présence éventuelle de valeurs extrêmes, etc. Un complément nécessaire à ces hypothèses doit être une analyse de données factuelles spécifiques.

Une idée approximative de la ligne de relation peut être obtenue sur la base de la ligne de régression empirique. La droite de régression empirique est généralement une ligne brisée et présente une cassure plus ou moins importante. Cela s'explique par le fait que l'influence d'autres facteurs non pris en compte qui influencent la variation de la caractéristique résultante est incomplètement éteinte dans la moyenne, en raison du nombre insuffisamment grand d'observations. Par conséquent, une ligne de communication empirique peut être utilisée pour sélectionner et justifier le type de courbe théorique, à condition que le nombre d'observations soit suffisamment grand.

L'un des éléments d'études spécifiques est la comparaison de diverses équations de dépendance, basée sur l'utilisation de critères de qualité pour approximer les données empiriques par des versions concurrentes de modèles. Les types de fonctions suivants sont le plus souvent utilisés pour caractériser les relations entre indicateurs économiques :

1. Linéaire :

2. Hyperbolique :

3. Démonstratif :

4. Parabolique :

5. Puissance :

6. Logarithmique :

7. Logistique :

Un modèle avec une variable explicative et une variable expliquée est un modèle de régression apparié. Si deux variables explicatives (factorielles) ou plus sont utilisées, on parle alors d'utilisation d'un modèle de régression multiple. Dans ce cas, des fonctions linéaires, exponentielles, hyperboliques, exponentielles et autres types de fonctions reliant ces variables peuvent être sélectionnées comme options.

Pour trouver les paramètres a et b de l'équation de régression, la méthode des moindres carrés est utilisée. Lors de l'application de la méthode des moindres carrés pour trouver une fonction qui correspond le mieux aux données empiriques, on pense que le sac de carrés d'écarts de points empiriques par rapport à la droite de régression théorique devrait être une valeur minimale.

Le critère des moindres carrés peut s’écrire comme suit :

Par conséquent, l’utilisation de la méthode des moindres carrés pour déterminer les paramètres a et b de la droite qui correspondent le mieux aux données empiriques se réduit à un problème extrême.

Concernant les évaluations, les conclusions suivantes peuvent être tirées :

1. Les estimateurs des moindres carrés sont des fonctions de l’échantillon, ce qui les rend faciles à calculer.

2. Les estimations des moindres carrés sont des estimations ponctuelles des coefficients de régression théoriques.

3. La droite de régression empirique passe nécessairement par le point x, y.

4. L'équation de régression empirique est construite de telle manière que la somme des écarts

.

Une représentation graphique de la ligne de communication empirique et théorique est présentée à la figure 1.


Le paramètre b dans l'équation est le coefficient de régression. En présence d'une corrélation directe, le coefficient de régression est positif, et en cas de corrélation inverse, le coefficient de régression est négatif. Le coefficient de régression montre de combien en moyenne la valeur de l'attribut effectif « y » change lorsque l'attribut facteur « x » change de un. Géométriquement, le coefficient de régression est la pente de la droite représentant l'équation de corrélation par rapport à l'axe « x » (pour l'équation

).

La branche de l'analyse statistique multivariée consacrée à la reconstruction des dépendances est appelée analyse de régression. Le terme « analyse de régression linéaire » est utilisé lorsque la fonction considérée dépend linéairement des paramètres estimés (la dépendance aux variables indépendantes peut être arbitraire). Théorie de l'évaluation

Les paramètres inconnus sont bien développés spécifiquement dans le cas de l’analyse de régression linéaire. S'il n'y a pas de linéarité et qu'il est impossible de passer à un problème linéaire, alors, en règle générale, on ne peut pas s'attendre à de bonnes propriétés des estimations. Nous démontrerons des approches dans le cas de dépendances de différents types. Si la dépendance a la forme d'un polynôme (polynôme). Si le calcul de corrélation caractérise la force de la relation entre deux variables, alors l'analyse de régression sert à déterminer le type de cette relation et permet de prédire la valeur d'une variable (dépendante) en fonction de la valeur d'une autre variable (indépendante). . Pour effectuer une analyse de régression linéaire, la variable dépendante doit avoir une échelle d'intervalle (ou ordinale). Dans le même temps, la régression logistique binaire révèle la dépendance d'une variable dichotomique à l'égard d'une autre variable liée à n'importe quelle échelle. Les mêmes conditions d’application s’appliquent à l’analyse probit. Si la variable dépendante est catégorielle mais comporte plus de deux catégories, alors la régression logistique multinomiale est une méthode appropriée ; les relations non linéaires entre les variables appartenant à une échelle d'intervalle peuvent être analysées. La méthode de régression non linéaire est conçue à cet effet.

Concept de régression. Dépendance entre variables x Et oui peut être décrit de différentes manières. En particulier, toute forme de connexion peut être exprimée par une équation générale, où oui traité comme une variable dépendante, ou fonctions d'une autre - variable indépendante x, appelée argument. La correspondance entre un argument et une fonction peut être spécifiée par un tableau, une formule, un graphique, etc. Changer une fonction en fonction d'un changement d'un ou plusieurs arguments est appelé régression. Tous les moyens utilisés pour décrire les corrélations constituent le contenu analyse de régression.

Pour exprimer la régression, les équations de corrélation ou équations de régression, des séries de régression empiriques et théoriquement calculées, leurs graphiques, appelés droites de régression, ainsi que des coefficients de régression linéaires et non linéaires sont utilisés.

Les indicateurs de régression expriment la relation de corrélation de manière bilatérale, en tenant compte des changements dans les valeurs moyennes de la caractéristique Oui lors du changement de valeurs x je signe X, et, à l'inverse, montrer un changement dans les valeurs moyennes de la caractéristique X selon les valeurs modifiées oui je signe Oui. L'exception concerne les séries chronologiques, ou séries chronologiques, montrant les changements de caractéristiques au fil du temps. La régression de telles séries est unilatérale.

Il existe de nombreuses formes et types différents de corrélations. La tâche consiste à identifier la forme de la connexion dans chaque cas spécifique et à l'exprimer avec l'équation de corrélation appropriée, ce qui nous permet d'anticiper les changements possibles d'une caractéristique. Oui basé sur des changements connus dans un autre X, lié au premier de manière corrélationnelle.

12.1 Régression linéaire

Équation de régression. Résultats d'observations réalisées sur un objet biologique particulier basées sur des caractéristiques corrélées x Et oui, peut être représenté par des points sur un plan en construisant un système de coordonnées rectangulaires. Le résultat est une sorte de diagramme de dispersion qui permet de juger de la forme et de l’étroitesse de la relation entre diverses caractéristiques. Très souvent, cette relation ressemble à une ligne droite ou peut être approchée par une ligne droite.

Relation linéaire entre les variables x Et oui est décrit par une équation générale, où a, b, c, d,... – paramètres de l'équation qui déterminent les relations entre les arguments x 1 ,x 2 ,x 3 , …, x m et fonctions.

En pratique, tous les arguments possibles ne sont pas pris en compte, mais seulement certains arguments dans le cas le plus simple, un seul :

Dans l'équation de régression linéaire (1) un est le terme libre, et le paramètre b détermine la pente de la droite de régression par rapport aux axes de coordonnées rectangulaires. En géométrie analytique, ce paramètre est appelé pente, et en biométrie – coefficient de régression. Une représentation visuelle de ce paramètre et la position des droites de régression Oui Par X Et X Par Oui dans le système de coordonnées rectangulaires donne la Fig. 1.

Riz. 1 Droites de régression de Y par X et de X par Y dans le système

coordonnées rectangulaires

Les droites de régression, comme le montre la figure 1, se coupent au point O (,), correspondant aux valeurs moyennes arithmétiques des caractéristiques corrélées entre elles Oui Et X. Lors de la construction de graphiques de régression, les valeurs de la variable indépendante X sont tracées le long de l'axe des abscisses et les valeurs de la variable dépendante, ou fonction Y, sont tracées le long de l'axe des ordonnées. Ligne AB passant par le point O (, ) correspond à la relation (fonctionnelle) complète entre les variables Oui Et X, lorsque le coefficient de corrélation . Plus le lien entre Oui Et X, plus les droites de régression sont proches de AB, et, à l'inverse, plus le lien entre ces quantités est faible, plus les droites de régression sont éloignées de AB. S'il n'y a aucun lien entre les caractéristiques, les droites de régression sont perpendiculaires les unes aux autres et .

Étant donné que les indicateurs de régression expriment la relation de corrélation de manière bilatérale, l'équation de régression (1) doit s'écrire comme suit :

La première formule détermine les valeurs moyennes lorsque la caractéristique change X par unité de mesure, pour la seconde - valeurs moyennes lors du changement d'une unité de mesure de l'attribut Oui.

Coefficient de régression. Le coefficient de régression montre à quel point en moyenne la valeur d'une caractéristique oui change lorsque la mesure d'un autre, corrélée avec, change d'un Oui signe X. Cet indicateur est déterminé par la formule

Voici les valeurs s multiplié par la taille des intervalles de classe λ , s'ils ont été trouvés à partir de séries de variations ou de tableaux de corrélation.

Le coefficient de régression peut être calculé sans calculer les écarts types s oui Et s x selon la formule

Si le coefficient de corrélation est inconnu, le coefficient de régression est déterminé comme suit :

Relation entre les coefficients de régression et de corrélation. En comparant les formules (11.1) (thème 11) et (12.5), on voit : leur numérateur a la même valeur, ce qui indique un lien entre ces indicateurs. Cette relation s'exprime par l'égalité

Ainsi, le coefficient de corrélation est égal à la moyenne géométrique des coefficients b yx Et b xy. La formule (6) permet, d'une part, à partir des valeurs connues des coefficients de régression b yx Et b xy déterminer le coefficient de régression R. xy, et d'autre part, vérifier l'exactitude du calcul de cet indicateur de corrélation R. xy entre des caractéristiques variables X Et Oui.

Comme le coefficient de corrélation, le coefficient de régression caractérise uniquement une relation linéaire et est accompagné d'un signe plus pour une relation positive et d'un signe moins pour une relation négative.

Détermination des paramètres de régression linéaire. On sait que la somme des écarts au carré est une variante x je de la moyenne est la plus petite valeur, c'est-à-dire Ce théorème constitue la base de la méthode des moindres carrés. Concernant la régression linéaire [voir formule (1)] l'exigence de ce théorème est satisfaite par un certain système d'équations appelé normale:

Solution conjointe de ces équations par rapport aux paramètres un Et b conduit aux résultats suivants :

;

;

, d'où et.

Compte tenu de la nature bidirectionnelle de la relation entre les variables Oui Et X, formule pour déterminer le paramètre UN devrait s'exprimer ainsi :

Et . (7)

Paramètre b, ou coefficient de régression, est déterminé par les formules suivantes :

Construction de séries de régression empiriques. S'il existe un grand nombre d'observations, l'analyse de régression commence par la construction de séries de régression empiriques. Série de régression empirique est formé en calculant à partir des valeurs d'une caractéristique variable X valeurs moyennes d'un autre, corrélées avec X signe Oui. En d'autres termes, la construction de séries de régression empirique revient à trouver des moyennes de groupe à partir des valeurs correspondantes des caractéristiques Y et X.

Une série de régression empirique est une double série de nombres qui peuvent être représentés par des points sur un plan, puis, en reliant ces points par des segments de droite, une ligne de régression empirique peut être obtenue. Séries de régression empiriques, notamment leurs graphiques, appelées droites de régression, donnent une idée claire de la forme et de l'étroitesse de la corrélation entre différentes caractéristiques.

Alignement des séries de régression empirique. En règle générale, les graphiques des séries de régression empirique ne sont pas des lignes lisses, mais des lignes brisées. Cela s'explique par le fait que, outre les principales raisons qui déterminent le schéma général de la variabilité des caractéristiques corrélées, leur ampleur est affectée par l'influence de nombreuses raisons secondaires qui provoquent des fluctuations aléatoires dans les points nodaux de régression. Pour identifier la tendance principale (tendance) de la variation conjuguée des caractéristiques corrélées, il est nécessaire de remplacer les lignes brisées par des lignes de régression lisses et fluides. Le processus de remplacement des lignes brisées par des lignes lisses s'appelle alignement de séries empiriques Et droites de régression.

Méthode d'alignement graphique. Il s’agit de la méthode la plus simple qui ne nécessite aucun travail informatique. Son essence se résume à ce qui suit. La série de régression empirique est représentée sous forme de graphique dans un système de coordonnées rectangulaires. Ensuite, les points médians de la régression sont visuellement délimités, le long desquels une ligne continue est tracée à l'aide d'une règle ou d'un motif. L'inconvénient de cette méthode est évident : elle n'exclut pas l'influence des propriétés individuelles du chercheur sur les résultats d'alignement des droites de régression empirique. Par conséquent, dans les cas où une plus grande précision est nécessaire lors du remplacement des lignes de régression brisées par des droites lisses, d'autres méthodes d'alignement des séries empiriques sont utilisées.

Méthode de moyenne mobile. L'essence de cette méthode se résume au calcul séquentiel de moyennes arithmétiques à partir de deux ou trois termes adjacents d'une série empirique. Cette méthode est particulièrement pratique dans les cas où la série empirique est représentée par un grand nombre de termes, de sorte que la perte de deux d'entre eux - les extrêmes, inévitable avec cette méthode d'alignement, n'affectera pas sensiblement sa structure.

Méthode des moindres carrés. Cette méthode a été proposée au début du XIXe siècle par A.M. Legendre et, indépendamment de lui, K. Gauss. Il vous permet d'aligner avec la plus grande précision les séries empiriques. Cette méthode, comme indiqué ci-dessus, repose sur l'hypothèse que la somme des carrés des écarts est une option x je à partir de leur moyenne, il y a une valeur minimale, c'est-à-dire d'où le nom de la méthode, qui est utilisée non seulement en écologie, mais aussi en technologie. La méthode des moindres carrés est objective et universelle ; elle est utilisée dans une grande variété de cas pour trouver des équations empiriques pour des séries de régression et déterminer leurs paramètres.

L'exigence de la méthode des moindres carrés est que les points théoriques de la droite de régression doivent être obtenus de telle manière que la somme des écarts au carré par rapport à ces points pour les observations empiriques oui jeétait minime, c'est-à-dire

En calculant le minimum de cette expression conformément aux principes de l'analyse mathématique et en le transformant d'une certaine manière, on peut obtenir un système dit équations normales, dans lequel les valeurs inconnues sont les paramètres requis de l'équation de régression, et les coefficients connus sont déterminés par les valeurs empiriques des caractéristiques, généralement les sommes de leurs valeurs et de leurs produits vectoriels.

Régression linéaire multiple. La relation entre plusieurs variables est généralement exprimée par une équation de régression multiple, qui peut être linéaire Et non linéaire. Dans sa forme la plus simple, la régression multiple s'exprime sous la forme d'une équation à deux variables indépendantes ( x, z):

un– terme libre de l'équation ; b Et c– paramètres de l'équation. Pour trouver les paramètres de l'équation (10) (en utilisant la méthode des moindres carrés), le système d'équations normales suivant est utilisé :

Série dynamique. Alignement des lignes. Les changements de caractéristiques au fil du temps forment ce qu'on appelle séries chronologiques ou série dynamique. Une caractéristique de ces séries est que la variable indépendante X est ici toujours le facteur temps et la variable dépendante Y est une caractéristique changeante. Selon les séries de régression, la relation entre les variables X et Y est unilatérale, puisque le facteur temps ne dépend pas de la variabilité des caractéristiques. Malgré ces caractéristiques, les séries dynamiques peuvent être assimilées à des séries de régression et traitées selon les mêmes méthodes.

Comme les séries de régression, les séries empiriques de dynamiques subissent l'influence non seulement des facteurs principaux, mais également de nombreux facteurs secondaires (aléatoires) qui obscurcissent la tendance principale de la variabilité des caractéristiques, ce que l'on appelle dans le langage statistique s'orienter.

L'analyse des séries chronologiques commence par l'identification de la forme de la tendance. Pour ce faire, la série chronologique est représentée sous forme de graphique linéaire dans un système de coordonnées rectangulaires. Dans ce cas, les points temporels (années, mois et autres unités de temps) sont tracés le long de l'axe des abscisses et les valeurs de la variable dépendante Y sont tracées le long de l'axe des ordonnées s'il existe une relation linéaire entre les variables X. et Y (tendance linéaire), la méthode des moindres carrés est la plus appropriée pour aligner les séries temporelles est une équation de régression sous forme d'écarts des termes de la série de la variable dépendante Y par rapport à la moyenne arithmétique de la série des variables indépendantes variable X :

Voici le paramètre de régression linéaire.

Caractéristiques numériques des séries dynamiques. Les principales caractéristiques numériques généralisantes des séries dynamiques comprennent moyenne géométrique et une moyenne arithmétique proche. Ils caractérisent la vitesse moyenne à laquelle la valeur de la variable dépendante évolue sur certaines périodes de temps :

Une évaluation de la variabilité des membres de la série dynamique est écart type. Lors du choix des équations de régression pour décrire les séries chronologiques, la forme de la tendance est prise en compte, qui peut être linéaire (ou réduite à linéaire) et non linéaire. L'exactitude du choix de l'équation de régression est généralement jugée par la similitude des valeurs empiriquement observées et calculées de la variable dépendante. Une solution plus précise à ce problème est la méthode d'analyse de régression de la variance (thème 12, paragraphe 4).

Corrélation des séries chronologiques. Il est souvent nécessaire de comparer la dynamique de séries chronologiques parallèles liées les unes aux autres par certaines conditions générales, par exemple pour découvrir la relation entre la production agricole et la croissance du cheptel sur une certaine période de temps. Dans de tels cas, la caractéristique de la relation entre les variables X et Y est coefficient de corrélation R xy (en présence d'une tendance linéaire).

On sait que la tendance des séries temporelles est, en règle générale, masquée par les fluctuations de la série de la variable dépendante Y. Cela pose un double problème : mesurer la dépendance entre séries comparées, sans exclure la tendance, et mesurer la dépendance entre membres voisins d’une même série, hors tendance. Dans le premier cas, l'indicateur de l'étroitesse du lien entre les séries chronologiques comparées est coefficient de corrélation(si la relation est linéaire), dans le second – coefficient d'autocorrélation. Ces indicateurs ont des significations différentes, bien qu'ils soient calculés à l'aide des mêmes formules (voir thème 11).

Il est facile de voir que la valeur du coefficient d'autocorrélation est affectée par la variabilité des membres de la série de la variable dépendante : moins les membres de la série s'écartent de la tendance, plus le coefficient d'autocorrélation est élevé, et vice versa.



Avez-vous aimé l'article? Partagez avec vos amis !