Méthodes d'estimation des paramètres de régression linéaire. Plans de régression simples

L'équation de régression est toujours complétée par un indicateur de l'étroitesse de la connexion. Lors de l'utilisation de la régression linéaire, un tel indicateur est le coefficient de corrélation linéaire r yt. Il existe différentes modifications de la formule du coefficient de corrélation linéaire.

Il convient de garder à l'esprit que la valeur du coefficient de corrélation linéaire évalue l'étroitesse du lien entre les caractéristiques considérées sous sa forme linéaire. Par conséquent, la proximité de la valeur absolue du coefficient de corrélation linéaire avec zéro ne signifie pas qu'il n'y a pas de lien entre les caractéristiques.

Pour évaluer la qualité de l'ajustement d'une fonction linéaire, le carré du coefficient de corrélation linéaire r yt 2, appelé coefficient de détermination, est calculé. Le coefficient de détermination caractérise la proportion de la variance de la caractéristique efficace à t expliquée par la régression de la variance totale de la caractéristique efficace.

L'équation de régression non linéaire, ainsi que la dépendance linéaire, sont complétées par un indicateur de corrélation, à savoir l'indice de corrélation R.

Une parabole du second ordre, comme un polynôme d'ordre supérieur, une fois linéarisée, prend la forme d'une équation de régression multiple. Si, une fois linéarisée, une équation de régression non linéaire par rapport à la variable expliquée prend la forme d'une équation de régression linéaire appariée, alors un coefficient de corrélation linéaire peut être utilisé pour évaluer l'étroitesse de la relation, dont la valeur dans ce cas coïncidera avec l’indice de corrélation.

La situation est différente lorsque les transformations de l’équation sous forme linéaire font intervenir une variable dépendante. Dans ce cas, le coefficient de corrélation linéaire basé sur les valeurs des caractéristiques transformées ne donne qu'une estimation approximative de l'étroitesse de la relation et ne coïncide pas numériquement avec l'indice de corrélation. Donc, pour une fonction puissance

après passage à l'équation logarithmiquement linéaire

lny = lna + blnx

un coefficient de corrélation linéaire peut être trouvé non pas pour les valeurs réelles des variables x et y, mais pour leurs logarithmes, c'est-à-dire r lnylnx. En conséquence, le carré de sa valeur caractérisera le rapport de la somme factorielle des écarts au carré au total, mais pas pour y, mais pour ses logarithmes :

Pendant ce temps, lors du calcul de l'indice de corrélation, les sommes des carrés des écarts de la caractéristique y sont utilisées, et non leurs logarithmes. À cette fin, les valeurs théoriques de la caractéristique résultante sont déterminées, c'est-à-dire comme l'antilogarithme de la valeur calculée par l'équation et la somme résiduelle des carrés as.

Le dénominateur du calcul R 2 yx implique la somme totale des carrés des écarts des valeurs réelles y par rapport à leur valeur moyenne, et le dénominateur r 2 lnxlny participe au calcul. Les numérateurs et dénominateurs des indicateurs considérés diffèrent en conséquence :

  • - dans l'indice de corrélation et
  • - dans le coefficient de corrélation.

En raison de la similitude des résultats et de la simplicité des calculs utilisant des programmes informatiques, le coefficient de corrélation linéaire est largement utilisé pour caractériser l'étroitesse de la connexion pour les fonctions non linéaires.

Malgré la proximité des valeurs de R et r ou R et r dans des fonctions non linéaires avec transformation de la valeur de la caractéristique y, il faut rappeler que si, avec une dépendance linéaire des caractéristiques, le même coefficient de corrélation caractérise le régression, il convient de rappeler que si, avec une dépendance linéaire des caractéristiques, un seul et même coefficient de corrélation caractérise la régression à la fois et, puisque, alors avec une dépendance curviligne pour la fonction y=j(x) n'est pas égal pour la régression x =f(y).

Puisque le calcul de l'indice de corrélation utilise le rapport du facteur et la somme totale des écarts carrés, il a la même signification que le coefficient de détermination. Dans des études spéciales, la valeur des relations non linéaires est appelée indice de détermination.

L'évaluation de la significativité de l'indice de corrélation s'effectue de la même manière que l'évaluation de la fiabilité du coefficient de corrélation.

L'indice de corrélation est utilisé pour tester la signification de l'équation de régression non linéaire globale à l'aide du test Fisher F.

La valeur m caractérise le nombre de degrés de liberté pour la somme factorielle des carrés, et (n - m - 1) - le nombre de degrés de liberté pour la somme des carrés résiduelle.

Pour une fonction puissance m = 1 et la formule du critère F prend la même forme que pour une dépendance linéaire :

Pour une parabole du deuxième degré

y = une 0 + une 1 x + une 2 x 2 +em = 2

Le critère F peut également être calculé dans le tableau d’analyse de variance des résultats de régression, comme cela a été montré pour la fonction linéaire.

L'indice de détermination peut être comparé au coefficient de détermination pour justifier la possibilité d'utiliser une fonction linéaire. Plus la courbure de la droite de régression est grande, moins le coefficient de détermination est l'indice de détermination. La similitude de ces indicateurs signifie qu'il n'est pas nécessaire de compliquer la forme de l'équation de régression et qu'une fonction linéaire peut être utilisée.

En pratique, si la différence entre l'indice de détermination et le coefficient de détermination ne dépasse pas 0,1, alors l'hypothèse d'une forme linéaire de la relation est considérée comme justifiée.

Si t fait >t tableau, alors les différences entre les indicateurs de corrélation considérés sont significatives et il est impossible de remplacer la régression non linéaire par une équation de fonction linéaire. En pratique, si la valeur t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Les phénomènes économiques, en règle générale, sont déterminés par un grand nombre de facteurs agissant simultanément et cumulativement. À cet égard, la tâche d'étudier la dépendance d'une variable se pose souvent àà partir de plusieurs variables explicatives ( x1, x2,…, xk) qui peut être résolu en utilisant analyse de corrélation multiple et de régression.

Lors de l'étude de la dépendance à l'aide de méthodes de régression multiple, le problème se forme de la même manière que lors de l'utilisation d'une régression appariée, c'est-à-dire il est nécessaire de déterminer l'expression analytique de la forme de lien entre la caractéristique résultante à et caractéristiques factorielles x, x2,..., xk, trouver la fonction , où k est le nombre de caractéristiques factorielles

La régression multiple est largement utilisée pour résoudre les problèmes de demande, de rendement des stocks, dans l'étude de la fonction de coût de production, dans les calculs macroéconomiques et dans diverses autres questions économétriques. Actuellement, la régression multiple est l'une des méthodes les plus courantes en économétrie. L'objectif principal de la régression multiple est de construire un modèle avec un grand nombre de facteurs, tout en déterminant l'influence de chacun d'eux séparément, ainsi que leur impact combiné sur l'indicateur modélisé.

En raison des particularités de la méthode des moindres carrés dans la régression multiple, comme dans la régression par paires, seules les équations linéaires et les équations réduites à une forme linéaire par transformation de variables sont utilisées. L’équation la plus couramment utilisée est une équation linéaire, qui peut s’écrire comme suit :

a 0 , a 1, …, a k – paramètres du modèle (coefficients de régression) ;

ε j – variable aléatoire (valeur restante).

Coefficient de régression UN j montre de quel montant en moyenne l'attribut effectif va changer oui, si une variable X j augmenter par unité de mesure à une valeur fixe (constante) des autres facteurs inclus dans l'équation de régression. Paramètres à x sont appelés coefficients de régression "purs" .

Exemple.

Supposons que la dépendance des dépenses alimentaires d'un ensemble de familles soit caractérisée par l'équation suivante :

oui– dépenses familiales pendant un mois pour la nourriture, mille roubles ;

x 1 – revenu mensuel par membre de la famille, en milliers de roubles ;

x 2 – taille de la famille, personnes.

L'analyse de cette équation nous permet de tirer des conclusions - avec une augmentation du revenu par membre de la famille de 1 000 roubles. les dépenses alimentaires augmenteront en moyenne de 350 roubles. avec la même taille moyenne de famille. Autrement dit, 35 % des dépenses familiales supplémentaires sont consacrées à l’alimentation. Une augmentation de la taille de la famille avec le même revenu implique une augmentation supplémentaire du coût de la nourriture de 730 roubles. Le premier paramètre n’est pas sujet à une interprétation économique.

La fiabilité de chacun des paramètres du modèle est évaluée à l'aide du test t de Student. Pour l'un des paramètres du modèle a j, la valeur du critère t est calculée à l'aide de la formule , Où


S ε – écart type (carré moyen) de l’équation de régression)

déterminé par la formule

Le coefficient de régression a j est considéré comme suffisamment fiable si la valeur calculée t- critère avec ( n-k-1) les degrés de liberté dépassent la valeur du tableau, c'est-à-dire t calculer > t UN jn-k-1. Si la fiabilité du coefficient de régression n’est pas confirmée, elle devrait l’être ; conclusion sur l'insignifiance dans le modèle factoriel j caractéristique et la nécessité de l’éliminer du modèle ou de la remplacer par une autre caractéristique factorielle.

Les coefficients du modèle de régression jouent un rôle important dans l'évaluation de l'influence des facteurs. Cependant, avec leur aide, il est impossible de comparer directement les caractéristiques des facteurs en fonction de leur degré d'influence sur la variable dépendante en raison de la différence entre les unités de mesure et des différents degrés de variabilité. Pour éliminer de telles différences, utilisez coefficients d'élasticité partielle E j et coefficients bêta β j.

Formule de calcul du coefficient d'élasticité

a j – coefficient de régression du facteur j,

Valeur moyenne de la caractéristique efficace

Valeur moyenne de la caractéristique j

Le coefficient d'élasticité montre de quel pourcentage la variable dépendante change à quand le facteur change j de 1%.

Formule pour déterminer le coefficient bêta.

, Où

S xj – écart type du facteur j;

S y - écart type du facteur y.

β - le coefficient montre de quelle partie de l'écart type S y la variable dépendante va changer à avec un changement de la variable indépendante correspondante X j par la valeur de son écart type avec une valeur fixe des variables indépendantes restantes.

La part d'influence d'un certain facteur dans l'influence totale de tous les facteurs peut être estimée par la valeur coefficients delta Δ j.

Ces coefficients permettent de classer les facteurs selon le degré d'influence des facteurs sur la variable dépendante.

Formule pour déterminer le coefficient delta.

r yj – coefficient de corrélation par paire entre le facteur j et la variable dépendante ;

R 2 – coefficient de détermination multiple.

Le coefficient de détermination multiple est utilisé pour évaluations de la qualité plusieurs modèles de régression.

Formule pour déterminer le coefficient de détermination multiple.

Le coefficient de détermination montre la proportion de variation de la caractéristique résultante qui est sous l'influence des caractéristiques factorielles, c'est-à-dire détermine quelle proportion de variation dans un trait à pris en compte dans le modèle et est dû à l'influence sur celui-ci des facteurs inclus dans le modèle. Plus on se rapproche R2à un, plus la qualité du modèle est élevée

Lors de l'ajout de variables indépendantes, la valeur R2 augmente, donc le coefficient R2 doit être ajusté pour le nombre de variables indépendantes à l'aide de la formule

Pour test de signification du modèle Le test F de Fisher est utilisé pour la régression. Il est déterminé par la formule

Si la valeur calculée du critère avec y 1, = k Et γ 2 = (n - k- 1) degrés de liberté supérieurs au tableau à un niveau de signification donné, alors le modèle est considéré comme significatif.

Pour mesurer la précision du modèle, l'erreur type est utilisée, qui est le rapport de la somme des carrés des niveaux de la composante résiduelle à la valeur (n - k -1) :

L'approche classique pour estimer les paramètres d'un modèle linéaire est basée sur méthode des moindres carrés (LSM). Le système d'équations normales a la forme :

Le système peut être résolu en utilisant l'une des méthodes bien connues : méthode de Gauss, méthode de Cramer, etc.

Exemple 15.

Pour quatre entreprises de la région (tableau 41), la dépendance de la production de produits par salarié est étudiée oui(en milliers de roubles) de la mise en service de nouvelles immobilisations (% de la valeur des actifs à la fin de l'année) et de la part des travailleurs hautement qualifiés dans le nombre total de travailleurs (%). Vous devez écrire une équation de régression multiple.

Tableau 41 – Dépendance de la production de produits par employé

Vous pouvez vérifier la signification des paramètres de l'équation de régression à l'aide des statistiques t.

Exercice:
Pour un groupe d'entreprises produisant le même type de produit, les fonctions de coût sont considérées :
y = α + βx ;
y = α x β ;
y = α β x ;
y = α + β/x ;
où y représente les coûts de production, en milliers d'unités.
x – production, en milliers d'unités.

Requis:
1. Construisez des équations de régression par paires y à partir de x :

  • linéaire;
  • pouvoir;
  • démonstratif;
  • hyperbole équilatérale.
2. Calculez le coefficient linéaire de corrélation de paires et le coefficient de détermination. Tirez des conclusions.
3. Évaluez la signification statistique de l’équation de régression dans son ensemble.
4. Évaluer la signification statistique des paramètres de régression et de corrélation.
5. Réaliser une prévision des coûts de production avec un rendement prévu de 195% du niveau moyen.
6. Évaluez l'exactitude de la prévision, calculez l'erreur de prévision et son intervalle de confiance.
7. Évaluez le modèle grâce à l’erreur d’approximation moyenne.

Solution:

1. L'équation est y = α + βx
1. Paramètres de l'équation de régression.
Valeurs moyennes

Dispersion

Écart type

Coefficient de corrélation

La relation entre le trait Y et le facteur X est forte et directe
Équation de régression

Coefficient de détermination
R 2 = 0,94 2 = 0,89, c'est-à-dire dans 88,9774 % des cas, les modifications de x entraînent des modifications de y. En d’autres termes, la précision de la sélection de l’équation de régression est élevée

x oui x2 et 2 x∙y y(x) (a-y cp) 2 (a-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Remarque : les valeurs de y(x) sont trouvées à partir de l'équation de régression résultante :
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Estimation des paramètres de l'équation de régression
Importance du coefficient de corrélation

En utilisant la table Student, nous trouvons Ttable
Tableau T (n-m-1;α/2) = (11;0,05/2) = 1,796
Puisque Tob > Ttabl, nous rejetons l’hypothèse selon laquelle le coefficient de corrélation est égal à 0. Autrement dit, le coefficient de corrélation est statistiquement significatif.

Analyse de l'exactitude de la détermination des estimations des coefficients de régression





S a = 0,1712
Intervalles de confiance pour la variable dépendante

Calculons les limites de l'intervalle dans lequel 95% des valeurs possibles de Y seront concentrées avec un nombre illimité d'observations et X = 1
(-20.41;56.24)
Tester des hypothèses concernant les coefficients d'une équation de régression linéaire
1) statistiques t


La signification statistique du coefficient de régression a est confirmée

La signification statistique du coefficient de régression b n'est pas confirmée
Intervalle de confiance pour les coefficients de l'équation de régression
Déterminons les intervalles de confiance des coefficients de régression, qui avec une fiabilité de 95 % seront les suivants :
(une - t S une ; une + t S une)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
où t = 1,796
2) Statistiques F


Fkp = 4,84
Puisque F > Fkp, le coefficient de détermination est statistiquement significatif

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de x, et des changements dans oui sont causés précisément par des changements dans x, on peut déterminer la droite de régression (régression oui sur x), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Droite de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

x appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur x, c'est-à-dire est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig.1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente x par unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Figure 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La méthode la plus simple pour déterminer les coefficients un Et b est méthode des moindres carrés(MNC).

L'ajustement est évalué en regardant les résidus (la distance verticale de chaque point de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à l’extrémité de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une valeur particulière en insérant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur standard pour estimer un intervalle de confiance pour la véritable moyenne de la population.

Répéter cette procédure pour différentes valeurs permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

et l'équation de régression utilisant P pour X1 est

Y = b0 + b1P

Si un plan de régression simple contient un effet d'ordre supérieur sur P, tel qu'un effet quadratique, alors les valeurs de la colonne X1 de la matrice de plan seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles se trouvant en dessous du seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté entraîne un exode, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Afficher les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle générale est que les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p<.001 .

Conclusion

Cet exemple montre comment analyser un plan de régression simple. Des interprétations de coefficients de régression non standardisés et standardisés ont également été présentées. L'importance d'étudier la distribution des réponses d'une variable dépendante est discutée et une technique permettant de déterminer la direction et la force de la relation entre un prédicteur et une variable dépendante est démontrée.

Analyse de corrélation.

Équation de régression appariée.

Utiliser la méthode graphique.

Cette méthode est utilisée pour représenter visuellement la forme de connexion entre les indicateurs économiques étudiés. Pour ce faire, un graphique est dessiné dans un système de coordonnées rectangulaires, les valeurs individuelles de la caractéristique résultante Y sont tracées le long de l'axe des ordonnées et les valeurs individuelles de la caractéristique factorielle X sont tracées le long de l'axe des abscisses.

L'ensemble des points des caractéristiques résultantes et factorielles est appelé champ de corrélation.

Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

L'équation de régression linéaire est y = bx + a + ε

Ici ε est une erreur aléatoire (déviation, perturbation).

Raisons de l'existence d'une erreur aléatoire :

1. Défaut d’inclure des variables explicatives significatives dans le modèle de régression ;

2. Agrégation de variables. Par exemple, la fonction de consommation totale est une tentative d’exprimer de manière générale l’ensemble des décisions de dépenses individuelles. Il ne s’agit ici que d’une approximation de relations individuelles ayant des paramètres différents.

3. Description incorrecte de la structure du modèle ;

4. Spécification fonctionnelle incorrecte ;

5. Erreurs de mesure.

Puisque les écarts ε i pour chaque observation spécifique i sont aléatoires et que leurs valeurs dans l'échantillon sont inconnues, alors :

1) à partir des observations x i et y i, seules des estimations des paramètres α et β peuvent être obtenues

2) Les estimations des paramètres α et β du modèle de régression sont respectivement les valeurs a et b, qui sont de nature aléatoire, car correspondre à un échantillon aléatoire ;

Ensuite, l'équation de régression d'estimation (construite à partir de données d'échantillon) aura la forme y = bx + a + ε, où e i sont les valeurs observées (estimations) des erreurs ε i , et a et b sont, respectivement, des estimations de les paramètres α et β du modèle de régression qu’il convient de retrouver.

Pour estimer les paramètres α et β, la méthode des moindres carrés (méthode des moindres carrés) est utilisée. La méthode des moindres carrés fournit les meilleures estimations (cohérentes, efficaces et impartiales) des paramètres de l'équation de régression.

Mais seulement si certaines prémisses sont remplies concernant le terme aléatoire (ε) et la variable indépendante (x).

Formellement, le critère OLS peut s’écrire comme suit :

S = ∑(y i - y * i) 2 → min

Système d'équations normales.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Pour nos données, le système d’équations a la forme

15a + 186,4b = 17,01

186,4 a + 2360,9 b = 208,25

A partir de la première équation on exprime UN et remplacez dans la deuxième équation :

On obtient des coefficients de régression empiriques : b = -0,07024, a = 2,0069

Équation de régression (équation de régression empirique) :

y = -0,07024 x + 2,0069

Coefficients de régression empiriques un Et b ne sont que des estimations des coefficients théoriques β i, et l'équation elle-même ne reflète que la tendance générale du comportement des variables considérées.

Pour calculer les paramètres de régression, nous allons construire un tableau de calcul (Tableau 1)

1. Paramètres de l'équation de régression.

Échantillon signifie.

Exemples d'écarts :

Écart type

1.1. Coefficient de corrélation

Covariance.

Nous calculons l'indicateur de proximité de la connexion. Cet indicateur est un exemple de coefficient de corrélation linéaire, calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.

Les liens entre les caractéristiques peuvent être faibles et forts (étroits). Leurs critères sont évalués sur l'échelle de Chaddock :

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

Dans notre exemple, la relation entre le trait Y et le facteur X est élevée et inverse.

De plus, le coefficient de corrélation linéaire des paires peut être déterminé via le coefficient de régression b :

1.2. Équation de régression(estimation de l'équation de régression).

L'équation de régression linéaire est y = -0,0702 x + 2,01

Les coefficients d’une équation de régression linéaire peuvent avoir une signification économique.

Le coefficient de régression b = -0,0702 montre la variation moyenne de l'indicateur effectif (en unités de mesure y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. Dans cet exemple, avec une augmentation de 1 unité, y diminue en moyenne de -0,0702.

Le coefficient a = 2,01 montre formellement le niveau prédit de y, mais seulement si x = 0 est proche des valeurs de l'échantillon.

Mais si x=0 est loin des valeurs d'échantillon de x, alors une interprétation littérale peut conduire à des résultats incorrects, et même si la droite de régression décrit assez précisément les valeurs d'échantillon observées, rien ne garantit que cela le sera également. être le cas lors d’une extrapolation à gauche ou à droite.

En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.

La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est inversée.

1.3. Coefficient d'élasticité.

Il n'est pas conseillé d'utiliser des coefficients de régression (dans l'exemple b) pour évaluer directement l'influence de facteurs sur une caractéristique résultante s'il existe une différence dans les unités de mesure de l'indicateur résultant y et de la caractéristique factorielle x.

À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés.

Le coefficient d'élasticité moyen E montre de quel pourcentage en moyenne le résultat changera dans l'ensemble à de sa valeur moyenne lorsque le facteur change x de 1% de sa valeur moyenne.

Le coefficient d'élasticité est trouvé par la formule :

Le coefficient d'élasticité est inférieur à 1. Par conséquent, si X change de 1 %, Y changera de moins de 1 %. Autrement dit, l’influence de X sur Y n’est pas significative.

Coefficient bêta

Coefficient bêta montre de quelle partie de la valeur de son écart type la valeur moyenne de la caractéristique résultante changera lorsque la caractéristique factorielle change de la valeur de son écart type avec la valeur des variables indépendantes restantes fixées à un niveau constant :

Ceux. une augmentation de x de l'écart type S x entraînera une diminution de la valeur moyenne de Y de 0,82 écart type S y .

1.4. Erreur d'approximation.

Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Erreur d'approximation moyenne - écart moyen des valeurs calculées par rapport aux valeurs réelles :

Une erreur d'approximation comprise entre 5 % et 7 % indique un bon ajustement de l'équation de régression aux données d'origine.

L’erreur étant inférieure à 7 %, cette équation peut être utilisée comme régression.



Avez-vous aimé l'article? Partagez avec vos amis !