Le coefficient de régression caractérise. Qu’est-ce que la régression ? Exemple : analyse de régression simple

Fondamentaux de l'analyse des données.

Un problème typique qui se pose dans la pratique est identifier les dépendances ou les relations entre les variables. Dans la vraie vie, les variables sont liées les unes aux autres. Par exemple, en marketing, le montant d’argent dépensé en publicité affecte les ventes ; dans la recherche médicale, la dose d’un médicament affecte l’effet ; dans la production textile, la qualité de la teinture des tissus dépend de la température, de l'humidité et d'autres paramètres ; en métallurgie, la qualité de l'acier dépend d'additifs spéciaux, etc. Trouver des dépendances dans les données et les utiliser à vos propres fins est la tâche de l'analyse des données.

Disons que vous observez les valeurs d'une paire de variables X et Y et que vous souhaitez trouver la relation entre elles. Par exemple:

X - nombre de visiteurs de la boutique en ligne, Y - volume des ventes ;

X - diagonale du panneau plasma, Y - prix ;

X est le prix d'achat de l'action, Y est le prix de vente ;

X est le coût de l'aluminium à la Bourse de Londres, Y est le volume des ventes ;

X - le nombre de ruptures d'oléoducs, Y - le montant des pertes ;

X est « l'âge » de l'avion, Y est le coût de sa réparation ;

X - surface de vente, Y - chiffre d'affaires du magasin ;

X est le revenu, Y est la consommation, etc.

La variable X est généralement appelée variable indépendante, la variable Y est appelée variable dépendante. Parfois, la variable X est appelée un prédicteur, la variable Y est appelée une réponse.



Nous voulons déterminer exactement la dépendance à l'égard de X ou prédire quelles seront les valeurs de Y pour des valeurs données de X. Dans ce cas, on observe les valeurs X et les valeurs Y correspondantes. La tâche est de construire un modèle permettant de déterminer Y à partir de valeurs de X différentes de celles observées. En statistique, ces problèmes sont résolus dans le cadre analyse de régression.

Il existe différents modèles de régression, déterminé par le choix de la fonction f(x 1 ,x 2 ,…,x m):

1) Régression linéaire simple

2) Régression multiple

3) Régression polynomiale

Chances sont appelés paramètres de régression.

La principale caractéristique de l'analyse de régression : avec son aide, vous pouvez obtenir des informations spécifiques sur la forme et la nature de la relation entre les variables étudiées.

Séquence des étapes de l'analyse de régression

1. Formulation du problème. A ce stade, des hypothèses préliminaires sont formulées sur la dépendance des phénomènes étudiés.

2. Définition des variables dépendantes et indépendantes (explicatives).

3. Collecte de données statistiques. Les données doivent être collectées pour chacune des variables incluses dans le modèle de régression.

4. Formulation d'une hypothèse sur la forme de la connexion (simple ou multiple, linéaire ou non linéaire).

5. Détermination de la fonction de régression (consiste à calculer les valeurs numériques des paramètres de l'équation de régression)

6. Évaluation de l'exactitude de l'analyse de régression.

7. Interprétation des résultats obtenus. Les résultats obtenus de l'analyse de régression sont comparés aux hypothèses préliminaires. L'exactitude et la crédibilité des résultats obtenus sont évaluées.

8. Prédiction des valeurs inconnues de la variable dépendante.

Grâce à l'analyse de régression, il est possible de résoudre le problème de la prévision et de la classification. Les valeurs prédites sont calculées en remplaçant les valeurs des variables explicatives dans l'équation de régression. Le problème de classification est résolu de cette manière : la droite de régression divise l'ensemble des objets en deux classes, et la partie de l'ensemble où la valeur de la fonction est supérieure à zéro appartient à une classe, et la partie où elle est inférieure à zéro appartient à une autre classe.

Les principales tâches de l'analyse de régression :établir la forme de la relation, déterminer la fonction de régression, estimer les valeurs inconnues de la variable dépendante.

Régression linéaire

Régression linéaire se réduit à trouver une équation de la forme

Ou . (1.1)

x- est appelée variable indépendante ou prédicteur.

Oui– variable dépendante ou réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur x, c'est-à-dire c'est la "valeur prédite" oui»

· un– terme libre (intersection) de la droite d'évaluation ; c'est le sens Oui, Quand x=0(Fig.1).

· b– pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente x pour une unité.

· un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

· e- les variables aléatoires inobservables de moyenne 0, ou encore appelées erreurs d'observation, on suppose que les erreurs ne sont pas corrélées entre elles ;

Figure 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Une équation de la forme permet, pour des valeurs données du facteur X avoir des valeurs théoriques de la caractéristique résultante, en y remplaçant les valeurs réelles du facteur X. Dans le graphique, les valeurs théoriques représentent la droite de régression.

Dans la plupart des cas (sinon toujours), il existe une certaine dispersion des observations par rapport à la droite de régression.

Droite de régression théorique est la ligne autour de laquelle sont regroupés les points du champ de corrélation et qui indique la direction principale, la tendance principale de la connexion.

Une étape importante de l'analyse de régression consiste à déterminer le type de fonction avec laquelle la dépendance entre les caractéristiques est caractérisée. La base principale pour choisir le type d'équation doit être une analyse significative de la nature de la dépendance étudiée et de son mécanisme.

Pour trouver des paramètres UN Et b nous utilisons des équations de régression méthode des moindres carrés (LSM). Lors de l'application des MCO pour trouver la fonction qui correspond le mieux aux données empiriques, on pense que la somme des écarts carrés (reste) des points empiriques par rapport à la droite de régression théorique devrait être une valeur minimale.

L'ajustement est évalué en examinant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observé oui– prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Après des transformations simples on obtient un système d'équations normales utilisant la méthode des moindres carrés pour déterminer les valeurs des paramètres un Et béquations de corrélation linéaire basées sur des données empiriques :

. (1.2)

Résoudre ce système d'équations pour b, on obtient la formule suivante pour déterminer ce paramètre :

(1.3)

Où et sont les valeurs moyennes de y, x.

Valeur du paramètre UN on obtient en divisant les deux côtés de la première équation de ce système par n:

Paramètre b dans l’équation est appelé coefficient de régression. En présence d'une corrélation directe, le coefficient de régression est positif, et en cas de corrélation inverse, le coefficient de régression est négatif.

Si le signe du coefficient de régression est positif, la relation entre la variable dépendante et la variable indépendante sera positive.

Si le signe du coefficient de régression est négatif, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

Le coefficient de régression montre dans quelle mesure la valeur de la caractéristique résultante change en moyenne oui lorsqu'une caractéristique d'un facteur change X par unité, le coefficient de régression géométrique est la pente de la droite représentant l'équation de corrélation par rapport à l'axe X(pour l'équation ).

En raison de la relation linéaire, nous nous attendons à ce que cela change à mesure que , et nous appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

Une caractéristique quantitative du degré de dépendance linéaire entre les variables aléatoires X et Y est le coefficient de corrélation r ( Un indicateur de l’étroitesse du lien entre deux caractéristiques ) .

Coefficient de corrélation :

où x est la valeur de la caractéristique factorielle ;

y - la valeur de l'attribut résultant ;

n - nombre de paires de données.


Fig. 3 - Options pour la localisation du « nuage » de points

Si le coefficient de corrélation r=1, puis entre X Et Oui il existe une relation linéaire fonctionnelle, tous les points (x je, y je) se trouvera sur une ligne droite.

Si le coefficient de corrélation r=0 (r~0), alors ils disent que X Et Oui non corrélé, c'est-à-dire il n’y a pas de relation linéaire entre eux.

La relation entre les signes (sur l'échelle de Chaddock) peut être forte, moyenne et faible . L'étroitesse de la connexion est déterminée par la valeur du coefficient de corrélation, qui peut prendre des valeurs de -1 à +1 inclus. Les critères d'évaluation de l'étanchéité de la connexion sont présentés dans la Fig. 1.

Riz. 4. Critères quantitatifs pour évaluer l'étroitesse de la communication

Toute relation entre variables possède deux propriétés importantes : l’ampleur et la fiabilité. Plus la relation entre deux variables est forte, plus la relation est grande et plus il est facile de prédire la valeur d’une variable à partir de la valeur de l’autre variable. L’ampleur de la dépendance est plus facile à mesurer que la fiabilité.

La fiabilité de la dépendance n’est pas moins importante que son ampleur. Cette propriété est liée à la représentativité de l’échantillon étudié. La fiabilité d’une relation caractérise la probabilité que cette relation se retrouve sur d’autres données.

À mesure que l'ampleur de la dépendance des variables augmente, sa fiabilité augmente généralement.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

Le coefficient de détermination mesure la proportion de variance autour de la moyenne qui est « expliquée » par la régression construite. Le coefficient de détermination varie de 0 à 1. Plus le coefficient de détermination est proche de 1, mieux la régression « explique » la dépendance dans les données ; une valeur proche de zéro signifie la mauvaise qualité du modèle construit. Le coefficient de détermination peut être aussi proche que possible de 1 si tous les prédicteurs sont différents.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Régression multiple

La régression multiple est utilisée dans des situations où, parmi les nombreux facteurs influençant l'attribut effectif, il est impossible d'isoler un facteur dominant et il est nécessaire de prendre en compte l'influence de plusieurs facteurs. Par exemple, le volume de production est déterminé par la taille du capital fixe et du fonds de roulement, le nombre d'employés, le niveau de gestion, etc., le niveau de la demande dépend non seulement du prix, mais aussi des fonds dont dispose le population.

L'objectif principal de la régression multiple est de construire un modèle avec plusieurs facteurs et de déterminer l'influence de chaque facteur séparément, ainsi que leur impact conjoint sur l'indicateur étudié.

La régression multiple est une équation relationnelle avec plusieurs variables indépendantes :

Avec une relation de type linéaire entre les deux caractéristiques étudiées, en plus du calcul des corrélations, le calcul du coefficient de régression est utilisé.

Dans le cas d’une corrélation linéaire, chaque changement d’une caractéristique correspond à un changement très précis d’une autre caractéristique. Cependant, le coefficient de corrélation ne montre cette relation qu'en quantités relatives - en fractions d'unité. À l'aide d'une analyse de régression, cette valeur de relation est obtenue en unités nommées. La quantité dont la première caractéristique change en moyenne lorsque la seconde change d'une unité de mesure est appelée coefficient de régression.

Contrairement à l'analyse de régression de corrélation, elle fournit des informations plus larges, puisqu'en calculant deux coefficients de régression Rx/y Et Rу/х Il est possible de déterminer à la fois la dépendance du premier signe par rapport au second, et celle du second par rapport au premier. Exprimer une relation de régression à l'aide d'une équation permet de déterminer la valeur d'une autre caractéristique en fonction d'une certaine valeur d'une caractéristique.

Le coefficient de régression R est le produit du coefficient de corrélation et du rapport des écarts carrés calculés pour chaque caractéristique. Il est calculé selon la formule

où, R - coefficient de régression ; SH est l'écart type de la première caractéristique, qui change en raison d'un changement dans la seconde ; SУ - écart type de la deuxième caractéristique en relation avec le changement dont la première caractéristique change ; r est le coefficient de corrélation entre ces caractéristiques ; x-fonction ; y -argument.

Cette formule détermine la valeur de x lorsque y change d'une unité de mesure. Si un calcul inverse est nécessaire, vous pouvez trouver la valeur de y lorsque x change par unité de mesure en utilisant la formule :


Dans ce cas, le rôle actif dans le changement d'une caractéristique par rapport à une autre change par rapport à la formule précédente, l'argument devient une fonction et vice versa. Les valeurs de SX et SY sont prises dans une expression nommée.

Il existe une relation claire entre les valeurs de r et R, qui s'exprime dans le fait que le produit de la régression de x sur y par la régression de y sur x est égal au carré du coefficient de corrélation, c'est-à-dire

Rx/y * Ry/x = r2

Cela indique que le coefficient de corrélation est la moyenne géométrique des deux valeurs des coefficients de régression d'un échantillon donné. Cette formule peut être utilisée pour vérifier l'exactitude des calculs.

Lors du traitement de matériel numérique sur des machines à calculer, des formules détaillées de coefficients de régression peuvent être utilisées :

R ou


Pour un coefficient de régression, son erreur de représentativité peut être calculée. L'erreur du coefficient de régression est égale à l'erreur du coefficient de corrélation multipliée par le rapport des rapports quadratiques :

Le critère de fiabilité du coefficient de régression est calculé selon la formule habituelle :

de ce fait, il est égal au critère de fiabilité du coefficient de corrélation :

La fiabilité de la valeur tR est établie à l'aide du tableau de Student à  = n - 2, où n est le nombre de paires d'observations.

Régression curviligne.

RÉGRESSION, CURVILINÉAIRE. Toute régression non linéaire dans laquelle l'équation de régression pour les modifications d'une variable (y) en fonction de t change dans une autre (x) est une équation quadratique, cubique ou d'ordre supérieur. Bien qu’il soit toujours mathématiquement possible d’obtenir une équation de régression qui s’adapte à chaque gribouillis de la courbe, la plupart de ces perturbations résultent d’erreurs d’échantillonnage ou de mesure, et un tel ajustement « parfait » ne donne aucun résultat. Il n'est pas toujours facile de déterminer si une régression curviligne correspond à un ensemble de données, bien qu'il existe des tests statistiques pour déterminer si chaque puissance supérieure de l'équation augmente de manière significative le degré d'ajustement de cet ensemble de données.

L'ajustement de courbe est effectué de la même manière par les moindres carrés que l'ajustement de ligne droite. La droite de régression doit satisfaire à la condition de somme minimale des carrés des distances à chaque point du champ de corrélation. Dans ce cas, dans l'équation (1), y représente la valeur calculée de la fonction, déterminée à l'aide de l'équation de la relation curviligne sélectionnée basée sur les valeurs réelles de x j. Par exemple, si une parabole du second ordre est choisie pour approximer la connexion, alors y = a + b x + cx2, (14) et la différence entre un point situé sur la courbe et un point donné dans le champ de corrélation avec un point approprié. L'argument peut être écrit de la même manière que l'équation (3) sous la forme yj = yj (a + bx + cx2) (15) Dans ce cas, la somme des carrés des distances de chaque point du champ de corrélation à la nouvelle droite de régression dans le cas d'une parabole du second ordre aura la forme : S 2 = yj 2 = 2 (16) D'après la condition minimale de cette somme, les dérivées partielles de S 2 par rapport à a, b et c sont égales à zéro. Après avoir effectué les transformations nécessaires, nous obtenons un système de trois équations à trois inconnues pour déterminer a, b et c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). En résolvant le système d'équations pour a, b et c, on retrouve les valeurs numériques des coefficients de régression. Les valeurs y, x, x2, yx, yx2, x3, x4 sont trouvées directement à partir des données de mesure de production. Une évaluation de l'étroitesse de la connexion pour une dépendance curviligne est le rapport de corrélation théorique xy, qui est la racine carrée du rapport de deux dispersions : le carré moyen p2 des écarts des valeurs calculées y" j de la fonction selon l'équation de régression trouvée de la valeur moyenne arithmétique Y de la valeur y aux écarts quadratiques moyens y2 des valeurs réelles de la fonction y j par rapport à sa valeur moyenne arithmétique : xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Le carré du rapport de corrélation xy2 montre la part de la variabilité totale de la variable dépendante y, due à la variabilité de l'argument x . Cet indicateur est appelé coefficient de détermination. Contrairement au coefficient de corrélation, la valeur du rapport de corrélation ne peut prendre que des valeurs positives de 0 à 1. En l'absence totale de connexion, le rapport de corrélation est égal à zéro, en présence d'une connexion fonctionnelle il est égal à un, et en présence d'une connexion de régression de proximité variable, le rapport de corrélation prend des valeurs comprises entre zéro et un . Le choix du type de courbe est d'une grande importance dans l'analyse de régression, puisque la précision de l'approximation et des estimations statistiques de l'étroitesse de la relation dépend du type de relation choisi. La méthode la plus simple pour sélectionner le type de courbe consiste à construire des champs de corrélation et à sélectionner les types appropriés d'équations de régression en fonction de l'emplacement des points sur ces champs. Les méthodes d'analyse de régression permettent de trouver des valeurs numériques de coefficients de régression pour des types complexes de relations entre paramètres, décrits par exemple par des polynômes de degrés élevés. Souvent, la forme de la courbe peut être déterminée en fonction de la nature physique du processus ou du phénomène considéré. Il est logique d'utiliser des polynômes de degrés élevés pour décrire des processus à évolution rapide si les limites de fluctuation des paramètres de ces processus sont significatives. En ce qui concerne les études du procédé métallurgique, il suffit d'utiliser des courbes d'ordre inférieur, par exemple une parabole du second ordre. Cette courbe peut avoir un extremum qui, comme le montre la pratique, est tout à fait suffisant pour décrire diverses caractéristiques du processus métallurgique. Les résultats des calculs des paramètres de la relation de corrélation appariée seraient fiables et auraient une valeur pratique si les informations utilisées étaient obtenues dans des conditions de larges limites de fluctuations d'arguments, tous les autres paramètres du processus étant constants. Par conséquent, les méthodes d'étude de la corrélation par paire de paramètres ne peuvent être utilisées pour résoudre des problèmes pratiques que lorsqu'il existe une confiance dans l'absence d'autres influences sérieuses sur la fonction autres que l'argument analysé. Dans les conditions de production, il est impossible de réaliser le processus de cette manière pendant une longue période. Cependant, si nous disposons d'informations sur les principaux paramètres du processus qui influencent ses résultats, alors mathématiquement nous pouvons exclure l'influence de ces paramètres et isoler sous « forme pure » la relation entre la fonction et l'argument qui nous intéresse. Une telle connexion est dite privée ou individuelle. Pour le déterminer, la méthode de régression multiple est utilisée.

Relation de corrélation.

Le rapport de corrélation et l'indice de corrélation sont des caractéristiques numériques étroitement liées à la notion de variable aléatoire, ou plutôt à un système de variables aléatoires. Par conséquent, pour introduire et définir leur signification et leur rôle, il est nécessaire d'expliquer le concept de système de variables aléatoires et certaines propriétés qui leur sont inhérentes.

Deux ou plusieurs variables aléatoires décrivant un certain phénomène sont appelées un système ou un complexe de variables aléatoires.

Un système de plusieurs variables aléatoires X, Y, Z, …, W est généralement noté (X, Y, Z, …, W).

Par exemple, un point sur un plan n'est pas décrit par une coordonnée, mais par deux, et dans l'espace - même par trois.

Les propriétés d'un système de plusieurs variables aléatoires ne se limitent pas aux propriétés des variables aléatoires individuelles incluses dans le système, mais incluent également les connexions mutuelles (dépendances) entre les variables aléatoires. Par conséquent, lors de l'étude d'un système de variables aléatoires, il convient de prêter attention à la nature et au degré de dépendance. Cette dépendance peut être plus ou moins prononcée, plus ou moins étroite. Et dans d'autres cas, les variables aléatoires s'avèrent pratiquement indépendantes.

Une variable aléatoire Y est dite indépendante d’une variable aléatoire X si la loi de distribution de la variable aléatoire Y ne dépend pas de la valeur de X.

Il est à noter que la dépendance et l'indépendance des variables aléatoires sont toujours un phénomène mutuel : si Y ne dépend pas de X, alors la valeur X ne dépend pas de Y. Compte tenu de cela, on peut donner la définition suivante de l'indépendance de variables aléatoires.

Les variables aléatoires X et Y sont dites indépendantes si la loi de distribution de chacune d'elles ne dépend pas de la valeur que prend l'autre. Sinon, les quantités X et Y sont dites dépendantes.

La loi de distribution d'une variable aléatoire est toute relation qui établit un lien entre les valeurs possibles d'une variable aléatoire et leurs probabilités correspondantes.

Le concept de « dépendance » des variables aléatoires, utilisé en théorie des probabilités, est quelque peu différent du concept habituel de « dépendance » des variables, utilisé en mathématiques. Ainsi, un mathématicien par « dépendance » entend un seul type de dépendance : la dépendance complète, rigide, dite fonctionnelle. Deux quantités X et Y sont dites fonctionnellement dépendantes si, connaissant la valeur de l'une d'elles, vous pouvez déterminer avec précision la valeur de l'autre.

Dans la théorie des probabilités, nous rencontrons un type de dépendance légèrement différent : une dépendance probabiliste. Si la valeur Y est liée à la valeur X par une dépendance probabiliste, alors, connaissant la valeur de X, il est impossible d'indiquer avec précision la valeur de Y, mais vous pouvez indiquer sa loi de distribution, en fonction de la valeur de la valeur X. pris.

La relation probabiliste peut être plus ou moins étroite ; À mesure que la dépendance probabiliste augmente, elle se rapproche de plus en plus de la dépendance fonctionnelle. Ainsi, la dépendance fonctionnelle peut être considérée comme un cas extrême et limite de dépendance probabiliste la plus proche. Un autre cas extrême est l’indépendance totale des variables aléatoires. Entre ces deux cas extrêmes se situent tous les degrés de dépendance probabiliste – du plus fort au plus faible.

La dépendance probabiliste entre variables aléatoires est souvent rencontrée dans la pratique. Si les variables aléatoires X et Y sont dans une relation probabiliste, cela ne signifie pas qu'avec un changement de la valeur de X, la valeur de Y change d'une manière tout à fait définie ; cela signifie seulement que lorsque la valeur de X change, la valeur de Y a également tendance à changer (augmenter ou diminuer à mesure que X augmente). Cette tendance n'est observée que de manière générale et des écarts sont possibles dans chaque cas individuel.

Au cours de leurs études, les étudiants sont très souvent confrontés à des équations diverses. L'une d'elles - l'équation de régression - est abordée dans cet article. Ce type d'équation est utilisé spécifiquement pour décrire les caractéristiques de la relation entre des paramètres mathématiques. Ce type d'égalité est utilisé en statistique et en économétrie.

Définition de la régression

En mathématiques, la régression désigne une certaine quantité qui décrit la dépendance de la valeur moyenne d'un ensemble de données sur les valeurs d'une autre quantité. L'équation de régression montre, en fonction d'une caractéristique particulière, la valeur moyenne d'une autre caractéristique. La fonction de régression a la forme d'une équation simple y = x, dans laquelle y agit comme une variable dépendante et x comme une variable indépendante (facteur caractéristique). En fait, la régression s'exprime sous la forme y = f (x).

Quels sont les types de relations entre les variables ?

En général, il existe deux types de relations opposées : la corrélation et la régression.

Le premier est caractérisé par l'égalité des variables conditionnelles. Dans ce cas, on ne sait pas avec certitude quelle variable dépend de l’autre.

S'il n'y a pas d'égalité entre les variables et que les conditions disent quelle variable est explicative et laquelle est dépendante, alors on peut parler de la présence d'une connexion du deuxième type. Afin de construire une équation de régression linéaire, il sera nécessaire de déterminer quel type de relation est observé.

Types de régressions

Aujourd'hui, il existe 7 types différents de régression : hyperbolique, linéaire, multiple, non linéaire, par paire, inverse, logarithmiquement linéaire.

Hyperbolique, linéaire et logarithmique

L'équation de régression linéaire est utilisée en statistique pour expliquer clairement les paramètres de l'équation. Cela ressemble à y = c+t*x+E. Une équation hyperbolique a la forme d'une hyperbole régulière y = c + m / x + E. Une équation logarithmiquement linéaire exprime la relation à l'aide d'une fonction logarithmique : In y = In c + m * In x + In E.

Multiple et non linéaire

Les deux types de régression les plus complexes sont multiples et non linéaires. L'équation de régression multiple est exprimée par la fonction y = f(x 1, x 2 ... x c) + E. Dans cette situation, y agit comme une variable dépendante et x agit comme une variable explicative. La variable E est stochastique ; elle inclut l'influence d'autres facteurs dans l'équation. L'équation de régression non linéaire est un peu controversée. D’une part, par rapport aux indicateurs pris en compte, elle n’est pas linéaire, mais d’autre part, dans le rôle d’évaluation des indicateurs, elle est linéaire.

Types de régressions inverses et appariées

Un inverse est un type de fonction qui doit être converti en une forme linéaire. Dans les programmes d'application les plus classiques, il se présente sous la forme d'une fonction y = 1/c + m*x+E. Une équation de régression par paires montre la relation entre les données en fonction de y = f (x) + E. Tout comme dans d'autres équations, y dépend de x et E est un paramètre stochastique.

Concept de corrélation

Il s'agit d'un indicateur démontrant l'existence d'une relation entre deux phénomènes ou processus. La force de la relation est exprimée sous forme de coefficient de corrélation. Sa valeur fluctue dans l'intervalle [-1;+1]. Un indicateur négatif indique la présence d'un feedback, un indicateur positif indique un feedback direct. Si le coefficient prend une valeur égale à 0, alors il n’y a pas de relation. Plus la valeur est proche de 1, plus la relation entre les paramètres est forte ; plus elle est proche de 0, plus elle est faible.

Méthodes

Les méthodes paramétriques de corrélation peuvent évaluer la force de la relation. Ils sont utilisés sur la base de l'estimation de la distribution pour étudier des paramètres qui obéissent à la loi de la distribution normale.

Les paramètres de l'équation de régression linéaire sont nécessaires pour identifier le type de dépendance, la fonction de l'équation de régression et évaluer les indicateurs de la formule de relation sélectionnée. Le champ de corrélation est utilisé comme méthode d'identification de connexion. Pour ce faire, toutes les données existantes doivent être représentées graphiquement. Toutes les données connues doivent être tracées dans un système de coordonnées rectangulaires bidimensionnelles. Cela crée un champ de corrélation. Les valeurs du facteur descriptif sont marquées le long de l'axe des abscisses, tandis que les valeurs du facteur dépendant sont marquées le long de l'axe des ordonnées. S'il existe une relation fonctionnelle entre les paramètres, ils sont alignés sous la forme d'une ligne.

Si le coefficient de corrélation de ces données est inférieur à 30 %, on peut parler d'une absence quasi totale de connexion. S'il est compris entre 30 % et 70 %, cela indique la présence de connexions moyennement étroites. Un indicateur de 100 % témoigne d'une connexion fonctionnelle.

Une équation de régression non linéaire, tout comme une équation linéaire, doit être complétée par un indice de corrélation (R).

Corrélation pour la régression multiple

Le coefficient de détermination est une mesure du carré de corrélation multiple. Il parle de la relation étroite entre l'ensemble d'indicateurs présenté et la caractéristique étudiée. Il peut également parler de la nature de l'influence des paramètres sur le résultat. L'équation de régression multiple est estimée à l'aide de cet indicateur.

Afin de calculer l'indicateur de corrélation multiple, il est nécessaire de calculer son indice.

Méthode des moindres carrés

Cette méthode est un moyen d'estimer les facteurs de régression. Son essence est de minimiser la somme des écarts au carré obtenus en raison de la dépendance du facteur à l'égard de la fonction.

Une équation de régression linéaire par paire peut être estimée à l'aide d'une telle méthode. Ce type d'équations est utilisé lorsqu'une relation linéaire appariée est détectée entre les indicateurs.

Paramètres d'équation

Chaque paramètre de la fonction de régression linéaire a une signification spécifique. L'équation de régression linéaire appariée contient deux paramètres : c et m. Le paramètre m démontre la variation moyenne de l'indicateur final de la fonction y, à condition que la variable x diminue (augmente) d'une unité conventionnelle. Si la variable x est nulle, alors la fonction est égale au paramètre c. Si la variable x n'est pas nulle, alors le facteur c n'a pas de signification économique. La seule influence sur la fonction est le signe devant le facteur c. S'il y a un moins, alors on peut dire que l'évolution du résultat est lente par rapport au facteur. S'il y a un plus, cela indique un changement accéléré du résultat.

Chaque paramètre qui modifie la valeur de l'équation de régression peut être exprimé par une équation. Par exemple, le facteur c a la forme c = y - mx.

Données groupées

Il existe des conditions de tâche dans lesquelles toutes les informations sont regroupées par attribut x, mais pour un certain groupe, les valeurs moyennes correspondantes de l'indicateur dépendant sont indiquées. Dans ce cas, les valeurs moyennes caractérisent la façon dont l'indicateur en fonction de x évolue. Ainsi, les informations groupées permettent de trouver l'équation de régression. Il est utilisé comme analyse des relations. Cependant, cette méthode présente des inconvénients. Malheureusement, les indicateurs moyens sont souvent soumis à des fluctuations externes. Ces fluctuations ne reflètent pas le modèle de la relation ; elles masquent simplement son « bruit ». Les moyennes montrent des schémas de relation bien pires qu’une équation de régression linéaire. Cependant, ils peuvent servir de base pour trouver une équation. En multipliant le nombre d'une population individuelle par la moyenne correspondante, on peut obtenir la somme y au sein du groupe. Ensuite, vous devez additionner tous les montants reçus et trouver l'indicateur final y. Il est un peu plus difficile de faire des calculs avec l'indicateur somme xy. Si les intervalles sont petits, nous pouvons conditionnellement considérer que l'indicateur x pour toutes les unités (au sein du groupe) est le même. Vous devez le multiplier par la somme de y pour connaître la somme des produits de x et y. Ensuite, tous les montants sont additionnés et le montant total xy est obtenu.

Équation de régression multiple par paires : évaluer l'importance d'une relation

Comme indiqué précédemment, la régression multiple a une fonction de la forme y = f (x 1,x 2,…,x m)+E. Le plus souvent, une telle équation est utilisée pour résoudre le problème de l'offre et de la demande d'un produit, des revenus d'intérêts sur les actions rachetées et pour étudier les causes et le type de fonction de coût de production. Elle est également activement utilisée dans une grande variété d'études et de calculs macroéconomiques, mais au niveau microéconomique, cette équation est utilisée un peu moins fréquemment.

La tâche principale de la régression multiple est de construire un modèle de données contenant une énorme quantité d'informations afin de déterminer plus en détail quelle influence chacun des facteurs individuellement et dans leur totalité a sur l'indicateur à modéliser et ses coefficients. L'équation de régression peut prendre une grande variété de valeurs. Dans ce cas, pour évaluer la relation, deux types de fonctions sont généralement utilisés : linéaires et non linéaires.

La fonction linéaire est représentée sous la forme de la relation suivante : y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Dans ce cas, a2, a m sont considérés comme des coefficients de régression « purs ». Ils sont nécessaires pour caractériser la variation moyenne du paramètre y avec une modification (diminution ou augmentation) de chaque paramètre x correspondant d'une unité, à condition de valeurs stables des autres indicateurs.

Les équations non linéaires ont, par exemple, la forme d'une fonction puissance y=ax 1 b1 x 2 b2 ...x m bm. Dans ce cas, les indicateurs b 1, b 2 ..... b m sont appelés coefficients d'élasticité, ils démontrent comment le résultat va changer (de combien %) avec une augmentation (diminution) de l'indicateur x correspondant de 1 % et avec un indicateur stable d’autres facteurs.

Quels facteurs doivent être pris en compte lors de la construction d'une régression multiple

Afin de construire correctement une régression multiple, il est nécessaire de déterminer à quels facteurs doivent faire l'objet d'une attention particulière.

Il est nécessaire de bien comprendre la nature des relations entre les facteurs économiques et ce qui est modélisé. Les facteurs qui devront être inclus doivent répondre aux critères suivants :

  • Doit faire l’objet d’une mesure quantitative. Afin d'utiliser un facteur décrivant la qualité d'un objet, il convient dans tous les cas de lui donner une forme quantitative.
  • Il ne devrait y avoir aucune intercorrélation de facteurs ni relation fonctionnelle. De telles actions entraînent le plus souvent des conséquences irréversibles - le système d'équations ordinaires devient inconditionnel, ce qui entraîne son manque de fiabilité et ses estimations peu claires.
  • Dans le cas d'un énorme indicateur de corrélation, il n'existe aucun moyen de connaître l'influence isolée des facteurs sur le résultat final de l'indicateur. Les coefficients deviennent donc ininterprétables.

Méthodes de construction

Il existe un grand nombre de méthodes et de méthodes qui expliquent comment sélectionner des facteurs pour une équation. Cependant, toutes ces méthodes reposent sur la sélection de coefficients à l'aide d'un indicateur de corrélation. Parmi eux figurent :

  • Méthode d'élimination.
  • Méthode de commutation.
  • Analyse de régression pas à pas.

La première méthode consiste à filtrer tous les coefficients de l'ensemble total. La deuxième méthode consiste à introduire de nombreux facteurs supplémentaires. Eh bien, la troisième est l’élimination des facteurs qui étaient auparavant utilisés pour l’équation. Chacune de ces méthodes a le droit d’exister. Ils ont leurs avantages et leurs inconvénients, mais ils peuvent tous résoudre à leur manière le problème de l'élimination des indicateurs inutiles. En règle générale, les résultats obtenus par chaque méthode sont assez proches.

Méthodes d'analyse multivariée

Ces méthodes de détermination des facteurs reposent sur la prise en compte de combinaisons individuelles de caractéristiques interdépendantes. Celles-ci incluent l'analyse discriminante, la reconnaissance de forme, l'analyse en composantes principales et l'analyse groupée. De plus, il existe également une analyse factorielle, mais elle est apparue grâce au développement de la méthode des composants. Tous s’appliquent dans certaines circonstances, sous réserve de certaines conditions et facteurs.

Dans les articles précédents, l'analyse se concentrait souvent sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous examinerons les méthodes permettant de prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Tournesols est en constante expansion depuis 25 ans. Cependant, l’entreprise n’a actuellement pas d’approche systématique pour sélectionner de nouveaux points de vente. Le lieu dans lequel une entreprise a l'intention d'ouvrir un nouveau magasin est déterminé sur la base de considérations subjectives. Les critères de sélection sont des conditions de location avantageuses ou l’idée du gérant quant à l’emplacement idéal du magasin. Imaginez que vous êtes à la tête du service des projets spéciaux et de la planification. Vous avez pour mission d'élaborer un plan stratégique pour l'ouverture de nouveaux magasins. Ce plan doit inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que l'espace de vente au détail est directement lié aux revenus et souhaitez en tenir compte dans votre processus décisionnel. Comment développer un modèle statistique pour prédire les ventes annuelles en fonction de la taille d’un nouveau magasin ?

En règle générale, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique capable de prédire les valeurs d'une variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cette note, nous examinerons la régression linéaire simple - une méthode statistique qui vous permet de prédire les valeurs d'une variable dépendante. Oui par valeurs de variables indépendantes X. Les notes suivantes décriront un modèle de régression multiple conçu pour prédire les valeurs d'une variable indépendante Oui basé sur les valeurs de plusieurs variables dépendantes ( X 1, X 2, …, X k).

Téléchargez la note au format ou, exemples au format

Types de modèles de régression

ρ 1 – coefficient d'autocorrélation ; Si ρ 1 = 0 (pas d'autocorrélation), D≈ 2 ; Si ρ 1 ≈ 1 (autocorrélation positive), D≈ 0 ; Si ρ 1 = -1 (autocorrélation négative), D ≈ 4.

En pratique, l'application du critère de Durbin-Watson repose sur la comparaison de la valeur D avec des valeurs théoriques critiques dL Et dU pour un nombre donné d'observations n, nombre de variables indépendantes du modèle k(pour une régression linéaire simple k= 1) et niveau de signification α. Si D< d L , l'hypothèse de l'indépendance des écarts aléatoires est rejetée (il existe donc une autocorrélation positive) ; Si D>dU, l’hypothèse n’est pas rejetée (c’est-à-dire qu’il n’y a pas d’autocorrélation) ; Si dL< D < d U , il n'existe pas de motifs suffisants pour prendre une décision. Lorsque la valeur calculée D dépasse 2, alors avec dL Et dU Ce n'est pas le coefficient lui-même qui est comparé D, et l'expression (4 – D).

Pour calculer les statistiques Durbin-Watson dans Excel, tournons-nous vers le tableau du bas de la Fig. 14 Retrait du solde. Le numérateur de l'expression (10) est calculé à l'aide de la fonction =SUMMAR(array1;array2) et le dénominateur =SUMMAR(array) (Fig. 16).

Riz. 16. Formules de calcul des statistiques de Durbin-Watson

Dans notre exemple D= 0,883. La question principale est la suivante : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l’existence d’une autocorrélation positive ? Il faut corréler la valeur de D avec les valeurs critiques ( dL Et dU), en fonction du nombre d'observations n et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques de Durbin-Watson (fragment de tableau)

Ainsi, dans le problème du volume des ventes dans un magasin livrant des marchandises à domicile, il existe une variable indépendante ( k= 1), 15 observations ( n= 15) et le niveau de signification α = 0,05. Ainsi, dL= 1,08 et dU= 1,36. Depuis D = 0,883 < dL= 1,08, il existe une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester des hypothèses sur la pente et le coefficient de corrélation

Ci-dessus, la régression a été utilisée uniquement à des fins de prévision. Pour déterminer les coefficients de régression et prédire la valeur d'une variable Oui pour une valeur de variable donnée X La méthode des moindres carrés a été utilisée. De plus, nous avons examiné l’erreur quadratique moyenne de l’estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, sur la base des données de l'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables dans la population.

Applicationt -critères de pente. En testant si la pente de population β 1 est égale à zéro, on peut déterminer s'il existe une relation statistiquement significative entre les variables X Et Oui. Si cette hypothèse est rejetée, on peut affirmer qu'entre les variables X Et Oui il existe une relation linéaire. Les hypothèses nulles et alternatives sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Par définition t-la statistique est égale à la différence entre la pente de l'échantillon et la valeur hypothétique de la pente de la population, divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / S b 1

b 1 – pente de régression directe sur des données d'échantillon, β1 – pente hypothétique de population directe, et statistiques de test t a t-distribution avec n-2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles à α = 0,05. t-le critère est affiché avec d'autres paramètres lorsqu'il est utilisé Pack d'analyse(option Régression). Les résultats complets du package d’analyse sont présentés dans la Fig. 4, fragment lié aux statistiques t - sur la Fig. 18.

Riz. 18. Résultats de la candidature t

Depuis le nombre de magasins n= 14 (voir Fig. 3), valeur critique t-les statistiques au niveau de signification de α = 0,05 peuvent être trouvées à l'aide de la formule : tL=ETUDIANT.ARV(0,025,12) = –2,1788, où 0,025 est la moitié du niveau de signification et 12 = n – 2; t U=ÉTUDIANT.OBR(0,975,12) = +2,1788.

Depuis t-statistiques = 10,64 > t U= 2,1788 (Fig. 19), hypothèse nulle H 0 rejeté. De l'autre côté, r-valeur pour X= 10,6411, calculé par la formule =1-STUDENT.DIST(D3,12,TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 encore une fois rejeté. Le fait que r-une valeur presque nulle signifie que s'il n'y avait pas de véritable relation linéaire entre la taille des magasins et les ventes annuelles, il serait pratiquement impossible de la détecter à l'aide d'une régression linéaire. Il existe donc une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et la taille des magasins.

Riz. 19. Test de l'hypothèse sur la pente de population à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF -critères de pente. Une approche alternative pour tester les hypothèses sur la pente de la régression linéaire simple consiste à utiliser F-critères. Rappelons que F-test est utilisé pour tester la relation entre deux variances (pour plus de détails, voir). Lors du test de l'hypothèse de la pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs quadratiques divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de la variance expliquée par la régression (c'est-à-dire la valeur RSS, divisé par le nombre de variables indépendantes k), à la variance d'erreur ( MSE = SYX 2 ).

Par définition F-la statistique est égale au carré moyen de régression (MSR) divisé par la variance d'erreur (MSE) : F = MSR/ MSE, Où MSR=RSS / k, MSE =ESS/(n– k – 1), k– nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F a F-distribution avec k Et n– k – 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F>FU, l'hypothèse nulle est rejetée ; sinon, il n'est pas rejeté. Les résultats, présentés sous forme d’un tableau récapitulatif de l’analyse de variance, sont présentés dans la Fig. 20.

Riz. 20. Tableau d'analyse de variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

De même t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Pack d'analyse(option Régression). Résultats complets des travaux Pack d'analyse sont montrés sur la Fig. 4, fragment lié à F-statistiques – sur la Fig. 21.

Riz. 21. Résultats de la candidature F-critères obtenus à l'aide du package d'analyse Excel

La statistique F est de 113,23, et r-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification α est de 0,05, déterminez la valeur critique F-des distributions avec un et 12 degrés de liberté peuvent être obtenues en utilisant la formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Depuis F = 113,23 > F U= 4,7472, et r-valeur proche de 0< 0,05, нулевая гипотеза H 0 est rejeté, c'est-à-dire La taille d'un magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Test de l'hypothèse de la pente de population à un niveau de signification de 0,05 avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1 . Pour tester l'hypothèse d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente β 1 et vérifier que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente β 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±tn –2 S b 1

Comme le montre la fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ÉTUDIANT.ARV(0,975,12) = 2,1788. Ainsi, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, soit + 1,328 ≤ β 1 ≤ +2,012. Ainsi, il existe une probabilité de 0,95 que la pente de la population se situe dans l’intervalle +1,328 à +2,012 (c’est-à-dire entre 1 328 000 $ et 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l’intervalle de confiance contenait zéro, il n’y aurait aucune relation entre les variables. De plus, l’intervalle de confiance signifie que chaque augmentation de la superficie du magasin de 1 000 m². ft. entraîne une augmentation du volume moyen des ventes de 1 328 000 $ à 2 012 000 $.

Usaget -critères pour le coefficient de corrélation. le coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour déterminer s’il existe une relation statistiquement significative entre deux variables. Notons le coefficient de corrélation entre les populations des deux variables par le symbole ρ. Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il existe une corrélation). Vérification de l'existence d'une corrélation :

r = + , Si b 1 > 0, r = – , Si b 1 < 0. Тестовая статистика t a t-distribution avec n-2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r2= 0,904, une b1- +1,670 (voir Fig. 4). Depuis b1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= +√0,904 = +0,951. Testons l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

Au niveau de signification de α = 0,05, l’hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu’il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Lorsqu’on discute des inférences concernant la pente de la population, les intervalles de confiance et les tests d’hypothèses sont utilisés de manière interchangeable. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car le type de distribution d'échantillonnage de la statistique r dépend du véritable coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction de valeurs individuelles

Cette section traite des méthodes d'estimation de l'espérance mathématique d'une réponse Oui et prédictions de valeurs individuelles Oui pour des valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X. Dans le problème du choix d'un emplacement pour un point de vente, le volume annuel moyen des ventes dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars. Cependant, cette estimation des attentes mathématiques de la population générale est ponctuelle. Pour estimer l'espérance mathématique de la population, le concept d'intervalle de confiance a été proposé. De même, nous pouvons introduire le concept intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur de variable donnée X:

, = b 0 + b 1 X je– la valeur prédite est variable Ouià X = X je, SYX– erreur quadratique moyenne, n– taille de l'échantillon, Xje- valeur spécifiée de la variable X, µ Oui|X = Xje– espérance mathématique de la variable Ouià X = XI, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. À un niveau de signification donné, une augmentation de l'amplitude des fluctuations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D’un autre côté, comme on pouvait s’y attendre, une augmentation de la taille de l’échantillon s’accompagne d’un rétrécissement de l’intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje. Si la valeur de la variable Oui prévu pour les quantités X, proche de la valeur moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement de magasin, nous souhaitons construire un intervalle de confiance de 95 % pour les ventes annuelles moyennes de tous les magasins dont la superficie est de 4 000 mètres carrés. pieds:

Ainsi, le volume annuel moyen des ventes dans tous les magasins d'une superficie de 4 000 m². pieds, avec une probabilité de 95%, se situe entre 6,971 et 8,317 millions de dollars.

Calculez l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance de la valeur prédite. Bien que la formule permettant de calculer un tel intervalle de confiance soit très similaire à la formule (13), cet intervalle contient la valeur prédite plutôt que l'estimation du paramètre. Intervalle de réponse prévue OuiX = XI pour une valeur de variable spécifique Xje déterminé par la formule :

Supposons que lors du choix d'un emplacement pour un point de vente au détail, nous souhaitions construire un intervalle de confiance de 95 % pour le volume de ventes annuel prévu pour un magasin dont la superficie est de 4 000 mètres carrés. pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4 000 m². pieds, avec une probabilité de 95 %, se situe entre 5,433 et 9,854 millions de dollars. Comme nous pouvons le constater, l'intervalle de confiance pour la valeur de réponse prédite est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. En effet, la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que dans l'estimation de l'espérance mathématique.

Pièges et problèmes éthiques associés à l’utilisation de la régression

Difficultés associées à l'analyse de régression :

  • Ignorer les conditions d’applicabilité de la méthode des moindres carrés.
  • Évaluation erronée des conditions d’applicabilité de la méthode des moindres carrés.
  • Choix incorrect de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés ne sont pas respectées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapoler une régression au-delà de la plage de la variable explicative.
  • Confusion entre relations statistiques et causales.

L'utilisation généralisée de feuilles de calcul et de logiciels statistiques a éliminé les problèmes informatiques qui entravaient le recours à l'analyse de régression. Cependant, cela a conduit au fait que l'analyse de régression était utilisée par des utilisateurs qui ne disposaient pas de qualifications et de connaissances suffisantes. Comment les utilisateurs peuvent-ils connaître les méthodes alternatives si beaucoup d’entre eux n’ont aucune idée des conditions d’applicabilité de la méthode des moindres carrés et ne savent pas comment vérifier leur mise en œuvre ?

Le chercheur ne doit pas se laisser emporter par des calculs de chiffres - en calculant le décalage, la pente et le coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels scolaires. Anscombe a montré que les quatre ensembles de données présentés dans la Fig. 23, ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression de quatre ensembles de données artificielles ; fini avec Pack d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l’analyse de régression, tous ces ensembles de données sont complètement identiques. Si l’analyse s’arrêtait là, nous perdrions beaucoup d’informations utiles. Ceci est mis en évidence par les nuages ​​de points (Figure 25) et les tracés résiduels (Figure 26) construits pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les nuages ​​de points et les tracés résiduels indiquent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d’une ligne droite est l’ensemble A. Le tracé des résidus calculés à partir de l’ensemble A n’a aucun motif. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points tracé pour l’ensemble B montre une tendance quadratique prononcée. Cette conclusion est confirmée par le tracé résiduel, qui a une forme parabolique. Le nuage de points et le tracé des résidus montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d’exclure la valeur aberrante de l’ensemble de données et de répéter l’analyse. Une méthode permettant de détecter et d’éliminer les valeurs aberrantes des observations est appelée analyse d’influence. Après avoir éliminé la valeur aberrante, le résultat de la réestimation du modèle peut être complètement différent. Le nuage de points tracé à partir des données de l'ensemble G illustre une situation inhabituelle dans laquelle le modèle empirique dépend de manière significative d'une réponse individuelle ( X8 = 19, Oui 8 = 12,5). De tels modèles de régression doivent être calculés avec une attention particulière. Ainsi, les nuages ​​de points et les diagrammes résiduels sont un outil essentiel pour l’analyse de régression et devraient en faire partie intégrante. Sans eux, l’analyse de régression n’est pas crédible.

Riz. 26. Graphiques résiduels pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse des relations possibles entre les variables X Et Oui commencez toujours par dessiner un nuage de points.
  • Avant d'interpréter les résultats de l'analyse de régression, vérifiez les conditions de son applicabilité.
  • Tracez les résidus par rapport à la variable indépendante. Cela permettra de déterminer dans quelle mesure le modèle empirique correspond aux résultats d'observation et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes à tiges et à feuilles, des diagrammes en boîte et des diagrammes de distribution normale pour tester l'hypothèse d'une distribution d'erreurs normale.
  • Si les conditions d'applicabilité de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont remplies, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l’esprit que les relations statistiques ne sont pas toujours de cause à effet. N'oubliez pas que la corrélation entre les variables ne signifie pas qu'il existe une relation de cause à effet entre elles.

CV. Comme le montre le schéma fonctionnel (Figure 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et comment tester ces conditions. Considéré t-critère pour tester la signification statistique de la pente de régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix de l'emplacement d'un point de vente au détail, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est examinée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour un magasin et de prédire son volume de ventes annuel. Les notes suivantes poursuivront la discussion sur l'analyse de régression et examineront également plusieurs modèles de régression.

Riz. 27. Diagramme de structure des notes

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 792-872

Si la variable dépendante est catégorielle, une régression logistique doit être utilisée.

Le coefficient de régression est la valeur absolue par laquelle, en moyenne, la valeur d'une caractéristique change lorsqu'une autre caractéristique associée change d'une unité de mesure spécifiée. Définition de la régression. La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Le modèle de régression linéaire est le plus couramment utilisé et le plus étudié en économétrie.

1.4. Erreur d'approximation. Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Les valeurs prédites des facteurs sont substituées dans le modèle et des estimations ponctuelles prédictives de l'indicateur étudié sont obtenues. Ainsi, les coefficients de régression caractérisent le degré d'importance des facteurs individuels pour augmenter le niveau de l'indicateur de performance.

Coefficient de régression

Considérons maintenant le problème 1 des tâches d'analyse de régression données à la p. 300-301. L’un des résultats mathématiques de la théorie de la régression linéaire indique que l’estimateur N est l’estimateur sans biais présentant la variance minimale dans la classe de tous les estimateurs linéaires sans biais. Par exemple, vous pouvez calculer le nombre de rhumes en moyenne à certaines valeurs de la température mensuelle moyenne de l'air pendant la période automne-hiver.

Droite de régression et équation de régression

Le sigma de régression est utilisé pour construire une échelle de régression, qui reflète l'écart des valeurs de la caractéristique résultante par rapport à sa valeur moyenne tracée sur la droite de régression. 1, x2, x3 et les valeurs moyennes correspondantes y1, y2 y3, ainsi que les valeurs les plus petites (y - σrу/х) et les plus grandes (y + σrу/х) (y) pour construire une échelle de régression. Conclusion. Ainsi, l'échelle de régression dans les limites des valeurs calculées du poids corporel permet de le déterminer à toute autre valeur de taille ou d'évaluer le développement individuel de l'enfant.

Sous forme matricielle, l'équation de régression (RE) s'écrit : Y=BX+U(\displaystyle Y=BX+U), où U(\displaystyle U) est la matrice d'erreur. L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on parle de régression multiple. Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

En raison de la relation linéaire, nous nous attendons à ce qui change à mesure que cela change, et nous appelons cela la variation due ou expliquée par la régression. Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données. La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Cette méthode est utilisée pour représenter visuellement la forme de connexion entre les indicateurs économiques étudiés. Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Les raisons de l'existence d'une erreur aléatoire : 1. Défaut d'inclure des variables explicatives significatives dans le modèle de régression ; 2. Agrégation de variables. Système d'équations normales. Dans notre exemple, la connexion est directe. Pour prédire la variable dépendante de l'attribut résultant, il est nécessaire de connaître les valeurs prédites de tous les facteurs inclus dans le modèle.

Comparaison des coefficients de corrélation et de régression

Avec une probabilité de 95 %, il est possible de garantir que la valeur Y pour un nombre illimité d'observations ne sortira pas des limites des intervalles trouvés. Si la valeur calculée avec lang=EN-US>n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif. Cela garantit qu'il n'y a aucune corrélation entre d'éventuels écarts et, en particulier, entre des écarts adjacents.

Coefficients de régression et leur interprétation

Dans la plupart des cas, une autocorrélation positive est causée par l’influence directionnelle constante de certains facteurs non pris en compte dans le modèle. Une autocorrélation négative signifie essentiellement qu’un écart positif est suivi d’un écart négatif et vice versa.

Qu’est-ce que la régression ?

2. Inertie. De nombreux indicateurs économiques (inflation, chômage, PNB, etc.) présentent un certain caractère cyclique lié à l'ondulation de l'activité des entreprises. Dans de nombreux domaines de production et autres, les indicateurs économiques réagissent aux changements des conditions économiques avec un retard (décalage temporel).

Si une normalisation préalable des indicateurs factoriels est effectuée, alors b0 est égal à la valeur moyenne de l'indicateur effectif dans l'ensemble. Les valeurs spécifiques des coefficients de régression sont déterminées à partir de données empiriques selon la méthode des moindres carrés (à la suite de la résolution de systèmes d'équations normales).

L'équation de régression linéaire a la forme y = bx + a + ε Ici ε est une erreur aléatoire (déviation, perturbation). L’erreur étant supérieure à 15 %, il n’est pas conseillé d’utiliser cette équation comme régression. En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.



Avez-vous aimé l'article? Partagez avec vos amis !