Théorie de l'analyse de régression. A) Analyse graphique de la régression linéaire simple

A) Analyse graphique de la régression linéaire simple.

Équation de régression linéaire simple y=a+bx. S'il existe une corrélation entre les variables aléatoires Y et X, alors la valeur y = ý + ,

où ý est la valeur théorique de y obtenue à partir de l'équation ý = f(x),

 – erreur d'écart de l'équation théorique ý par rapport aux données réelles (expérimentales).

L'équation de dépendance de la valeur moyenne ý sur x, c'est-à-dire ý = f(x), est appelée équation de régression. L'analyse de régression comprend quatre étapes :

1) définir le problème et établir les raisons de la connexion.

2) limitation de l'objet de recherche, collecte d'informations statistiques.

3) sélection de l'équation de couplage en fonction de l'analyse et de la nature des données collectées.

4) calcul de valeurs numériques, caractéristiques des connexions de corrélation.

Si deux variables sont liées de telle manière qu'un changement dans une variable correspond à un changement systématique dans l'autre variable, alors l'analyse de régression est utilisée pour estimer et sélectionner l'équation pour la relation entre elles si ces variables sont connues. Contrairement à l'analyse de régression, l'analyse de corrélation est utilisée pour analyser l'étroitesse de la relation entre X et Y.

Considérons trouver une ligne droite dans l'analyse de régression :

Équation de régression théorique.

Le terme « régression simple » indique que la valeur d'une variable est estimée sur la base de la connaissance d'une autre variable. Contrairement à la simple régression multivariée, elle est utilisée pour estimer une variable sur la base de la connaissance de deux, trois variables ou plus. Regardons l'analyse graphique de la régression linéaire simple.

Supposons qu'il existe des résultats de tests de dépistage sur le pré-emploi et la productivité du travail.

Résultats de la sélection (100 points), x

Productivité (20 points), oui

En traçant les points sur un graphique, on obtient un diagramme de dispersion (champ). Nous l'utilisons pour analyser les résultats des tests de sélection et la productivité du travail.

Analysons la droite de régression à l'aide du nuage de points. Dans l'analyse de régression, au moins deux variables sont toujours spécifiées. Un changement systématique dans une variable est associé à un changement dans une autre. objectif principal analyse de régression consiste à estimer la valeur d’une variable si la valeur d’une autre variable est connue. Pour une tâche complète, l'évaluation de la productivité du travail est importante.

Variable indépendante dans l’analyse de régression, quantité utilisée comme base pour analyser une autre variable. Dans ce cas, il s'agit des résultats de tests de sélection (selon l'axe X).

Variable dépendante est appelée la valeur estimée (le long de l'axe Y). Dans l'analyse de régression, il ne peut y avoir qu'une seule variable dépendante et plusieurs variables indépendantes.

Pour une analyse de régression simple, la dépendance peut être représentée dans un système à deux coordonnées (x et y), l'axe X étant la variable indépendante et l'axe Y étant la variable dépendante. Nous traçons les points d'intersection de manière à ce qu'une paire de valeurs soit représentée sur le graphique. L'horaire s'appelle nuage de points. Sa construction est la deuxième étape de l'analyse de régression, puisque la première est la sélection des valeurs analysées et la collecte d'échantillons de données. Ainsi, l'analyse de régression est utilisée pour l'analyse statistique. La relation entre les exemples de données dans un graphique est linéaire.

Pour estimer l'ampleur d'une variable y en fonction d'une variable x, il est nécessaire de déterminer la position de la ligne qui représente le mieux la relation entre x et y en fonction de l'emplacement des points sur le nuage de points. Dans notre exemple, il s’agit d’une analyse des performances. Ligne tracée à travers les points de diffusion – ligne de régression. Une façon de construire une droite de régression basée sur l’expérience visuelle est la méthode à main levée. Notre droite de régression peut être utilisée pour déterminer la productivité du travail. Lors de la recherche de l'équation de la droite de régression

Le test des moindres carrés est souvent utilisé. La droite la plus adaptée est celle où la somme des carrés des écarts est minimale

L'équation mathématique d'une droite de croissance représente la loi de la croissance dans une progression arithmétique :

à = UNbX.

Oui = UN + bX– l'équation donnée avec un paramètre est le type d'équation de couplage le plus simple. C'est acceptable pour des valeurs moyennes. Pour exprimer plus précisément la relation entre X Et à, un coefficient de proportionnalité supplémentaire est introduit b, qui indique la pente de la droite de régression.

B) Construction d'une droite de régression théorique.

Le processus pour la trouver consiste à choisir et justifier le type de courbe et à calculer les paramètres UN, b, Avec etc. Le processus de construction s'appelle le nivellement et la fourniture des courbes offertes par le tapis. analyse, variée. Le plus souvent, dans les problèmes économiques, on utilise une famille de courbes, des équations exprimées par des polynômes de puissances entières positives.

1)
– équation d'une droite,

2)
– équation d'hyperbole,

3)
– équation d'une parabole,

où ý sont les ordonnées de la droite de régression théorique.

Après avoir choisi le type d'équation, vous devez trouver les paramètres dont dépend cette équation. Par exemple, la nature de la localisation des points dans le champ de diffusion a montré que la droite de régression théorique est droite.

Un nuage de points vous permet de représenter la productivité du travail à l'aide d'une analyse de régression. En économie, l'analyse de régression est utilisée pour prédire de nombreuses caractéristiques qui affectent le produit final (en tenant compte du prix).

B) Le critère des plus petits repères pour trouver une droite.

Un critère que nous pourrions appliquer pour une droite de régression appropriée dans un nuage de points est basé sur le choix de la droite pour laquelle la somme des erreurs quadratiques est minimale.

La proximité des points de diffusion par rapport à la droite est mesurée par les ordonnées des segments. Les écarts de ces points peuvent être positifs et négatifs, mais la somme des carrés des écarts de la droite théorique par rapport à la droite expérimentale est toujours positive et doit être minime. Le fait que tous les points de diffusion ne coïncident pas avec la position de la droite de régression indique l'existence d'un écart entre les données expérimentales et théoriques. Ainsi, nous pouvons dire qu'aucune autre droite de régression, à l'exception de celle trouvée, ne peut donner un plus petit nombre d'écarts entre les données expérimentales et expérimentales. Par conséquent, après avoir trouvé l’équation théorique ý et la droite de régression, nous satisfaisons à l’exigence des moindres carrés.

Cela se fait en utilisant l'équation de couplage
utiliser des formules pour trouver des paramètres UN Et b. Prendre la valeur théorique
et désignant le côté gauche de l'équation par F, on obtient la fonction
à partir de paramètres inconnus UN Et b. Valeurs UN Et b satisfera la fonction minimale F et sont trouvés à partir d'équations aux dérivées partielles
Et
. Ce condition nécessaire, cependant, pour une fonction quadratique positive, c'est aussi une condition suffisante pour trouver UN Et b.

Dérivons les formules de paramètres des équations aux dérivées partielles UN Et b:



on obtient un système d'équations :


– les erreurs de moyenne arithmétique.

En remplaçant les valeurs numériques, nous trouvons les paramètres UN Et b.

Il y a une notion
. C'est le facteur d'approximation.

Si e < 33%, то модель приемлема для дальнейшего анализа;

Si e> 33%, on prend alors une hyperbole, une parabole, etc. Cela donne droit à une analyse dans diverses situations.

Conclusion : selon le critère du coefficient d'approximation, la droite la plus adaptée est celle pour laquelle

, et aucune autre droite de régression pour notre problème ne donne un écart minimum.

D) Erreur quadratique d'estimation, en vérifiant leur typicité.

Par rapport à une population dans laquelle le nombre de paramètres de recherche est inférieur à 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Test de Student. Ceci calcule la valeur réelle t-critères:

D'ici

– erreur quadratique moyenne résiduelle. Reçu t un Et t b par rapport à la critique t k du tableau de Student en tenant compte du niveau de signification accepté ( = 0,01 = 99 % ou  = 0,05 = 95 %). P. = F = k 1 = m– nombre de paramètres de l'équation étudiée (degré de liberté). Par exemple, si oui = un + bx; m = 2, k 2 = F 2 = p 2 = n – (m+ 1), où n– nombre de caractéristiques étudiées.

t un < t k < t b .

Conclusion: en utilisant les paramètres de l'équation de régression testée pour la typicité, un modèle mathématique de communication est construit
. Dans ce cas, les paramètres de la fonction mathématique utilisée dans l'analyse (linéaire, hyperbole, parabole) reçoivent les valeurs quantitatives correspondantes. Le contenu sémantique des modèles ainsi obtenus est qu'ils caractérisent la valeur moyenne de la caractéristique résultante
du signe du facteur X.

D) Régression curviligne.

Très souvent, une relation curviligne se produit lorsqu'une relation changeante est établie entre des variables. L'intensité de l'augmentation (diminution) dépend du niveau de X. Il existe différents types de dépendance curviligne. Par exemple, considérons la relation entre le rendement des cultures et les précipitations. Avec une augmentation des précipitations à conditions naturelles égales, il y a une augmentation intensive du rendement, mais jusqu'à une certaine limite. Passé le point critique, les précipitations s’avèrent excessives et les rendements chutent de façon catastrophique. L’exemple montre qu’au début la relation était positive puis négative. Le point critique est le niveau optimal de l’attribut X, qui correspond à la valeur maximale ou minimale de l’attribut Y.

En économie, une telle relation est observée entre prix et consommation, productivité et expérience.

Dépendance parabolique.

Si les données montrent qu'une augmentation de la caractéristique factorielle entraîne une augmentation de la caractéristique effective, alors une équation du second ordre (parabole) est prise comme équation de régression.

. Les coefficients a,b,c sont trouvés à partir d'équations aux dérivées partielles :

On obtient un système d'équations :

Types d'équations curvilignes :

,

,

Nous sommes en droit de supposer qu’il existe une relation curviligne entre la productivité du travail et les résultats aux tests de sélection. Cela signifie qu'à mesure que le système de notation augmente, les performances commenceront à diminuer à un certain niveau, de sorte que le modèle droit peut s'avérer curviligne.

Le troisième modèle sera une hyperbole, et dans toutes les équations la variable x sera remplacée par l'expression .

CONCLUSION DES RÉSULTATS

Tableau 8.3a.
Statistiques de régression
Pluriel R 0,998364
R Carré 0,99673
R carré normalisé 0,996321
Erreur standard 0,42405
Observations 10

Examinons d’abord la partie supérieure des calculs, présentée dans le tableau 8.3a – les statistiques de régression.

La valeur R-carré, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données sources et le modèle de régression (données calculées). La mesure de la certitude se situe toujours dans l'intervalle.

Dans la plupart des cas, la valeur R au carré se situe entre ces valeurs, appelées valeurs extrêmes, c'est-à-dire entre zéro et un.

Si la valeur R au carré est proche de un, cela signifie que le modèle construit explique presque toute la variabilité des variables pertinentes. À l’inverse, une valeur R au carré proche de zéro signifie que la qualité du modèle construit est médiocre.

Dans notre exemple, la mesure de certitude est de 0,99673, ce qui indique un très bon ajustement de la droite de régression aux données d'origine.

Pluriel R- coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Le multiple R est égal à la racine carrée du coefficient de détermination ; cette quantité prend des valeurs comprises entre zéro et un.

Dans une analyse de régression linéaire simple, le multiple R est égal au coefficient de corrélation de Pearson. En effet, le multiple R dans notre cas est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b.
Coefficients de régression Erreur standard Chances
statistique t 2,694545455 0,33176878 8,121757129
Intersection en Y 2,305454545 0,04668634 49,38177965
Variable X 1

* Une version tronquée des calculs est fournie

Considérons maintenant la partie médiane des calculs, présentée dans le tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le déplacement le long de l'axe des ordonnées sont donnés, c'est-à-dire constante une (2,694545455).

Sur la base des calculs, nous pouvons écrire l’équation de régression comme suit :

Oui= x*2,305454545+2,694545455 Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) coefficients de régression

(coefficient b). Si le signe à Coefficient de régression

(coefficient b). Si le signe à- positif, la relation entre la variable dépendante et la variable indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

Dans le tableau 8.3c. Les résultats du calcul des résidus sont présentés. Pour que ces résultats apparaissent dans le rapport, vous devez cocher la case « Résidus » lors de l'exécution de l'outil « Régression ».

RETRAIT DU RESTE

Tableau 8.3c.
les restes Observation Y prédit les restes
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Balances standards

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la droite de régression construite. Plus grande valeur absolue

En modélisation statistique, l'analyse de régression est une étude utilisée pour évaluer la relation entre les variables. Cette méthode mathématique comprend de nombreuses autres méthodes de modélisation et d'analyse de plusieurs variables, l'accent étant mis sur la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Plus précisément, l'analyse de régression nous aide à comprendre comment la valeur typique d'une variable dépendante change si l'une des variables indépendantes change tandis que les autres variables indépendantes restent fixes.

Dans tous les cas, l’estimation cible est fonction des variables indépendantes et est appelée fonction de régression. Dans l'analyse de régression, il est également intéressant de caractériser la variation de la variable dépendante comme une fonction de régression, qui peut être décrite à l'aide d'une distribution de probabilité.

Problèmes d'analyse de régression

Cette méthode de recherche statistique est largement utilisée pour la prévision, où son utilisation présente un avantage significatif, mais elle peut parfois conduire à des illusions ou à de fausses relations, il est donc recommandé de l'utiliser avec prudence dans ce domaine, car, par exemple, corrélation ne signifie pas causalité.

En tant que méthode de recherche statistique, l'analyse de régression dépend en pratique de la forme du processus de génération de données et de son lien avec l'approche de régression. Étant donné que la véritable forme du processus de génération de données est généralement un nombre inconnu, l'analyse de régression des données dépend souvent dans une certaine mesure d'hypothèses concernant le processus. Ces hypothèses peuvent parfois être testées si suffisamment de données sont disponibles. Les modèles de régression sont souvent utiles même lorsque les hypothèses sont modérément violées, même s'ils peuvent ne pas fonctionner avec une efficacité maximale.

Dans un sens plus étroit, la régression peut faire spécifiquement référence à l'estimation de variables à réponse continue, par opposition aux variables à réponse discrète utilisées dans la classification. Le cas des variables de sortie continues est également appelé régression métrique pour le distinguer des problèmes connexes.

Histoire

La première forme de régression est la méthode bien connue des moindres carrés. Elle a été publiée par Legendre en 1805 et Gauss en 1809. Legendre et Gauss ont appliqué la méthode au problème de la détermination à partir d'observations astronomiques des orbites des corps autour du Soleil (principalement des comètes, mais plus tard aussi des planètes mineures nouvellement découvertes). Gauss a publié un développement ultérieur de la théorie des moindres carrés en 1821, y compris une version du théorème de Gauss-Markov.

Le terme « régression » a été inventé par Francis Galton au XIXe siècle pour décrire un phénomène biologique. L’idée était que la taille des descendants par rapport à celle de leurs ancêtres tend à régresser vers le bas vers la moyenne normale. Pour Galton, la régression n’avait qu’une signification biologique, mais plus tard ses travaux furent poursuivis par Udney Yoley et Karl Pearson et replacés dans un contexte statistique plus général. Dans les travaux de Yule et Pearson, la distribution conjointe des variables de réponse et des variables explicatives est supposée être gaussienne. Cette hypothèse a été rejetée par Fischer dans des articles de 1922 et 1925. Fisher a suggéré que la distribution conditionnelle de la variable de réponse est gaussienne, mais que la distribution conjointe ne l'est pas nécessairement. À cet égard, la proposition de Fischer est plus proche de la formulation de Gauss de 1821. Avant 1970, il fallait parfois jusqu'à 24 heures pour obtenir le résultat d'une analyse de régression.

Les méthodes d'analyse de régression continuent d'être un domaine de recherche actif. Au cours des dernières décennies, de nouvelles méthodes ont été développées pour une régression robuste ; régressions impliquant des réponses corrélées ; des méthodes de régression qui prennent en compte différents types de données manquantes ; régression non paramétrique ; Méthodes de régression bayésienne ; régressions dans lesquelles les variables prédictives sont mesurées avec erreur ; régression avec plus de prédicteurs que d'observations et inférence de cause à effet avec régression.

Modèles de régression

Les modèles d'analyse de régression incluent les variables suivantes :

  • Paramètres inconnus, appelés bêta, qui peuvent être un scalaire ou un vecteur.
  • Variables indépendantes, X.
  • Variables dépendantes, Y.

Différents domaines scientifiques où l'analyse de régression est utilisée utilisent des termes différents à la place de variables dépendantes et indépendantes, mais dans tous les cas, le modèle de régression relie Y à une fonction de X et β.

L'approximation s'écrit généralement sous la forme E(Y | X) = F(X, β). Pour effectuer une analyse de régression, le type de fonction f doit être déterminé. Plus rarement, elle repose sur la connaissance de la relation entre Y et X, qui ne repose pas sur des données. Si de telles connaissances ne sont pas disponibles, alors la forme flexible ou pratique F est choisie.

Variable dépendante Y

Supposons maintenant que le vecteur de paramètres inconnus β soit de longueur k. Pour effectuer une analyse de régression, l'utilisateur doit fournir des informations sur la variable dépendante Y :

  • Si N points de données de la forme (Y, X) sont observés, où N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Si exactement N = K sont observés et que la fonction F est linéaire, alors l'équation Y = F(X, β) peut être résolue exactement plutôt qu'approximativement. Cela revient à résoudre un ensemble de N-équations à N-inconnues (éléments β) qui ont une solution unique tant que X est linéairement indépendant. Si F est non linéaire, il se peut qu’il n’y ait pas de solution, ou que de nombreuses solutions puissent exister.
  • La situation la plus courante est celle où N > points de données sont observés. Dans ce cas, les données contiennent suffisamment d’informations pour estimer une valeur unique pour β qui correspond le mieux aux données, ainsi qu’un modèle de régression dans lequel l’application aux données peut être considérée comme un système surdéterminé dans β.

Dans ce dernier cas, l’analyse de régression fournit des outils pour :

  • Trouver une solution pour les paramètres inconnus β, qui permettra, par exemple, de minimiser la distance entre la valeur mesurée et prédite de Y.
  • Sous certaines hypothèses statistiques, l'analyse de régression utilise des informations excédentaires pour fournir des informations statistiques sur les paramètres inconnus β et les valeurs prédites de la variable dépendante Y.

Nombre requis de mesures indépendantes

Considérons un modèle de régression qui a trois paramètres inconnus : β 0 , β 1 et β 2 . Supposons que l'expérimentateur effectue 10 mesures sur la même valeur du vecteur variable indépendante X. Dans ce cas, l'analyse de régression ne produit pas un ensemble unique de valeurs. Le mieux que vous puissiez faire est d'estimer la moyenne et l'écart type de la variable dépendante Y. De même, en mesurant deux valeurs différentes de X, vous pouvez obtenir suffisamment de données pour une régression avec deux inconnues, mais pas avec trois inconnues ou plus.

Si les mesures de l'expérimentateur ont été effectuées à trois valeurs différentes du vecteur variable indépendant X, alors l'analyse de régression fournira un ensemble unique d'estimations pour les trois paramètres inconnus dans β.

Dans le cas d'une régression linéaire générale, l'énoncé ci-dessus équivaut à l'exigence selon laquelle la matrice X T X est inversible.

Hypothèses statistiques

Lorsque le nombre de mesures N est supérieur au nombre de paramètres inconnus k et aux erreurs de mesure ε i , alors, en règle générale, l'information excédentaire contenue dans les mesures est alors diffusée et utilisée pour des prédictions statistiques sur les paramètres inconnus. Cet excès d’information est appelé degré de liberté de régression.

Hypothèses fondamentales

Les hypothèses classiques pour l’analyse de régression comprennent :

  • L'échantillonnage est représentatif de la prédiction par inférence.
  • Le terme d’erreur est une variable aléatoire avec une moyenne de zéro, qui dépend des variables explicatives.
  • Les variables indépendantes sont mesurées sans erreurs.
  • En tant que variables indépendantes (prédicteurs), elles sont linéairement indépendantes, c’est-à-dire qu’il n’est pas possible d’exprimer un prédicteur sous la forme d’une combinaison linéaire des autres.
  • Les erreurs ne sont pas corrélées, c'est-à-dire que la matrice de covariance d'erreur des diagonales et chaque élément non nul est la variance d'erreur.
  • La variance d'erreur est constante d'une observation à l'autre (homoscédasticité). Dans le cas contraire, les moindres carrés pondérés ou d’autres méthodes peuvent être utilisées.

Ces conditions suffisantes pour l'estimation par les moindres carrés ont les propriétés requises, en particulier ces hypothèses signifient que les estimations des paramètres seront objectives, cohérentes et efficaces, surtout lorsqu'elles sont prises en compte dans la classe des estimateurs linéaires. Il est important de noter que les preuves satisfont rarement aux conditions. Autrement dit, la méthode est utilisée même si les hypothèses ne sont pas correctes. Les écarts par rapport aux hypothèses peuvent parfois être utilisés pour mesurer l’utilité du modèle. Beaucoup de ces hypothèses peuvent être assouplies grâce à des méthodes plus avancées. Les rapports d'analyse statistique incluent généralement l'analyse de tests sur des échantillons de données et la méthodologie pour l'utilité du modèle.

De plus, les variables font dans certains cas référence à des valeurs mesurées à des emplacements ponctuels. Il peut y avoir des tendances spatiales et des autocorrélations spatiales dans les variables qui violent les hypothèses statistiques. La régression géographique pondérée est la seule méthode qui traite de telles données.

Une caractéristique de la régression linéaire est que la variable dépendante, qui est Yi, est une combinaison linéaire de paramètres. Par exemple, la régression linéaire simple utilise une variable indépendante, x i , et deux paramètres, β 0 et β 1 , pour modéliser n points.

Dans la régression linéaire multiple, il existe plusieurs variables indépendantes ou fonctions de celles-ci.

Lorsqu'un échantillon aléatoire est prélevé dans une population, ses paramètres permettent d'obtenir un modèle de régression linéaire par échantillon.

Dans cet aspect, la méthode la plus populaire est la méthode des moindres carrés. Il est utilisé pour obtenir des estimations de paramètres qui minimisent la somme des carrés des résidus. Ce type de minimisation (typique de la régression linéaire) de cette fonction conduit à un ensemble d'équations normales et à un ensemble d'équations linéaires avec paramètres, qui sont résolues pour obtenir des estimations de paramètres.

En supposant en outre que l'erreur de population se propage généralement, un chercheur peut utiliser ces estimations d'erreur type pour créer des intervalles de confiance et effectuer des tests d'hypothèse sur ses paramètres.

Analyse de régression non linéaire

Un exemple où la fonction n'est pas linéaire par rapport aux paramètres indique que la somme des carrés doit être minimisée à l'aide d'une procédure itérative. Cela introduit de nombreuses complications qui définissent les différences entre les méthodes des moindres carrés linéaires et non linéaires. Par conséquent, les résultats de l'analyse de régression lors de l'utilisation d'une méthode non linéaire sont parfois imprévisibles.

Calcul de la puissance et de la taille de l'échantillon

Il n'existe généralement pas de méthodes cohérentes concernant le nombre d'observations par rapport au nombre de variables indépendantes dans le modèle. La première règle a été proposée par Dobra et Hardin et ressemble à N = t^n, où N est la taille de l'échantillon, n est le nombre de variables indépendantes et t est le nombre d'observations nécessaires pour obtenir la précision souhaitée si le modèle avait une seule variable indépendante. Par exemple, un chercheur construit un modèle de régression linéaire à l’aide d’un ensemble de données contenant 1 000 patients (N). Si le chercheur décide que cinq observations sont nécessaires pour définir avec précision la ligne (m), alors le nombre maximum de variables indépendantes que le modèle peut prendre en charge est de 4.

Autres méthodes

Bien que les paramètres du modèle de régression soient généralement estimés à l’aide de la méthode des moindres carrés, d’autres méthodes sont utilisées beaucoup moins fréquemment. Par exemple, ce sont les méthodes suivantes :

  • Méthodes bayésiennes (par exemple, régression linéaire bayésienne).
  • Régression en pourcentage, utilisée dans les situations où la réduction du pourcentage d'erreurs est considérée comme plus appropriée.
  • Les plus petits écarts absolus, plus robustes en présence de valeurs aberrantes conduisant à une régression quantile.
  • Régression non paramétrique, qui nécessite un grand nombre d'observations et de calculs.
  • Une métrique d'apprentissage à distance qui est apprise pour trouver une métrique de distance significative dans un espace d'entrée donné.

Logiciel

Tous les principaux logiciels statistiques effectuent une analyse de régression par les moindres carrés. La régression linéaire simple et l'analyse de régression multiple peuvent être utilisées dans certaines applications de feuilles de calcul ainsi que dans certaines calculatrices. Bien que de nombreux logiciels statistiques puissent effectuer divers types de régression non paramétrique et robuste, ces méthodes sont moins standardisées ; différents progiciels implémentent différentes méthodes. Un logiciel de régression spécialisé a été développé pour être utilisé dans des domaines tels que l'analyse des examens et la neuroimagerie.

Les concepts de corrélation et de régression sont directement liés. Il existe de nombreuses techniques informatiques courantes dans l’analyse de corrélation et de régression. Ils sont utilisés pour identifier les relations de cause à effet entre phénomènes et processus. Toutefois, si analyse de corrélation nous permet d'estimer la force et la direction de la connexion stochastique, alors analyse de régression- aussi une forme de dépendance.

La régression peut être :

a) en fonction du nombre de phénomènes (variables) :

Simple (régression entre deux variables) ;

Multiple (régression entre la variable dépendante (y) et plusieurs variables explicatives (x1, x2...xn) ;

b) selon la forme :

Linéaire (affiché par une fonction linéaire, et il existe des relations linéaires entre les variables étudiées) ;

Non linéaire (affiché par une fonction non linéaire ; la relation entre les variables étudiées est non linéaire) ;

c) par la nature de la relation entre les variables incluses dans la considération :

Positif (une augmentation de la valeur de la variable explicative entraîne une augmentation de la valeur de la variable dépendante et vice versa) ;

Négatif (à mesure que la valeur de la variable explicative augmente, la valeur de la variable expliquée diminue) ;

d) par type :

Direct (dans ce cas, la cause a un impact direct sur l'effet, c'est-à-dire que les variables dépendantes et explicatives sont directement liées les unes aux autres) ;

Indirect (la variable explicative a un effet indirect via une troisième ou plusieurs autres variables sur la variable dépendante) ;

Faux (régression absurde) - peut survenir avec une approche superficielle et formelle des processus et phénomènes étudiés. Un exemple absurde est une régression établissant un lien entre une diminution de la quantité d'alcool consommée dans notre pays et une diminution de la vente de lessive.

Lors de la réalisation d'une analyse de régression, les tâches principales suivantes sont résolues :

1. Détermination de la forme de dépendance.

2. Définition de la fonction de régression. Pour ce faire, une équation mathématique d'un type ou d'un autre est utilisée, qui permet, d'une part, d'établir la tendance générale d'évolution de la variable dépendante, et, d'autre part, de calculer l'influence de la variable explicative (ou de plusieurs variables) sur la variable dépendante.

3. Estimation des valeurs inconnues de la variable dépendante. La relation mathématique résultante (équation de régression) vous permet de déterminer la valeur de la variable dépendante à la fois dans l'intervalle des valeurs spécifiées des variables explicatives et au-delà. Dans ce dernier cas, l'analyse de régression constitue un outil utile pour prédire les changements dans les processus et phénomènes socio-économiques (à condition que les tendances et les relations existantes soient maintenues). En règle générale, la durée de la période pour laquelle la prévision est effectuée est choisie pour ne pas dépasser la moitié de l'intervalle de temps sur lequel les observations des indicateurs initiaux ont été effectuées. Il est possible d'effectuer à la fois une prévision passive, résolvant le problème d'extrapolation, et une prévision active, en raisonnant selon le schéma bien connu « si..., alors » et en substituant diverses valeurs dans une ou plusieurs variables de régression explicatives. .



Pour construction de régression une méthode spéciale appelée méthode des moindres carrés. Cette méthode présente des avantages par rapport aux autres méthodes de lissage : une détermination mathématique relativement simple des paramètres requis et une bonne justification théorique d'un point de vue probabiliste.

Lors du choix d'un modèle de régression, l'une des exigences essentielles est d'assurer la plus grande simplicité possible, permettant d'obtenir une solution avec une précision suffisante. Par conséquent, pour établir des relations statistiques, nous considérons d'abord, en règle générale, un modèle de la classe des fonctions linéaires (comme la plus simple de toutes les classes de fonctions possibles) :

où bi, b2...bj sont des coefficients qui déterminent l'influence des variables indépendantes xij sur la valeur yi ; ai - membre gratuit ; ei - écart aléatoire, qui reflète l'influence de facteurs non pris en compte sur la variable dépendante ; n - nombre de variables indépendantes ; N est le nombre d'observations et la condition (N . n+1) doit être remplie.

Modèle linéaire peut décrire une très large classe de problèmes différents. Cependant, dans la pratique, notamment dans les systèmes socio-économiques, il est parfois difficile d'utiliser des modèles linéaires en raison d'erreurs d'approximation importantes. Par conséquent, des fonctions de régression multiple non linéaires pouvant être linéarisées sont souvent utilisées. Il s'agit par exemple de la fonction de production (fonction de puissance de Cobb-Douglas), qui a trouvé des applications dans diverses études socio-économiques. On dirait:

où b 0 est le facteur de normalisation, b 1 ... b j sont des coefficients inconnus, e i est un écart aléatoire.

En utilisant des logarithmes naturels, vous pouvez transformer cette équation sous forme linéaire :

Le modèle résultant permet l’utilisation des procédures de régression linéaire standard décrites ci-dessus. En construisant des modèles de deux types (additifs et multiplicatifs), vous pouvez sélectionner le meilleur et mener des recherches plus approfondies avec des erreurs d'approximation plus faibles.

Il existe un système bien développé pour sélectionner des fonctions approximatives - méthode de comptabilité de groupe des arguments(MGUA).

L'exactitude du modèle sélectionné peut être jugée par les résultats d'une étude des résidus, qui sont les différences entre les valeurs observées y i et les valeurs correspondantes y i prédites à l'aide de l'équation de régression. Dans ce cas pour vérifier l'adéquation du modèle calculé erreur d'approximation moyenne :

Le modèle est considéré comme adéquat si e ne dépasse pas 15 %.

Nous soulignons particulièrement qu'en ce qui concerne les systèmes socio-économiques, les conditions fondamentales pour l'adéquation du modèle de régression classique ne sont pas toujours remplies.

Sans nous attarder sur toutes les raisons de l'insuffisance qui se pose, nous ne citerons que multicolinéarité- le problème le plus difficile de l'application efficace des procédures d'analyse de régression dans l'étude des dépendances statistiques. Sous multicolinéarité il est entendu qu'il existe une relation linéaire entre les variables explicatives.

Ce phénomène:

a) déforme la signification des coefficients de régression lors de leur interprétation significative ;

b) réduit l'exactitude de l'évaluation (la dispersion des évaluations augmente) ;

c) augmente la sensibilité des estimations de coefficients aux données d'échantillon (l'augmentation de la taille de l'échantillon peut grandement affecter les estimations).

Il existe différentes techniques pour réduire la multicolinéarité. Le moyen le plus accessible est d'éliminer l'une des deux variables si le coefficient de corrélation entre elles dépasse une valeur égale en valeur absolue à 0,8. Laquelle des variables conserver est décidée en fonction de considérations de fond. Ensuite, les coefficients de régression sont calculés à nouveau.

L'utilisation d'un algorithme de régression pas à pas vous permet d'inclure séquentiellement une variable indépendante dans le modèle et d'analyser la signification des coefficients de régression et la multicolinéarité des variables. Enfin, seules restent dans la relation étudiée les variables qui fournissent la signification nécessaire des coefficients de régression et une influence minimale de la multicolinéarité.

L'analyse de régression est une méthode de modélisation des données mesurées et d'étude de leurs propriétés. Les données sont constituées de paires de valeurs de la variable dépendante (variable de réponse) et de la variable indépendante (variable explicative). Un modèle de régression est fonction de la variable indépendante et des paramètres avec une variable aléatoire ajoutée.

L'analyse de corrélation et l'analyse de régression sont des sections liées des statistiques mathématiques et sont destinées à étudier la dépendance statistique d'un certain nombre de quantités à l'aide d'échantillons de données ; dont certains sont aléatoires. Avec la dépendance statistique, les quantités ne sont pas fonctionnellement liées, mais sont définies comme des variables aléatoires par une distribution de probabilité conjointe.

L'étude de la dépendance des variables aléatoires conduit à des modèles de régression et à des analyses de régression basées sur des échantillons de données. La théorie des probabilités et les statistiques mathématiques ne représentent qu’un outil pour étudier la dépendance statistique, mais ne visent pas à établir une relation causale. Les idées et hypothèses sur une relation causale doivent provenir d’une autre théorie permettant une explication significative du phénomène étudié.

Les données numériques ont généralement des relations explicites (connues) ou implicites (cachées) les unes avec les autres.

Les indicateurs obtenus par des méthodes de calcul directes, c'est-à-dire calculés à l'aide de formules précédemment connues, sont clairement liés. Par exemple, pourcentages d'achèvement du plan, niveaux, poids spécifiques, écarts de montant, écarts de pourcentages, taux de croissance, taux de croissance, indices, etc.

Les connexions du deuxième type (implicites) sont inconnues à l'avance. Or, il est nécessaire de pouvoir expliquer et prédire (prévoir) des phénomènes complexes afin de les gérer. Par conséquent, les spécialistes, à l'aide d'observations, s'efforcent d'identifier les dépendances cachées et de les exprimer sous forme de formules, c'est-à-dire de modéliser mathématiquement des phénomènes ou des processus. Une telle opportunité est fournie par l’analyse de corrélation-régression.

Les modèles mathématiques sont construits et utilisés à trois fins générales :

  • * pour explication ;
  • * pour la prédiction ;
  • * Pour la conduite.

À l'aide des méthodes d'analyse de corrélation et de régression, les analystes mesurent l'étroitesse des liens entre les indicateurs à l'aide du coefficient de corrélation. Dans ce cas, on découvre des connexions de force différente (forte, faible, modérée, etc.) et de direction différente (directe, inverse). Si les liens s'avèrent significatifs, il conviendra alors de trouver leur expression mathématique sous la forme d'un modèle de régression et d'évaluer la signification statistique du modèle.

L'analyse de régression est appelée la principale méthode des statistiques mathématiques modernes pour identifier les liens implicites et voilés entre les données d'observation.

L’énoncé du problème de l’analyse de régression est formulé comme suit.

Il existe un ensemble de résultats d'observation. Dans cet ensemble, une colonne correspond à un indicateur pour lequel il faut établir une relation fonctionnelle avec les paramètres de l'objet et de l'environnement représentés par les colonnes restantes. Obligatoire : établir une relation quantitative entre l'indicateur et les facteurs. Dans ce cas, le problème de l'analyse de régression est compris comme la tâche d'identifier une telle dépendance fonctionnelle y = f (x2, x3, ..., xт), qui décrit le mieux les données expérimentales disponibles.

Hypothèses:

le nombre d'observations est suffisant pour démontrer des tendances statistiques concernant les facteurs et leurs relations ;

les données traitées contiennent des erreurs (bruit) dues à des erreurs de mesure et à l'influence de facteurs aléatoires non pris en compte ;

la matrice des résultats d'observation est la seule information disponible sur l'objet étudié avant le début de l'étude.

La fonction f (x2, x3, ..., xт), qui décrit la dépendance de l'indicateur aux paramètres, est appelée équation de régression (fonction). Le terme « régression » (régression (latin) - retrait, retour à quelque chose) est associé aux spécificités de l'un des problèmes spécifiques résolus au stade de la formation de la méthode.

Il est conseillé de diviser la solution du problème de l'analyse de régression en plusieurs étapes :

prétraitement des données ;

choisir le type d'équations de régression ;

calcul des coefficients des équations de régression ;

vérifier l'adéquation de la fonction construite aux résultats d'observation.

Le prétraitement comprend la normalisation de la matrice de données, le calcul des coefficients de corrélation, la vérification de leur signification et l'exclusion des paramètres insignifiants.

Choisir le type d'équation de régression La tâche consistant à déterminer la relation fonctionnelle qui décrit le mieux les données implique de surmonter un certain nombre de difficultés fondamentales. Dans le cas général, pour des données standardisées, la dépendance fonctionnelle de l'indicateur aux paramètres peut être représentée comme

y = f (x1, x2, …, xm) + e

où f est une fonction jusqu’alors inconnue à déterminer ;

e - erreur d'approximation des données.

Cette équation est généralement appelée équation de régression par exemple. Cette équation caractérise la relation entre la variation de l'indicateur et les variations des facteurs. Et la mesure de corrélation mesure la proportion de variation d’un indicateur associée à la variation de facteurs. En d’autres termes, la corrélation entre un indicateur et des facteurs ne peut être interprétée comme un lien entre leurs niveaux, et l’analyse de régression n’explique pas le rôle des facteurs dans la création de l’indicateur.

Une autre caractéristique concerne l'évaluation du degré d'influence de chaque facteur sur l'indicateur. L'équation de régression ne fournit pas une évaluation de l'influence distincte de chaque facteur sur l'indicateur ; une telle évaluation n'est possible que dans le cas où tous les autres facteurs ne sont pas liés à celui étudié. Si le facteur étudié est lié à d’autres qui influencent l’indicateur, on obtiendra alors une caractéristique mixte de l’influence du facteur. Cette caractéristique contient à la fois l'influence directe du facteur et l'influence indirecte exercée par le lien avec d'autres facteurs et leur influence sur l'indicateur.

Il n'est pas recommandé d'inclure dans l'équation de régression des facteurs faiblement liés à l'indicateur, mais étroitement liés à d'autres facteurs. Les facteurs fonctionnellement liés les uns aux autres ne sont pas inclus dans l'équation (pour eux, le coefficient de corrélation est de 1). L'inclusion de tels facteurs conduit à la dégénérescence du système d'équations d'estimation des coefficients de régression et à l'incertitude de la solution.

La fonction f doit être sélectionnée de manière à ce que l'erreur e soit en quelque sorte minime. Afin de sélectionner une connexion fonctionnelle, une hypothèse est émise à l'avance sur la classe à laquelle la fonction f peut appartenir, puis la « meilleure » fonction de cette classe est sélectionnée. La classe de fonctions sélectionnée doit avoir une certaine « douceur », c'est-à-dire De "petits" changements dans les valeurs des arguments devraient entraîner de "petits" changements dans les valeurs des fonctions.

Un cas particulier largement utilisé dans la pratique est une équation de régression polynomiale ou linéaire du premier degré.

Pour sélectionner le type de dépendance fonctionnelle, l’approche suivante peut être recommandée :

les points avec les valeurs indicatrices sont affichés graphiquement dans l'espace des paramètres. Avec un grand nombre de paramètres, il est possible de construire des points pour chacun d'eux, obtenant des distributions de valeurs bidimensionnelles ;

sur la base de l'emplacement des points et sur la base d'une analyse de l'essence de la relation entre l'indicateur et les paramètres de l'objet, une conclusion est tirée sur le type approximatif de régression ou ses options possibles ;

Après avoir calculé les paramètres, la qualité de l'approximation est évaluée, c'est-à-dire évaluer le degré de similarité entre les valeurs calculées et réelles ;

si les valeurs calculées et réelles sont proches dans toute la zone de tâche, le problème de l'analyse de régression peut être considéré comme résolu. Sinon, vous pouvez essayer de choisir un autre type de polynôme ou une autre fonction analytique, comme une fonction périodique.

Calcul des coefficients de l'équation de régression

Il est impossible de résoudre sans ambiguïté un système d'équations sur la base des données disponibles, car le nombre d'inconnues est toujours supérieur au nombre d'équations. Pour surmonter ce problème, des hypothèses supplémentaires sont nécessaires. Le bon sens veut : il est conseillé de choisir les coefficients du polynôme de manière à garantir une erreur minimale d'approximation des données. Diverses mesures peuvent être utilisées pour évaluer les erreurs d’approximation. L’erreur quadratique moyenne est largement utilisée comme mesure. Sur cette base, une méthode spéciale d'estimation des coefficients des équations de régression a été développée - la méthode des moindres carrés (LSM). Cette méthode vous permet d'obtenir des estimations du maximum de vraisemblance des coefficients inconnus de l'équation de régression sous l'option de distribution normale, mais elle peut être utilisée pour toute autre distribution de facteurs.

Le MNC repose sur les dispositions suivantes :

les valeurs des erreurs et des facteurs sont indépendantes, et donc décorrélées, c'est-à-dire on suppose que les mécanismes de génération d'interférences ne sont pas liés au mécanisme de génération de valeurs de facteurs ;

l'espérance mathématique de l'erreur e doit être égale à zéro (la composante constante est incluse dans le coefficient a0), autrement dit, l'erreur est une grandeur centrée ;

l’estimation par échantillon de la variance de l’erreur doit être minimale.

Si le modèle linéaire est inexact ou si les paramètres sont mesurés de manière inexacte, alors dans ce cas, la méthode des moindres carrés nous permet de trouver les valeurs des coefficients pour lesquelles le modèle linéaire décrit le mieux l'objet réel dans le sens de l'écart type sélectionné. critère.

La qualité de l'équation de régression résultante est évaluée par le degré de proximité entre les résultats des observations de l'indicateur et les valeurs prédites par l'équation de régression en des points donnés de l'espace des paramètres. Si les résultats sont proches, alors le problème de l’analyse de régression peut être considéré comme résolu. Sinon, vous devez modifier l'équation de régression et répéter les calculs pour estimer les paramètres.

S'il existe plusieurs indicateurs, le problème de l'analyse de régression est résolu indépendamment pour chacun d'eux.

En analysant l'essence de l'équation de régression, les points suivants doivent être notés. L'approche considérée ne fournit pas d'évaluation séparée (indépendante) des coefficients - une modification de la valeur d'un coefficient entraîne une modification des valeurs des autres. Les coefficients obtenus ne doivent pas être considérés comme la contribution du paramètre correspondant à la valeur de l'indicateur. L'équation de régression n'est qu'une bonne description analytique des données disponibles, et non une loi décrivant la relation entre les paramètres et l'indicateur. Cette équation est utilisée pour calculer les valeurs de l'indicateur dans une plage donnée de changements de paramètres. Son utilité est limitée pour les calculs en dehors de cette plage, c'est-à-dire il peut être utilisé pour résoudre des problèmes d'interpolation et, dans une mesure limitée, pour l'extrapolation.

La principale raison de l'inexactitude de la prévision n'est pas tant l'incertitude de l'extrapolation de la droite de régression, mais plutôt la variation importante de l'indicateur due à des facteurs non pris en compte dans le modèle. La limitation de la capacité de prévision est la condition de stabilité des paramètres non pris en compte dans le modèle et la nature de l'influence des facteurs du modèle pris en compte. Si l'environnement extérieur change fortement, l'équation de régression compilée perdra son sens.

La prévision obtenue en substituant la valeur attendue du paramètre dans l'équation de régression est un point. La probabilité qu’une telle prévision se réalise est négligeable. Il est conseillé de déterminer l'intervalle de confiance de la prévision. Pour les valeurs individuelles de l'indicateur, l'intervalle doit prendre en compte les erreurs de position de la ligne de régression et les écarts des valeurs individuelles par rapport à cette ligne.



Avez-vous aimé l'article? Partage avec tes amis!