Quelle est l’essence de la méthode des moindres carrés ? Les mathématiques sur les doigts : méthodes des moindres carrés

Méthode moindres carrés

Méthode des moindres carrés ( MCO, MCO, moindres carrés ordinaires) - l'une des méthodes de base d'analyse de régression pour estimer les paramètres inconnus des modèles de régression à l'aide d'échantillons de données. La méthode est basée sur la minimisation de la somme des carrés des résidus de régression.

Il convient de noter que la méthode des moindres carrés elle-même peut être appelée une méthode permettant de résoudre un problème dans n'importe quel domaine si la solution réside ou satisfait à un critère de minimisation de la somme des carrés de certaines fonctions des variables requises. Par conséquent, la méthode des moindres carrés peut également être utilisée pour une représentation approchée (approximation) fonction donnée d'autres fonctions (plus simples), lors de la recherche d'un ensemble de quantités qui satisfont à des équations ou des restrictions, dont le nombre dépasse le nombre de ces quantités, etc.

L’essence de la multinationale

Soit un modèle (paramétrique) d'une relation probabiliste (de régression) entre la variable (expliquée) oui et de nombreux facteurs (variables explicatives) x

où est le vecteur des paramètres de modèle inconnus

- erreur de modèle aléatoire.

Qu'il y ait également des exemples d'observations des valeurs de ces variables. Soit le numéro d'observation (). Viennent ensuite les valeurs des variables de la ème observation. Puis à valeurs données paramètres b, vous pouvez calculer les valeurs théoriques (modèles) de la variable expliquée y :

La taille des résidus dépend des valeurs des paramètres b.

L'essence de la méthode des moindres carrés (ordinaire, classique) est de trouver de tels paramètres b pour lesquels la somme des carrés des résidus (eng. Somme résiduelle des carrés) sera minime :

DANS cas général ce problème peut être résolu méthodes numériques optimisation (minimisation). Dans ce cas, ils parlent de moindres carrés non linéaires(NLS ou NLLS - anglais) Moindres carrés non linéaires). Dans de nombreux cas, vous pouvez obtenir solution analytique. Pour résoudre le problème de minimisation, il faut trouver les points stationnaires de la fonction en la différenciant par rapport à paramètres inconnus b, égaliser les dérivées à zéro et résoudre le système d'équations résultant :

Si les erreurs aléatoires du modèle sont normalement distribuées, ont la même variance et ne sont pas corrélées, les estimations des paramètres OLS sont identiques aux estimations du maximum de vraisemblance (MLM).

OLS dans le cas d'un modèle linéaire

Soit la dépendance de régression linéaire :

Laisser oui est un vecteur colonne d'observations de la variable expliquée, et est une matrice d'observations de facteurs (les lignes de la matrice sont des vecteurs de valeurs de facteurs dans cette observation, par colonnes - vecteur de valeurs ce facteur dans toutes les observations). La représentation matricielle du modèle linéaire est :

Alors le vecteur des estimations de la variable expliquée et le vecteur des résidus de régression seront égaux

En conséquence, la somme des carrés des résidus de régression sera égale à

En différenciant cette fonction par rapport au vecteur de paramètres et en assimilant les dérivées à zéro, on obtient un système d'équations (en forme matricielle):

.

La solution de ce système d'équations donne formule générale Estimations MCO pour le modèle linéaire :

À des fins analytiques, cette dernière représentation de cette formule est utile. Si dans un modèle de régression les données centré, alors dans cette représentation la première matrice a la signification d'un échantillon de matrice de covariance de facteurs, et la seconde est un vecteur de covariances de facteurs avec la variable dépendante. Si en plus les données sont également normaliséà MSE (c'est-à-dire, en fin de compte standardisé), alors la première matrice a la signification d'un échantillon matrice de corrélation facteurs, le deuxième vecteur est le vecteur des corrélations d’échantillon des facteurs avec la variable dépendante.

Une propriété importante des estimations MCO pour les modèles avec constante- la droite de régression construite passe par le centre de gravité des données de l'échantillon, c'est-à-dire que l'égalité est satisfaite :

En particulier, dans en dernier recours, lorsque le seul régresseur est une constante, on obtient que l'estimateur MCO paramètre unique(la constante elle-même) est égale à la valeur moyenne de la variable expliquée. C'est-à-dire la moyenne arithmétique, connue pour sa bonnes propriétésà partir des lois des grands nombres, est également une estimation des moindres carrés - elle satisfait au critère de la somme minimale des écarts au carré par rapport à celle-ci.

Exemple : régression la plus simple (par paire)

Dans le cas d'un hammam régression linéaire les formules de calcul sont simplifiées (on peut s'en passer algèbre matricielle):

Propriétés des estimateurs OLS

Tout d’abord, notons que pour les modèles linéaires, les estimations MCO sont estimations linéaires, comme suit de la formule ci-dessus. Pour des estimations MCO impartiales, il est nécessaire et suffisant d’effectuer la condition la plus importante analyse de régression : conditionnelle aux facteurs, l'espérance mathématique d'une erreur aléatoire doit être égale à zéro. Cet état, en particulier, est satisfait si

  1. espérance mathématique erreurs aléatoires est égal à zéro, et
  2. les facteurs et les erreurs aléatoires sont des variables aléatoires indépendantes.

La deuxième condition – la condition d’exogénéité des facteurs – est fondamentale. Si cette propriété n’est pas satisfaite, alors nous pouvons supposer que presque toutes les estimations seront extrêmement insatisfaisantes : elles ne seront même pas cohérentes (c’est-à-dire même très grand volume les données ne permettent pas d'obtenir évaluations qualitatives dans ce cas). Dans le cas classique, une hypothèse plus forte est faite sur le déterminisme des facteurs, par opposition à une erreur aléatoire, ce qui signifie automatiquement que la condition d'exogénéité est remplie. Dans le cas général, pour la cohérence des estimations, il suffit de satisfaire la condition d'exogénéité ainsi que la convergence de la matrice vers une matrice non singulière à mesure que la taille de l'échantillon augmente jusqu'à l'infini.

Pour qu'en plus de la cohérence et de l'impartialité, les estimations des moindres carrés (ordinaires) soient également efficaces (les meilleures de la classe des estimations linéaires sans biais), des propriétés supplémentaires d'erreur aléatoire doivent être remplies :

Ces hypothèses peuvent être formulées pour la matrice de covariance du vecteur d'erreur aléatoire

Un modèle linéaire qui satisfait à ces conditions est appelé classique. Les estimations MCO pour la régression linéaire classique sont impartiales, cohérentes et constituent les estimations les plus efficaces de la classe de toutes les estimations linéaires non biaisées (dans la littérature anglaise, l'abréviation est parfois utilisée BLEU (Meilleur estimateur linéaire sans évaluation) - la meilleure estimation linéaire sans biais ; V Littérature russe Le théorème de Gauss-Markov est souvent utilisé). Comme il est facile de le montrer, la matrice de covariance du vecteur d'estimations de coefficients sera égale à :

MCO généralisé

La méthode des moindres carrés permet une large généralisation. Au lieu de minimiser la somme des carrés des résidus, on peut minimiser une forme quadratique définie positive du vecteur des résidus, où est une matrice de poids défini positif symétrique. Les moindres carrés conventionnels sont un cas particulier de cette approche, où la matrice de poids est proportionnelle à la matrice d'identité. Comme le montre la théorie des matrices symétriques (ou opérateurs), pour de telles matrices, il existe une décomposition. Par conséquent, la fonctionnelle spécifiée peut être représentée comme suit, c'est-à-dire que cette fonctionnelle peut être représentée comme la somme des carrés de certains « restes » transformés. Ainsi, on peut distinguer une classe de méthodes des moindres carrés - les méthodes LS (Least Squares).

Il a été prouvé (théorème d'Aitken) que pour un modèle de régression linéaire généralisée (dans lequel aucune restriction n'est imposée sur la matrice de covariance des erreurs aléatoires), les plus efficaces (dans la classe des estimations linéaires non biaisées) sont les soi-disant estimations. Moindres carrés généralisés (GLS - Moindres carrés généralisés)- Méthode LS avec une matrice de poids égale à la matrice de covariance inverse des erreurs aléatoires : .

On peut montrer que la formule pour les estimations GLS des paramètres d'un modèle linéaire a la forme

La matrice de covariance de ces estimations sera donc égale à

En fait, l’essence de l’OLS réside dans une certaine transformation (linéaire) (P) des données originales et dans l’application de l’OLS ordinaire aux données transformées. Le but de cette transformation est que pour les données transformées, les erreurs aléatoires satisfont déjà aux hypothèses classiques.

MCO pondéré

Dans le cas d'une matrice de poids diagonale (et donc d'une matrice de covariance d'erreurs aléatoires), nous avons ce que l'on appelle les moindres carrés pondérés (WLS). DANS dans ce cas la somme des carrés pondérée des résidus du modèle est minimisée, c'est-à-dire que chaque observation reçoit un « poids » inversement proportionnel à la variance de l'erreur aléatoire dans cette observation : . En fait, les données sont transformées en pondérant les observations (en divisant par un montant proportionnel à l'espérance écart type erreurs aléatoires), et l’OLS habituel est appliqué aux données pondérées.

Quelques cas particuliers d'utilisation de MNC en pratique

Approximation de la dépendance linéaire

Considérons le cas où, à la suite de l'étude de la dépendance d'une quantité scalaire à l'égard d'une certaine quantité scalaire(Cela pourrait être, par exemple, la dépendance de la tension par rapport au courant : , où - constante, résistance des conducteurs) des mesures de ces grandeurs ont été effectuées, à la suite desquelles les valeurs et leurs valeurs correspondantes ont été obtenues. Les données de mesure doivent être enregistrées dans un tableau.

Tableau. Résultats de mesure.

Numéro de mesure.
1
2
3
4
5
6

La question est : quelle valeur du coefficient peut-on choisir pour que de la meilleure façon possible décrire la dépendance ? Selon la méthode des moindres carrés, cette valeur doit être telle que la somme des carrés des écarts des valeurs par rapport aux valeurs

était minime

La somme des écarts au carré a un extremum - un minimum, ce qui nous permet d'utiliser cette formule. Retrouvons à partir de cette formule la valeur du coefficient. Pour ce faire, transformons-le côté gauche comme suit:

La dernière formule nous permet de trouver la valeur du coefficient, ce qui était requis dans le problème.

Histoire

À début XIX V. les scientifiques n'avaient pas certaines règles résoudre un système d'équations dans lequel le nombre d'inconnues est inférieur au nombre d'équations ; Jusqu'alors, on utilisait des techniques privées qui dépendaient du type d'équations et de l'esprit des calculateurs, et donc différentes calculatrices, basées sur les mêmes données d'observation, arrivaient à diverses conclusions. Gauss (1795) fut responsable de la première application de la méthode, et Legendre (1805) la découvrit et la publia indépendamment sous nom moderne(fr. Méthode des moindres carrés ) . Laplace a lié la méthode à la théorie des probabilités, et le mathématicien américain Adrain (1808) a examiné ses applications en théorie des probabilités. La méthode a été largement répandue et améliorée grâce à des recherches ultérieures menées par Encke, Bessel, Hansen et d'autres.

Utilisations alternatives de l'OLS

L'idée de la méthode des moindres carrés peut également être utilisée dans d'autres cas non directement liés à l'analyse de régression. Le fait est que la somme des carrés est l’une des mesures de proximité les plus courantes pour les vecteurs (métrique euclidienne dans les espaces de dimension finie).

Une application consiste à « résoudre » des systèmes équations linéaires, dans lequel le nombre d'équations plus de numéro variables

où la matrice n'est pas carrée, mais rectangulaire de taille .

Un tel système d’équations, dans le cas général, n’a pas de solution (si le rang est effectivement supérieur au nombre de variables). Par conséquent, ce système ne peut être « résolu » que dans le sens de choisir un tel vecteur pour minimiser la « distance » entre les vecteurs et . Pour ce faire, vous pouvez appliquer le critère de minimisation de la somme des carrés des différences de gauche et bonnes pièces c'est-à-dire les équations du système. Il est facile de montrer que la résolution de ce problème de minimisation conduit à résoudre le système d’équations suivant

Méthode des moindres carrés

Sur dernière leçon sujets avec lesquels nous ferons connaissance avec l'application la plus célèbre FNP, qui trouve l'application la plus large dans divers domaines les sciences et activités pratiques. Cela peut être la physique, la chimie, la biologie, l’économie, la sociologie, la psychologie, etc. Par la volonté du destin, je dois souvent faire face à l'économie, et c'est pourquoi aujourd'hui je vais vous délivrer un ticket pour pays incroyable appelé Économétrie=) ...Comment peux-tu ne pas en vouloir ?! C'est très bien là-bas, il faut juste se décider ! ...Mais ce que vous voulez probablement, c'est apprendre à résoudre des problèmes méthode des moindres carrés. Et les lecteurs particulièrement assidus apprendront à les résoudre non seulement avec précision, mais aussi TRÈS RAPIDEMENT ;-) Mais d'abord cadre général tâches + exemple d'accompagnement:

Laissez entrer un peu domaine des indicateurs qui ont une expression quantitative sont étudiés. En même temps, il y a tout lieu de croire que l'indicateur dépend de l'indicateur. Cette hypothèse pourrait ressembler à hypothèse scientifique, et être basé sur des éléments élémentaires bon sens. Laissons cependant la science de côté et explorons des domaines plus appétissants, à savoir les épiceries. Notons par :

– surface commerciale d'une épicerie, m²,
– chiffre d'affaires annuel d'une épicerie, millions de roubles.

C'est tout à fait clair ce que zone plus grande magasin, plus son chiffre d’affaires sera important dans la plupart des cas.

Supposons qu’après avoir effectué des observations/expériences/calculs/danses avec un tambourin nous disposons de données numériques :

Avec les épiceries, je pense que tout est clair : - c'est la superficie du 1er magasin, - son chiffre d'affaires annuel, - la superficie du 2ème magasin, - son chiffre d'affaires annuel, etc. D'ailleurs, il n'est pas du tout nécessaire d'avoir accès à documents classifiés– une évaluation assez précise du chiffre d'affaires commercial peut être obtenue au moyen de statistiques mathématiques . Cependant ne nous laissons pas distraire, le cours d'espionnage commercial est déjà payant =)

Les données tabulaires peuvent également être écrites sous forme de points et représentées sous la forme familière Système cartésien .

Nous répondrons question importante: combien de points sont nécessaires pour recherche qualitative?

Plus c'est mieux. L'ensemble minimum acceptable se compose de 5 à 6 points. De plus, lorsque petite quantité données, les résultats « anormaux » ne peuvent pas être inclus dans l’échantillon. Ainsi, par exemple, un petit magasin d’élite peut gagner des ordres de grandeur supérieurs à ceux de « ses collègues », faussant ainsi modèle général, c'est ce que vous devez trouver !



Pour faire simple, nous devons sélectionner une fonction, calendrier qui passe au plus près des points . Cette fonction est appelée rapprochement (approximation - approximation) ou fonction théorique . D'une manière générale, un « concurrent » évident apparaît immédiatement ici : le polynôme haut degré, dont le graphique passe par TOUS les points. Mais cette option est compliquée et souvent tout simplement incorrecte. (puisque le graphique « bouclera » tout le temps et reflétera mal la tendance principale).

Ainsi, la fonction recherchée doit être assez simple et en même temps refléter adéquatement la dépendance. Comme vous pouvez le deviner, l'une des méthodes permettant de trouver de telles fonctions s'appelle méthode des moindres carrés. Examinons d’abord son essence dans vue générale. Soit une fonction approximant des données expérimentales :


Comment évaluer la précision de cette approximation ? Calculons également les différences (écarts) entre les valeurs expérimentales et fonctionnelles (on étudie le dessin). La première pensée qui nous vient à l’esprit est d’estimer le montant de la somme, mais le problème est que les différences peuvent être négatives. (Par exemple, ) et les écarts résultant d’une telle sommation s’annuleront. Par conséquent, comme estimation de la précision de l’approximation, il convient de prendre la somme modulesécarts :

ou effondré : (au cas où quelqu'un ne le saurait pas : est l'icône de somme, et – une variable auxiliaire « compteur », qui prend des valeurs de 1 à ) .

Rapprocher les points expérimentaux diverses fonctions, nous recevrons différentes significations, et évidemment, là où ce montant est plus petit, cette fonction est plus précise.

Une telle méthode existe et elle s'appelle méthode du moindre module. Cependant, dans la pratique, j'ai reçu beaucoup une plus grande distribution méthode des moindres carrés, dans la mesure du possible valeurs négatives sont éliminés non pas par le module, mais par la quadrature des écarts :



, après quoi les efforts visent à sélectionner une fonction telle que la somme des écarts au carré était aussi petit que possible. En fait, c’est de là que vient le nom de la méthode.

Et maintenant on revient à autre chose point important: comme indiqué ci-dessus, la fonction sélectionnée doit être assez simple - mais il existe également de nombreuses fonctions de ce type : linéaire , hyperbolique , exponentiel , logarithmique , quadratique etc. Et bien sûr, je voudrais ici immédiatement « réduire le champ d’activité ». Quelle classe de fonctions dois-je choisir pour la recherche ? Primitif, mais technique efficace:

– Le moyen le plus simple est de représenter des points sur le dessin et analyser leur emplacement. S'ils ont tendance à courir en ligne droite, vous devriez alors rechercher équation d'une droite avec des valeurs optimales et . En d'autres termes, la tâche consiste à trouver TELS coefficients afin que la somme des écarts carrés soit la plus petite.

Si les points sont situés, par exemple, le long hyperbole, alors il est évidemment clair que la fonction linéaire donnera une mauvaise approximation. Dans ce cas, nous recherchons les coefficients les plus « favorables » pour l'équation de l'hyperbole – ceux qui donnent la somme minimale des carrés .

Notez maintenant que dans les deux cas nous parlons de fonctions de deux variables, dont les arguments sont paramètres de dépendance recherchés:

Et essentiellement, nous devons décider tâche standard- trouver fonction minimale de deux variables.

Rappelons notre exemple : supposons que les points « magasins » ont tendance à être situés en ligne droite et qu'il y a tout lieu de croire à la présence dépendance linéaire chiffre d'affaires commercial de espace de vente au détail. Trouvons TELS coefficients « a » et « be » tels que la somme des écarts au carré était le plus petit. Tout est comme d'habitude - d'abord Dérivées partielles du 1er ordre. Selon règle de linéarité Vous pouvez différencier juste sous l'icône somme :

Si vous souhaitez utiliser ces informations pour un essai ou un cours - je serai très reconnaissant pour le lien dans la liste des sources, vous trouverez des calculs aussi détaillés à quelques endroits :

Composons système standard:

On réduit chaque équation par « deux » et, en plus, on « décompose » les sommes :

Note : analyser indépendamment pourquoi « a » et « être » peuvent être supprimés au-delà de l'icône de somme. Soit dit en passant, cela peut formellement être fait avec la somme

Réécrivons le système sous forme « appliquée » :

après quoi l'algorithme pour résoudre notre problème commence à émerger :

Connaissons-nous les coordonnées des points ? Nous le savons. Montants peut-on le trouver ? Facilement. Faisons le plus simple système de deux équations linéaires à deux inconnues(« un » et « être »). Nous résolvons le système, par exemple, La méthode de Cramer, ce qui fait que nous obtenons point fixe. Vérification état suffisant extrême, on peut vérifier qu'à ce stade la fonction atteint exactement minimum. Le contrôle implique des calculs supplémentaires et nous le laisserons donc en coulisses (si nécessaire, le cadre manquant peut être visualiséIci ) . Nous tirons la conclusion finale :

Fonction de la meilleure façon possible (du moins par rapport à n'importe quel autre fonction linéaire) rapproche les points expérimentaux . Grosso modo, son graphique passe le plus près possible de ces points. Dans la tradition économétrie la fonction d'approximation résultante est également appelée équation de régression linéaire appariée .

Le problème à l'étude a une grande signification pratique. Dans notre exemple de situation, l’équation. vous permet de prédire quel chiffre d'affaires ("Igrec") le magasin aura à l'une ou l'autre valeur de la surface de vente (l’une ou l’autre signification de « x »). Oui, la prévision qui en résultera ne sera qu’une prévision, mais dans de nombreux cas, elle s’avérera assez précise.

J'analyserai juste un problème avec des nombres « réels », car il ne présente aucune difficulté - tous les calculs sont au niveau programme scolaire 7-8 années. Dans 95 pour cent des cas, il vous sera demandé de trouver simplement une fonction linéaire, mais à la toute fin de l'article je montrerai qu'il n'est plus difficile de trouver les équations de l'hyperbole optimale, de l'exponentielle et de quelques autres fonctions.

En fait, il ne reste plus qu'à distribuer les cadeaux promis - afin que vous puissiez apprendre à résoudre de tels exemples non seulement avec précision, mais aussi rapidement. Nous étudions attentivement la norme :

Tâche

À la suite de l'étude de la relation entre deux indicateurs, les paires de nombres suivantes ont été obtenues :

À l’aide de la méthode des moindres carrés, trouvez la fonction linéaire qui se rapproche le mieux de la valeur empirique. (expérimenté) données. Faire un dessin dans lequel en cartésien système rectangulaire coordonnées, construire des points expérimentaux et un graphique de la fonction d'approximation . Trouver la somme des carrés des écarts entre les valeurs empiriques et valeurs théoriques. Découvrez si la fonctionnalité serait meilleure (du point de vue de la méthode des moindres carrés) rapprocher les points expérimentaux.

Veuillez noter que les significations « x » sont naturelles, et cela a une signification significative caractéristique, dont je parlerai un peu plus tard ; mais ils peuvent bien sûr aussi être fractionnaires. De plus, selon le contenu d'une tâche particulière, les valeurs « X » et « jeu » peuvent être totalement ou partiellement négatives. Eh bien, on nous a confié une tâche « sans visage », et nous la commençons solution:

On trouve les coefficients de la fonction optimale comme solution du système :

Dans le but d'un enregistrement plus compact, la variable « compteur » peut être omise, car il est déjà clair que la sommation s'effectue de 1 à .

Il est plus pratique de calculer les montants requis sous forme de tableau :


Les calculs peuvent être effectués sur une microcalculatrice, mais il est bien préférable d'utiliser Excel - à la fois plus rapide et sans erreurs ; regardez une courte vidéo :

Ainsi, nous obtenons ce qui suit système:

Ici, vous pouvez multiplier la deuxième équation par 3 et soustraire la 2ème de la 1ère équation terme par terme. Mais c'est une chance - dans la pratique, les systèmes ne sont souvent pas un cadeau, et dans de tels cas, cela permet d'économiser La méthode de Cramer:
, ce qui signifie que le système a une solution unique.

Vérifions. Je comprends que vous ne le vouliez pas, mais pourquoi sauter des erreurs là où elles ne peuvent absolument pas être manquées ? Remplaçons la solution trouvée dans le côté gauche de chaque équation du système :

Les membres droits des équations correspondantes sont obtenus, ce qui signifie que le système est résolu correctement.

Ainsi, la fonction d’approximation recherchée : – de toutes les fonctions linéaires C'est elle qui se rapproche le mieux des données expérimentales.

Contrairement à direct dépendance du chiffre d'affaires du magasin à sa superficie, la dépendance trouvée est inverse (principe « plus, moins »), et ce fait est immédiatement révélé par le négatif pente . Fonction nous dit qu'avec une augmentation d'un certain indicateur de 1 unité, la valeur de l'indicateur dépendant diminue en moyenne de 0,65 unité. Comme on dit, plus le prix du sarrasin est élevé, moins il est vendu.

Pour tracer la fonction d’approximation, trouvons ses deux valeurs :

et exécutez le dessin :

La droite construite s’appelle ligne de tendance (à savoir une ligne de tendance linéaire, c'est à dire que dans le cas général, une tendance n'est pas forcément une ligne droite). Tout le monde connaît l’expression « être à la mode » et je pense que ce terme n’a pas besoin de commentaires supplémentaires.

Calculons la somme des écarts au carré entre valeurs empiriques et théoriques. Géométriquement, c'est la somme des carrés des longueurs des segments « framboise » (dont deux sont si petits qu'ils ne sont même pas visibles).

Résumons les calculs dans un tableau :


Encore une fois, ils peuvent être effectués manuellement au cas où, je vais donner un exemple pour le 1er point :

mais il est bien plus efficace de le faire de la manière déjà connue :

Nous répétons encore une fois : Quelle est la signification du résultat obtenu ? Depuis toutes les fonctions linéaires fonction y l'indicateur est le plus petit, c'est-à-dire que dans sa famille c'est la meilleure approximation. Et ici, d'ailleurs, la dernière question du problème n'est pas fortuite : et si la fonction exponentielle proposée vaudrait-il mieux rapprocher les points expérimentaux ?

Trouvons la somme correspondante des écarts au carré - pour les distinguer, je les désignerai par la lettre « epsilon ». La technique est exactement la même :


Et encore, au cas où, les calculs pour le 1er point :

Nous utilisons Excel fonction standard EXP. (la syntaxe peut être trouvée dans l'aide d'Excel).

Conclusion: , ce qui signifie que la fonction exponentielle se rapproche moins bien des points expérimentaux qu'une ligne droite .

Mais ici, il convient de noter que « pire » est ça ne veut pas dire encore, ce qui est mauvais. Maintenant, j'ai construit un graphique de cette fonction exponentielle - et elle passe également à proximité des points - à tel point que sans recherche analytique, il est difficile de dire quelle fonction est la plus précise.

Ceci conclut la solution, et je reviens à la question de valeurs naturelles argument. DANS diverses études, en règle générale, les « X » naturels économiques ou sociologiques sont utilisés pour numéroter les mois, les années ou d’autres intervalles de temps égaux. Considérons, par exemple, le problème suivant :

Les données suivantes sont disponibles sur le chiffre d’affaires du magasin pour le premier semestre :

En utilisant alignement analytique en ligne droite, déterminer le volume du chiffre d'affaires commercial du mois de juillet.

Oui, pas de problème : nous numérotons les mois 1, 2, 3, 4, 5, 6 et utilisons l'algorithme habituel, ce qui nous permet d'obtenir une équation - la seule chose est que lorsqu'il s'agit de temps, ils utilisent généralement la lettre "te" (même si ce n'est pas critique). L'équation qui en résulte montre qu'au cours du premier semestre, le chiffre d'affaires commercial a augmenté en moyenne de 27,74 unités. par mois. Obtenons les prévisions pour juillet (mois n°7): d.e.

ET tâches similaires- l'obscurité est sombre. Ceux qui le souhaitent peuvent utiliser un service supplémentaire, à savoir mon Calculatrice Excel (version démo), lequel résout le problème analysé presque instantanément ! Une version de travail du programme est disponible en échange ou pour frais symbolique.

A la fin de la leçon brève information o trouver des dépendances d'autres types. En fait, il n’y a pas grand chose à dire, puisque l’approche fondamentale et l’algorithme de solution restent les mêmes.

Supposons que la disposition des points expérimentaux ressemble à une hyperbole. Ensuite, pour trouver les coefficients de la meilleure hyperbole, il faut trouver le minimum de la fonction - tout le monde peut le faire calculs détaillés et arriver à un système similaire :

D'un point de vue technique formel, il est obtenu à partir d'un système « linéaire » (notons-le par un astérisque) en remplaçant "x" par . Eh bien, qu'en est-il des montants ? calculer, après quoi les coefficients optimaux « a » et « be » à proximité.

S'il y a toutes les raisons de croire que les points sont situés le long d'une courbe logarithmique, puis pour rechercher valeurs optimales et trouver le minimum de la fonction . Formellement, dans le système (*) doit être remplacé par :

Lorsque vous effectuez des calculs dans Excel, utilisez la fonction LN. J'avoue qu'il ne me serait pas particulièrement difficile de créer des calculateurs pour chacun des cas considérés, mais ce serait quand même mieux si vous « programmiez » les calculs vous-même. Des vidéos de cours pour vous aider.

Avec une dépendance exponentielle, la situation est un peu plus compliquée. Pour réduire la question à cas linéaire, prenez le logarithme de la fonction et utilisez propriétés du logarithme:

Maintenant, en comparant la fonction résultante avec la fonction linéaire, nous arrivons à la conclusion que dans le système (*) doit être remplacé par , et – par . Pour plus de commodité, notons :

Veuillez noter que le système est résolu par rapport à et, et donc, après avoir trouvé les racines, il ne faut pas oublier de trouver le coefficient lui-même.

Rapprocher les points expérimentaux parabole optimale , devrait être trouvé minimum fonctions de trois variables . Après avoir effectué les actions standard, nous obtenons le « travail » suivant système:

Oui, bien sûr, il y a plus de montants ici, mais il n'y a aucune difficulté lorsque vous utilisez votre application préférée. Et enfin, je vais vous expliquer comment effectuer rapidement une vérification à l'aide d'Excel et construire la ligne de tendance souhaitée : créez un nuage de points, sélectionnez l'un des points avec la souris et faites un clic droit, sélectionnez l'option "Ajouter une ligne de tendance". Ensuite, sélectionnez le type de graphique et sur l'onglet "Options" activer l'option "Afficher l'équation sur le diagramme". D'ACCORD

Comme toujours, j'aimerais terminer l'article avec quelques dans une belle phrase, et j'ai failli taper « Soyez tendance ! » Mais il a changé d’avis avec le temps. Et pas parce que c’est stéréotypé. Je ne sais pas comment ça se passe pour personne, mais je n'ai pas vraiment envie de suivre la tendance américaine et surtout européenne promue =) Par conséquent, je souhaite à chacun de vous de s'en tenir à sa propre ligne !

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

La méthode des moindres carrés est l’une des plus courantes et des plus développées en raison de sa simplicité et efficacité des méthodes d'estimation des paramètres des modèles économétriques linéaires. Dans le même temps, lors de son utilisation, une certaine prudence doit être observée, car les modèles construits à l'aide de celui-ci peuvent ne pas satisfaire un certain nombre d'exigences concernant la qualité de leurs paramètres et, par conséquent, ne reflètent pas « bien » les modèles de développement des processus. .

Considérons la procédure d'estimation des paramètres d'un linéaire modèle économétrique en utilisant la méthode des moindres carrés plus en détail. Un tel modèle peut en général être représenté par l’équation (1.2) :

y t = une 0 + une 1 x 1t +...+ une n x nt + ε t.

Les données initiales lors de l'estimation des paramètres a 0 , a 1 ,..., a n sont un vecteur de valeurs de la variable dépendante oui= (y 1 , y 2 , ... , y T)" et la matrice des valeurs des variables indépendantes

dans laquelle la première colonne, composée de uns, correspond au coefficient du modèle.

La méthode des moindres carrés tire son nom du principe de base selon lequel les estimations des paramètres obtenues sur cette base doivent satisfaire : la somme des carrés de l'erreur du modèle doit être minime.

Exemples de résolution de problèmes par la méthode des moindres carrés

Exemple 2.1. L'entreprise commerciale dispose d'un réseau de 12 magasins dont les informations sur les activités sont présentées dans le tableau. 2.1.

La direction de l'entreprise aimerait savoir comment l'ampleur du chiffre d'affaires annuel dépend de la surface de vente au détail du magasin.

Tableau 2.1

Numéro de magasin Chiffre d'affaires annuel, millions de roubles. Surface commerciale, milliers de m2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Solution par la méthode des moindres carrés. Notons le chiffre d'affaires annuel du ème magasin, en millions de roubles ; - surface commerciale du ème magasin, mille m2.

Figure 2.1. Nuage de points pour l'exemple 2.1

Pour déterminer la forme de la relation fonctionnelle entre les variables et nous construirons un diagramme de dispersion (Fig. 2.1).

Sur la base du diagramme de dispersion, on peut conclure que dépendance positive chiffre d'affaires annuel de l'espace de vente au détail (c'est-à-dire qu'il augmentera avec la croissance). La forme de connexion fonctionnelle la plus appropriée est linéaire.

Les informations pour d'autres calculs sont présentées dans le tableau. 2.2. En utilisant la méthode des moindres carrés, nous estimons les paramètres d'un modèle économétrique linéaire à un facteur

Tableau 2.2

t yt x 1 tonne oui 2 x1t2 x 1t yt
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Moyenne 68,29 0,89

Ainsi,

Par conséquent, avec une augmentation de la surface commerciale de 1 000 m2, avec d'autres conditions égales le chiffre d'affaires annuel moyen du commerce augmente de 67,8871 millions de roubles.

Exemple 2.2. La direction de l'entreprise a remarqué que le chiffre d'affaires annuel dépend non seulement de la surface de vente du magasin (voir exemple 2.1), mais aussi du nombre moyen de visiteurs. Les informations pertinentes sont présentées dans le tableau. 2.3.

Tableau 2.3

Solution. Notons - le nombre moyen de visiteurs du ème magasin par jour, en milliers de personnes.

Pour déterminer la forme de la relation fonctionnelle entre les variables et nous construirons un diagramme de dispersion (Fig. 2.2).

Sur la base du nuage de points, nous pouvons conclure que le chiffre d'affaires annuel dépend positivement du nombre moyen de visiteurs par jour (c'est-à-dire que y augmentera avec l'augmentation de ). La forme de dépendance fonctionnelle est linéaire.

Riz. 2.2. Nuage de points pour l'exemple 2.2

Tableau 2.4

t x2t x2t2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Moyenne 10,65

De manière générale, il est nécessaire de déterminer les paramètres d'un modèle économétrique à deux facteurs

y t = une 0 + une 1 x 1t + une 2 x 2t + ε t

Les informations requises pour d'autres calculs sont présentées dans le tableau. 2.4.

Estimons les paramètres d'un modèle économétrique linéaire à deux facteurs par la méthode des moindres carrés.

Ainsi,

L'estimation du coefficient =61,6583 montre que, toutes choses égales par ailleurs, avec une augmentation de la surface commerciale de 1 000 m 2, le chiffre d'affaires annuel augmentera en moyenne de 61,6583 millions de roubles.

L'estimation du coefficient = 2,2748 montre que, toutes choses égales par ailleurs, avec une augmentation du nombre moyen de visiteurs pour 1 mille personnes. par jour, le chiffre d'affaires annuel augmentera en moyenne de 2,2748 millions de roubles.

Exemple 2.3. En utilisant les informations présentées dans le tableau. 2.2 et 2.4, estimer le paramètre du modèle économétrique à un facteur

où est la valeur centrée du chiffre d'affaires annuel du ème magasin, en millions de roubles ; - valeur centrée du nombre quotidien moyen de visiteurs du t-ième magasin, en milliers de personnes. (voir exemples 2.1-2.2).

Solution. Informations Complémentaires, nécessaire aux calculs, est présenté dans le tableau. 2.5.

Tableau 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Montant 48,4344 431,0566

En utilisant la formule (2.35), on obtient

Ainsi,

http://www.cleverstudents.ru/articles/mnk.html

Exemple.

Données expérimentales sur les valeurs des variables X Et à sont données dans le tableau.

Grâce à leur alignement, la fonction est obtenue

En utilisant méthode des moindres carrés, approximez ces données dépendance linéaire y=hache+b(trouver les paramètres UN Et b). Découvrez laquelle des deux droites (au sens de la méthode des moindres carrés) aligne le mieux les données expérimentales. Faites un dessin.

Solution.

Dans notre exemple n=5. Nous remplissons le tableau pour faciliter le calcul des montants inclus dans les formules des coefficients requis.

Les valeurs de la quatrième ligne du tableau sont obtenues en multipliant les valeurs de la 2ème ligne par les valeurs de la 3ème ligne pour chaque nombre je.

Les valeurs de la cinquième ligne du tableau sont obtenues en mettant au carré les valeurs de la 2ème ligne pour chaque nombre je.

Les valeurs de la dernière colonne du tableau sont les sommes des valeurs des lignes.

On utilise les formules de la méthode des moindres carrés pour trouver les coefficients UN Et b. Nous y substituons les valeurs correspondantes de la dernière colonne du tableau :

Ainsi, y = 0,165x+2,184- la droite de rapprochement souhaitée.

Reste à savoir laquelle des lignes y = 0,165x+2,184 ou se rapproche mieux des données originales, c'est-à-dire des estimations utilisant la méthode des moindres carrés.

Preuve.

Pour que lorsqu'on le trouve UN Et b la fonction a pris plus petite valeur, il faut qu'à ce stade la matrice forme quadratique différentielle du second ordre pour la fonction était positif et définitif. Montrons-le.

La différentielle du second ordre a la forme :

C'est

Par conséquent, la matrice de forme quadratique a la forme

et les valeurs des éléments ne dépendent pas de UN Et b.

Montrons que la matrice est définie positive. Pour ce faire, les mineurs angulaires doivent être positifs.

Mineur angulaire première commande . L'inégalité est stricte, puisque les points

Méthode des moindres carrés utilisé pour estimer les paramètres de l’équation de régression.
Nombre de lignes (données sources)

L'analyse de régression est l'une des méthodes permettant d'étudier les relations stochastiques entre les caractéristiques.
Analyse de régression représente le résultat de l'équation de régression, qui est utilisée pour trouver valeur moyenne une variable aléatoire (attribut de résultat) si la valeur d'une autre (ou d'autres) variables (attributs de facteur) est connue. Il comprend les étapes suivantes :

  1. sélection de la forme de connexion (type d'équation de régression analytique) ;
  2. estimation des paramètres de l'équation ;
  3. évaluation de la qualité de l'équation de régression analytique.
Le plus souvent utilisé pour décrire la relation statistique entre les caractéristiques forme linéaire. Attention à connexion linéaire s'explique par une interprétation économique claire de ses paramètres, une variation limitée des variables et le fait que dans la plupart des cas les formes de communication non linéaires sont converties (par logarithme ou remplacement de variables) en une forme linéaire pour effectuer des calculs.
Dans le cas d'une relation linéaire par paire, l'équation de régression prendra la forme : y i =a+b·x i +u i . Possibilités équation donnée a et b sont estimés à partir des données observation statistique x et y. Le résultat d'une telle évaluation est l'équation : , où , sont des estimations des paramètres a et b, est la valeur de l'attribut résultant (variable) obtenu à partir de l'équation de régression (valeur calculée).

Le plus souvent utilisé pour estimer des paramètres méthode des moindres carrés (LSM).
La méthode des moindres carrés fournit les meilleures estimations (cohérentes, efficaces et impartiales) des paramètres de l'équation de régression. Mais seulement si certaines hypothèses sont remplies concernant le terme aléatoire (u) et la variable indépendante (x) (voir hypothèses OLS).

Le problème de l'estimation des paramètres d'une équation de paire linéaire à l'aide de la méthode des moindres carrés est la suivante : obtenir de telles estimations des paramètres , , pour lesquelles la somme des écarts carrés valeurs réelles l'attribut effectif - y i à partir des valeurs calculées - est minime.
Officiellement Test MCO peut s'écrire ainsi : .

Classification des méthodes des moindres carrés

  1. Méthode des moindres carrés.
  2. Méthode probabilité maximale(pour un modèle de régression linéaire classique normal, la normalité des résidus de régression est postulée).
  3. La méthode des moindres carrés généralisés MCO est utilisée dans le cas d'autocorrélation d'erreurs et dans le cas d'hétéroscédasticité.
  4. Méthode des moindres carrés pondérés ( cas particulier OLS avec résidus hétéroscédastiques).

Illustrons le propos méthode classique moindres carrés graphiquement. Pour ce faire, nous allons construire un nuage de points basé sur des données d'observation (x i, y i, i = 1; n) dans un système de coordonnées rectangulaires (un tel nuage de points est appelé champ de corrélation). Essayons de trouver une droite la plus proche des points champ de corrélation. Selon la méthode des moindres carrés, la droite est sélectionnée pour que la somme des carrés des distances verticales entre les points du champ de corrélation et cette droite soit minimale.

Notation mathématique pour ce problème : .
Les valeurs de y i et x i =1...n nous sont connues ; ce sont des données d'observation. Dans la fonction S, ils représentent des constantes. Les variables de cette fonction sont les estimations requises des paramètres - , . Pour trouver le minimum d'une fonction de deux variables, il faut calculer les dérivées partielles de cette fonction pour chacun des paramètres et les assimiler à zéro, c'est-à-dire .
En conséquence, nous obtenons un système de 2 équations linéaires normales :
Décider ce système, nous trouvons les estimations de paramètres requises :

L'exactitude du calcul des paramètres de l'équation de régression peut être vérifiée en comparant les montants (il peut y avoir un certain écart en raison de l'arrondi des calculs).
Pour calculer les estimations des paramètres, vous pouvez créer le tableau 1.
Le signe du coefficient de régression b indique le sens de la relation (si b >0, la relation est directe, si b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formellement, la valeur du paramètre a est la valeur moyenne de y avec x égal à zéro. Si le facteur d'attribut n'a pas et ne peut pas avoir une valeur nulle, alors l'interprétation ci-dessus du paramètre a n'a pas de sens.

Évaluer l'étroitesse de la relation entre les caractéristiques réalisée à l'aide du coefficient de corrélation de paire linéaire - r x,y. Il peut être calculé à l'aide de la formule : . De plus, le coefficient de corrélation linéaire des paires peut être déterminé via le coefficient de régression b : .
La plage de valeurs acceptables du coefficient de corrélation linéaire des paires va de –1 à +1. Le signe du coefficient de corrélation indique le sens de la relation. Si r x, y >0, alors la connexion est directe ; si r x, y<0, то связь обратная.
Si ce coefficient est proche de l'unité en grandeur, alors la relation entre les caractéristiques peut être interprétée comme une relation linéaire assez étroite. Si son module est égal à un ê r x , y ê =1, alors la relation entre les caractéristiques est fonctionnellement linéaire. Si les caractéristiques x et y sont linéairement indépendantes, alors r x,y est proche de 0.
Pour calculer r x,y, vous pouvez également utiliser le tableau 1.

Tableau 1

N observationsx jeet jex je ∙y je
1 x1et 1x 1 et 1
2 x2et 2x 2 et 2
...
nxno nx n y n
Somme de colonne∑x∑y∑xy
Valeur moyenne
Pour évaluer la qualité de l'équation de régression résultante, calculez le coefficient de détermination théorique - R 2 yx :

,
où d 2 est la variance de y expliquée par l'équation de régression ;
e 2 - variance résiduelle (inexpliquée par l'équation de régression) de y ;
s 2 y - variance totale (totale) de y.
Le coefficient de détermination caractérise la proportion de variation (dispersion) de l'attribut résultant y expliquée par la régression (et, par conséquent, le facteur x) dans la variation totale (dispersion) y. Le coefficient de détermination R 2 yx prend des valeurs de 0 à 1. En conséquence, la valeur 1-R 2 yx caractérise la proportion de variance y causée par l'influence d'autres facteurs non pris en compte dans les erreurs de modèle et de spécification.
Avec régression linéaire appariée, R 2 yx =r 2 yx.

L'approximation des données expérimentales est une méthode basée sur le remplacement des données obtenues expérimentalement par une fonction analytique qui se rapproche le plus ou coïncide le plus aux points nodaux avec les valeurs d'origine (données obtenues lors d'une expérience ou d'une expérience). Actuellement, il existe deux manières de définir une fonction analytique :

En construisant un polynôme d'interpolation à n degrés qui passe directement à travers tous les points un tableau de données donné. Dans ce cas, la fonction d'approximation se présente sous la forme : d'un polynôme d'interpolation sous forme de Lagrange ou d'un polynôme d'interpolation sous forme de Newton.

En construisant un polynôme d'approximation de n degrés qui passe à proximité immédiate des pointsà partir d'un tableau de données donné. Ainsi, la fonction d'approximation lisse tous les bruits aléatoires (ou erreurs) pouvant survenir au cours de l'expérience : les valeurs mesurées au cours de l'expérience dépendent de facteurs aléatoires qui fluctuent selon leurs propres lois aléatoires (erreurs de mesure ou d'instrument, imprécision ou expérience erreurs). Dans ce cas, la fonction d'approximation est déterminée par la méthode des moindres carrés.

Méthode des moindres carrés(dans la littérature anglaise Ordinary Least Squares, OLS) est une méthode mathématique basée sur la détermination de la fonction d'approximation, qui est construite à proximité la plus proche des points d'un ensemble donné de données expérimentales. La proximité des fonctions d'origine et d'approximation F(x) est déterminée par une mesure numérique, à savoir : la somme des écarts carrés des données expérimentales par rapport à la courbe d'approximation F(x) doit être la plus petite.

Courbe approximative construite selon la méthode des moindres carrés

La méthode des moindres carrés est utilisée :

Résoudre des systèmes d'équations surdéterminés lorsque le nombre d'équations dépasse le nombre d'inconnues ;

Trouver une solution dans le cas de systèmes d'équations non linéaires ordinaires (non surdéterminés) ;

Pour approximer les valeurs de points avec une fonction d'approximation.

La fonction d'approximation utilisant la méthode des moindres carrés est déterminée à partir de la condition de la somme minimale des écarts carrés de la fonction d'approximation calculée à partir d'un ensemble donné de données expérimentales. Ce critère de la méthode des moindres carrés s’écrit sous la forme suivante :

Les valeurs de la fonction d'approximation calculée aux points nodaux,

Un ensemble donné de données expérimentales aux points nodaux.

Le critère quadratique possède un certain nombre de « bonnes » propriétés, telles que la différentiabilité, fournissant une solution unique au problème d'approximation avec des fonctions d'approximation polynomiales.

Selon les conditions du problème, la fonction d'approximation est un polynôme de degré m

Le degré de la fonction d'approximation ne dépend pas du nombre de points nodaux, mais sa dimension doit toujours être inférieure à la dimension (nombre de points) d'un tableau de données expérimentales donné.

∙ Si le degré de la fonction d'approximation est m=1, alors nous approchons la fonction tabulaire avec une ligne droite (régression linéaire).

∙ Si le degré de la fonction d'approximation est m=2, alors nous approchons la fonction de table avec une parabole quadratique (approximation quadratique).

∙ Si le degré de la fonction d'approximation est m=3, alors on approxime la fonction de table avec une parabole cubique (approximation cubique).

Dans le cas général, lorsqu'il est nécessaire de construire un polynôme approximatif de degré m pour des valeurs de tableau données, la condition du minimum de la somme des écarts carrés sur tous les points nodaux est réécrite sous la forme suivante :

- coefficients inconnus du polynôme d'approximation de degré m ;

Le nombre de valeurs de table spécifiées.

Une condition nécessaire à l'existence d'un minimum d'une fonction est l'égalité à zéro de ses dérivées partielles par rapport aux variables inconnues . En conséquence nous obtenons le système suivantéquations :

Transformons le système d'équations linéaire résultant : ouvrez les parenthèses et déplacez les termes libres vers la droite de l'expression. En conséquence, le système résultant d’expressions algébriques linéaires s’écrira sous la forme suivante :

Ce système d'expressions algébriques linéaires peut être réécrit sous forme matricielle :

En conséquence, un système d’équations linéaires de dimension m+1 a été obtenu, composé de m+1 inconnues. Ce système peut être résolu en utilisant n'importe quelle méthode de résolution d'équations algébriques linéaires (par exemple, la méthode gaussienne). À la suite de la solution, des paramètres inconnus de la fonction d'approximation seront trouvés qui fournissent la somme minimale des écarts carrés de la fonction d'approximation par rapport aux données d'origine, c'est-à-dire meilleure approximation quadratique possible. Il ne faut pas oublier que si même une valeur des données source change, tous les coefficients changeront de valeur, puisqu'ils sont entièrement déterminés par les données source.

Approximation des données sources par dépendance linéaire

(régression linéaire)

A titre d'exemple, considérons la technique de détermination de la fonction d'approximation, qui est spécifiée sous la forme d'une dépendance linéaire. Conformément à la méthode des moindres carrés, la condition du minimum de la somme des écarts au carré s'écrit sous la forme suivante :

Coordonnées des nœuds du tableau ;

Coefficients inconnus de la fonction d'approximation, spécifiée comme dépendance linéaire.

Une condition nécessaire à l'existence d'un minimum d'une fonction est l'égalité à zéro de ses dérivées partielles par rapport aux variables inconnues. En conséquence, nous obtenons le système d’équations suivant :

Transformons le système d'équations linéaire résultant.

Nous résolvons le système d'équations linéaires résultant. Les coefficients de la fonction d’approximation sous forme analytique sont déterminés comme suit (méthode de Cramer) :

Ces coefficients assurent la construction d'une fonction d'approximation linéaire conformément au critère de minimisation de la somme des carrés de la fonction d'approximation à partir des valeurs tabulaires données (données expérimentales).

Algorithme de mise en œuvre de la méthode des moindres carrés

1. Données initiales :

Un tableau de données expérimentales avec le nombre de mesures N est spécifié

Le degré du polynôme d'approximation (m) est spécifié

2. Algorithme de calcul :

2.1. Les coefficients pour construire un système d'équations dimensionnelles sont déterminés

Coefficients du système d'équations (côté gauche de l'équation)

- indice du numéro de colonne de la matrice carrée du système d'équations

Termes libres d'un système d'équations linéaires (côté droit de l'équation)

- indice du numéro de ligne de la matrice carrée du système d'équations

2.2. Formation d'un système d'équations linéaires de dimension .

2.3. Résoudre un système d'équations linéaires pour déterminer les coefficients inconnus d'un polynôme approximatif de degré m.

2.4. Détermination de la somme des écarts carrés du polynôme d'approximation par rapport aux valeurs d'origine à tous les points nodaux

La valeur trouvée de la somme des écarts au carré est le minimum possible.

Approximation à l'aide d'autres fonctions

Il convient de noter que lors de l'approximation des données originales conformément à la méthode des moindres carrés, la fonction logarithmique, la fonction exponentielle et la fonction puissance sont parfois utilisées comme fonction d'approximation.

approximation logarithmique

Considérons le cas où la fonction d'approximation est donnée par une fonction logarithmique de la forme :

Méthode des moindres carrés

Méthode des moindres carrés ( MCO, MCO, moindres carrés ordinaires) - l'une des méthodes de base d'analyse de régression pour estimer les paramètres inconnus des modèles de régression à l'aide d'échantillons de données. La méthode est basée sur la minimisation de la somme des carrés des résidus de régression.

Il convient de noter que la méthode des moindres carrés elle-même peut être appelée une méthode permettant de résoudre un problème dans n'importe quel domaine si la solution réside ou satisfait à un critère de minimisation de la somme des carrés de certaines fonctions des variables requises. Par conséquent, la méthode des moindres carrés peut également être utilisée pour une représentation approximative (approximation) d'une fonction donnée par d'autres fonctions (plus simples), lors de la recherche d'un ensemble de quantités qui satisfont des équations ou des contraintes, dont le nombre dépasse le nombre de ces quantités. , etc.

L’essence de la multinationale

Soit un modèle (paramétrique) d'une relation probabiliste (de régression) entre la variable (expliquée) oui et de nombreux facteurs (variables explicatives) x

où est le vecteur des paramètres de modèle inconnus

- erreur de modèle aléatoire.

Qu'il y ait également des exemples d'observations des valeurs de ces variables. Soit le numéro d'observation (). Viennent ensuite les valeurs des variables de la ème observation. Ensuite, pour des valeurs données des paramètres b, il est possible de calculer les valeurs théoriques (modèles) de la variable expliquée y :

La taille des résidus dépend des valeurs des paramètres b.

L'essence de la méthode des moindres carrés (ordinaire, classique) est de trouver de tels paramètres b pour lesquels la somme des carrés des résidus (eng. Somme résiduelle des carrés) sera minime :

Dans le cas général, ce problème peut être résolu par des méthodes d'optimisation (minimisation) numérique. Dans ce cas, ils parlent de moindres carrés non linéaires(NLS ou NLLS - anglais) Moindres carrés non linéaires). Dans de nombreux cas, il est possible d'obtenir une solution analytique. Pour résoudre le problème de minimisation, il faut trouver les points stationnaires de la fonction en la différenciant par rapport aux paramètres inconnus b, en assimilant les dérivées à zéro et en résolvant le système d'équations résultant :

Si les erreurs aléatoires du modèle sont normalement distribuées, ont la même variance et ne sont pas corrélées, les estimations des paramètres OLS sont identiques aux estimations du maximum de vraisemblance (MLM).

OLS dans le cas d'un modèle linéaire

Soit la dépendance de régression linéaire :

Laisser oui est un vecteur colonne d'observations de la variable expliquée, et est une matrice d'observations factorielles (les lignes de la matrice sont les vecteurs de valeurs de facteurs dans une observation donnée, les colonnes sont le vecteur de valeurs d'un facteur donné dans toutes les observations). La représentation matricielle du modèle linéaire est :

Alors le vecteur des estimations de la variable expliquée et le vecteur des résidus de régression seront égaux

En conséquence, la somme des carrés des résidus de régression sera égale à

En différenciant cette fonction par rapport au vecteur de paramètres et en assimilant les dérivées à zéro, on obtient un système d'équations (sous forme matricielle) :

.

La solution de ce système d'équations donne la formule générale des estimations des moindres carrés pour un modèle linéaire :

À des fins analytiques, cette dernière représentation de cette formule est utile. Si dans un modèle de régression les données centré, alors dans cette représentation la première matrice a la signification d'un échantillon de matrice de covariance de facteurs, et la seconde est un vecteur de covariances de facteurs avec la variable dépendante. Si en plus les données sont également normaliséà MSE (c'est-à-dire, en fin de compte standardisé), alors la première matrice a la signification d'une matrice de corrélation d'échantillons de facteurs, le deuxième vecteur - un vecteur de corrélations d'échantillons de facteurs avec la variable dépendante.

Une propriété importante des estimations MCO pour les modèles avec constante- la droite de régression construite passe par le centre de gravité des données de l'échantillon, c'est-à-dire que l'égalité est satisfaite :

En particulier, dans le cas extrême, lorsque le seul régresseur est une constante, on constate que l'estimation MCO du seul paramètre (la constante elle-même) est égale à la valeur moyenne de la variable expliquée. C'est-à-dire que la moyenne arithmétique, connue pour ses bonnes propriétés issues des lois des grands nombres, est également une estimation des moindres carrés - elle satisfait au critère de la somme minimale des écarts carrés par rapport à celle-ci.

Exemple : régression la plus simple (par paire)

Dans le cas de la régression linéaire appariée, les formules de calcul sont simplifiées (on peut se passer de l'algèbre matricielle) :

Propriétés des estimateurs OLS

Tout d’abord, nous notons que pour les modèles linéaires, les estimations MCO sont des estimations linéaires, comme le découle de la formule ci-dessus. Pour les estimations MCO non biaisées, il est nécessaire et suffisant de remplir la condition la plus importante de l’analyse de régression : l’espérance mathématique d’une erreur aléatoire, conditionnelle aux facteurs, doit être égale à zéro. Cette condition est notamment remplie si

  1. l'espérance mathématique des erreurs aléatoires est nulle, et
  2. les facteurs et les erreurs aléatoires sont des variables aléatoires indépendantes.

La deuxième condition – la condition d’exogénéité des facteurs – est fondamentale. Si cette propriété n'est pas remplie, alors nous pouvons supposer que presque toutes les estimations seront extrêmement insatisfaisantes : elles ne seront même pas cohérentes (c'est-à-dire que même une très grande quantité de données ne nous permet pas d'obtenir des estimations de haute qualité dans ce cas ). Dans le cas classique, une hypothèse plus forte est faite sur le déterminisme des facteurs, par opposition à une erreur aléatoire, ce qui signifie automatiquement que la condition d'exogénéité est remplie. Dans le cas général, pour la cohérence des estimations, il suffit de satisfaire la condition d'exogénéité ainsi que la convergence de la matrice vers une matrice non singulière à mesure que la taille de l'échantillon augmente jusqu'à l'infini.

Pour qu'en plus de la cohérence et de l'impartialité, les estimations des moindres carrés (ordinaires) soient également efficaces (les meilleures de la classe des estimations linéaires sans biais), des propriétés supplémentaires d'erreur aléatoire doivent être remplies :

Ces hypothèses peuvent être formulées pour la matrice de covariance du vecteur d'erreur aléatoire

Un modèle linéaire qui satisfait à ces conditions est appelé classique. Les estimations MCO pour la régression linéaire classique sont impartiales, cohérentes et constituent les estimations les plus efficaces de la classe de toutes les estimations linéaires non biaisées (dans la littérature anglaise, l'abréviation est parfois utilisée BLEU (Meilleur estimateur linéaire sans évaluation) - la meilleure estimation linéaire sans biais ; dans la littérature russe, le théorème de Gauss-Markov est plus souvent cité). Comme il est facile de le montrer, la matrice de covariance du vecteur d'estimations de coefficients sera égale à :

MCO généralisé

La méthode des moindres carrés permet une large généralisation. Au lieu de minimiser la somme des carrés des résidus, on peut minimiser une forme quadratique définie positive du vecteur des résidus, où est une matrice de poids défini positif symétrique. Les moindres carrés conventionnels sont un cas particulier de cette approche, où la matrice de poids est proportionnelle à la matrice d'identité. Comme le montre la théorie des matrices symétriques (ou opérateurs), pour de telles matrices, il existe une décomposition. Par conséquent, la fonctionnelle spécifiée peut être représentée comme suit, c'est-à-dire que cette fonctionnelle peut être représentée comme la somme des carrés de certains « restes » transformés. Ainsi, on peut distinguer une classe de méthodes des moindres carrés - les méthodes LS (Least Squares).

Il a été prouvé (théorème d'Aitken) que pour un modèle de régression linéaire généralisée (dans lequel aucune restriction n'est imposée sur la matrice de covariance des erreurs aléatoires), les plus efficaces (dans la classe des estimations linéaires non biaisées) sont les soi-disant estimations. Moindres carrés généralisés (GLS - Moindres carrés généralisés)- Méthode LS avec une matrice de poids égale à la matrice de covariance inverse des erreurs aléatoires : .

On peut montrer que la formule pour les estimations GLS des paramètres d'un modèle linéaire a la forme

La matrice de covariance de ces estimations sera donc égale à

En fait, l’essence de l’OLS réside dans une certaine transformation (linéaire) (P) des données originales et dans l’application de l’OLS ordinaire aux données transformées. Le but de cette transformation est que pour les données transformées, les erreurs aléatoires satisfont déjà aux hypothèses classiques.

MCO pondéré

Dans le cas d'une matrice de poids diagonale (et donc d'une matrice de covariance d'erreurs aléatoires), nous avons ce que l'on appelle les moindres carrés pondérés (WLS). Dans ce cas, la somme des carrés pondérée des résidus du modèle est minimisée, c'est-à-dire que chaque observation reçoit un « poids » inversement proportionnel à la variance de l'erreur aléatoire dans cette observation : . En fait, les données sont transformées en pondérant les observations (en divisant par un montant proportionnel à l'écart type estimé des erreurs aléatoires), et une MCO ordinaire est appliquée aux données pondérées.

Quelques cas particuliers d'utilisation de MNC en pratique

Approximation de la dépendance linéaire

Considérons le cas où, à la suite de l'étude de la dépendance d'une certaine quantité scalaire sur une certaine quantité scalaire (cela pourrait être, par exemple, la dépendance de la tension sur l'intensité du courant : , où est une valeur constante, la résistance de le conducteur), des mesures de ces grandeurs ont été effectuées, à la suite desquelles les valeurs et leurs valeurs correspondantes. Les données de mesure doivent être enregistrées dans un tableau.

Tableau. Résultats de mesure.

Numéro de mesure.
1
2
3
4
5
6

La question est : quelle valeur du coefficient peut-on choisir pour décrire au mieux la dépendance ? Selon la méthode des moindres carrés, cette valeur doit être telle que la somme des carrés des écarts des valeurs par rapport aux valeurs

était minime

La somme des écarts au carré a un extremum - un minimum, ce qui nous permet d'utiliser cette formule. Retrouvons à partir de cette formule la valeur du coefficient. Pour ce faire, on transforme son côté gauche comme suit :

La dernière formule nous permet de trouver la valeur du coefficient, ce qui était requis dans le problème.

Histoire

Jusqu'au début du 19ème siècle. les scientifiques n'avaient pas certaines règles pour résoudre un système d'équations dans lequel le nombre d'inconnues est inférieur au nombre d'équations ; Jusqu'à cette époque, on utilisait des techniques privées qui dépendaient du type d'équations et de l'esprit des calculateurs, et donc différents calculateurs, basés sur les mêmes données d'observation, arrivaient à des conclusions différentes. Gauss (1795) fut le premier à utiliser la méthode, et Legendre (1805) la découvrit et la publia indépendamment sous son nom moderne (français. Méthode des moindres carrés ) . Laplace a lié la méthode à la théorie des probabilités, et le mathématicien américain Adrain (1808) a examiné ses applications en théorie des probabilités. La méthode a été largement répandue et améliorée grâce à des recherches ultérieures menées par Encke, Bessel, Hansen et d'autres.

Utilisations alternatives de l'OLS

L'idée de la méthode des moindres carrés peut également être utilisée dans d'autres cas non directement liés à l'analyse de régression. Le fait est que la somme des carrés est l’une des mesures de proximité les plus courantes pour les vecteurs (métrique euclidienne dans les espaces de dimension finie).

Une application est la « solution » de systèmes d’équations linéaires dans lesquels le nombre d’équations est supérieur au nombre de variables.

où la matrice n'est pas carrée, mais rectangulaire de taille .

Un tel système d’équations, dans le cas général, n’a pas de solution (si le rang est effectivement supérieur au nombre de variables). Par conséquent, ce système ne peut être « résolu » que dans le sens de choisir un tel vecteur pour minimiser la « distance » entre les vecteurs et . Pour ce faire, vous pouvez appliquer le critère de minimisation de la somme des carrés des différences entre les côtés gauche et droit des équations système, c'est-à-dire. Il est facile de montrer que la résolution de ce problème de minimisation conduit à résoudre le système d’équations suivant



Avez-vous aimé l'article? Partagez avec vos amis !