Régression parabolique et polynomiale. Régression parabolique L'équation de la fonction de régression parabolique reflète la dynamique du développement

Un autre type de régression à un facteur est l'approximation par des polynômes puissances de la forme :

Il est naturel de vouloir obtenir la dépendance la plus simple possible, en se limitant aux polynômes puissances du deuxième degré, c'est-à-dire dépendance parabolique :
(5.5.2)

Calculons les dérivées partielles par rapport aux coefficients b 0 , b 1 Et b 2 :



(5.5.3)

En assimilant les dérivées à zéro, nous obtenons un système d'équations normal :

(5.5.4)

Résolution du système d'équations normales (5.5.2) pour un cas spécifique de valeurs x je * , oui je * ;
nous obtenons valeurs optimales b 0 , b 1 Et b 2 . Pour l'approximation par dépendance (5.5.2) et surtout (5.5.1), des formules simples de calcul des coefficients n'ont pas été obtenues et, en règle générale, elles sont calculées selon des procédures standards sous forme matricielle :

(5.5.5)

La figure 5.5.1 montre un exemple typique d’approximation par dépendance parabolique :

9 (5;9)

(1;1)

1

1 2 3 4 5x

Figure 5.5.1. Coordonnées des points expérimentaux et approximées

leur dépendance parabolique

Exemple 5.1. Approcher les résultats expérimentaux donnés dans le tableau 5.1.1 avec une équation de régression linéaire
.

Tableau 5.1.1

Construisons des points expérimentaux selon les coordonnées indiquées dans le tableau 5.1.1 sur le graphique présenté sur la Fig. 5.1.1.

à

9

4

1 2 3 4 5 fois

D'après la Fig. 5.1.1, sur laquelle nous tracerons une droite pour une évaluation préliminaire, nous conclurons qu'il existe une non-linéarité clairement exprimée dans la localisation des points expérimentaux, mais elle n'est pas très significative et donc cela a du sens pour les approximer avec une dépendance linéaire. Notez que pour obtenir une conclusion mathématique correcte, il est nécessaire de construire une droite en utilisant la méthode des moindres carrés.

Avant d'effectuer une analyse de régression, il est conseillé de calculer

coefficient de corrélation linéaire entre les variables X Et à:

L'importance de la relation de corrélation est déterminée par la valeur critique du coefficient de corrélation linéaire, calculée à l'aide de la formule :

Valeur critique du test de Student t Crète trouvé selon les tableaux statistiques pour le niveau de signification recommandé α=0,05 et pour n-2 degrés de liberté. Si la valeur calculée r xy pas moins que la valeur critique r Crète, alors la corrélation entre les variables x Et oui considéré comme essentiel. Faisons les calculs :










Du fait que
nous concluons que la corrélation entre les variables X Et à est significatif et il peut être linéaire.

Calculons les coefficients de l'équation de régression :

Ainsi, nous avons obtenu une équation de régression linéaire :

À l'aide de l'équation de régression, nous traçons une ligne droite sur la figure 5.1.2.

oui (5 ; 9,8)

9

4

(0;-0.2) 1 2 3 4 5x

Figure 5.1.2. Coordonnées des points expérimentaux et approximées

leur dépendance linéaire

À l'aide de l'équation de régression, nous calculons les valeurs de la fonction en fonction des points expérimentaux du tableau 5.1.1 et de la différence entre les valeurs expérimentales et calculées de la fonction, que nous présentons dans le tableau 5.1.2.

Tableau 5.1.2


Calculons l'erreur quadratique moyenne et son rapport à la valeur moyenne :

En termes de rapport entre l'erreur standard et la valeur moyenne, un résultat insatisfaisant a été obtenu, car la valeur recommandée de 0,05 a été dépassée.

Évaluons le niveau de signification des coefficients de l'équation de régression à l'aide du test t de Student :


Du tableau statistique pour 3 degrés de liberté, notons les lignes avec le niveau de signification - et la valeur du critère de Student t au tableau 5.1.3.

Tableau 5.1.3

Niveau de signification des coefficients de l’équation de régression :


Notez que selon le niveau de signification du coefficient un résultat satisfaisant a été obtenu, et pour le coefficient insatisfaisant.

Évaluons la qualité de l'équation de régression résultante à l'aide d'indicateurs calculés sur la base d'une analyse de variance :

Examen:

Le résultat du contrôle est positif, ce qui indique l'exactitude des calculs effectués.

Calculons le critère de Fisher :

avec deux degrés de liberté :

À l'aide de tableaux statistiques, nous trouvons les valeurs critiques du critère de Fisher pour deux gradations recommandées du niveau de signification :


Puisque la valeur calculée du test de Fisher dépasse la valeur critique pour le niveau de signification de 0,01, nous supposerons que le niveau de signification selon le test de Fisher est inférieur à 0,01, ce qui sera considéré comme satisfaisant.

Calculons le coefficient de détermination multiple :

pour deux degrés de liberté

A l'aide du tableau statistique du niveau de signification recommandé de 0,05 et des deux degrés de liberté trouvés, on retrouve la valeur critique du coefficient de détermination multiple :

Étant donné que la valeur calculée du coefficient de détermination multiple dépasse la valeur critique pour le niveau de signification
, puis le niveau de signification selon le coefficient de détermination multiple
et le résultat obtenu pour l'indicateur soumis sera considéré comme satisfaisant.

Ainsi, les paramètres calculés obtenus en termes de rapport entre l'erreur standard et la valeur moyenne et le niveau de signification selon le test de Student ne sont pas satisfaisants, il est donc conseillé de sélectionner une autre dépendance d'approximation pour l'approximation.

Exemple 5.2. Approximation de la distribution expérimentale de nombres aléatoires par une dépendance mathématique

La distribution expérimentale de nombres aléatoires donnée dans le tableau 5.1.1, lorsqu'elle est approchée par une dépendance linéaire, n'a pas conduit à un résultat satisfaisant, incl. en raison de l'insignifiance du coefficient de l'équation de régression à terme libre, donc, pour améliorer la qualité de l'approximation, nous essaierons de la réaliser en utilisant une dépendance linéaire sans terme libre :

Calculons la valeur du coefficient de l'équation de régression :

Ainsi, nous avons obtenu l'équation de régression :

A l'aide de l'équation de régression obtenue, nous calculons les valeurs de la fonction et la différence entre les valeurs expérimentales et calculées de la fonction, que nous présentons sous la forme du tableau 5.2.1.

Tableau 5.2.1

x je

D'après l'équation de régression
sur la figure 5.2.1, nous tracerons une ligne droite.

oui (5;9.73 )

(0;0) 1 2 3 4 5x

Figure 5.2.1. Coordonnées des points expérimentaux et approximées

leur dépendance linéaire

Pour évaluer la qualité de l'approximation, nous effectuerons des calculs d'indicateurs de qualité similaires aux calculs donnés dans l'exemple 5.1.

(reste ancien) ;

avec 4 degrés de liberté ;

Pour

Sur la base des résultats de l'approximation, on constate qu'en termes de niveau de significativité du coefficient de l'équation de régression, un résultat satisfaisant a été obtenu ; Le rapport entre l'erreur standard et la moyenne s'est amélioré, mais reste toujours supérieur à la valeur recommandée de 0,05, il est donc recommandé de répéter l'approximation avec une relation mathématique plus complexe.

Exemple 5.3. Pour améliorer la qualité de l'approximation des exemples 5.1 et 5.2, nous réaliserons une approximation non linéaire par la dépendance
. Pour ce faire, nous allons d'abord effectuer des calculs intermédiaires et placer leurs résultats dans le tableau 5.3.1.

Valeurs

Tableau 5.3.1

X 2

(lnX) 2

lnX lnY

Calculons en plus :

Approchons la dépendance
. A l'aide des formules (5.3.7), (5.3.8) on calcule les coefficients b 0 Et b 1 :

A l'aide des formules (5.3.11) on calcule les coefficients UN 0 Et UN 1 :


Pour calculer l'erreur type, des calculs intermédiaires ont été effectués, présentés dans le tableau 5.3.2.

Tableau 5.3.2

Oui je

oui je

Montant : 7,5968

L’erreur type d’approximation s’est avérée beaucoup plus grande que dans les deux exemples précédents, nous considérons donc les résultats d’approximation comme inutilisables.

Exemple 5.4. Essayons de nous rapprocher d'une autre dépendance non linéaire
. A l'aide des formules (5.3.9), (5.3.10) selon le tableau 5.3.1, on calcule les coefficients b 0 Et b 1 :

Nous avons une dépendance intermédiaire :

A l'aide des formules (5.3.13) on calcule les coefficients C 0 Et C 1 :


Nous avons la dépendance finale :

Pour calculer l'erreur type, nous effectuerons des calculs intermédiaires et les placerons dans le tableau 5.4.1.

Tableau 5.4.1

Oui je

oui je

Montant : 21.83152

Calculons l'erreur standard :

L'erreur type d'approximation s'est avérée beaucoup plus grande que dans l'exemple précédent, nous considérons donc les résultats d'approximation comme inutilisables.

Exemple 5.5. Approximation de la distribution expérimentale de nombres aléatoires par une dépendance mathématique oui = b · lnx

Les données initiales, comme dans les exemples précédents, sont présentées dans le tableau 5.4.1 et la figure 5.4.1.

Tableau 5.4.1

Sur la base de l'analyse de la Fig. 5.4.1 et du Tableau 5.4.1, nous notons qu'avec des valeurs d'argument plus petites (au début du tableau), la fonction change plus qu'avec des valeurs plus grandes (à la fin du tableau), il semble donc conseillé de changer l'échelle de l'argument et d'introduire une fonction logarithmique dans l'équation de régression à partir de celui-ci et de se rapprocher avec la dépendance mathématique suivante :

. À l'aide de la formule (5.4.3), nous calculons le coefficient b:

Pour évaluer la qualité de l'approximation, nous effectuerons des calculs intermédiaires présentés dans le tableau 5.4.2, à partir desquels nous calculerons l'ampleur de l'erreur et le rapport de l'erreur type à la valeur moyenne.

Tableau 5.4.2


Étant donné que le rapport entre l’erreur type et la valeur moyenne dépasse la valeur recommandée de 0,05, le résultat sera considéré comme insatisfaisant. En particulier, on remarque que le plus grand écart est donné par la valeur x=1, puisqu'avec cette valeur lnx=0. Nous allons donc approximer la dépendance oui = b 0 +b 1 lnx

Nous présentons les calculs auxiliaires sous la forme du tableau 5.4.3.

Tableau 5.4.3

A l'aide des formules (5.4.6) et (5.4.7) on calcule les coefficients b 0 et b 1 :

9 (5;9.12)

4

1 (1;0.93)

1 2 3 4 5x

Pour évaluer la qualité de l'approximation, nous effectuerons des calculs auxiliaires et déterminerons le niveau de signification des coefficients trouvés et le rapport de l'erreur standard à la valeur moyenne.

Niveau de signification légèrement au-dessus de la valeur recommandée de 0,05 (
).


Étant donné que, selon l'indicateur principal - le rapport de l'erreur type à la valeur moyenne - un excès presque deux fois supérieur au niveau recommandé de 0,05 a été obtenu, nous considérerons les résultats comme acceptables. Notez que la valeur calculée du test de Student t b 0 =2,922 différent de critique
d'un montant relativement faible.

Exemple 5.6. Approchons les données expérimentales de l'exemple 5.1 par la dépendance hyperbolique
. Pour calculer les coefficients b 0 et b 1 Effectuons les calculs préliminaires donnés dans le tableau 5.6.1.

Tableau 5.6.1

X je

x je =1/X je

x je 2

x je oui je

Sur la base des résultats du tableau 5.6.1 à l'aide des formules (5.4.8) et (5.4.9), nous calculons les coefficients b 0 et b 1 :

Ainsi, une équation de régression hyperbolique est obtenue

.

Les résultats des calculs auxiliaires pour évaluer la qualité de l'approximation sont donnés dans le tableau 5.6.2.

Tableau 5.6.2

X je

Sur la base des résultats du tableau 5.6.2, nous calculons l'erreur type et le rapport de l'erreur type à la valeur moyenne :


Étant donné que le rapport entre l’erreur type et la valeur moyenne dépasse la valeur recommandée de 0,05, nous concluons que les résultats de l’approximation ne conviennent pas.

Exemple 5.7.

Pour calculer des valeurs spécifiques de revenus provenant de l'exploitation des grues à flèche en fonction du temps des travaux de maintenance, il est nécessaire d'obtenir une dépendance parabolique.

Calculons les coefficients de cette dépendance b 0 , b 1 , b 11 sous forme matricielle selon la formule :

Des équations de régression non linéaire reliant l'indicateur effectif aux valeurs optimales pour effectuer la maintenance préventive des grues à tour ont été obtenues à l'aide de la procédure de régression multiple du progiciel Statistica 6.0. Nous présentons ensuite les résultats de l’analyse de régression pour l’indicateur de performance efficace dans le tableau 5.7.1.

Tableau 5.7.1

Le tableau 5.7.2 montre les résultats de la régression non linéaire pour l'indicateur de performance efficace et le tableau 5.7.3 montre les résultats de l'analyse des résidus.

Tableau 5.7.2

Tableau 5.7.3

Riz. 3.7.36. Analyse des résidus.

Ainsi, nous avons obtenu une équation de régression multiple pour la variable
:

Rapport de l'erreur standard à la moyenne :

14780/1017890=0,0145 < 0,05.

Étant donné que le rapport entre l'erreur type et la valeur moyenne ne dépasse pas la valeur recommandée de 0,05, les résultats de l'approximation peuvent être considérés comme acceptables. Comme inconvénient, selon le tableau 5.7.2, il convient de noter que tous les coefficients calculés dépassent le niveau de signification recommandé de 0,05.

Travaux de laboratoire

Prévisions des processus économiques
en utilisant un tableur Excel.

Exigences relatives au contenu, à la conception et à l'ordre d'exécution

Pour effectuer des travaux de laboratoire, vous devez créer un nouveau classeur Excel sous le nom « Votre nom, Travail de laboratoire n° 1, Option n°_ » (par exemple : « Ivanov I.P. Travail de laboratoire n° 1 » Option n° 4).

Avant d'effectuer des travaux de laboratoire, étudiez la partie théorique et les méthodes de réalisation des tâches.

Les devoirs doivent être terminés et complétés selon votre choix . Les feuilles de calcul du classeur doivent être nommées Task1, Task2. Saisissez les résultats des tâches dans un fichier de rapport.

Les options pour les travaux de laboratoire sont réparties selon le numéro n° dans la liste des groupes, voir tableau

Var. Var. Var. Var. Var. Var. Var.

Après avoir terminé le laboratoire, répondez aux questions du quiz. Placez les réponses aux questions de sécurité dans le fichier de rapport. Vous devez fournir votre cahier d'exercices accompagné du dossier de rapport à l'enseignant sur disquette en le signant « Rapport sur les travaux de laboratoire n°2 de l'élève I.P. Ivanov, gr. 170404".

Partie théorique

Prévision est une méthode de recherche scientifique qui vise à fournir des options possibles pour les processus et phénomènes choisis comme sujet d'analyse.

Tâches prévisions économiques sont : anticiper la répartition possible des ressources dans divers domaines ; déterminer les limites inférieure et supérieure des résultats obtenus ; évaluation de la quantité maximale possible de ressources nécessaires pour résoudre des problèmes économiques, scientifiques et techniques, etc.

Selon la période pour laquelle la prévision est réalisée (délai de réalisation), les prévisions peuvent être :



· à court terme ;

· moyen terme ;

· à long terme ;

· à long terme.

La gradation temporelle des prévisions est relative et dépend de la nature et de l'objet de la prévision.

Pour effectuer prévisions à court terme La méthode la plus couramment utilisée est l’extrapolation.

Méthode d'extrapolation consiste à trouver des valeurs qui se situent en dehors des limites d'une série statistique donnée : à partir des valeurs connues de la série statistique, d'autres valeurs qui se situent en dehors de cette série sont trouvées.

Lors de l'extrapolation, les conclusions tirées de l'étude des tendances de l'évolution d'un phénomène dans le passé et le présent sont transférées au futur, c'est-à-dire L'extrapolation repose sur l'hypothèse d'une certaine stabilité des caractéristiques des facteurs influençant l'évolution de ce phénomène.


Figure 1. Désignations de base de la méthode d'extrapolation.

Lors de l'extrapolation (voir Fig. 1.), la terminologie suivante est utilisée :

t 1 – profondeur de la rétrospection ;

t 2 – moment de la prédiction ;

t 3 – horizon de prévision ;

t 2 – t 1 – intervalle d'observation (période de temps sur la base de laquelle l'historique du développement de l'objet de prévision est étudié) ;

t 3 – t 2 – intervalle de avance (période de temps pour laquelle la prévision est élaborée).

Plus les processus et tendances prévus sont stables, plus l’horizon de prévision peut être repoussé. Comme le montre la pratique, l'intervalle d'observation doit être trois fois ou plus plus long que l'intervalle de plomb. En règle générale, cette période est assez courte. La méthode d'extrapolation ne fonctionne pas pour les processus discontinus.

La méthode d'extrapolation est facilement mise en œuvre sur un ordinateur personnel. L'utilisation de tableurs modernes tels que MS Excel vous permet de prévoir rapidement les processus économiques à l'aide de la méthode d'extrapolation.

Pour augmenter la précision de la prévision, il est nécessaire de prendre en compte la dépendance de la valeur prédite Y à l'égard de facteurs externes X. L'ensemble de valeurs étudiées est, en règle générale, soumis à l'influence de facteurs aléatoires. À cet égard, la dépendance de la valeur prédite Y à l'égard de facteurs externes X est le plus souvent statistique ou corrélationnelle.

Statistique s'appelle une dépendance de variables aléatoires dans laquelle chaque valeur de l'une d'elles correspond à la loi de distribution de l'autre, c'est-à-dire qu'un changement dans l'une des variables entraîne un changement dans la distribution de l'autre.

Corrélation est appelée dépendance statistique de variables aléatoires, dans laquelle une modification de l'une des quantités entraîne une modification de la valeur moyenne de l'autre.

Une mesure de la dépendance de corrélation de deux variables aléatoires X et Y est le coefficient de corrélation r, qui est une quantité sans dimension, et ne dépend donc pas du choix des unités de mesure des quantités étudiées.

Propriétés du coefficient de corrélation :

1) Si deux variables aléatoires X et Y sont indépendantes, alors leur coefficient de corrélation est nul, c'est-à-dire r=0.

2) Le module du coefficient de corrélation ne dépasse pas l'unité, c'est-à-dire |r|£1, ce qui équivaut à la double inégalité : -1£r£1.

3) L'égalité du coefficient -1 ou +1 indique la présence d'une connexion fonctionnelle (directe). Le signe « + » indique une relation directe (une augmentation ou une diminution d'un attribut s'accompagne d'un changement similaire dans un autre attribut), le signe « - » indique une relation inverse (une augmentation ou une diminution d'un attribut s'accompagne d'un changement dans l'autre attribut dans le sens opposé).

Après avoir déterminé les caractéristiques factorielles les plus significatives influençant la valeur prédite, il est tout aussi important d'établir leur description mathématique (équation), qui permet d'évaluer numériquement l'indicateur effectif à travers les caractéristiques factorielles.

Une équation exprimant l'évolution de la valeur moyenne d'un indicateur de performance en fonction des valeurs des caractéristiques factorielles est appelée équation de régression.

Les lignes sur le plan de coordonnées correspondant aux équations de régression sont appelées droites de régression .

Les dépendances de corrélation peuvent être exprimées par des équations de régression de différents types : linéaire, parabolique, hyperbolique, exponentielle, etc.

Régression linéaire

Équation de régression linéaire(sélectif) Oui sur X s'appelle la dépendance aux valeurs observées de la quantité X, exprimé par une fonction linéaire :

où est la valeur r appelé coefficient de régression linéaire Y sur X, b- constante.

L'approximation linéaire décrit bien le changement de quantités qui se produit à un rythme constant.

Si le coefficient de corrélation de deux quantités X Et Oui est égal r= ±1, alors ces quantités sont liées par une relation linéaire. Le coefficient de corrélation sert de mesure de la force (proximité) de la dépendance linéaire des grandeurs mesurées. En pratique, si le coefficient de corrélation de deux quantités X Et O |r|>0,5, alors ils pensent qu'il y a des raisons de supposer la présence d'une relation linéaire entre ces quantités. Cependant, il vaut mieux s'orienter lors du choix du type de droite de régression (linéaire ou non linéaire) par le type de dépendance empirique des quantités X Et Oui.

Régression parabolique et polynomiale.

Parabolique dépendance de la valeur Oui de la taille X s'appelle une dépendance exprimée par une fonction quadratique (parabole du 2ème ordre) :

. (2)

Cette équation s'appelle équation de régression parabolique Y sur X. Possibilités UN, b, Avec sont appelés coefficients de régression parabolique. Le calcul des coefficients de régression parabolique est toujours fastidieux, il est donc recommandé d'utiliser un ordinateur pour les calculs.

L'équation (2) de régression parabolique est un cas particulier d'une régression plus générale appelée régression polynomiale. Polynôme dépendance de la valeur Oui de la taille X s'appelle une dépendance exprimée par un polynôme n-ème ordre :

où sont les chiffres et moi (je=0,1,…, n) sont appelés coefficients de régression polynomiale.

L'approximation polynomiale est utilisée pour décrire des quantités qui augmentent et diminuent alternativement. C’est utile, par exemple, pour analyser un grand ensemble de données sur une quantité instable.

Régression de puissance.

Pouvoir dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

Cette équation s'appelle équation de régression de puissance Y sur X. Possibilités UN Et b sont appelés coefficients de régression de puissance.

L'approximation de la loi de puissance est utile pour décrire une quantité monotone croissante ou monotone décroissante, telle que la distance parcourue par une voiture en accélération. L'approximation de la loi de puissance ne peut pas être utilisée si les données contiennent des valeurs nulles ou négatives.

Régression exponentielle.

Indicatif(ou exponentiel) dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

Cette équation s'appelle équation exponentielle(ou exponentiel) régression Y sur X. Possibilités UN(ou k) Et b sont appelés coefficients exponentiels(ou exponentiel) régression.

L'approximation exponentielle est utile lorsque le taux de changement des données augmente continuellement. Cependant, pour les données contenant des valeurs nulles ou négatives, ce type d'approximation n'est pas applicable.

Régression logarithmique.

Logarithmique dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

(6)

Cette équation s'appelle équation de régression logarithmique Y sur X. Possibilités UN Et b sont appelés coefficients de régression logarithmique.

L'approximation logarithmique est utile pour décrire une quantité qui augmente ou diminue initialement rapidement puis se stabilise progressivement. L'approximation logarithmique utilise à la fois des quantités négatives et positives.

Régression hyperbolique.

Hyperbolique dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

Cette équation s'appelle équation de régression hyperbolique Y sur X. Possibilités UN Et b sont appelés coefficients de régression hyperbolique.

La qualité de la construction des équations de régression est caractérisée par l'erreur moyenne d'approximation ou erreur relative de prévision :

(8)

où Y e est la valeur empirique de l'indicateur prédit ; Y – valeur calculée de l’indicateur prédit.

La réalisation d'une analyse de régression peut être divisée en trois étapes : choisir la forme de la relation (type d'équation) sur la base de données statistiques, calculer les coefficients de l'équation sélectionnée, évaluer la fiabilité de l'équation sélectionnée.

L’utilisation d’un tableur facilite l’exécution de toutes les étapes de l’analyse de régression.

Régression linéaire

Une équation de régression linéaire est une équation d'une ligne droite qui se rapproche (décrit approximativement) la relation entre les variables aléatoires X et Y.

Considérons une variable aléatoire bidimensionnelle (X, Y), où sont des variables aléatoires dépendantes. Imaginons l'une des quantités en fonction de l'autre. Limitons-nous à une représentation approximative de la grandeur sous la forme d'une fonction linéaire de la grandeur X :

où sont les paramètres à déterminer. Cela peut se faire de différentes manières : la plus courante d'entre elles est la méthode des moindres carrés. La fonction g(x) est appelée la régression quadratique moyenne de Y sur X. La fonction g(x) est appelée la régression quadratique moyenne de Y sur X.

où F est l’écart carré total.

Sélectionnons a et b pour que la somme des carrés des écarts soit minimale. Afin de trouver les coefficients a et b auxquels F atteint sa valeur minimale, nous assimilons les dérivées partielles à zéro :

Trouvez a et b. Après avoir effectué des transformations élémentaires, nous obtenons un système de deux équations linéaires pour a et b :

où est la taille de l’échantillon.

Dans notre cas, A = 3888 ; B = 549 ; C=8224; D = 1182;N = 100.

Trouvons a et b à partir de cette ligne linéaire. On obtient un point stationnaire pour où 1,9884 ; 0,8981.

L’équation prendra donc la forme :

y = 1,9884x + 0,8981


Riz. 10

Régression parabolique

À l’aide de données d’observation, trouvons un exemple d’équation pour la ligne courbe de régression quadratique moyenne (parabolique dans notre cas). Utilisons la méthode des moindres carrés pour déterminer p, q, r.

Limitons-nous à représenter la valeur Y sous la forme d'une fonction parabolique de la valeur X :

où p, q et r sont des paramètres à déterminer. Cela peut être fait en utilisant la méthode des moindres carrés.

Sélectionnons les paramètres p, q et r pour que la somme des carrés des écarts soit minimale. Chaque écart dépendant des paramètres recherchés, la somme des carrés des écarts est fonction F de ces paramètres :

Pour trouver le minimum, nous assimilons les dérivées partielles correspondantes à zéro :

Trouvez p, q et r. Après avoir effectué des transformations élémentaires, nous obtenons un système de trois équations linéaires pour p, q et r :

En résolvant ce système par la méthode matricielle inverse, on obtient : p = -0,0085 ; q = 2,0761 ;

Par conséquent, l’équation de régression parabolique prendra la forme :

y = -0,0085x2 + 2,0761x + 0,7462

Construisons un graphique de régression parabolique. Pour faciliter l'observation, le graphique de régression sera placé sur l'arrière-plan du nuage de points (voir Figure 13).


Riz. 13

Traçons maintenant les lignes de régression linéaire et de régression parabolique sur un diagramme pour une comparaison visuelle (voir Figure 14).


Riz. 14

La régression linéaire est représentée en rouge et la régression parabolique est représentée en bleu. Le diagramme montre que la différence dans ce cas est plus grande que lorsque l’on compare deux droites de régression linéaire. Des recherches plus approfondies sont nécessaires pour déterminer quelle régression exprime le mieux la relation entre x et y, c'est-à-dire quel type de relation entre x et y.

Dans certains cas, des données empiriques d'une population statistique, représentées visuellement à l'aide d'un diagramme de coordonnées, montrent qu'une augmentation d'un facteur s'accompagne d'une croissance plus rapide du résultat. Pour décrire théoriquement ce type de corrélation entre caractéristiques, nous pouvons prendre l’équation de régression parabolique du second ordre :

où , est un paramètre montrant la valeur moyenne de la caractéristique résultante dans des conditions d'isolement complet de l'influence du facteur (x=0) ; – coefficient de proportionnalité de l'évolution du résultat, sous réserve d'une augmentation absolue de la caractéristique factorielle pour chacune de ses unités ; c est le coefficient d'accélération (décélération) de croissance de la caractéristique effective pour chaque unité du facteur.

En utilisant la méthode des moindres carrés comme base de calcul des paramètres , , c et en prenant conditionnellement la valeur médiane de la série classée comme valeur initiale, nous aurons Σх = 0, Σх 3 =0. Dans ce cas, le système d'équations sous une forme simplifiée sera :

À partir de ces équations, nous pouvons trouver les paramètres , , с, qui, sous forme générale, peuvent s'écrire comme suit :

(11.20)

(11.22)

Cela montre que pour déterminer les paramètres , , c il faut calculer les valeurs suivantes : Σ y, Σ xy, Σ x 2, Σ x 2 y, Σ x 4. À cette fin, vous pouvez utiliser la disposition du tableau. 11.9.

Disons qu'il existe des données sur la part des cultures de pommes de terre dans la structure de toutes les superficies ensemencées et sur le rendement (récolte brute) de la culture dans 30 organisations agricoles. Il est nécessaire de créer et de résoudre une équation pour la corrélation entre ces indicateurs.

Tableau 11.9. Calcul des indicateurs auxiliaires pour l'équation

Régression parabolique

Numéro d'article. X à xy x2 x 2 ans x4
x1 à 1 x 1 et 1
x2 à 2 heures x 2 et 2
n xn o n x n y n
Σ Σх Σу Σxy Σх 2 Σx 2 ans Σx 4

Une représentation graphique du champ de corrélation a montré que les indicateurs étudiés sont empiriquement liés les uns aux autres par une ligne se rapprochant d'une parabole du second ordre. Par conséquent, nous calculerons les paramètres nécessaires , , s dans le cadre de l'équation de régression parabolique souhaitée en utilisant la disposition du tableau. 11.10.

Tableau 11.10. Calcul des données auxiliaires pour l'équation

Régression parabolique

Numéro d'article. X, % oui, mille tonnes xy x2 x 2 ans x4
1,0 5,0 5,0 1,0 5,0 1,0
1,5 7,0 10,5 2,3 15,8 5,0
n 8,0 20,0 160,0 64,0
Σ

Remplaçons les valeurs spécifiques Σ y = 495, Σ xy = 600, Σ x 2 = 750, Σ x 2 y = 12375, Σ x 4 = 18750, disponibles dans le tableau. 11.10, en formules (11.20), (11.21), (11.22). Nous obtenons

Ainsi, l'équation de régression parabolique exprimant l'influence de la part des cultures de pomme de terre dans la structure des superficies ensemencées sur le rendement (rendement brut) de la culture dans les organisations agricoles a la forme suivante :

(11.23)

L'équation 11.23 montre que, dans les conditions d'un échantillon de population donné, le rendement moyen (rendement brut) des pommes de terre (10 000 c) peut être obtenu sans l'influence du facteur étudié - augmentant la proportion de cultures dans la structure des semis domaines, c'est-à-dire dans ces conditions, lorsque les fluctuations de la densité spécifique des cultures n'affecteront pas la taille de la récolte de pommes de terre (x = 0). Le paramètre (coefficient de proportionnalité) b = 0,8 montre que chaque pourcentage d'augmentation de la proportion de cultures entraîne une augmentation du rendement de 0,8 mille tonnes en moyenne, et le paramètre c = 0,1 indique que d'un pour cent (au carré) l'augmentation du rendement est accéléré par une moyenne de 0,1 mille tonnes de pommes de terre.

La relation entre les variables X et Y peut être décrite de différentes manières. En particulier, toute forme de connexion peut être exprimée par une équation générale y= f(x), où y est considéré comme une variable dépendante, ou une fonction d'une autre variable indépendante x, appelée argument. La correspondance entre un argument et une fonction peut être spécifiée par un tableau, une formule, un graphique, etc. Un changement dans une fonction en fonction des changements dans un ou plusieurs arguments est appelé régression.

Terme "régression"(du latin regressio - mouvement vers l'arrière) a été introduit par F. Galton, qui a étudié l'héritage des traits quantitatifs. Il a découvert. que la progéniture de parents grands et petits revient (régresse) 1/3 vers le niveau moyen de ce trait dans une population donnée. Avec le développement de la science, ce terme a perdu son sens littéral et a commencé à être utilisé pour désigner la corrélation entre les variables Y et X.

Il existe de nombreuses formes et types différents de corrélations. La tâche du chercheur consiste à identifier dans chaque cas spécifique la forme de la connexion et à l'exprimer avec l'équation de corrélation appropriée, qui permet de prévoir les changements possibles dans une caractéristique Y en fonction des changements connus dans un autre X, qui est corrélé avec le premier. .

Équation d'une parabole du deuxième type

Parfois, les liens entre les variables Y et X peuvent être exprimés par la formule de la parabole

Où a,b,c sont des coefficients inconnus qui doivent être trouvés, étant donné les mesures connues de Y et X

Vous pouvez résoudre en utilisant la méthode matricielle, mais il existe déjà des formules calculées que nous utiliserons

N - nombre de termes de la série de régression

Y - valeurs de la variable Y

X - valeurs de la variable X

Si vous utilisez ce bot via un client XMPP, alors la syntaxe est la suivante

régresser la ligne X ; la ligne Y ;2

Où 2 - montre que la régression est calculée comme non linéaire sous la forme d'une parabole du second ordre

Eh bien, il est temps de vérifier nos calculs.

Il y a donc une table

X Oui
1 18.2
2 20.1
3 23.4
4 24.6
5 25.6
6 25.9
7 23.6
8 22.7
9 19.2


Avez-vous aimé l'article? Partagez avec vos amis !