Erreur d’approximation du critère. Estimation de la fiabilité statistique des résultats de la modélisation de régression à l'aide du test F de Fisher

5. À l'aide du test F, il a été établi que l'équation de régression appariée résultante dans son ensemble est statistiquement insignifiante et ne décrit pas de manière adéquate le phénomène étudié de la relation entre la valeur mensuelle de la pension y et le coût de la vie x.

6. Un modèle économétrique de régression linéaire multiple a été généré, reliant le montant du revenu net d'une entreprise conditionnelle y à la rotation du capital x1 et au capital utilisé x2.

7. En calculant les coefficients d'élasticité, il est montré que lorsque la rotation du capital change de 1%, le montant du résultat net de l'entreprise change de 0,0008%, et lorsque le capital utilisé change de 1%, le montant du résultat net de l'entreprise change de 0,0008%. évolue de 0,56%.

8. À l'aide du test t, la signification statistique des coefficients de régression a été évaluée. Il a été constaté que la variable explicative x 1 est statistiquement insignifiante et peut être exclue de l'équation de régression, tandis qu'en même temps la variable explicative x 2 l'est. statistiquement significatif.

9. À l'aide du test F, il a été établi que l'équation de régression appariée résultante dans son ensemble est statistiquement significative et décrit de manière adéquate le phénomène étudié de la relation entre le revenu net d'une entreprise conditionnelle y et la rotation du capital x 1 et le capital utilisé x2.

10. L'erreur moyenne d'approximation des données statistiques par une équation de régression multiple linéaire a été calculée, qui s'élevait à 29,8 %. Il est montré en raison de quelle observation dans la base de données statistiques l'ampleur de cette erreur dépasse la valeur admissible.

14. Construire un modèle de régression apparié sans utiliser EXCEL.

En utilisant le matériel statistique présenté dans le tableau 3.5, il est nécessaire de :

2. Évaluez l'étroitesse de la connexion à l'aide d'indicateurs de corrélation et de détermination.

3. À l'aide du coefficient d'élasticité, déterminez le degré de lien entre la caractéristique factorielle et la caractéristique résultante.

4. Déterminez l’erreur d’approximation moyenne.

5.Évaluer la fiabilité statistique de la modélisation à l'aide du test F de Fisher.

Tableau 3.5. Donnée initiale.

Part des revenus en espèces visant à accroître l'épargne sous forme de dépôts, de prêts, de certificats et pour l'achat de devises étrangères, dans le montant total du revenu en espèces moyen par habitant, %

Salaire mensuel moyen accumulé, c.u.

Kaloujskaïa

Kostromskaïa

Orlovskaïa

Riazan

Smolenskaïa

Pour déterminer les paramètres inconnus b 0 , b 1 de l'équation de régression linéaire appariée, nous utilisons le système standard d'équations normales, qui a la forme

(3.7)

Pour résoudre ce système, il faut d'abord déterminer les valeurs de Sx 2 et Sxy. Ces valeurs sont déterminées à partir du tableau des données sources, en le complétant par les colonnes appropriées (tableau 3.6).

Tableau 3.6. Vers le calcul des coefficients de régression.

Alors le système (3.7) prend la forme

En exprimant b 0 à partir de la première équation et en substituant l'expression résultante dans la deuxième équation, nous obtenons :

En effectuant une multiplication terme par terme et en ouvrant les parenthèses, on obtient :

Enfin, l'équation de régression linéaire appariée reliant la valeur de la part des revenus monétaires de la population visant à accroître l'épargne y avec le salaire mensuel moyen accumulé x a la forme :

Ainsi, au fur et à mesure que l'équation de régression linéaire appariée est construite, nous déterminons le coefficient de corrélation linéaire en fonction de la dépendance :

où sont les valeurs des écarts types des paramètres correspondants.

Pour calculer le coefficient de corrélation linéaire à partir de la dépendance (3.9), nous effectuons des calculs intermédiaires.

En substituant les valeurs des paramètres trouvés dans l'expression (3.9) on obtient

.

La valeur obtenue du coefficient de corrélation linéaire indique la présence d'une faible relation statistique inverse entre la part des revenus monétaires de la population visant à accroître l'épargne y et le montant du salaire mensuel moyen accumulé x.

Le coefficient de détermination est , ce qui signifie que seulement 9,6 % s'explique par la régression de la variable explicative x sur y. Ainsi, la valeur 1 égale à 90,4 % caractérise la part de la variance de la variable y provoquée par l'influence de toutes les autres variables explicatives non prises en compte dans le modèle économétrique.

Le coefficient d'élasticité est

Par conséquent, lorsque le salaire mensuel moyen accumulé change de 1 %, la part des revenus en espèces de la population visant à accroître l'épargne diminue également de 1 %, et avec une augmentation des salaires, il y a une diminution de la part des revenus en espèces de la population visant à accroître son épargne. Cette conclusion contredit le bon sens et ne peut s’expliquer que par l’inexactitude du modèle mathématique généré.

Calculons l'erreur d'approximation moyenne.

Tableau 3.7. Vers le calcul de l’erreur d’approximation moyenne.

La valeur obtenue dépasse (12...15)%, ce qui indique l'importance de l'écart moyen des données calculées par rapport aux données réelles sur lesquelles le modèle économétrique a été construit.

La fiabilité de la modélisation statistique sera réalisée sur la base du test F de Fisher. La valeur théorique du critère de Fisher F calc est déterminée à partir du rapport des valeurs du facteur et des dispersions résiduelles calculées pour un degré de liberté selon la formule

où n est le nombre d'observations ;

m est le nombre de variables explicatives (pour l'exemple considéré m m =1).

La valeur critique Fcrit est déterminée à partir de tableaux statistiques et pour un seuil de signification a = 0,05 est égal à 10,13. Puisque F calculé

15. Construire un modèle de régression multiple sans utiliser EXCEL.

En utilisant le matériel statistique présenté dans le tableau 3.8, vous devez :

1. Construisez une équation de régression multiple linéaire et expliquez la signification économique de ses paramètres.

2. Donner une évaluation comparative de l'étroitesse de la relation entre les facteurs et la caractéristique résultante à l'aide de coefficients d'élasticité moyens (généraux).

3. Évaluez la signification statistique des coefficients de régression à l'aide du test t et de l'hypothèse nulle sur la non-significativité de l'équation à l'aide du test F.

4. Évaluez la qualité de l'équation en déterminant l'erreur d'approximation moyenne.

Tableau 3.8. Donnée initiale.

Bénéfice net, millions de dollars américains

Rotation du capital, millions de dollars américains

Capital utilisé, millions Dollars américains

Pour déterminer les paramètres inconnus b 0 , b 1 , b 2 de l'équation de régression linéaire multiple, nous utilisons le système standard d'équations normales, qui a la forme

(3.11)

Pour résoudre ce système, il faut d'abord déterminer les valeurs des quantités Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Ces valeurs sont déterminées à partir du tableau des données sources, en le complétant par les colonnes appropriées (tableau 3.9).

Tableau 3.9. Vers le calcul des coefficients de régression.

Alors le système (3.11) prend la forme

Pour résoudre ce système, nous utiliserons la méthode de Gauss, qui consiste à éliminer séquentiellement des inconnues : diviser la première équation du système par 10, puis multiplier l'équation obtenue par 370,6 et la soustraire de la deuxième équation du système, puis multiplier par l'équation résultante par 158,20 et soustrayez-la de la troisième équation du système. En répétant l'algorithme spécifié pour les deuxième et troisième équations transformées du système, nous obtenons :

Þ Þ

Þ .

Après transformation on a :

Alors la dépendance finale du revenu net à la rotation du capital et au capital utilisé sous la forme d'une équation de régression multiple linéaire a la forme :

De l'équation économétrique qui en résulte, il ressort clairement qu'avec une augmentation du capital utilisé, le revenu net augmente et, à l'inverse, avec une augmentation de la rotation du capital, le revenu net diminue. De plus, plus le coefficient de régression est grand, plus l’influence de la variable explicative sur la variable dépendante est grande. Dans l'exemple considéré, la valeur du coefficient de régression est supérieure à la valeur du coefficient, donc le capital utilisé a un impact significativement plus important sur le revenu net que la rotation du capital. Pour quantifier cette conclusion, nous déterminons les coefficients d’élasticité partielle.

L'analyse des résultats montre également que le capital utilisé a un impact plus important sur le résultat net. Ainsi, notamment, avec une augmentation du capital utilisé de 1 %, le résultat net augmente de 1,17 %. Parallèlement, avec une augmentation de la rotation du capital de 1 %, le résultat net diminue de 0,5 %.

Valeur théorique du critère de Fisher F calc.

La valeur de la valeur critique Fcrit est déterminée à partir de tableaux statistiques et pour un niveau de signification de a = 0,05 est égale à 4,74. Puisque F calc > F crit, l’hypothèse nulle est rejetée et l’équation de régression résultante est acceptée comme statistiquement significative.

Évaluer la signification statistique des coefficients de régression et du critère t revient à comparer la valeur numérique de ces coefficients avec l'ampleur de leurs erreurs aléatoires et selon la relation :

La formule de travail pour calculer la valeur théorique des statistiques t est la suivante :

, (3.13)

où les coefficients de corrélation de paire et le coefficient de corrélation multiple sont calculés à partir des dépendances :

Alors les valeurs théoriques (calculées) des statistiques t sont respectivement égales à :

Puisque la valeur critique des statistiques t, déterminée à partir de tableaux statistiques pour le niveau de signification a = 0,05 égal à t crit = 2,36, est supérieure en valeur absolue à = - 1,798, alors l'hypothèse nulle n'est pas rejetée et la variable explicative x 1 est statistiquement non significatif et peut être exclu de l’équation de régression. A l’inverse, pour le deuxième coefficient de régression > t crit (3,3 > 2,36), et la variable explicative x 2 est statistiquement significative.

Calculons l'erreur d'approximation moyenne.

Tableau 3.10. Vers le calcul de l’erreur d’approximation moyenne.

Alors l’erreur d’approximation moyenne est

La valeur obtenue ne dépasse pas la limite admissible égale à (12…15)%.

16. Historique du développement de la théorie de la mesure

TI s'est d'abord développé comme une théorie des mesures psychophysiques. Dans des publications d'après-guerre, le psychologue américain S.S. Stevens s'est concentré sur les échelles de mesure. Dans la seconde moitié du 20e siècle. Le champ d'application de TI s'étend rapidement. L'un des volumes de « l'Encyclopédie des sciences psychologiques » publié aux États-Unis dans les années 50 s'intitulait « Mesures psychologiques ». Les auteurs de cette publication ont élargi la portée de l'IT de la psychophysique à la psychologie en général. Dans l'article de cette collection, « Fundamentals of Measurement Theory », la présentation se faisait à un niveau mathématique abstrait, sans référence à un quelconque domaine d'application spécifique. L'accent y était mis sur « les homomorphismes de systèmes empiriques avec des relations en systèmes numériques » (il n'est pas nécessaire d'entrer ici dans ces termes mathématiques), et la complexité mathématique de la présentation a augmenté par rapport aux travaux de S.S. Stevens.

Dans l'un des premiers articles nationaux sur TI (fin des années 60), il a été établi que les points attribués par les experts lors de l'évaluation des objets d'examen sont, en règle générale, mesurés sur une échelle ordinale. Les travaux apparus au début des années 70 ont conduit à une expansion significative du champ d'utilisation de l'IT. Elle a été appliquée à la qualimétrie pédagogique (mesure de la qualité des connaissances des étudiants), à la recherche systémique, à diverses problématiques de théorie de l’expertise, à l’agrégation d’indicateurs de qualité de produit, à la recherche sociologique, etc.

Comme deux problèmes principaux de TI, outre l'établissement du type d'échelle pour mesurer des données spécifiques, la recherche d'algorithmes d'analyse de données a été proposée, dont le résultat ne change pas avec aucune transformation admissible de l'échelle (c'est-à-dire est invariant par rapport à à cette transformation). Les échelles ordinales en géographie sont l'échelle de vent de Beaufort (« calme », « vent léger », « vent modéré », etc.), l'échelle de force sismique. Évidemment, on ne peut pas dire qu'un séisme de magnitude 2 (une lampe balancée sous le plafond) soit exactement 5 fois plus faible qu'un séisme de magnitude 10 (destruction complète de tout ce qui se trouve à la surface de la terre).

En médecine, les échelles ordinales sont l'échelle des stades d'hypertension (selon Myasnikov), l'échelle des degrés d'insuffisance cardiaque (selon Strazhesko-Vasilenko-Lang), l'échelle de gravité de l'insuffisance coronarienne (selon Fogelson), etc. . Toutes ces échelles sont construites selon le schéma suivant : aucune maladie détectée ; premier stade de la maladie; Deuxième étape; troisième étape... Parfois, on distingue les stades 1a, 16, etc. Chaque étape a une caractéristique médicale qui lui est propre. Lors de la description des groupes de handicap, les nombres sont utilisés dans l'ordre inverse : le plus grave est le premier groupe de handicap, puis le deuxième, le plus léger est le troisième.

Les numéros de maison sont également mesurés sur une échelle ordinale : ils indiquent dans quel ordre les maisons sont situées le long de la rue. Les numéros de volume dans les œuvres collectées par un écrivain ou les numéros de cas dans les archives d'une entreprise sont généralement associés à l'ordre chronologique de leur création.

Lors de l'évaluation de la qualité des produits et des services, les échelles ordinales sont populaires dans ce qu'on appelle la qualimétrie (traduction littérale - mesure de la qualité). À savoir, une unité de production est évaluée comme praticable ou impropre. Pour une analyse plus approfondie, une échelle à trois gradations est utilisée : il y a des défauts importants - il n'y a que des défauts mineurs - il n'y a pas de défauts. Parfois, quatre gradations sont utilisées : il y a des défauts critiques (rendant l'utilisation impossible) - il y a des défauts importants - il n'y a que des défauts mineurs - il n'y a pas de défauts. La classification des produits a une signification similaire : premium, première qualité, deuxième qualité,...

Lors de l'évaluation des impacts environnementaux, la première évaluation, la plus générale, est généralement ordinale, par exemple : l'environnement naturel est stable - l'environnement naturel est opprimé (dégradé). L'échelle environnementale et médicale est similaire : il n'y a pas d'impact prononcé sur la santé humaine - un impact négatif sur la santé est noté.

L'échelle ordinale est également utilisée dans d'autres domaines. En économétrie, il s'agit avant tout de diverses méthodes d'expertise.

Toutes les échelles de mesure sont divisées en deux groupes : les échelles de caractéristiques qualitatives et les échelles de caractéristiques quantitatives. L'échelle ordinale et l'échelle de dénomination sont les principales échelles d'attributs qualitatifs. Ainsi, dans de nombreux domaines spécifiques, les résultats de l'analyse qualitative peuvent être considérés comme des mesures sur ces échelles. Les échelles de caractéristiques quantitatives sont des échelles d'intervalles, de ratios, de différences, absolues. À l'aide d'une échelle d'intervalle, la grandeur de l'énergie potentielle ou la coordonnée d'un point sur une ligne droite est mesurée. Dans ces cas, ni l'origine naturelle ni l'unité naturelle de mesure ne peuvent être indiquées sur la balance. Le chercheur doit fixer le point de départ et choisir lui-même l'unité de mesure. Les transformations acceptables dans l'échelle d'intervalle sont des transformations linéaires croissantes, c'est-à-dire fonctions linéaires. Les échelles de température Celsius et Fahrenheit sont liées exactement par cette dépendance : °C = 5/9 (°F - 32), où °C est la température (en degrés) sur l'échelle Celsius et °F est la température sur l'échelle Fahrenheit. échelle.

Parmi les échelles quantitatives, les plus courantes en science et en pratique sont les échelles de ratio. Ils ont un point de référence naturel - zéro, c'est-à-dire absence de quantité, mais pas d’unité naturelle de mesure. La plupart des unités physiques sont mesurées sur une échelle de ratio : masse corporelle, longueur, charge, ainsi que prix dans l'économie. Les transformations acceptables dans l'échelle des ratios sont similaires (en changeant uniquement l'échelle). En d’autres termes, des transformations linéaires croissantes sans terme libre, par exemple la conversion des prix d’une devise à une autre à un taux fixe. Supposons que nous comparions l'efficacité économique de deux projets d'investissement en utilisant les prix en roubles. Que le premier projet s'avère meilleur que le second. Passons maintenant à la monnaie chinoise, le yuan, en utilisant un taux de conversion fixe. Evidemment, le premier projet devrait là encore être plus rentable que le second. Cependant, les algorithmes de calcul ne garantissent pas automatiquement que cette condition est remplie, et il est nécessaire de vérifier qu'elle est remplie. Les résultats d'un tel test pour les valeurs moyennes sont décrits ci-dessous.

Une échelle de différence a une unité de mesure naturelle, mais pas de point de référence naturel. Le temps est mesuré sur l'échelle des différences, si l'année (ou le jour - de midi à midi) est prise comme unité de mesure naturelle, et sur l'échelle des intervalles dans le cas général. Au niveau actuel des connaissances, il est impossible d’indiquer un point de départ naturel. Différents auteurs calculent de différentes manières la date de la création du monde, ainsi que le moment de la Nativité du Christ.

Uniquement pour l'échelle absolue, les résultats de mesure sont des nombres au sens habituel du terme, par exemple le nombre de personnes dans une pièce. Pour une échelle absolue, seule une transformation identitaire est autorisée.

Au cours du développement du domaine de connaissances correspondant, le type d'échelle peut changer. Ainsi, au début, la température a été mesurée sur une échelle ordinale (plus froide - plus chaude). Puis - selon l'intervalle (échelles Celsius, Fahrenheit, Réaumur). Enfin, après la découverte du zéro absolu, la température peut être considérée comme mesurée sur une échelle de ratio (échelle Kelvin). Il convient de noter qu'il existe parfois des désaccords entre spécialistes sur les échelles à utiliser pour considérer certaines valeurs réelles mesurées. En d’autres termes, le processus de mesure comprend également la détermination du type d’échelle (ainsi que la justification du choix d’un type particulier d’échelle). En plus des six principaux types d’échelles répertoriées, d’autres échelles sont parfois utilisées.

17. Algorithmes invariants et valeurs moyennes.

Formulons la principale exigence pour les algorithmes d'analyse de données en TI : les conclusions tirées sur la base de données mesurées sur une échelle d'un certain type ne doivent pas changer lorsque l'échelle de mesure de ces données est autorisée. En d’autres termes, les inférences doivent être invariantes sous des transformations d’échelle valides.

Ainsi, l'un des principaux objectifs de la théorie de la mesure est de lutter contre la subjectivité du chercheur lors de l'attribution de valeurs numériques à des objets réels. Ainsi, les distances peuvent être mesurées en archines, mètres, microns, miles, parsecs et autres unités de mesure. Masse (poids) - en pouds, kilogrammes, livres, etc. Les prix des biens et services peuvent être indiqués en yuans, roubles, tenge, hryvnia, lats, couronnes, marks, dollars américains et autres devises (sous réserve des taux de conversion spécifiés). Soulignons un fait très important, quoique assez évident : le choix des unités de mesure dépend du chercheur, c'est-à-dire subjectif. Les conclusions statistiques ne peuvent être adéquates à la réalité que lorsqu'elles ne dépendent pas de l'unité de mesure préférée du chercheur, lorsqu'elles sont invariantes par rapport à la transformation admissible de l'échelle. Parmi les nombreux algorithmes d’analyse des données économétriques, seuls quelques-uns satisfont à cette condition. Montrons cela en comparant les valeurs moyennes.

Soit X 1, X 2,.., X n un échantillon du volume n. La moyenne arithmétique est souvent utilisée. L'utilisation de la moyenne arithmétique est si courante que le deuxième mot du terme est souvent omis et les gens parlent du salaire moyen, du revenu moyen et d'autres moyennes pour des données économiques spécifiques, désignant par « moyenne » la moyenne arithmétique. Cette tradition peut conduire à des conclusions erronées. Montrons cela en utilisant l'exemple du calcul du salaire moyen (revenu moyen) des salariés d'une entreprise hypothétique. Sur 100 travailleurs, seuls 5 ont un salaire qui le dépasse, et le salaire des 95 autres est nettement inférieur à la moyenne arithmétique. La raison est évidente : le salaire d'une personne - le directeur général - dépasse le salaire de 95 travailleurs - ouvriers peu et hautement qualifiés, ingénieurs et employés de bureau. La situation n'est pas sans rappeler celle décrite dans une histoire bien connue d'un hôpital dans lequel se trouvent 10 patients, dont 9 ont une température de 40°C, et un a déjà souffert, couché à la morgue avec une température de 0°C. C. Pendant ce temps, la température moyenne à l’hôpital est de 36°C – ça ne pourrait pas être mieux !

Ainsi, la moyenne arithmétique ne peut être utilisée que pour des populations assez homogènes (sans valeurs aberrantes importantes dans un sens ou dans l’autre). Quelles moyennes faut-il utiliser pour décrire les salaires ? Il est tout à fait naturel d'utiliser la médiane - la moyenne arithmétique des 50e et 51e salariés si leurs salaires sont classés par ordre non décroissant. Viennent d’abord les salaires de 40 travailleurs peu qualifiés, puis, du 41e au 70e travailleur, les salaires des travailleurs hautement qualifiés. Par conséquent, la médiane leur tombe spécifiquement et est égale à 200. Pour 50 travailleurs, le salaire ne dépasse pas 200, et pour 50 - au moins 200, la médiane montre donc le « centre » autour duquel se concentre la majeure partie des valeurs étudiées. sont regroupés. Une autre valeur moyenne est le mode, la valeur la plus fréquente. Dans le cas considéré, il s’agit des salaires des travailleurs peu qualifiés, c’est-à-dire 100. Ainsi, pour décrire le salaire, nous avons trois valeurs moyennes : le mode (100 unités), la médiane (200 unités) et la moyenne arithmétique (400 unités).

Pour les répartitions des revenus et des salaires observées dans la vie réelle, le même schéma est vrai : le mode est inférieur à la médiane, et la médiane est inférieure à la moyenne arithmétique.

Pourquoi les moyennes sont-elles utilisées en économie ? Généralement pour remplacer une collection de nombres par un seul nombre afin de comparer des populations à l'aide de moyennes. Soit par exemple Y 1, Y 2,..., Y n un ensemble d'expertises « portées » à un objet d'expertise (par exemple, une des options de développement stratégique d'une entreprise), Z 1 , Z 2,..., Z n -la seconde (une autre version de ce développement). Comment ces populations se comparent-elles ? Évidemment, le moyen le plus simple consiste à utiliser des valeurs moyennes.

Comment calculer les moyennes ? Il existe différents types de moyennes : moyenne arithmétique, médiane, moyenne de mode, moyenne géométrique, moyenne harmonique, moyenne quadratique. Rappelons que la notion générale de valeur moyenne a été introduite par un mathématicien français de la première moitié du XIXe siècle. Académicien O. Cauchy. Elle se présente comme suit : la valeur moyenne est toute fonction Ф(Х 1, Х 2,..., Х n) telle que, pour toutes les valeurs possibles des arguments, la valeur de cette fonction n'est pas inférieure au minimum des nombres X 1, X 2,... , X n , et pas plus que le maximum de ces nombres. Tous les types de moyennes répertoriés ci-dessus sont des moyennes de Cauchy.

Avec une transformation d'échelle acceptable, la valeur de la moyenne change évidemment. Mais les conclusions quant à quelle population la moyenne est la plus élevée et pour laquelle elle est inférieure ne devraient pas changer (conformément à l'exigence d'invariance des conclusions, acceptée comme exigence principale dans TI). Formulons le problème mathématique correspondant de recherche du type de valeurs moyennes dont le résultat de la comparaison est stable par rapport aux transformations d'échelle admissibles.

Soit Ф(Х 1 Х 2 ,..., Х n) la moyenne de Cauchy. Soit la moyenne de la première population soit inférieure à la moyenne de la deuxième population : alors, selon TI, pour la stabilité du résultat de la comparaison des moyennes, il faut que pour toute transformation admissible g du groupe des transformations admissibles dans le échelle correspondante il est vrai que la moyenne des valeurs transformées de la première population est également inférieure à la moyenne des valeurs transformées du deuxième ensemble. De plus, la condition formulée doit être vraie pour deux ensembles quelconques Y 1, Y 2,...,Y n et Z 1, Z 2,..., Z n et, rappelons-le, pour toute transformation admissible. Nous appelons admissibles les valeurs moyennes qui satisfont à la condition formulée (dans l'échelle appropriée). Selon TI, seules ces moyennes peuvent être utilisées lors de l'analyse des avis d'experts et d'autres données mesurées sur l'échelle considérée.

En utilisant la théorie mathématique développée dans les années 1970, il est possible de décrire le type de moyennes acceptables sur des échelles de base. Il est clair que pour les données mesurées sur une échelle de noms, seul le mode convient comme moyenne.

18. Valeurs moyennes sur une échelle ordinale

Considérons le traitement des avis d'experts mesurés sur une échelle ordinale. La déclaration suivante est vraie.

Théorème1 . De toutes les moyennes de Cauchy, seuls les membres de la série de variations (statistiques ordinales) sont des moyennes acceptables sur une échelle ordinale.

Le théorème 1 est valable à condition que la moyenne Ф(Х 1 Х 2 ,..., Х n) soit une fonction continue (sur l'ensemble des variables) et symétrique. Ce dernier signifie que lorsque les arguments sont réorganisés, la valeur de la fonction Ф(Х 1 Х 2 ,..., Х n) ne change pas. Cette condition est tout à fait naturelle, car on trouve la valeur moyenne pour la totalité (ensemble), et non pour la séquence. L'ensemble ne change pas selon l'ordre dans lequel on liste ses éléments.

Selon le théorème 1, en particulier, la médiane peut être utilisée comme moyenne pour les données mesurées sur une échelle ordinale (si la taille de l'échantillon est impaire). Si le volume est pair, il convient d'utiliser l'un des deux termes centraux de la série de variations - comme on les appelle parfois, la médiane gauche ou la médiane droite. La mode peut également être utilisée - elle fait toujours partie de la série de variations. Mais on ne peut jamais calculer la moyenne arithmétique, la moyenne géométrique, etc.

Le théorème suivant est vrai.

Théorème 2. Soient Y 1, Y 2,...,Y m des variables aléatoires indépendantes de distribution identique avec la fonction de distribution F(x), et Z 1, Z 2,..., Zn des variables aléatoires indépendantes de distribution identique avec la fonction de distribution. H(x), et les échantillons Y 1, Y 2,...,Y m et Z 1, Z 2,..., Z n sont indépendants les uns des autres et MY X > MZ X. Pour que la probabilité d'un événement tende vers 1 à min(m, n) pour toute fonction continue strictement croissante g satisfaisant la condition |g i |>X il est nécessaire et suffisant que l'inégalité F(x) soit satisfaite pour tout X< Н(х), причем существовало число х 0 , для которого F(x 0)

Note. La condition avec limite supérieure est de nature purement intra-mathématique. En fait, la fonction g est une transformation arbitraire admissible sur une échelle ordinale.

Selon le théorème 2, la moyenne arithmétique peut également être utilisée dans une échelle ordinale si l'on compare des échantillons de deux distributions qui satisfont à l'inégalité donnée dans le théorème. En termes simples, l’une des fonctions de répartition doit toujours se situer au-dessus de l’autre. Les fonctions de distribution ne peuvent pas se croiser, elles peuvent seulement se toucher. Cette condition est remplie, par exemple, si les fonctions de répartition ne diffèrent que par le décalage :

F(x) = Н(x + ∆)

pour certains ∆.

La dernière condition est remplie si deux valeurs d'une certaine grandeur sont mesurées à l'aide du même instrument de mesure, dans lequel la répartition des erreurs ne change pas lors du passage de la mesure d'une valeur de la grandeur en question à la mesure d'une autre.

Moyenne selon Kolmogorov

Une généralisation de plusieurs des moyennes énumérées ci-dessus est la moyenne de Kolmogorov. Pour les nombres X 1, X 2,..., X n, la moyenne de Kolmogorov est calculée à l'aide de la formule

G((F(X l) + F(X 2)+...F(X n))/n),

où F est une fonction strictement monotone (c'est-à-dire strictement croissante ou strictement décroissante),

G est la fonction inverse de F.

Parmi les moyennes de Kolmogorov, il y a de nombreux personnages bien connus. Donc, si F(x) = x, alors la moyenne de Kolmogorov est la moyenne arithmétique, si F(x) = lnx, alors la moyenne géométrique, si F(x) = 1/x, alors la moyenne harmonique, si F( x) = x 2, puis le carré moyen, etc. La moyenne de Kolmogorov est un cas particulier de la moyenne de Cauchy. D’un autre côté, des moyennes aussi populaires que la médiane et le mode ne peuvent pas être représentées comme des moyennes de Kolmogorov. Les affirmations suivantes sont prouvées dans la monographie.

Théorème3 . Si certaines conditions intramathématiques de régularité dans l’échelle d’intervalle sont valables, de toutes les moyennes de Kolmogorov, seule la moyenne arithmétique est admissible. Ainsi, la moyenne géométrique ou la moyenne quadratique des températures (en Celsius) ou des distances n’ont aucun sens. La moyenne arithmétique doit être utilisée comme moyenne. Vous pouvez également utiliser la médiane ou le mode.

Théorème 4. Si certaines conditions intramathématiques de régularité dans l’échelle des rapports sont valables, de toutes les moyennes de Kolmogorov, seules les moyennes de puissance avec F(x) = x c et la moyenne géométrique sont admissibles.

Commentaire. La moyenne géométrique est la limite des moyennes de puissance pour c > 0.

Existe-t-il des moyennes de Kolmogorov qui ne peuvent pas être utilisées dans l'échelle de ratio ? Bien sûr. Par exemple F(x) = ex.

A l'instar des valeurs moyennes, d'autres caractéristiques statistiques peuvent être étudiées - indicateurs de dispersion, de connexion, de distance, etc. Il n'est pas difficile de montrer, par exemple, que le coefficient de corrélation ne change pas avec aucune transformation admissible dans un bol d'intervalles, tout comme le rapport des dispersions, la dispersion ne change pas dans l'échelle des différences, le coefficient de variation dans l'échelle des ratios, etc.

Les résultats ci-dessus sur les valeurs moyennes sont largement utilisés, non seulement en économie, en gestion, en théorie des expertises ou en sociologie, mais aussi en ingénierie, par exemple, pour analyser les méthodes d'agrégation de capteurs dans les systèmes automatisés de contrôle de processus des hauts fourneaux. L'IT revêt une grande importance pratique dans les problèmes de normalisation et de gestion de la qualité, en particulier en qualimétrie, où des résultats théoriques intéressants ont été obtenus. Ainsi, par exemple, toute modification des coefficients de pondération des indicateurs individuels de qualité des produits entraîne une modification de l'ordre des produits en fonction de l'indicateur moyen pondéré (ce théorème a été prouvé par le professeur V.V. Podinovsky). Par conséquent, les brèves informations ci-dessus sur l'IT et ses méthodes combinent, dans un sens, l'économie, la sociologie et les sciences de l'ingénieur et constituent un appareil adéquat pour résoudre des problèmes complexes qui ne se prêtaient pas auparavant à une analyse efficace. la voie s'ouvre à la construction de modèles réalistes et à la résolution du problème de prévision.

22. Régression linéaire appariée

Passons maintenant à une étude plus détaillée du cas le plus simple de régression linéaire par paires. La régression linéaire est décrite par la relation fonctionnelle la plus simple sous la forme d'une équation en ligne droite et se caractérise par une interprétation transparente des paramètres du modèle (coefficients d'équation). Le côté droit de l'équation nous permet d'obtenir des valeurs théoriques (calculées) de la variable résultante (expliquée) en fonction des valeurs données du régresseur (variable explicative). Ces valeurs sont parfois aussi appelées prédites (dans le même sens), c'est-à-dire obtenu à partir de formules théoriques. Cependant, lorsqu'on émet une hypothèse sur la nature de la dépendance, les coefficients de l'équation restent encore inconnus. D'une manière générale, l'obtention de valeurs approximatives de ces coefficients est possible par diverses méthodes.

Mais la plus importante et la plus répandue d’entre elles est la méthode des moindres carrés (OLS). Il est basé (comme déjà expliqué) sur l'exigence de minimiser la somme des écarts carrés des valeurs réelles de la caractéristique résultante par rapport aux valeurs calculées (théoriques). Au lieu de valeurs théoriques (pour les obtenir), remplacez les membres droits de l'équation de régression par la somme des écarts carrés, puis trouvez les dérivées partielles de cette fonction (la somme des écarts carrés des valeurs réelles de la caractéristique résultante des caractéristiques théoriques). Ces dérivées partielles sont prises non pas par rapport aux variables x et y, mais par rapport aux paramètres a et b. Les dérivées partielles sont mises égales à zéro et, après des transformations simples mais fastidieuses, un système d'équations normales est obtenu pour déterminer les paramètres. Le coefficient de la variable x, c'est-à-dire b est appelé coefficient de régression, il montre la variation moyenne du résultat avec une variation du facteur d'une unité. Le paramètre a peut ne pas avoir d'interprétation économique, surtout si le signe de ce coefficient est négatif.

La régression linéaire par paires est utilisée pour étudier la fonction de consommation. Le coefficient de régression de la fonction de consommation est utilisé pour calculer le multiplicateur. Presque toujours, l'équation de régression est complétée par un indicateur de l'étroitesse de la connexion. Pour le cas le plus simple de régression linéaire, cet indicateur de l'étroitesse de la connexion est le coefficient de corrélation linéaire. Mais puisque le coefficient de corrélation linéaire caractérise l'étroitesse du lien entre les caractéristiques sous une forme linéaire, la proximité de la valeur absolue du coefficient de corrélation linéaire par rapport à zéro ne sert pas encore d'indicateur de l'absence de connexion entre les caractéristiques.

C’est avec un choix différent de spécification du modèle et, par conséquent, du type de dépendance que la relation réelle peut s’avérer assez proche de l’unité. Mais la qualité de la sélection d'une fonction linéaire est déterminée à l'aide du carré du coefficient de corrélation linéaire - le coefficient de détermination. Il caractérise la proportion de la variance de l'attribut effectif y expliquée par régression dans la variance totale de l'attribut effectif. La valeur qui complète le coefficient de détermination à 1 caractérise la part de variance provoquée par l'influence d'autres facteurs non pris en compte dans le modèle (variance résiduelle).

La régression appariée est représentée par une équation reliant deux variables y et x de la forme suivante :

où y est la variable dépendante (attribut résultant) et x est la variable indépendante (variable explicative ou facteur d'attribut). Il existe une régression linéaire et une régression non linéaire. La régression linéaire est décrite par une équation de la forme :

y = une+ bx + .

La régression non linéaire, quant à elle, peut être non linéaire par rapport aux variables explicatives incluses dans l'analyse, mais linéaire par rapport aux paramètres estimés. Ou peut-être que la régression est non linéaire en termes de paramètres estimés. Des exemples de régression non linéaire dans les variables explicatives, mais linéaire dans les paramètres estimés, incluent les dépendances polynomiales de divers degrés (polynômes) et une hyperbole équilatérale.

La régression non linéaire pour les paramètres estimés est une dépendance en puissance par rapport au paramètre (le paramètre est dans l'exposant), une dépendance exponentielle, où le paramètre est à la base de l'exposant, et une dépendance exponentielle, lorsque toute la dépendance linéaire est entièrement dans l'exposant. Notez que dans ces trois cas, la composante aléatoire (reste aléatoire)  est incluse dans le côté droit de l'équation en tant que facteur, et non en tant que somme, c'est-à-dire multiplicativement ! L'écart moyen des valeurs calculées de la caractéristique résultante par rapport aux valeurs réelles est caractérisé par l'erreur d'approximation moyenne. Il est exprimé en pourcentage et ne doit pas dépasser 7 à 8 %. Cette erreur d'approximation moyenne est simplement la moyenne des ampleurs relatives des différences entre les valeurs réelles et calculées, exprimées en pourcentage.

Le coefficient d'élasticité moyen, qui constitue une caractéristique importante de nombreux phénomènes et processus économiques, est important. Il est calculé comme le produit de la valeur de la dérivée d'une relation fonctionnelle donnée et du rapport de la valeur moyenne de x à la valeur moyenne de y. Le coefficient d'élasticité montre de quel pourcentage en moyenne le résultat y changera par rapport à sa valeur moyenne lorsque le facteur x change de 1 % par rapport à sa valeur moyenne (facteur x).

Les problèmes de l'analyse de la variance sont étroitement liés à la régression par paires et à la régression multiple (lorsqu'il existe de nombreux facteurs) et à la variance résiduelle. L'analyse de la variance examine la variance de la variable dépendante. Dans ce cas, la somme totale des écarts au carré est divisée en deux parties. Le premier terme est la somme des carrés des écarts dus à la régression, ou expliqués (factoriels). Le deuxième terme est la somme résiduelle des écarts au carré inexpliqués par la régression factorielle.

La part de variance expliquée par la régression dans la variance totale de la caractéristique résultante y est caractérisée par le coefficient (indice) de détermination, qui n'est rien de plus que le rapport de la somme des écarts carrés dus à la régression à la somme totale des écarts carrés (le premier terme à la somme entière).

Lorsque les paramètres du modèle (coefficients d'inconnues) sont déterminés à l'aide de la méthode des moindres carrés, certaines variables aléatoires sont essentiellement trouvées (en cours d'obtention d'estimations). L’estimation du coefficient de régression, qui est une forme particulière de variable aléatoire, revêt une importance particulière. Les propriétés de cette variable aléatoire dépendent des propriétés du terme résiduel dans l'équation (dans le modèle). Pour le modèle de régression linéaire apparié, considérez la variable explicative x comme une variable exogène non aléatoire. Cela signifie simplement que les valeurs de la variable x dans toutes les observations peuvent être considérées comme prédéterminées et en aucun cas liées à la dépendance étudiée. Ainsi, la valeur réelle de la variable expliquée se compose de deux composantes : une composante non aléatoire et une composante aléatoire (terme résiduel).

En revanche, le coefficient de régression déterminé par la méthode des moindres carrés (OLS) est égal au quotient de la division de la covariance des variables x et y par la variance de la variable x. Il contient donc également une composante aléatoire. Après tout, la covariance dépend des valeurs de la variable y, où les valeurs de la variable y dépendent des valeurs du terme résiduel aléatoire . De plus, il est facile de montrer que la covariance des variables x et y est égale au produit du coefficient de régression estimé bêta () et de la variance de la variable x, plus la covariance des variables x et . Ainsi, l'estimation du coefficient de régression bêta est égale à ce coefficient de régression inconnu lui-même, ajouté au quotient de la division de la covariance des variables x et  par la variance de la variable x. Ceux. l'estimation du coefficient de régression b obtenue à partir de n'importe quel échantillon est présentée comme la somme de deux termes : une valeur constante égale à la vraie valeur du coefficient  (bêta), et une composante aléatoire dépendant de la covariance des variables x et  .

23. Conditions mathématiques de Gauss-Markov et leur application.

Pour que l'analyse de régression basée sur les MCO ordinaires produise les meilleurs résultats, le terme aléatoire doit satisfaire aux quatre conditions de Gauss-Markov.

L'espérance mathématique du terme aléatoire est égale à zéro, c'est-à-dire c'est impartial. Si l'équation de régression comprend un terme constant, alors il est naturel de considérer cette exigence comme remplie, puisqu'il s'agit d'un terme constant et doit prendre en compte toute tendance systématique des valeurs de la variable y, qui, au contraire , ne doit pas être contenu dans les variables explicatives de l’équation de régression.

La variance du terme aléatoire est constante pour toutes les observations.

La covariance des valeurs des variables aléatoires composant l'échantillon doit être égale à zéro, c'est-à-dire il n'y a pas de relation systématique entre les valeurs du terme aléatoire dans deux observations particulières. Les membres aléatoires doivent être indépendants les uns des autres.

La loi de distribution du terme aléatoire doit être indépendante des variables explicatives.

De plus, dans de nombreuses applications, les variables explicatives ne sont pas stochastiques, c'est-à-dire n'ont pas de composante aléatoire. La valeur de toute variable indépendante dans chaque observation doit être considérée comme exogène, entièrement déterminée par des causes externes non prises en compte dans l'équation de régression.

Avec les conditions de Gauss-Markov spécifiées, on suppose également que le terme aléatoire a une distribution normale. Il est valable dans des conditions très larges et est basé sur ce que l'on appelle le théorème central limite (CLT). L'essence de ce théorème est que si une variable aléatoire est le résultat global de l'interaction d'un grand nombre d'autres variables aléatoires, dont aucune n'a une influence prédominante sur le comportement de ce résultat global, alors la variable aléatoire résultante sera décrite par une distribution à peu près normale. Cette proximité avec la distribution normale permet d'utiliser la distribution normale et la distribution de Student, qui en est dans un certain sens une généralisation, pour obtenir des estimations qui diffèrent sensiblement de la distribution normale principalement sur ce que l'on appelle les « queues », " c'est à dire. pour des échantillons de petite taille. Il est également important que si le terme aléatoire est distribué normalement, les coefficients de régression seront également distribués normalement.

La courbe de régression établie (équation de régression) nous permet de résoudre le problème de la prévision dite ponctuelle. Dans de tels calculs, une certaine valeur de x en dehors de l'intervalle d'observation étudié est prise et remplacée dans le côté droit de l'équation de régression (procédure d'extrapolation). Parce que Les estimations des coefficients de régression sont déjà connues, il est alors possible de calculer la valeur de la variable expliquée y correspondant à la valeur prise de x. Naturellement, conformément au sens de la prédiction (prévision), les calculs sont effectués en avant (dans le domaine des valeurs futures).

Cependant, puisque les coefficients ont été déterminés avec une certaine erreur, ce qui est intéressant n'est pas l'estimation ponctuelle (prévision ponctuelle) de l'attribut effectif, mais la connaissance des limites dans lesquelles, avec une certaine probabilité, les valeurs de la l'attribut effectif correspondant à la valeur prise du facteur x mentira.

Pour ce faire, l'erreur type (écart type) est calculée. On peut l'obtenir dans l'esprit de ce qui vient d'être dit de la manière suivante. L'expression du terme libre a à partir des estimations via les valeurs moyennes est substituée dans l'équation de régression linéaire. Il s'avère ensuite que l'erreur type dépend de l'erreur du facteur effectif moyen y et additivement de l'erreur du coefficient de régression b. Simplement, le carré de cette erreur standard est égal à la somme de l'erreur quadratique de la valeur moyenne y et du produit de l'erreur quadratique du coefficient de régression par l'écart carré du facteur x et sa moyenne. De plus, le premier terme, selon les lois de la statistique, est égal au quotient de la division de la variance de la population générale par la taille (volume) de l'échantillon.

Au lieu de la variance inconnue, la variance de l'échantillon est utilisée comme estimation. En conséquence, l'erreur du coefficient de régression est définie comme le quotient de la division de la variance de l'échantillon par la variance du facteur x. Vous pouvez obtenir l'erreur type (écart type) et d'autres considérations plus indépendantes du modèle de régression linéaire. Pour ce faire, les concepts d'erreur moyenne et d'erreur marginale et la relation entre elles sont utilisés.

Mais même après avoir obtenu l'erreur type, la question demeure de savoir dans quelles limites se situera la valeur prédite. En d'autres termes, à propos de l'intervalle d'erreur de mesure, dans de nombreux cas, l'hypothèse naturelle est que le milieu de cet intervalle est donné par la valeur (moyenne) calculée du facteur effectif y. Ici, le théorème central limite vient à la rescousse, qui indique précisément avec quelle probabilité la quantité inconnue se trouve dans cet intervalle de confiance.

Essentiellement, la formule d'erreur type, quels que soient la manière et la forme sous laquelle elle est obtenue, caractérise l'erreur dans la position de la droite de régression. L'erreur type atteint un minimum lorsque la valeur du facteur x coïncide avec la valeur moyenne du facteur.

24. Test statistique des hypothèses et évaluation de l'importance de la régression linéaire à l'aide du critère de Fisher.

Une fois l’équation de régression linéaire trouvée, la signification de l’équation dans son ensemble et de ses paramètres individuels est évaluée. L'évaluation de la signification d'une équation de régression dans son ensemble peut être effectuée à l'aide de divers critères. L'utilisation du test F de Fisher est assez courante et efficace. Dans ce cas, l'hypothèse nulle est avancée selon laquelle le coefficient de régression est égal à zéro, c'est-à-dire b=0, et donc le facteur x n'a aucun effet sur le résultat y. Le calcul immédiat du test F est précédé d'une analyse de variance. La place centrale y est occupée par la décomposition de la somme totale des écarts carrés de la variable y par rapport à la valeur moyenne y en deux parties - « expliquée » et « inexpliquée » :

La somme totale des écarts au carré des valeurs individuelles de la caractéristique résultante y par rapport à la valeur moyenne y est causée par l'influence de nombreux facteurs.

Divisons conditionnellement l'ensemble des raisons en deux groupes : le facteur x étudié et les autres facteurs. Si le facteur n'influence pas le résultat, alors la ligne de régression sur le graphique est parallèle à l'axe OX et y=y. Ensuite, toute la variance de la caractéristique résultante est due à l'influence d'autres facteurs et la somme totale des écarts au carré coïncidera avec le résidu. Si d’autres facteurs n’influencent pas le résultat, alors y est fonctionnellement lié à x et la somme résiduelle des carrés est nulle. Dans ce cas, la somme des carrés des écarts expliqués par la régression est la même que la somme totale des carrés. Étant donné que tous les points du champ de corrélation ne se trouvent pas sur la droite de régression, leur dispersion se produit toujours sous l'influence du facteur x, c'est-à-dire régression de y sur x, et causée par d'autres causes (variation inexpliquée). L'adéquation d'une droite de régression pour la prédiction dépend de la part de la variation totale du trait y qui est expliquée par la variation expliquée.

Évidemment, si la somme des carrés des écarts dus à la régression est supérieure à la somme résiduelle des carrés, alors l'équation de régression est statistiquement significative et le facteur x a un impact significatif sur le résultat. Cela équivaut au fait que le coefficient de détermination se rapprochera de l'unité. Toute somme des écarts au carré est liée au nombre de degrés de liberté, c'est-à-dire le nombre de liberté de variation indépendante d'une caractéristique. Le nombre de degrés de liberté est associé au nombre d'unités de la population ou au nombre de constantes qui en sont déterminées. Par rapport au problème étudié, le nombre de degrés de liberté doit montrer combien d'écarts indépendants sur n possibles [(y 1 -y), (y 2 -y),...(y n -y)] sont nécessaires pour former une somme de carrés donnée. Ainsi, pour la somme totale des carrés ∑(y-y sr) 2, (n-1) des écarts indépendants sont requis, car dans une population de n unités, après calcul du niveau moyen, seul (n-1) nombre d'écarts varie librement. Lors du calcul de la somme des carrés expliquée ou factorielle ∑(y-y moy) 2, les valeurs théoriques (calculées) de la caractéristique résultante y* sont utilisées, trouvées le long de la droite de régression : y(x)=a+bx.

Revenons maintenant au développement de la somme totale des carrés des écarts du facteur effectif par rapport à la moyenne de cette valeur. Cette somme contient deux parties déjà définies ci-dessus : la somme des carrés des écarts expliqués par la régression et une autre somme appelée somme résiduelle des carrés des écarts. À cette décomposition est associée l'analyse de variance, qui répond directement à la question fondamentale : comment évaluer la signification de l'équation de régression dans son ensemble et de ses paramètres individuels ? Cela détermine aussi en grande partie le sens de cette question. Pour évaluer la signification de l'équation de régression dans son ensemble, le critère de Fisher (test F) est utilisé. Selon l'approche proposée par Fisher, une hypothèse nulle est avancée : le coefficient de régression est égal à zéro, c'est-à-dire valeurb=0. Cela signifie que le facteur X n’a aucun effet sur le résultat Y.

Rappelons que presque toujours les points obtenus à la suite d'une étude statistique ne se situent pas exactement sur la droite de régression. Ils sont dispersés, étant plus ou moins éloignés de la droite de régression. Cette dispersion est due à l’influence d’autres facteurs, différents du facteur explicatif X, qui ne sont pas pris en compte dans l’équation de régression. Lors du calcul de la somme expliquée ou factorielle des écarts carrés, les valeurs théoriques de la caractéristique résultante trouvée à partir de la droite de régression sont utilisées.

Pour un ensemble donné de valeurs des variables Y et X, la valeur calculée de la valeur moyenne Y est en régression linéaire fonction d'un seul paramètre - le coefficient de régression. Conformément à cela, la somme factorielle des écarts carrés a un nombre de degrés de liberté égal à 1. Et le nombre de degrés de liberté de la somme résiduelle des écarts carrés dans la régression linéaire est n-2.

Par conséquent, en divisant chaque somme des écarts au carré dans l'expansion d'origine par son nombre de degrés de liberté, nous obtenons les écarts au carré moyens (variance pour un degré de liberté). Ensuite, en divisant la variance factorielle d'un degré de liberté par la variance résiduelle d'un degré de liberté, nous obtenons un critère pour tester l'hypothèse nulle, appelé rapport F, ou critère du même nom. À savoir, si l’hypothèse nulle est vraie, les variances factorielles et résiduelles sont simplement égales les unes aux autres.

Rejeter l’hypothèse nulle, c’est-à-dire en acceptant l'hypothèse inverse, qui exprime le fait de l'importance (présence) de la relation étudiée, et pas seulement une coïncidence aléatoire de facteurs simulant une relation qui n'existe en réalité pas, il est nécessaire d'utiliser des tableaux de valeurs critiques de la relation spécifiée. À l'aide des tableaux, la valeur critique (seuil) du critère de Fisher est déterminée. On l'appelle aussi théorique. Ensuite, ils vérifient, en la comparant avec la valeur empirique (réelle) correspondante du critère calculée à partir des données d'observation, si la valeur réelle du rapport dépasse la valeur critique des tableaux.

Cela se fait plus en détail comme ceci. Sélectionnez un niveau de probabilité donné de présence de l'hypothèse nulle et trouvez dans les tableaux la valeur critique du critère F, à laquelle une divergence aléatoire des variances de 1 degré de liberté peut encore se produire, c'est-à-dire la valeur maximale de cette valeur. Ensuite, la valeur calculée du rapport F est considérée comme fiable (c'est-à-dire exprimant la différence entre les variances réelles et résiduelles) si ce rapport est supérieur à celui calculé. Alors l'hypothèse nulle est rejetée (il n'est pas vrai qu'il n'y a aucun signe de connexion) et, au contraire, on arrive à la conclusion qu'il y a une connexion et qu'elle est significative (elle est non aléatoire, significative).

Si la valeur de la relation s'avère inférieure à celle tabulée, alors la probabilité de l'hypothèse nulle s'avère supérieure au niveau spécifié (qui a été initialement choisi) et l'hypothèse nulle ne peut être rejetée sans un danger notable de obtenir une conclusion incorrecte sur la présence d'une relation. En conséquence, l’équation de régression est considérée comme non significative.

La valeur du critère F lui-même est liée au coefficient de détermination. En plus d'évaluer la signification de l'équation de régression dans son ensemble, la signification des paramètres individuels de l'équation de régression est également évaluée. Dans ce cas, l'erreur type du coefficient de régression est déterminée à l'aide de l'écart type empirique réel et de la dispersion empirique par degré de liberté. La distribution de Student est ensuite utilisée pour tester la significativité du coefficient de régression afin de calculer ses intervalles de confiance.

L'évaluation de la signification des coefficients de régression et de corrélation à l'aide du test t de Student est effectuée en comparant les valeurs de ces quantités et l'erreur type. L'ampleur de l'erreur des paramètres de régression linéaire et du coefficient de corrélation est déterminée par les formules suivantes :

où S est l'écart quadratique moyen résiduel de l'échantillon,

r xy – coefficient de corrélation.

En conséquence, la valeur de l'erreur type prédite par la droite de régression est donnée par la formule :

Les rapports correspondants des valeurs des coefficients de régression et de corrélation à leur erreur standard forment ce que l'on appelle les statistiques t, et une comparaison de la valeur tabulée (critique) correspondante et de sa valeur réelle permet d'accepter ou de rejeter la valeur nulle. hypothèse. Mais ensuite, pour calculer l’intervalle de confiance, l’erreur maximale pour chaque indicateur est trouvée comme le produit de la valeur tabulaire de la statistique t et de l’erreur aléatoire moyenne de l’indicateur correspondant. En fait, nous l’avons écrit un peu différemment juste au-dessus. Ensuite, les limites des intervalles de confiance sont obtenues : la limite inférieure est obtenue en soustrayant l'erreur marginale correspondante des coefficients correspondants (en fait la moyenne), et la limite supérieure est obtenue par addition (addition).

En régression linéaire ∑(y x -y moy) 2 =b 2 ∑(x-x moy) 2. Ceci est facile à vérifier en se référant à la formule du coefficient de corrélation linéaire : r 2 xy = b 2 *σ 2 x /σ 2 y

où σ 2 y est la variance totale du trait y ;

σ 2 x - dispersion de la caractéristique y due au facteur x. En conséquence, la somme des écarts carrés dus à la régression linéaire sera :

∑(y x -y moy) 2 =b 2 ∑(x-x moy) 2 .

Puisque, pour un volume donné d'observations en x et y, la somme factorielle des carrés en régression linéaire ne dépend que d'une seule constante du coefficient de régression b, alors cette somme des carrés a un degré de liberté. Considérons le côté contenu de la valeur calculée de l'attribut y, c'est-à-dire oui x. La valeur y x est déterminée par l'équation de régression linéaire : y x ​​​​= a + bx.

Le paramètre a peut être défini comme a=y-bx. En substituant l'expression du paramètre a dans le modèle linéaire, nous obtenons : y x ​​​​= y-bx+bx moy = y-b(x-x moy).

Pour un ensemble donné de variables y et x, la valeur calculée de y x est en régression linéaire fonction d'un seul paramètre - le coefficient de régression. En conséquence, la somme factorielle des écarts au carré a un nombre de degrés de liberté égal à 1.

Il y a égalité entre le nombre de degrés de liberté des sommes des carrés totales, factorielles et résiduelles. Le nombre de degrés de liberté de la somme des carrés résiduelle en régression linéaire est (n-2). Le nombre de degrés de liberté pour la somme totale des carrés est déterminé par le nombre de un, et comme nous utilisons la moyenne calculée à partir des données échantillons, nous perdons un degré de liberté, c'est-à-dire (n-1). Nous avons donc deux égalités : pour les sommes et pour le nombre de degrés de liberté. Et ceci, à son tour, nous ramène à des variances comparables par degré de liberté, dont le rapport donne le critère de Fisher.

25. Évaluer la signification des paramètres individuels de l’équation de régression et des coefficients à l’aide du test de Student.

27. Régression linéaire et non linéaire et méthodes pour leur étude.

La régression linéaire et les méthodes de sa recherche et de son évaluation ne seraient pas si importantes si, en plus de ce cas très important, mais toujours le plus simple, nous n'obtenions pas avec leur aide un outil d'analyse de dépendances non linéaires plus complexes. Les régressions non linéaires peuvent être divisées en deux classes significativement différentes. La première et la plus simple est la classe des dépendances non linéaires dans lesquelles il existe une non-linéarité par rapport aux variables explicatives, mais qui restent linéaires dans les paramètres qu'elles contiennent et soumis à évaluation. Cela inclut des polynômes de différents degrés et une hyperbole équilatérale.

Une telle régression non linéaire pour les variables incluses dans l'explication par simple transformation (remplacement) des variables peut facilement être réduite à une régression linéaire ordinaire pour de nouvelles variables. Par conséquent, l'estimation des paramètres dans ce cas est effectuée simplement par les moindres carrés, puisque les dépendances sont linéaires dans les paramètres. Ainsi, un rôle important en économie est joué par la dépendance non linéaire décrite par une hyperbole équilatérale :

Ses paramètres sont bien évalués par la méthode des moindres carrés, et cette dépendance elle-même caractérise le lien entre les coûts spécifiques des matières premières, du carburant, des matériaux avec le volume de production, le temps de circulation des marchandises et tous ces facteurs avec le volume des échanges. chiffre d'affaires. Par exemple, la courbe de Phillips caractérise la relation non linéaire entre le taux de chômage et le pourcentage de croissance des salaires.

La situation est complètement différente avec une régression non linéaire dans les paramètres estimés, par exemple représentée par une fonction puissance, dans laquelle le degré lui-même (son exposant) est un paramètre, ou dépend du paramètre. Il peut également s'agir d'une fonction exponentielle, où la base du degré est un paramètre et d'une fonction exponentielle, dans laquelle là encore l'indicateur contient un paramètre ou une combinaison de paramètres. Cette classe, à son tour, est divisée en deux sous-classes : l’une comprend les non-linéaires externes, mais essentiellement les linéaires internes. Dans ce cas, vous pouvez amener le modèle sous une forme linéaire à l'aide de transformations. Cependant, si le modèle est intérieurement non linéaire, il ne peut pas être réduit à une fonction linéaire.

Ainsi, seuls les modèles intrinsèquement non linéaires dans l’analyse de régression sont considérés comme véritablement non linéaires. Tous les autres, qui peuvent être réduits au linéaire par des transformations, ne sont pas considérés comme tels, et ce sont eux qui sont le plus souvent considérés dans les études économétriques. Dans le même temps, cela ne signifie pas qu’il soit impossible d’étudier des dépendances essentiellement non linéaires en économétrie. Si le modèle est intérieurement non linéaire dans ses paramètres, des procédures itératives sont utilisées pour estimer les paramètres, dont le succès dépend du type d'équation pour les caractéristiques de la méthode itérative utilisée.

Revenons aux dépendances réduites à linéaires. S'ils sont non linéaires à la fois en paramètres et en variables, par exemple de la forme y = a multiplié par la puissance de X dont l'exposant est le paramètre –  (bêta) :

Évidemment, une telle relation peut facilement être convertie en une équation linéaire par simple logarithme.

Après avoir introduit de nouvelles variables désignant des logarithmes, une équation linéaire est obtenue. La procédure d'estimation par régression consiste alors à calculer de nouvelles variables pour chaque observation en prenant les logarithmes des valeurs originales. Ensuite, la dépendance à la régression des nouvelles variables est estimée. Pour accéder aux variables d'origine, vous devez prendre l'antilogarithme, c'est-à-dire revenir aux puissances elles-mêmes au lieu de leurs exposants (après tout, le logarithme est l'exposant). Le cas des fonctions exponentielles ou exponentielles peut être envisagé de la même manière.

Pour une régression significativement non linéaire, il n'est pas possible d'appliquer la procédure habituelle d'estimation de régression car la relation correspondante ne peut pas être convertie en relation linéaire. Le schéma général des actions est le suivant :

1. Certaines valeurs de paramètres initiales plausibles sont acceptées ;

2. Les valeurs Y prévues sont calculées à partir des valeurs X réelles à l'aide de ces valeurs de paramètres ;

3. Les résidus sont calculés pour toutes les observations de l'échantillon, puis la somme des carrés des résidus ;

4. De légères modifications sont apportées à une ou plusieurs estimations de paramètres ;

5. De nouvelles valeurs prédites de Y, des résidus et de la somme des carrés des résidus sont calculées ;

6. Si la somme des carrés des résidus est inférieure à celle d'avant, alors les nouvelles estimations de paramètres sont meilleures que les précédentes et doivent être utilisées comme nouveau point de départ ;

7. Les étapes 4, 5 et 6 sont répétées à nouveau jusqu'à ce qu'il devienne impossible d'apporter des modifications aux estimations des paramètres qui entraîneraient une modification de la somme des résidus des carrés ;

8. On conclut que la somme des carrés des résidus est minimisée et que les estimations finales des paramètres sont des estimations par les moindres carrés.

Parmi les fonctions non linéaires pouvant être réduites à une forme linéaire, la fonction puissance est largement utilisée en économétrie. Le paramètre b qu'il contient a une interprétation claire, étant un coefficient d'élasticité. Dans les modèles non linéaires dans les paramètres estimés, mais pouvant être réduits à une forme linéaire, les moindres carrés sont appliqués aux équations transformées. L'utilisation pratique des logarithmes et, par conséquent, des exposants est possible lorsque le signe résultant n'a pas de valeurs négatives. Lorsqu'on étudie les relations entre fonctions à l'aide du logarithme de l'attribut résultant, les dépendances en loi de puissance prédominent en économétrie (courbes d'offre et de demande, fonctions de production, courbes d'absorption pour caractériser la relation entre l'intensité de travail des produits, l'échelle de production, la dépendance du RNB sur le niveau de l'emploi, courbes d'Engel).

28. Modèle inverse et son utilisation

Parfois, on utilise le modèle dit inverse, qui est intérieurement non linéaire, mais, contrairement à une hyperbole équilatérale, ce n'est pas la variable explicative qui est soumise à la transformation, mais l'attribut résultant Y. Par conséquent, le modèle inverse s'avère être intérieurement non linéaire et l'exigence OLS n'est pas satisfaite pour les valeurs réelles de l'attribut résultant Y, et pour leurs valeurs inverses. L'étude de la corrélation pour la régression non linéaire mérite une attention particulière. Dans le cas général, une parabole du deuxième degré, comme les polynômes d'ordre supérieur, une fois linéarisée, prend la forme d'une équation de régression multiple. Si, une fois linéarisée, une équation de régression non linéaire par rapport à la variable expliquée prend la forme d'une équation de régression linéaire par paires, alors un coefficient de corrélation linéaire peut être utilisé pour évaluer l'étroitesse de la relation.

Si les transformations de l'équation de régression sous forme linéaire sont associées à la variable dépendante (caractéristique résultante), alors le coefficient de corrélation linéaire basé sur les valeurs transformées des caractéristiques ne donne qu'une évaluation approximative de la relation et ne coïncide pas numériquement avec le indice de corrélation. Il convient de garder à l'esprit que lors du calcul de l'indice de corrélation, les sommes des écarts carrés de la caractéristique résultante Y sont utilisées, et non leurs logarithmes. L'évaluation de la significativité de l'indice de corrélation s'effectue de la même manière que l'évaluation de la fiabilité (significativité) du coefficient de corrélation. L'indice de corrélation lui-même, comme l'indice de détermination, est utilisé pour tester la signification globale de l'équation de régression non linéaire à l'aide du test F de Fisher.

Il convient de noter que la possibilité de construire des modèles non linéaires, à la fois en les réduisant à une forme linéaire et en utilisant la régression non linéaire, d'une part, augmente l'universalité de l'analyse de régression. En revanche, cela complique considérablement la tâche du chercheur. Si nous nous limitons à une analyse de régression appariée, nous pouvons tracer les observations Y et X sous forme de nuage de points. Souvent, plusieurs fonctions non linéaires différentes se rapprochent des observations si elles se trouvent sur une courbe. Mais dans le cas d’une analyse de régression multiple, un tel graphique ne peut pas être construit.

Lorsqu’on considère des modèles alternatifs avec la même définition de la variable dépendante, la procédure de sélection est relativement simple. On peut estimer une régression basée sur toutes les fonctions plausibles imaginables et sélectionner la fonction qui explique le mieux le changement de la variable dépendante. Il est clair que lorsqu'une fonction linéaire explique environ 64 % de la variance de y, et qu'une fonction hyperbolique en explique 99,9 %, il faut évidemment choisir cette dernière. Mais lorsque différents modèles utilisent des formes fonctionnelles différentes, le problème de la sélection du modèle devient beaucoup plus compliqué.

29. Utilisation du test de Box-Cox.

Plus généralement, lorsqu’on considère des modèles alternatifs ayant la même définition de la variable dépendante, le choix est simple. Il est plus raisonnable d’estimer la régression sur la base de toutes les fonctions plausibles, en se concentrant sur la fonction qui explique le plus la variation de la variable dépendante. Si le coefficient de détermination mesure, dans un cas, la proportion de variance expliquée par la régression, et dans l'autre, la proportion de variance dans le logarithme de cette variable dépendante expliquée par la régression, alors le choix se fait sans difficulté. C'est une autre affaire lorsque ces valeurs pour deux modèles sont très proches et que le problème du choix devient nettement plus compliqué.

La procédure standard sous la forme du test de Box-Cox doit alors être appliquée. S'il vous suffit de comparer des modèles utilisant le facteur effectif et son logarithme sous la forme d'une variante de la variable dépendante, alors une version du test de Zarembka est utilisée. Il propose une transformation de l'échelle d'observation Y, qui permet une comparaison directe de l'erreur quadratique moyenne (MSE) dans des modèles linéaires et logarithmiques. La procédure correspondante comprend les étapes suivantes :

    La moyenne géométrique des valeurs Y dans l'échantillon est calculée, qui coïncide avec l'exposant de la moyenne arithmétique du logarithme de Y ;

    Les observations Y sont recalculées de telle manière qu'elles sont divisées par la valeur obtenue à la première étape ;

    La régression est estimée pour un modèle linéaire utilisant les valeurs Y mises à l'échelle au lieu des valeurs Y d'origine, et pour un modèle logarithmique utilisant le logarithme des valeurs Y mises à l'échelle. Les valeurs RMSE des deux régressions sont désormais comparables et donc. le modèle avec la plus petite somme des écarts carrés offre un meilleur ajustement à la véritable relation entre les valeurs observées ;

    Pour vérifier qu'un des modèles ne fournit pas un ajustement significativement meilleur, on peut utiliser le produit de la moitié du nombre d'observations et le logarithme du rapport des valeurs de l'écart type dans les régressions recalculées, puis en prenant le valeur absolue de cette valeur.

30. Concepts d'intercorrélation et de multicolinéarité des facteurs.

34. Fondements du MNC et validité de son application.

Passons maintenant aux bases de l'OLS, à la validité de son application (y compris les problèmes de régression multiple) et aux propriétés les plus importantes des estimations obtenues à l'aide de l'OLS. Commençons par le fait que, outre la dépendance analytique du côté droit de l'équation de régression, le terme aléatoire joue également un rôle important. Cette composante aléatoire est une quantité inobservable. Les tests statistiques des paramètres de régression et des indicateurs de corrélation eux-mêmes reposent sur des hypothèses non vérifiables concernant la distribution de cette composante aléatoire de la régression multiple. Ces hypothèses ne sont que préliminaires. Ce n'est qu'après avoir construit l'équation de régression qu'on vérifie si les estimations des résidus aléatoires (analogues empiriques de la composante aléatoire) ont des propriétés supposées a priori. Essentiellement, lorsque les paramètres du modèle sont estimés, les différences entre les valeurs théoriques et réelles de l'attribut résultant sont calculées afin d'estimer ainsi la composante aléatoire elle-même. Il est important de garder à l’esprit qu’il ne s’agit que d’un exemple d’implémentation du reste inconnu d’une équation donnée.

Les coefficients de régression obtenus à partir d'un système d'équations normales sont des estimations par échantillon de la force de la relation. Il est clair qu’ils n’ont de signification pratique que s’ils sont impartiaux. Rappelons que dans ce cas la moyenne des résidus est égale à zéro, ou, ce qui revient au même, la moyenne de l'estimation est égale au paramètre estimé lui-même. Les résidus ne s'accumuleront alors pas sur un grand nombre d'estimations d'échantillon, et le paramètre de régression trouvé lui-même peut être considéré comme la moyenne d'un grand nombre d'estimations non biaisées.

De plus, les estimations doivent présenter la plus petite variance, c'est-à-dire être efficace et il devient alors possible de passer d'estimations ponctuelles pratiquement inadaptées à une estimation par intervalles. Enfin, les intervalles de confiance sont utiles lorsque la probabilité d'obtenir une estimation à une distance donnée de la valeur vraie (inconnue) du paramètre est proche de un. De telles estimations sont dites cohérentes et la propriété de cohérence se caractérise par une augmentation de leur précision avec l’augmentation de la taille de l’échantillon.

Toutefois, la condition de cohérence n’est pas automatiquement remplie et dépend essentiellement du respect des deux exigences importantes suivantes. Premièrement, les résidus eux-mêmes doivent être stochastiques avec le caractère aléatoire le plus prononcé, c'est-à-dire toutes les dépendances clairement fonctionnelles doivent être incluses spécifiquement dans la composante analytique de la régression multiple, et de plus, les valeurs des résidus doivent être distribuées indépendamment les unes des autres pour différents échantillons (pas d'autocorrélation des résidus). La deuxième exigence, non moins importante, est que la variance de chaque écart (résiduel) soit identique pour toutes les valeurs des variables X (homoscédasticité). Ceux. l'homoscédasticité s'exprime par la constance de la variance pour toutes les observations :

Au contraire, l'hétéroscédasticité est la violation d'une telle constance de variance pour différentes observations. Dans ce cas, la probabilité a priori (avant observations) d'obtenir des valeurs très déviantes avec différentes distributions théoriques du terme aléatoire pour différentes observations dans l'échantillon sera relativement élevée.

L'autocorrélation des résidus, ou la présence d'une corrélation entre les résidus des observations actuelles et précédentes (ultérieures), est déterminée par la valeur du coefficient de corrélation linéaire habituel. S'il diffère significativement de zéro, alors les résidus sont autocorrélés et, par conséquent, la fonction de densité de probabilité (distribution des résidus) dépend du point d'observation et de la distribution des valeurs résiduelles aux autres points d'observation. Il est pratique de déterminer l'autocorrélation des résidus à l'aide des informations statistiques disponibles s'il existe un classement des observations par facteur X. L'absence d'autocorrélation des résidus garantit la cohérence et l'efficacité des estimations des coefficients de régression.

35. Homoscédasticité et hétéroscédasticité, autocorrélation des résidus, moindres carrés généralisés (GLM).

La similitude des variances des résidus pour toutes les valeurs des variables X, ou homoscédasticité, est également absolument nécessaire pour obtenir des estimations cohérentes des paramètres de régression à l'aide des MCO. Le non-respect de la condition d’homoscédasticité conduit à ce qu’on appelle l’hétéroscédasticité. Cela peut conduire à des estimations biaisées des coefficients de régression. L'hétéroscédasticité affectera principalement la réduction de l'efficacité des estimations des coefficients de régression. Dans ce cas, il devient particulièrement difficile d'utiliser la formule de l'erreur type du coefficient de régression, dont l'utilisation suppose une dispersion uniforme des résidus pour toutes les valeurs du facteur. Quant à l'impartialité des estimations des coefficients de régression, elle dépend principalement de l'indépendance des résidus et des valeurs des facteurs eux-mêmes.

Une manière assez claire, bien que peu rigoureuse et nécessitant des compétences, de tester l'homoscédasticité consiste à étudier graphiquement la nature de la dépendance des résidus à l'égard de l'attribut résultant (théorique) moyen calculé, ou des champs de corrélation correspondants. Les méthodes analytiques pour étudier et évaluer l’hétéroscédasticité sont plus rigoureuses. En cas de présence significative d’hétéroscédasticité, il est conseillé d’utiliser les MCO généralisés (GLM) au lieu des MCO.

Outre les exigences de régression multiple découlant de l'utilisation des MCO, il est également nécessaire de respecter les conditions sur les variables incluses dans le modèle. Il s'agit tout d'abord d'exigences concernant le nombre de facteurs de modèle pour un volume d'observations donné (1 à 7). Sinon, les paramètres de régression seront statistiquement non significatifs. Du point de vue de l'efficacité de l'application des méthodes numériques correspondantes lors de la mise en œuvre du LSM, il est nécessaire que le nombre d'observations dépasse le nombre de paramètres estimés (dans un système d'équations, le nombre d'équations est supérieur au nombre de paramètres recherchés). variables).

La réalisation la plus significative de l'économétrie est le développement significatif des méthodes d'estimation des paramètres inconnus et l'amélioration des critères d'identification de la signification statique des effets considérés. À cet égard, l'impossibilité ou l'inopportunité d'utiliser les OLS traditionnels en raison de l'hétéroscédasticité manifestée à un degré ou à un autre ont conduit au développement d'un OLS généralisé (GLM). En fait, cela implique d'ajuster le modèle, de modifier ses spécifications et de transformer les données d'origine pour garantir des estimations impartiales, efficaces et cohérentes des coefficients de régression.

On suppose que la moyenne des résidus est nulle, mais leur dispersion n'est plus constante, mais proportionnelle aux valeurs de K i, où ces valeurs sont des coefficients de proportionnalité différents pour différentes valeurs du facteur x. Ce sont donc ces coefficients (valeurs Ki) qui caractérisent l'hétérogénéité de la dispersion. Naturellement, on suppose que le degré de dispersion lui-même, qui est un facteur commun à ces coefficients de proportionnalité, est inconnu.

Le modèle original, après avoir introduit ces coefficients dans l'équation de régression multiple, continue de rester hétéroscédastique (plus précisément, ce sont les valeurs résiduelles du modèle). Que ces résidus (résidus) ne soient pas autocorrélés. Introduisons de nouvelles variables obtenues en divisant les variables initiales du modèle enregistrées à la suite de la i-ème observation par la racine carrée des coefficients de proportionnalité K i . On obtient alors une nouvelle équation en variables transformées, dans laquelle les résidus seront homoscédastiques. Les nouvelles variables elles-mêmes sont des anciennes variables (originales) pondérées.

Par conséquent, l'estimation des paramètres de la nouvelle équation ainsi obtenue avec des résidus homoscédastiques sera réduite à la méthode des moindres carrés pondérés (il s'agit essentiellement de la méthode OLS). Lorsqu'elles sont utilisées à la place des variables de régression elles-mêmes, de leurs écarts par rapport aux moyennes, les expressions des coefficients de régression prennent une forme simple et standardisée (uniforme), qui diffère légèrement pour OLS et OLS par le facteur de correction 1/K au numérateur et dénominateur de la fraction donnant le coefficient de régression.

Il convient de garder à l'esprit que les paramètres du modèle transformé (ajusté) dépendent de manière significative du concept utilisé comme base pour les coefficients de proportionnalité K i. On suppose souvent que les résidus sont simplement proportionnels aux valeurs des facteurs. Le modèle prend sa forme la plus simple lorsque l'on accepte l'hypothèse selon laquelle les erreurs sont proportionnelles aux valeurs du dernier facteur dans l'ordre. Ensuite, OLS permet d'augmenter le poids des observations avec des valeurs plus petites de variables transformées lors de la détermination des paramètres de régression par rapport au fonctionnement de l'OLS standard avec les variables source d'origine. Mais ces nouvelles variables reçoivent déjà un contenu économique différent.

L'hypothèse sur la proportionnalité des résidus à la taille du facteur pourrait bien avoir un fondement réel. Supposons par exemple qu'un certain ensemble de données insuffisamment homogène soit traité, incluant à la fois des grandes et des petites entreprises. Ensuite, de grandes valeurs volumétriques du facteur peuvent correspondre à une grande dispersion de la caractéristique résultante et à une grande dispersion des valeurs résiduelles. De plus, l'utilisation de l'OLS et la transition correspondante vers des valeurs relatives réduisent non seulement la variation du facteur, mais réduisent également la variance de l'erreur. Ainsi, le cas le plus simple de prise en compte et de correction de l'hétéroscédasticité dans les modèles de régression est réalisé grâce à l'utilisation des MCO.

L'approche ci-dessus pour mettre en œuvre l'OLS sous la forme d'OLS pondérés est assez pratique - elle est simplement mise en œuvre et a une interprétation économique transparente. Bien entendu, ce n'est pas l'approche la plus générale, et dans le contexte des statistiques mathématiques, qui servent de base théorique à l'économétrie, on nous propose une méthode beaucoup plus rigoureuse qui met en œuvre les MCO sous la forme la plus générale. Dans celui-ci, vous devez connaître la matrice de covariance du vecteur d'erreur (colonne résiduelle). Et cela est généralement injuste dans des situations pratiques, et il peut être impossible de trouver cette matrice en tant que telle. Par conséquent, d'une manière générale, il est nécessaire d'estimer d'une manière ou d'une autre la matrice requise afin d'utiliser une telle estimation dans les formules correspondantes au lieu de la matrice elle-même. Ainsi, la version décrite de la mise en œuvre de l'OMNC représente l'une de ces estimations. On l’appelle parfois moindres carrés généralisés accessibles.

Il convient également de prendre en compte que le coefficient de détermination ne peut pas servir de mesure satisfaisante de la qualité de l'ajustement lors de l'utilisation des MCO. Revenant à l'utilisation des MCO, notons également que la méthode d'utilisation des écarts-types (erreurs-types) sous forme de White (les erreurs-types dites cohérentes en présence d'hétéroscédasticité) a une généralité suffisante. Cette méthode est applicable à condition que la matrice de covariance du vecteur d'erreur soit diagonale. S'il existe une autocorrélation des résidus (erreurs), lorsqu'il y a des éléments non nuls (coefficients) dans la matrice de covariance et en dehors de la diagonale principale, alors une méthode d'erreur type plus générale sous la forme Neve West doit être utilisée. Il existe une limitation importante : les éléments non nuls, en plus de la diagonale principale, ne se trouvent que sur les diagonales adjacentes, espacées de la diagonale principale d'au plus un certain montant.

De ce qui précède, il ressort clairement qu’il est nécessaire de pouvoir vérifier l’hétéroscédasticité des données. Les tests ci-dessous servent à cet effet. Ils testent l'hypothèse principale sur l'égalité des variances des résidus par rapport à l'hypothèse alternative (sur l'inégalité de ces hypothèses). De plus, il existe des contraintes structurelles a priori sur la nature de l’hétéroscédasticité. Le test de Goldfeld-Quandt utilise généralement l'hypothèse selon laquelle la variance d'erreur (résiduelle) dépend directement de la valeur d'une variable indépendante. Le schéma d'utilisation de ce test est le suivant. Premièrement, les données sont classées par ordre décroissant de la variable indépendante pour laquelle une hétéroscédasticité est suspectée. Cet ensemble de données ordonnées élimine ensuite le nombre moyen d'observations, le mot « quelques » signifiant environ un quart (25 %) du nombre total de toutes les observations. Ensuite, deux régressions indépendantes sont exécutées sur la première des observations moyennes restantes (après élimination) et sur les deux dernières de ces observations moyennes restantes. Après cela, deux restes correspondants sont construits. Enfin, la statistique de Fisher F est compilée et si l'hypothèse étudiée est vraie, alors F est bien la distribution de Fisher avec les degrés de liberté appropriés. Alors une valeur élevée de cette statistique signifie que l’hypothèse testée doit être rejetée. Sans l’étape d’élimination, la puissance de ce test est réduite.

Le test de Breusch-Pagan est utilisé dans les cas où l'on suppose a priori que les variances dépendent de certaines variables supplémentaires. Tout d’abord, une régression ordinaire (standard) est effectuée et un vecteur de résidus est obtenu. Ensuite, une estimation de la variance est construite. Ensuite, une régression du vecteur carré des résidus divisé par la variance empirique (estimation de la variance) est effectuée. Pour cela (régression), la partie expliquée de la variation est trouvée. Et pour cette partie expliquée de la variation, divisée en deux, des statistiques sont construites. Si l'hypothèse nulle est vraie (aucune hétéroscédasticité n'est vraie), alors cette valeur a une distribution -carré. Si au contraire le test révèle une hétéroscédasticité, alors le modèle d'origine est transformé en divisant les composantes du vecteur des résidus par les composantes correspondantes du vecteur des variables indépendantes observées.

36. Méthode de l’écart type sous forme blanche.

Les conclusions suivantes peuvent être tirées. L’utilisation des MCO en présence d’hétéroscédasticité revient à minimiser la somme des écarts carrés pondérés. L'utilisation des MCO disponibles est associée à la nécessité de disposer d'un grand nombre d'observations dépassant le nombre de paramètres estimés. Le cas le plus favorable pour l’utilisation des MCO est celui où l’erreur (résidus) est proportionnelle à l’une des variables indépendantes et où les estimations résultantes sont cohérentes. Si, néanmoins, dans un modèle à hétéroscédasticité, il est nécessaire d'utiliser non pas OLS, mais OLS standard, alors pour obtenir des estimations cohérentes, on peut utiliser des estimations d'erreur sous la forme White ou Nevier-West.

Lors de l’analyse de séries chronologiques, il est souvent nécessaire de prendre en compte la dépendance statistique des observations à différents moments. Dans ce cas, l’hypothèse d’erreurs non corrélées n’est pas satisfaite. Considérons un modèle simple dans lequel les erreurs forment un processus autorégressif de premier ordre. Dans ce cas, les erreurs satisfont une relation de récurrence simple, à droite de laquelle l'un des termes est une séquence de variables aléatoires indépendantes normalement distribuées avec une moyenne nulle et une variance constante. Le deuxième terme est le produit du paramètre (coefficient d'autorégression) et des valeurs des résidus à l'instant précédent. La séquence de valeurs d'erreur (résidus) elle-même forme un processus aléatoire stationnaire. Un processus aléatoire stationnaire se caractérise par la constance de ses caractéristiques dans le temps, notamment la moyenne et la variance. Dans ce cas, la matrice de covariance (ses termes) qui nous intéresse peut être facilement écrite en utilisant les puissances du paramètre.

L'estimation d'un modèle autorégressif pour un paramètre connu est effectuée à l'aide des MCO. Dans ce cas, il suffit de simplement réduire le modèle original par une simple transformation en un modèle dont les erreurs satisfont aux conditions d’un modèle de régression standard. C'est très rare, mais il existe néanmoins une situation dans laquelle le paramètre d'autorégression est connu. Il est donc généralement nécessaire d’effectuer une estimation avec un paramètre autorégressif inconnu. Il existe trois procédures les plus couramment utilisées pour une telle évaluation. Méthode Cochrane-Orcutt, procédure Hildreth-Lu et méthode Durbin.

En général, les conclusions suivantes sont vraies. L'analyse des séries chronologiques nécessite une correction des MCO conventionnelles, car les erreurs dans ce cas sont généralement corrélées. Ces erreurs forment souvent un processus autorégressif stationnaire de premier ordre. Les estimateurs MCO pour l’autorégression de premier ordre sont impartiaux, cohérents, mais inefficaces. Avec un coefficient d'autorégression connu, l'OLS se réduit à de simples transformations (corrections) du système d'origine puis à l'application de l'OLS standard. Si, comme c'est le plus souvent le cas, le coefficient autorégressif est inconnu, alors il existe plusieurs procédures disponibles pour les MCO, qui consistent à estimer le paramètre inconnu (coefficient), après quoi les mêmes transformations sont appliquées que dans le cas précédent du coefficient connu. paramètre.

37. Concept du test de Breusch-Pagan, test de Goldfeldt-Quandt

Indicateurs de corrélation et de détermination

Régression linéaire par paire

Basé sur des données auxiliaires, calculées dans le tableau. 2, nous calculons l'indicateur de proximité de la connexion.

Cet indicateur est l'échantillon de coefficient de corrélation linéaire, calculé à l'aide de la formule.

Sur la base des résultats du calcul du coefficient de corrélation, nous pouvons conclure que la relation entre le facteur et la caractéristique résultante est directe et forte (selon l'échelle de Chaddock).

Le carré du coefficient de corrélation est appelé coefficient de détermination, qui montre la proportion de variation de l'attribut résultant expliquée par la variation de l'attribut facteur.

Habituellement, lors de l'interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.

R2 = 0,8472 = 0,7181

ceux. dans 71,81 % des cas, une modification d'une caractéristique factorielle entraîne une modification de la caractéristique résultante. La précision de la sélection de l'équation de régression est assez élevée. Les 28,19 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

Régression des paires de puissances

Nous déterminons l'étroitesse du lien entre les caractéristiques résultantes et factorielles pour la régression par paires de puissances à l'aide du coefficient de corrélation :

En remplaçant les données connues, nous obtenons :

Indicateur de détermination.

ceux. dans 69 % des cas, une modification d'une caractéristique factorielle entraîne une modification de la caractéristique résultante. La précision de l'ajustement de l'équation de régression est moyenne. Les 31 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

Erreur d'approximation moyenne

Régression linéaire par paire

Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Erreur d'approximation moyenne - écart moyen des valeurs calculées par rapport aux valeurs réelles :

Régression des paires de puissances

Erreur d'approximation moyenne - écart moyen des valeurs calculées par rapport aux valeurs réelles :

Une erreur d'approximation comprise entre 5 % et 7 % indique un bon ajustement de l'équation de régression aux données d'origine.

L’erreur étant supérieure à 7 %, il n’est pas conseillé d’utiliser cette équation comme régression.

Estimation de la fiabilité statistique des résultats de la modélisation de régression à l'aide du test F de Fisher

Régression linéaire par paire

Le coefficient de détermination R2 est utilisé pour tester la significativité de l'équation de régression linéaire dans son ensemble.

Le test de la signification d'un modèle de régression est effectué à l'aide du test F de Fisher, dont la valeur calculée est le rapport de la variance de la série originale d'observations de l'indicateur étudié et de l'estimation non biaisée de la variance de la séquence résiduelle. pour ce modèle.

Si la valeur calculée avec k 1 =(m) et k 2 =(n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif.

La signification statistique de la régression linéaire appariée est évaluée à l'aide de l'algorithme suivant :

où m=1 pour la régression par paires.

Puisque la valeur réelle de F >

Régression des paires de puissances

De la même manière que pour la régression par paire linéaire, nous estimerons la régression par paire de puissance

où m est le nombre de facteurs dans le modèle.

1. Une hypothèse nulle est émise selon laquelle l'équation dans son ensemble est statistiquement non significative : H 0 : R 2 = 0 au niveau de signification b.

2. Déterminez la valeur réelle du critère F :

où m=1 pour la régression par paires.

3. La valeur tabulée est déterminée à partir des tableaux de distribution de Fisher pour un niveau de signification donné, en tenant compte du fait que le nombre de degrés de liberté pour la somme totale des carrés (variance plus grande) est de 1 et le nombre de degrés de liberté pour le résidu la somme des carrés (variance plus petite) dans la régression linéaire est n-2 .

Le tableau F est la valeur maximale possible du critère sous l'influence de facteurs aléatoires à des degrés de liberté et un niveau de signification b donnés. Niveau de signification b - la probabilité de rejeter l'hypothèse correcte, à condition qu'elle soit vraie. Habituellement, b est pris égal à 0,05 ou 0,01.

4. Si la valeur réelle du test F est inférieure à la valeur du tableau, alors ils disent qu'il n'y a aucune raison de rejeter l'hypothèse nulle.

Dans le cas contraire, l'hypothèse nulle est rejetée et, avec probabilité (1-b), l'hypothèse alternative sur la signification statistique de l'équation dans son ensemble est acceptée.

Valeur du tableau du critère avec degrés de liberté :

k 1 =1 et k 2 =8, tableau F = 5,32

Puisque la valeur réelle F > F tableau, le coefficient de détermination est statistiquement significatif (l'estimation trouvée de l'équation de régression est statistiquement fiable).

Sur la base des résultats de l’analyse, nous concluons que les coefficients de détermination de la régression linéaire par paires et de la régression par paires de puissances sont statistiquement significatifs.

Étant donné que la régression linéaire par paires a un coefficient de détermination (indicatif) plus élevé, nous pensons qu'elle décrit de manière adéquate la relation entre le facteur et la caractéristique résultante.

L’erreur d’approximation est l’un des problèmes les plus fréquemment rencontrés lors de l’application de certaines méthodes d’approximation des données sources. Il existe différents types d’erreurs d’approximation :

Erreurs associées aux erreurs de données sources ;

Erreurs associées à l'écart entre le modèle d'approximation et la structure des données approximées.

Excel dispose d'une fonction linéaire bien développée pour le traitement des données et les approximations qui utilisent des mathématiques sophistiquées. Afin d'en avoir une idée, tournons-nous (via F1) vers la partie descriptive de ce développement, que nous présentons avec des abréviations et quelques changements de notation.

Calcule les statistiques d'une série à l'aide des moindres carrés pour calculer la ligne droite qui correspond le mieux aux données disponibles. La fonction renvoie un tableau qui décrit la ligne résultante. Comme elle renvoie un tableau de valeurs, la fonction doit être spécifiée sous forme de formule matricielle.

L'équation d'une droite est :

y=a+b1*x1+b2*x2+...bn*xn

Syntaxe:

LIGNEST(y;x;const;statistiques)

Tableau y - valeurs y connues.

Tableau x - valeurs connues de x. Le tableau x peut contenir un ou plusieurs ensembles de variables.

Const est une valeur booléenne qui spécifie si le terme factice a doit être égal à 0.

Si l'argument const est VRAI, 1 ou omis, alors a est évalué comme d'habitude. Si l'argument const est FALSE ou 0, alors a est défini sur 0.

Statistics est une valeur booléenne qui indique si des statistiques de régression supplémentaires doivent être renvoyées. Si l'argument statistique est TRUE ou 1, alors LINEST renvoie des statistiques de régression supplémentaires. Si les statistiques sont FALSE, 0 ou omises, alors LINEST renvoie uniquement les coefficients et l'ordonnée à l'origine.

Statistiques de régression supplémentaires :

se1,se2,...,sen - valeurs d'erreur standard pour les coefficients b1,b2,...,bn.

sea ​​​​- valeur d'erreur standard pour la constante a (sea = #N/A si const est FALSE).

r2 est le coefficient de déterminisme. Les valeurs réelles de y et les valeurs obtenues à partir de l'équation de la droite sont comparées ; Sur la base des résultats de la comparaison, le coefficient de déterminisme est calculé, normalisé de 0 à 1. S'il est égal à 1, alors il existe une corrélation complète avec le modèle, c'est-à-dire il n'y a aucune différence entre les valeurs réelles et estimées de y. Dans le cas contraire, si le coefficient de détermination est 0, alors l'équation de régression ne parvient pas à prédire les valeurs de y. Pour plus d'informations sur la manière dont r2 est calculé, consultez les « Remarques » à la fin de cette section.

sey est l'erreur type pour estimer y.

Statistique F ou valeur F observée. La statistique F est utilisée pour déterminer si la relation observée entre les variables dépendantes et indépendantes est due au hasard ou non.

df - degrés de liberté. Les degrés de liberté sont utiles pour rechercher des valeurs F-critiques dans un tableau statistique. Pour déterminer le niveau de confiance du modèle, vous comparez les valeurs du tableau avec la statistique F renvoyée par la fonction LINEST.

ssreg est la somme des carrés de régression.

ssresid est la somme résiduelle des carrés.

La figure ci-dessous montre l'ordre dans lequel les statistiques de régression supplémentaires sont renvoyées.

Remarques

Les informations sélectionnées de la fonction peuvent être obtenues via la fonction INDEX, par exemple :

Interception Y (terme libre) :

INDICE(LINEST(y,x),2)

La précision de l'approximation utilisant la ligne droite calculée par la fonction LINEST dépend du degré de dispersion des données. Plus les données sont proches d'une ligne droite, plus le modèle utilisé par la fonction LINEST est précis. La fonction LINEST utilise les moindres carrés pour déterminer le meilleur ajustement aux données.

Lors de l'exécution d'une analyse de régression, Microsoft Excel calcule, pour chaque point, le carré de la différence entre la valeur y prévue et la valeur y réelle. La somme de ces carrés des différences est appelée la somme résiduelle des carrés. Microsoft Excel calcule ensuite la somme des carrés des différences entre les valeurs y réelles et la valeur y moyenne, appelée somme totale des carrés (somme des carrés de régression + somme des carrés résiduelle). Plus la somme des carrés résiduelle est petite par rapport à la somme totale des carrés, plus le coefficient de détermination, r2, qui mesure dans quelle mesure l'équation de régression explique les relations entre les variables.

Notez que les valeurs y prédites par l'équation de régression peuvent ne pas être correctes si elles se situent en dehors de la plage des valeurs y utilisées pour définir l'équation.

Exemple 1 Pente et ordonnée à l'origine

LINEST((1;9;5;7);(0;4;2;3)) est égal à (2;1), pente = 2 et ordonnée à l'origine = 1.

Utilisation des statistiques F et R2

Vous pouvez utiliser la statistique F pour déterminer si un résultat avec une valeur r2 élevée est dû au hasard. Si le F-observé est supérieur au F-critique, alors il existe une relation entre les variables. F-critique peut être obtenu à partir du tableau des valeurs F-critiques dans n'importe quel ouvrage de référence sur les statistiques mathématiques. Pour trouver cette valeur à l'aide d'un test unilatéral, définissez la valeur d'Alpha (la valeur d'Alpha est utilisée pour indiquer la probabilité de conclure par erreur qu'il existe une relation forte) égale à 0,05, et pour le nombre de degrés de liberté ( généralement noté v1 et v2), mettons v1 = k = 4 et v2 = n - (k + 1) = 11 - (4 + 1) = 6, où k est le nombre de variables et n est le nombre de points de données . D'après le tableau de référence, F-critique est de 4,53. La valeur F observée est de 459,753674 (cette valeur a été obtenue dans l'exemple que nous avons omis), ce qui est sensiblement supérieur à la valeur F-critique de 4,53. Par conséquent, l’équation de régression résultante est utile pour prédire le résultat souhaité.

Ministère de l'Agriculture de la Fédération de Russie

Budget de l'État fédéral éducatif

établissement d'enseignement professionnel supérieur

"Académie agricole d'État de Perm

nommé d'après l'académicien D.N. Pryanishnikov"

Ministère des Finances, du Crédit et de l'Analyse Économique

Test sur la discipline "Économétrie" Option - 10


    Les erreurs d’approximation et leur définition………………………………….3

    Méthode analytique d'alignement d'une série temporelle et les fonctions utilisées pour cela…………………………………………………………..4

    Partie pratique……………………………………………………….....11

    1. Tâche 1………………………………………………………11

      Tâche 2………………………………………………….……………...19

Liste des références……………………………………………………….....25

  1. Erreurs d'approximation et leur définition.

Erreur d'approximation moyenne est l'écart moyen des données calculées par rapport aux données réelles. Il est déterminé en pourcentage modulo.

Les valeurs réelles de la caractéristique résultante diffèrent des valeurs théoriques. Plus cette différence est petite, plus les valeurs théoriques se rapprochent des données empiriques ; c'est la meilleure qualité du modèle ; L'ampleur des écarts des valeurs réelles et calculées de la caractéristique résultante pour chaque observation représente l'erreur d'approximation. Leur nombre correspond au volume de la population. Dans certains cas, l'erreur d'approximation peut être égale à zéro. À titre de comparaison, des valeurs d'écart exprimées en pourcentage des valeurs réelles sont utilisées.

Puisqu'il peut s'agir d'une valeur positive ou négative, les erreurs d'approximation pour chaque observation sont généralement déterminées sous forme de pourcentage modulo. Les écarts peuvent être considérés comme une erreur d’approximation absolue et comme une erreur d’approximation relative. Afin d'avoir un jugement général sur la qualité du modèle à partir des écarts relatifs pour chaque observation, l'erreur d'approximation moyenne est déterminée comme la moyenne arithmétique simple.

L'erreur d'approximation moyenne est calculée à l'aide de la formule :

Une autre définition de l'erreur d'approximation moyenne est possible :

Si A £ 10-12%, alors on peut parler de la bonne qualité du modèle.

  1. Une méthode analytique pour aligner une série temporelle et les fonctions utilisées pour cela.

Une technique plus avancée pour identifier la principale tendance de développement dans la série dynamique est l'alignement analytique. Lors de l'étude d'une tendance générale à l'aide de la méthode d'alignement analytique, on suppose que les changements dans les niveaux d'une série de dynamiques peuvent être exprimés avec divers degrés de précision d'approximation par certaines fonctions mathématiques. Le type d'équation est déterminé par la nature de la dynamique de développement d'un phénomène particulier. En pratique, en utilisant les séries temporelles existantes, ils définissent la forme et trouvent les paramètres de la fonction y=f(t), puis analysent le comportement des écarts par rapport à la tendance. Le plus souvent, les dépendances suivantes sont utilisées pour le nivellement : linéaire, parabolique et exponentielle. Dans de nombreux cas, la modélisation de séries chronologiques à l'aide de polynômes ou d'une fonction exponentielle ne donne pas de résultats satisfaisants, car la série chronologique contient des fluctuations périodiques notables autour de la tendance générale. Dans de tels cas, une analyse harmonique (harmoniques de la série de Fourier) doit être utilisée. L'utilisation de cette méthode est préférable, car elle détermine la loi par laquelle les valeurs des niveaux de la série peuvent être prédites avec assez de précision.

Le but de l'alignement analytique d'une série temporelle est de déterminer la dépendance analytique ou graphique y=f(t). La fonction y=f(t) est choisie de manière à fournir une explication significative du processus étudié. Il peut s'agir de diverses fonctions.

Systèmes d'équations de la forme y=f(t) pour estimer les paramètres de polynômes à l'aide des méthodes des moindres carrés

(cliquable)

Représentation graphique des polynômes d'ordre n

1. Si le changement des niveaux d'une série est caractérisé par une augmentation (diminution) uniforme des niveaux, lorsque les augmentations absolues de la chaîne sont proches en ampleur, la tendance de développement est caractérisée par une équation en ligne droite.

2. Si, à la suite de l'analyse du type de tendance dynamique, une dépendance curviligne est établie, avec une accélération approximativement constante, alors la forme de la tendance est exprimée par une équation parabolique du second ordre.

3. Si les niveaux d'une série de dynamiques augmentent selon une progression géométrique, c'est-à-dire les coefficients de croissance de la chaîne sont plus ou moins constants, les séries dynamiques sont alignées à l'aide d'une fonction exponentielle.

Après avoir choisi le type d’équation, vous devez déterminer les paramètres de l’équation. La manière la plus courante de déterminer les paramètres d'une équation est la méthode des moindres carrés, dans laquelle le point minimum de la somme des carrés des écarts entre les niveaux théorique (aligné par l'équation sélectionnée) et empirique est pris comme solution.

L'alignement droit (définissant une ligne de tendance) a l'expression : yt=a0+a1t

symbole du temps t ;

a 0 et a1 sont les paramètres de la ligne souhaitée.

Les paramètres de la droite sont trouvés en résolvant le système d’équations :

Le système d'équations est simplifié si les valeurs de t sont choisies de manière à ce que leur somme soit égale à Σt = 0, c'est-à-dire que le début du décompte du temps est déplacé au milieu de la période considérée. Si avant le transfert du point de référence t = 1, 2, 3, 4..., alors après le transfert :

si le nombre de niveaux de la série est impair t = -4 -3 -2 -1 0 +1 +2 +3 +4

si le nombre de niveaux de la série est pair t = -7 -5 -3 -1 +1 +3 +5 +7

Ainsi, ∑t à une puissance impaire sera toujours nul.

De même, les paramètres d'une parabole du 2ème ordre sont trouvés en résolvant le système d'équations :

Alignement par croissance absolue moyenne ou taux de croissance moyen :

Δ-augmentation absolue moyenne ;

Taux de croissance moyen K ;

Y0 est le niveau initial de la ligne ;

Уn est le niveau final de la série ;

numéro ordinal t du niveau, commençant à zéro.

Après avoir construit une équation de régression, sa fiabilité est évaluée. La signification de l'équation de régression sélectionnée, des paramètres de l'équation et du coefficient de corrélation doit être évaluée à l'aide de méthodes d'évaluation critiques :

Test F de Fisher, test t de Student, dans ce cas, les valeurs calculées des critères sont comparées aux valeurs tabulées (critiques) à un niveau de signification et un nombre de degrés de liberté donnés. Ffact > Ftheor - l'équation de régression est adéquate.

n est le nombre d'observations (niveaux de série), m est le nombre de paramètres de l'équation de régression (modèle).

L'adéquation de l'équation de régression (la qualité du modèle dans son ensemble) est vérifiée à l'aide de l'erreur d'approximation moyenne, dont la valeur ne doit pas dépasser 10-12 % (recommandé).

Vérifions l'hypothèse H 0 sur l'égalité des coefficients de régression individuels à zéro (si l'alternative n'est pas égale à H 1) au niveau de signification b = 0,05.

Si l’hypothèse principale s’avère incorrecte, nous acceptons l’hypothèse alternative. Pour tester cette hypothèse, le test t de Student est utilisé.

La valeur du critère t trouvée à partir des données d'observation (également appelées observées ou réelles) est comparée à la valeur tabulée (critique) déterminée à partir des tableaux de distribution d'étudiant (qui sont généralement donnés à la fin des manuels et des ateliers de statistiques ou d'économétrie).

La valeur du tableau est déterminée en fonction du niveau de signification (b) et du nombre de degrés de liberté, qui dans le cas d'une régression linéaire par paires est égal à (n-2), n étant le nombre d'observations.

Si la valeur réelle du test t est supérieure à la valeur tabulée (modulo), alors l'hypothèse principale est rejetée et on considère qu'avec la probabilité (1-b) le paramètre ou la caractéristique statistique de la population est significativement différent de zéro. .

Si la valeur réelle du test t est inférieure à la valeur du tableau (modulo), alors il n'y a aucune raison de rejeter l'hypothèse principale, c'est-à-dire un paramètre ou une caractéristique statistique dans la population ne diffère pas significativement de zéro au niveau de signification b.

t critique (n-m-1;b/2) = (30;0,025) = 2,042

Depuis 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

Depuis 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Intervalle de confiance pour les coefficients de l’équation de régression.

Déterminons les intervalles de confiance des coefficients de régression, qui avec une fiabilité de 95 % seront les suivants :

  • (b - t critique S b ; b + t critique S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Puisque le point 0 (zéro) se situe à l’intérieur de l’intervalle de confiance, l’estimation d’intervalle du coefficient b est statistiquement non significative.

  • (a - t critique S a ; a + t critique S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Avec une probabilité de 95 %, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.

Puisque le point 0 (zéro) se situe à l’intérieur de l’intervalle de confiance, l’estimation d’intervalle du coefficient a est statistiquement non significative.

2) Statistiques F. Critère de Fisher.

Le coefficient de détermination R2 est utilisé pour tester la significativité de l'équation de régression linéaire dans son ensemble.

Le test de la signification d'un modèle de régression est effectué à l'aide du test F de Fisher, dont la valeur calculée est le rapport de la variance de la série originale d'observations de l'indicateur étudié et de l'estimation non biaisée de la variance de la séquence résiduelle. pour ce modèle.

Si la valeur calculée avec k 1 =(m) et k 2 =(n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif.

où m est le nombre de facteurs dans le modèle.

La signification statistique de la régression linéaire appariée est évaluée à l'aide de l'algorithme suivant :

  • 1. Une hypothèse nulle est émise selon laquelle l'équation dans son ensemble est statistiquement non significative : H 0 : R 2 = 0 au niveau de signification b.
  • 2. Ensuite, déterminez la valeur réelle du critère F :

où m=1 pour la régression par paires.

3. La valeur tabulée est déterminée à partir des tableaux de distribution de Fisher pour un niveau de signification donné, en tenant compte du fait que le nombre de degrés de liberté pour la somme totale des carrés (variance plus grande) est de 1 et le nombre de degrés de liberté pour le résidu la somme des carrés (variance plus petite) dans la régression linéaire est n-2 .

Le tableau F est la valeur maximale possible du critère sous l'influence de facteurs aléatoires à des degrés de liberté et un niveau de signification b donnés. Niveau de signification b - la probabilité de rejeter l'hypothèse correcte, à condition qu'elle soit vraie. Habituellement, b est pris égal à 0,05 ou 0,01.

4. Si la valeur réelle du test F est inférieure à la valeur du tableau, alors ils disent qu'il n'y a aucune raison de rejeter l'hypothèse nulle.

Dans le cas contraire, l'hypothèse nulle est rejetée et, avec probabilité (1-b), l'hypothèse alternative sur la signification statistique de l'équation dans son ensemble est acceptée.

Valeur du tableau du critère avec degrés de liberté k 1 =1 et k 2 =30, tableau F = 4,17

Puisque la valeur réelle de F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

La relation entre le test F de Fisher et la statistique t de Student est exprimée par l'égalité :

Indicateurs de qualité des équations de régression.

Vérification de l'autocorrélation des résidus.

Une condition préalable importante pour construire un modèle de régression qualitative à l'aide des MCO est l'indépendance des valeurs des écarts aléatoires par rapport aux valeurs des écarts dans toutes les autres observations. Cela garantit qu'il n'y a aucune corrélation entre d'éventuels écarts et, en particulier, entre des écarts adjacents.

L'autocorrélation (corrélation en série) est définie comme la corrélation entre les indicateurs observés ordonnés dans le temps (séries temporelles) ou dans l'espace (séries croisées). L'autocorrélation des résidus (variances) est courante dans l'analyse de régression lors de l'utilisation de données de séries chronologiques et très rare lors de l'utilisation de données transversales.

Dans les problèmes économiques, l’autocorrélation positive est beaucoup plus courante que l’autocorrélation négative. Dans la plupart des cas, une autocorrélation positive est causée par l’influence directionnelle constante de certains facteurs non pris en compte dans le modèle.

Une autocorrélation négative signifie essentiellement qu’un écart positif est suivi d’un écart négatif et vice versa. Cette situation peut se produire si la même relation entre la demande de boissons gazeuses et le revenu est considérée selon les données saisonnières (hiver-été).

Parmi les principales raisons provoquant l'autocorrélation figurent les suivantes :

  • 1. Erreurs de spécification. La non-prise en compte d'une variable explicative importante dans le modèle ou un choix incorrect de la forme de dépendance conduit généralement à des écarts systémiques des points d'observation par rapport à la droite de régression, ce qui peut conduire à une autocorrélation.
  • 2. Inertie. De nombreux indicateurs économiques (inflation, chômage, PNB, etc.) présentent un certain caractère cyclique lié à l'ondulation de l'activité des entreprises. Par conséquent, le changement des indicateurs ne se produit pas instantanément, mais présente une certaine inertie.
  • 3. Effet toile d'araignée. Dans de nombreux domaines de production et autres, les indicateurs économiques réagissent aux changements des conditions économiques avec un retard (décalage temporel).
  • 4. Lissage des données. Souvent, les données sur une certaine période longue sont obtenues en faisant la moyenne des données sur les intervalles qui les constituent. Cela peut conduire à un certain lissage des fluctuations survenues au cours de la période considérée, ce qui peut provoquer une autocorrélation.

Les conséquences de l'autocorrélation sont similaires aux conséquences de l'hétéroscédasticité : les conclusions des statistiques t et F qui déterminent la signification du coefficient de régression et du coefficient de détermination sont probablement incorrectes.



Avez-vous aimé l'article? Partage avec tes amis!