À quel type de méthodes appartient l’analyse de régression ? Corrélation pour la régression multiple

L'analyse de régression et de corrélation sont des méthodes de recherche statistique. Ce sont les manières les plus courantes de montrer la dépendance d’un paramètre à une ou plusieurs variables indépendantes.

Ci-dessous, à l’aide d’exemples pratiques précis, nous examinerons ces deux analyses très populaires parmi les économistes. Nous donnerons également un exemple d'obtention de résultats en les combinant.

Analyse de régression dans Excel

Montre l'influence de certaines valeurs (indépendantes, indépendantes) sur la variable dépendante. Par exemple, dans quelle mesure le nombre de personnes économiquement actives dépend-il du nombre d'entreprises, des salaires et d'autres paramètres. Ou encore : comment les investissements étrangers, les prix de l’énergie, etc. affectent-ils le niveau du PIB.

Le résultat de l'analyse permet de mettre en évidence les priorités. Et sur la base des principaux facteurs, prévoir, planifier le développement des domaines prioritaires et prendre des décisions de gestion.

La régression se produit :

  • linéaire (y = a + bx) ;
  • parabolique (y = a + bx + cx 2) ;
  • exponentiel (y = a * exp(bx));
  • puissance (y = a*x^b) ;
  • hyperbolique (y = b/x + a);
  • logarithmique (y = b * 1n(x) + a);
  • exponentielle (y = a * b^x).

Examinons un exemple de création d'un modèle de régression dans Excel et d'interprétation des résultats. Prenons le type de régression linéaire.

Tâche. Dans 6 entreprises, le salaire mensuel moyen et le nombre de salariés qui quittent l'entreprise ont été analysés. Il est nécessaire de déterminer la dépendance du nombre de salariés qui quittent leur emploi par rapport au salaire moyen.

Le modèle de régression linéaire ressemble à ceci :

Y = une 0 + une 1 x 1 +…+une k x k.

Où a sont des coefficients de régression, x sont des variables d'influence, k est le nombre de facteurs.

Dans notre exemple, Y est l’indicateur de départ d’employés. Le facteur d'influence est le salaire (x).

Excel possède des fonctions intégrées qui peuvent vous aider à calculer les paramètres d'un modèle de régression linéaire. Mais le module complémentaire « Analysis Package » le fera plus rapidement.

Nous activons un outil analytique puissant :

Une fois activé, le module complémentaire sera disponible dans l'onglet Données.

Faisons maintenant l'analyse de régression elle-même.



Tout d’abord, nous prêtons attention au R carré et aux coefficients.

R-carré est le coefficient de détermination. Dans notre exemple – 0,755, ou 75,5 %. Cela signifie que les paramètres calculés du modèle expliquent 75,5% de la relation entre les paramètres étudiés. Plus le coefficient de détermination est élevé, meilleur est le modèle. Bon - supérieur à 0,8. Mauvais – moins de 0,5 (une telle analyse peut difficilement être considérée comme raisonnable). Dans notre exemple – « pas mal ».

Le coefficient 64,1428 montre ce que sera Y si toutes les variables du modèle considéré sont égales à 0. Autrement dit, la valeur du paramètre analysé est également influencée par d'autres facteurs non décrits dans le modèle.

Le coefficient -0,16285 montre le poids de la variable X sur Y. Autrement dit, le salaire mensuel moyen dans ce modèle affecte le nombre d'abandons avec un poids de -0,16285 (il s'agit d'un faible degré d'influence). Le signe « - » indique un impact négatif : plus le salaire est élevé, moins il y a de démissions. Ce qui est juste.



Analyse de corrélation dans Excel

L'analyse de corrélation permet de déterminer s'il existe une relation entre les indicateurs dans un ou deux échantillons. Par exemple, entre la durée de fonctionnement d'une machine et le coût des réparations, le prix du matériel et la durée de fonctionnement, la taille et le poids des enfants, etc.

S'il existe un lien, une augmentation d'un paramètre entraîne-t-elle une augmentation (corrélation positive) ou une diminution (négative) de l'autre. L'analyse de corrélation aide l'analyste à déterminer si la valeur d'un indicateur peut être utilisée pour prédire la valeur possible d'un autre.

Le coefficient de corrélation est noté r. Varie de +1 à -1. La classification des corrélations pour différents domaines sera différente. Lorsque le coefficient est égal à 0, il n’existe pas de relation linéaire entre les échantillons.

Voyons comment trouver le coefficient de corrélation à l'aide d'Excel.

Pour trouver des coefficients appariés, la fonction CORREL est utilisée.

Objectif : Déterminer s'il existe une relation entre la durée de fonctionnement d'un tour et le coût de son entretien.

Placez le curseur dans n'importe quelle cellule et appuyez sur le bouton fx.

  1. Dans la catégorie « Statistique », sélectionnez la fonction CORREL.
  2. Argument « Tableau 1 » - la première plage de valeurs – temps de fonctionnement de la machine : A2 : A14.
  3. Argument « Tableau 2 » - deuxième plage de valeurs – coût de réparation : B2:B14. Cliquez sur OK.

Pour déterminer le type de connexion, il faut regarder le nombre absolu du coefficient (chaque domaine d'activité a son propre barème).

Pour l'analyse de corrélation de plusieurs paramètres (plus de 2), il est plus pratique d'utiliser « Data Analysis » (le module complémentaire « Analysis Package »). Vous devez sélectionner la corrélation dans la liste et désigner le tableau. Tous.

Les coefficients résultants seront affichés dans la matrice de corrélation. Comme ça:

Analyse de corrélation et de régression

En pratique, ces deux techniques sont souvent utilisées ensemble.

Exemple:


Désormais, les données de l'analyse de régression sont devenues visibles.

Au cours de leurs études, les étudiants sont très souvent confrontés à des équations diverses. L'une d'elles - l'équation de régression - est abordée dans cet article. Ce type d'équation est utilisé spécifiquement pour décrire les caractéristiques de la relation entre des paramètres mathématiques. Ce type d'égalité est utilisé en statistique et en économétrie.

Définition de la régression

En mathématiques, la régression désigne une certaine quantité qui décrit la dépendance de la valeur moyenne d'un ensemble de données sur les valeurs d'une autre quantité. L'équation de régression montre, en fonction d'une caractéristique particulière, la valeur moyenne d'une autre caractéristique. La fonction de régression a la forme d'une équation simple y = x, dans laquelle y agit comme une variable dépendante et x comme une variable indépendante (facteur caractéristique). En fait, la régression s'exprime sous la forme y = f (x).

Quels sont les types de relations entre les variables ?

En général, il existe deux types de relations opposées : la corrélation et la régression.

Le premier est caractérisé par l'égalité des variables conditionnelles. Dans ce cas, on ne sait pas de manière fiable quelle variable dépend de l’autre.

S'il n'y a pas d'égalité entre les variables et que les conditions disent quelle variable est explicative et laquelle est dépendante, alors on peut parler de la présence d'une connexion du deuxième type. Afin de construire une équation de régression linéaire, il sera nécessaire de déterminer quel type de relation est observé.

Types de régressions

Aujourd'hui, il existe 7 types différents de régression : hyperbolique, linéaire, multiple, non linéaire, par paire, inverse, logarithmiquement linéaire.

Hyperbolique, linéaire et logarithmique

L'équation de régression linéaire est utilisée en statistique pour expliquer clairement les paramètres de l'équation. Cela ressemble à y = c+t*x+E. Une équation hyperbolique a la forme d'une hyperbole régulière y = c + m / x + E. Une équation logarithmiquement linéaire exprime la relation à l'aide d'une fonction logarithmique : In y = In c + m * In x + In E.

Multiple et non linéaire

Les deux types de régression les plus complexes sont multiples et non linéaires. L'équation de régression multiple est exprimée par la fonction y = f(x 1, x 2 ... x c) + E. Dans cette situation, y agit comme une variable dépendante et x agit comme une variable explicative. La variable E est stochastique ; elle inclut l'influence d'autres facteurs dans l'équation. L'équation de régression non linéaire est un peu controversée. D’une part, par rapport aux indicateurs pris en compte, elle n’est pas linéaire, mais d’autre part, dans le rôle d’évaluation des indicateurs, elle est linéaire.

Types de régressions inverses et appariées

Un inverse est un type de fonction qui doit être converti en une forme linéaire. Dans les programmes d'application les plus classiques, il se présente sous la forme d'une fonction y = 1/c + m*x+E. Une équation de régression par paires montre la relation entre les données en fonction de y = f (x) + E. Tout comme dans d'autres équations, y dépend de x et E est un paramètre stochastique.

Concept de corrélation

Il s'agit d'un indicateur démontrant l'existence d'une relation entre deux phénomènes ou processus. La force de la relation est exprimée sous forme de coefficient de corrélation. Sa valeur fluctue dans l'intervalle [-1;+1]. Un indicateur négatif indique la présence d'un feedback, un indicateur positif indique un feedback direct. Si le coefficient prend une valeur égale à 0, alors il n’y a pas de relation. Plus la valeur est proche de 1, plus la relation entre les paramètres est forte ; plus elle est proche de 0, plus elle est faible.

Méthodes

Les méthodes paramétriques de corrélation peuvent évaluer la force de la relation. Ils sont utilisés sur la base de l'estimation de la distribution pour étudier des paramètres qui obéissent à la loi de la distribution normale.

Les paramètres de l'équation de régression linéaire sont nécessaires pour identifier le type de dépendance, la fonction de l'équation de régression et évaluer les indicateurs de la formule de relation sélectionnée. Le champ de corrélation est utilisé comme méthode d'identification de connexion. Pour ce faire, toutes les données existantes doivent être représentées graphiquement. Toutes les données connues doivent être tracées dans un système de coordonnées rectangulaires bidimensionnelles. Cela crée un champ de corrélation. Les valeurs du facteur descriptif sont marquées le long de l'axe des abscisses, tandis que les valeurs du facteur dépendant sont marquées le long de l'axe des ordonnées. S'il existe une relation fonctionnelle entre les paramètres, ils sont alignés sous la forme d'une ligne.

Si le coefficient de corrélation de telles données est inférieur à 30 %, on peut parler d'une absence quasi totale de connexion. S'il est compris entre 30 % et 70 %, cela indique la présence de connexions moyennement étroites. Un indicateur de 100 % témoigne d'une connexion fonctionnelle.

Une équation de régression non linéaire, tout comme une équation linéaire, doit être complétée par un indice de corrélation (R).

Corrélation pour la régression multiple

Le coefficient de détermination est une mesure du carré de corrélation multiple. Il parle de la relation étroite entre l'ensemble d'indicateurs présenté et la caractéristique étudiée. Il peut également parler de la nature de l'influence des paramètres sur le résultat. L'équation de régression multiple est estimée à l'aide de cet indicateur.

Afin de calculer l'indicateur de corrélation multiple, il est nécessaire de calculer son indice.

Méthode des moindres carrés

Cette méthode est un moyen d'estimer les facteurs de régression. Son essence est de minimiser la somme des écarts au carré obtenus en raison de la dépendance du facteur à l'égard de la fonction.

Une équation de régression linéaire par paire peut être estimée à l'aide d'une telle méthode. Ce type d'équation est utilisé lorsqu'une relation linéaire appariée est détectée entre les indicateurs.

Paramètres d'équation

Chaque paramètre de la fonction de régression linéaire a une signification spécifique. L'équation de régression linéaire appariée contient deux paramètres : c et m. Le paramètre m démontre la variation moyenne de l'indicateur final de la fonction y, à condition que la variable x diminue (augmente) d'une unité conventionnelle. Si la variable x est nulle, alors la fonction est égale au paramètre c. Si la variable x n'est pas nulle, alors le facteur c n'a pas de signification économique. La seule influence sur la fonction est le signe devant le facteur c. S'il y a un moins, alors on peut dire que l'évolution du résultat est lente par rapport au facteur. S'il y a un plus, cela indique un changement accéléré du résultat.

Chaque paramètre qui modifie la valeur de l'équation de régression peut être exprimé par une équation. Par exemple, le facteur c a la forme c = y - mx.

Données groupées

Il existe des conditions de tâche dans lesquelles toutes les informations sont regroupées par attribut x, mais pour un certain groupe, les valeurs moyennes correspondantes de l'indicateur dépendant sont indiquées. Dans ce cas, les valeurs moyennes caractérisent la façon dont l'indicateur en fonction de x évolue. Ainsi, les informations groupées permettent de trouver l'équation de régression. Il est utilisé comme analyse des relations. Cependant, cette méthode présente des inconvénients. Malheureusement, les indicateurs moyens sont souvent soumis à des fluctuations externes. Ces fluctuations ne reflètent pas le modèle de la relation ; elles masquent simplement son « bruit ». Les moyennes montrent des schémas de relations bien pires qu’une équation de régression linéaire. Cependant, ils peuvent servir de base pour trouver une équation. En multipliant le nombre d'une population individuelle par la moyenne correspondante, on peut obtenir la somme y au sein du groupe. Ensuite, vous devez additionner tous les montants reçus et trouver l'indicateur final y. Il est un peu plus difficile de faire des calculs avec l'indicateur somme xy. Si les intervalles sont petits, nous pouvons conditionnellement considérer que l'indicateur x pour toutes les unités (au sein du groupe) est le même. Vous devez le multiplier par la somme de y pour connaître la somme des produits de x et y. Ensuite, tous les montants sont additionnés et le montant total xy est obtenu.

Équation de régression multiple par paires : évaluer l'importance d'une relation

Comme indiqué précédemment, la régression multiple a une fonction de la forme y = f (x 1,x 2,…,x m)+E. Le plus souvent, une telle équation est utilisée pour résoudre le problème de l'offre et de la demande d'un produit, des revenus d'intérêts sur les actions rachetées et pour étudier les causes et le type de fonction de coût de production. Elle est également activement utilisée dans une grande variété d'études et de calculs macroéconomiques, mais au niveau microéconomique, cette équation est un peu moins fréquemment utilisée.

La tâche principale de la régression multiple est de construire un modèle de données contenant une énorme quantité d'informations afin de déterminer plus en détail quelle influence chacun des facteurs individuellement et dans leur totalité a sur l'indicateur à modéliser et ses coefficients. L'équation de régression peut prendre une grande variété de valeurs. Dans ce cas, pour évaluer la relation, deux types de fonctions sont généralement utilisées : linéaires et non linéaires.

La fonction linéaire est représentée sous la forme de la relation suivante : y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Dans ce cas, a2, a m sont considérés comme des coefficients de régression « purs ». Ils sont nécessaires pour caractériser la variation moyenne du paramètre y avec une variation (diminution ou augmentation) de chaque paramètre x correspondant d'une unité, sous réserve de valeurs stables des autres indicateurs.

Les équations non linéaires ont, par exemple, la forme d'une fonction puissance y=ax 1 b1 x 2 b2 ...x m bm. Dans ce cas, les indicateurs b 1, b 2 ..... b m sont appelés coefficients d'élasticité, ils démontrent comment le résultat va changer (de combien %) avec une augmentation (diminution) de l'indicateur x correspondant de 1 % et avec un indicateur stable d’autres facteurs.

Quels facteurs doivent être pris en compte lors de la construction d'une régression multiple

Afin de construire correctement une régression multiple, il est nécessaire de déterminer à quels facteurs doivent faire l'objet d'une attention particulière.

Il est nécessaire de bien comprendre la nature des relations entre les facteurs économiques et ce qui est modélisé. Les facteurs qui devront être inclus doivent répondre aux critères suivants :

  • Doit faire l’objet d’une mesure quantitative. Afin d'utiliser un facteur décrivant la qualité d'un objet, il convient dans tous les cas de lui donner une forme quantitative.
  • Il ne devrait y avoir aucune intercorrélation de facteurs ni relation fonctionnelle. De telles actions entraînent le plus souvent des conséquences irréversibles - le système d'équations ordinaires devient inconditionnel, ce qui entraîne son manque de fiabilité et ses estimations peu claires.
  • Dans le cas d'un énorme indicateur de corrélation, il n'existe aucun moyen de connaître l'influence isolée des facteurs sur le résultat final de l'indicateur. Les coefficients deviennent donc ininterprétables.

Méthodes de construction

Il existe un grand nombre de méthodes et de méthodes qui expliquent comment sélectionner des facteurs pour une équation. Cependant, toutes ces méthodes reposent sur la sélection de coefficients à l'aide d'un indicateur de corrélation. Parmi eux figurent :

  • Méthode d'élimination.
  • Méthode de commutation.
  • Analyse de régression pas à pas.

La première méthode consiste à filtrer tous les coefficients de l'ensemble total. La deuxième méthode consiste à introduire de nombreux facteurs supplémentaires. Eh bien, la troisième est l’élimination des facteurs qui étaient auparavant utilisés pour l’équation. Chacune de ces méthodes a le droit d’exister. Ils ont leurs avantages et leurs inconvénients, mais ils peuvent tous résoudre à leur manière le problème de l'élimination des indicateurs inutiles. En règle générale, les résultats obtenus par chaque méthode sont assez proches.

Méthodes d'analyse multivariée

Ces méthodes de détermination des facteurs reposent sur la prise en compte de combinaisons individuelles de caractéristiques interdépendantes. Celles-ci incluent l'analyse discriminante, la reconnaissance de forme, l'analyse en composantes principales et l'analyse groupée. De plus, il existe également une analyse factorielle, mais elle est apparue grâce au développement de la méthode des composants. Tous s’appliquent dans certaines circonstances, sous réserve de certaines conditions et facteurs.

Une fois que l'analyse de corrélation a révélé la présence de relations statistiques entre les variables et évalué leur degré de proximité, nous passons généralement à une description mathématique d'un type spécifique de dépendance à l'aide d'une analyse de régression. A cet effet, une classe de fonctions est sélectionnée qui relie l'indicateur résultant y et les arguments x 1, x 2, ..., x k, les arguments les plus informatifs sont sélectionnés, des estimations des valeurs inconnues des paramètres du l'équation de communication est calculée et les propriétés de l'équation résultante sont analysées.

La fonction f(x 1, x 2,..., x k) décrivant la dépendance de la valeur moyenne de la caractéristique résultante y sur les valeurs données des arguments est appelée fonction de régression (équation). Le terme « régression » (du latin -régression - retraite, retour à quelque chose) a été introduit par le psychologue et anthropologue anglais F. Galton et est associé exclusivement aux spécificités de l'un des premiers exemples concrets dans lesquels ce concept a été utilisé. Ainsi, en traitant des données statistiques dans le cadre de l'analyse de l'hérédité de la taille, F. Galton a découvert que si les pères s'écartent de la taille moyenne de tous les pères de x pouces, alors leurs fils s'écartent de la taille moyenne de tous les fils de moins de x. pouces. La tendance identifiée a été appelée « régression vers la moyenne ». Depuis lors, le terme « régression » a été largement utilisé dans la littérature statistique, même si dans de nombreux cas il ne caractérise pas avec précision le concept de dépendance statistique.

Pour décrire avec précision l'équation de régression, il est nécessaire de connaître la loi de distribution de l'indicateur effectif y. Dans la pratique statistique, il faut généralement se limiter à la recherche d'approximations appropriées pour la vraie fonction de régression inconnue, car le chercheur n'a pas de connaissance exacte de la loi de distribution de probabilité conditionnelle de l'indicateur résultant analysé y pour des valeurs données de argument x.

Considérons la relation entre vrai f(x) = M(y1x), régression du modèle ? et estimation de régression y. Supposons que l'indicateur effectif y soit lié à l'argument x par la relation :

où est une variable aléatoire qui a une loi de distribution normale, et Me = 0 et D e = y 2. La vraie fonction de régression dans ce cas a la forme : f (x) = M(y/x) = 2x 1,5.

Supposons que nous ne connaissons pas la forme exacte de la véritable équation de régression, mais que nous disposons de neuf observations d'une variable aléatoire bidimensionnelle liées par la relation yi = 2x1,5 + e, et présentées dans la Fig. 1

Figure 1 - La position relative de la vérité f(x) et de la théorique ? modèles de régression

Localisation des points sur la Fig. 1 permet de se limiter à la classe des dépendances linéaires de la forme ? = en 0 + en 1 x. En utilisant la méthode des moindres carrés, nous trouvons l'estimation de l'équation de régression y = b 0 + b 1 x. A titre de comparaison, sur la Fig. 1 montre des graphiques de la véritable fonction de régression y = 2x 1,5, la fonction de régression théorique approximative ? = en 0 + en 1 x .

Puisque nous avons commis une erreur dans le choix de la classe de la fonction de régression, ce qui est assez courant dans la pratique de la recherche statistique, nos conclusions et estimations statistiques s'avéreront erronées. Et peu importe à quel point nous augmentons le nombre d’observations, notre estimation d’échantillon y ne sera pas proche de la véritable fonction de régression f(x). Si nous avions choisi correctement la classe des fonctions de régression, alors l'inexactitude dans la description de f(x) en utilisant ? ne pouvait s’expliquer que par les limites de l’échantillon.

Afin de restituer au mieux, à partir des données statistiques originales, la valeur conditionnelle de l'indicateur effectif y(x) et de la fonction de régression inconnue f(x) = M(y/x), les critères d'adéquation suivants (fonctions de perte) sont les plus appropriés souvent utilisé.

Méthode des moindres carrés. Selon lui, le carré de l'écart des valeurs observées de l'indicateur effectif y, (i = 1,2,..., n) par rapport aux valeurs du modèle, ? = f(x i), où x i est la valeur du vecteur d'argument dans la i-ième observation : ?(y i - f(x i) 2 > min. La régression résultante est appelée carré moyen.

Méthode des plus petits modules. Selon lui, la somme des écarts absolus des valeurs observées de l'indicateur effectif par rapport aux valeurs modulaires est minimisée. Et nous obtenons ? = f(x i), régression médiane absolue moyenne ? |y je - f(x je)| >min.

L'analyse de régression est une méthode d'analyse statistique de la dépendance d'une variable aléatoire y à l'égard des variables x j = (j=1,2,..., k), considérées dans l'analyse de régression comme des variables non aléatoires, quelle que soit la véritable loi de distribution de xj.

On suppose généralement qu'une variable aléatoire y a une loi de distribution normale avec une espérance mathématique conditionnelle y, qui est fonction des arguments x/ (/ = 1, 2,..., k) et d'une variance constante y 2 indépendante des arguments.

En général, le modèle d'analyse de régression linéaire a la forme :

Oui = Oui k j=0 V j ts j(x 1 , x 2 . . .. ,x k)+E

où q j est une fonction de ses variables - x 1, x 2. . .. ,x k, E est une variable aléatoire d'espérance mathématique et de variance y 2 nulles.

En analyse de régression, le type d'équation de régression est choisi en fonction de la nature physique du phénomène étudié et des résultats de l'observation.

Les estimations des paramètres inconnus de l'équation de régression sont généralement obtenues à l'aide de la méthode des moindres carrés. Ci-dessous, nous nous attarderons sur ce problème plus en détail.

Équation de régression linéaire bivariée. Supposons, à partir de l'analyse du phénomène étudié, qu'en « moyenne » y soit une fonction linéaire de x, c'est-à-dire qu'il existe une équation de régression

y=M(y/x)=en 0 + en 1 x)

où M(y1x) est l'espérance mathématique conditionnelle de la variable aléatoire y pour un x donné ; à 0 et à 1 - paramètres inconnus de la population générale, qui doivent être estimés sur la base des résultats d'observations d'échantillons.

Supposons que pour estimer les paramètres à 0 et à 1, un échantillon de taille n est prélevé dans une population bidimensionnelle (x, y), où (x, y,) est le résultat de la i-ème observation (i = 1 , 2,..., n) . Dans ce cas, le modèle d'analyse de régression a la forme :

y j = en 0 + en 1 x+e j .

où e j sont des variables aléatoires indépendantes normalement distribuées avec une espérance mathématique et une variance nulles y 2, c'est-à-dire M e j. = 0 ;

D e j .= y 2 pour tout i = 1, 2,..., n.

Selon la méthode des moindres carrés, comme estimations des paramètres inconnus à 0 et à 1, il convient de prendre de telles valeurs des caractéristiques de l'échantillon b 0 et b 1 qui minimisent la somme des écarts carrés des valeurs de la résultante caractéristique pour i à partir de l'espérance mathématique conditionnelle ? je

Nous examinerons la méthodologie permettant de déterminer l'influence des caractéristiques de marketing sur le profit d'une entreprise en utilisant l'exemple de dix-sept entreprises typiques avec des tailles et des indicateurs d'activité économique moyens.

Lors de la résolution du problème, les caractéristiques suivantes ont été prises en compte, identifiées comme les plus significatives (importantes) à la suite de l'enquête par questionnaire :

* activité innovante de l'entreprise ;

* planifier la gamme de produits fabriqués ;

* formation de la politique tarifaire ;

* relations publiques;

* système de vente ;

* système d'incitation des employés.

Sur la base d'un système de comparaisons par facteurs, des matrices carrées de contiguïté ont été construites, dans lesquelles les valeurs des priorités relatives ont été calculées pour chaque facteur : activité innovante de l'entreprise, planification de la gamme de produits, formation de la politique tarifaire, publicité , relations publiques, système de vente, système d'incitation des employés.

Les estimations des priorités pour le facteur « relation avec le public » ont été obtenues à la suite d'une enquête auprès de spécialistes des entreprises. Les notations suivantes sont acceptées : > (meilleur), > (meilleur ou pareil), = (identique),< (хуже или одинаково), <

Ensuite, le problème d’une évaluation globale du niveau de commercialisation de l’entreprise a été résolu. Lors du calcul de l'indicateur, la signification (poids) des caractéristiques partielles considérées a été déterminée et le problème de la convolution linéaire des indicateurs partiels a été résolu. Le traitement des données a été effectué à l'aide de programmes spécialement développés.

Ensuite, une évaluation complète du niveau de commercialisation de l'entreprise est calculée - le coefficient de commercialisation, qui est inscrit dans le tableau 1. De plus, le tableau comprend des indicateurs caractérisant l'entreprise dans son ensemble. Les données du tableau seront utilisées pour effectuer une analyse de régression. L’attribut qui en résulte est le profit. Outre le coefficient de commercialisation, les indicateurs suivants ont été utilisés comme indicateurs factoriels : le volume de la production brute, le coût des immobilisations, le nombre d'employés et le coefficient de spécialisation.

Tableau 1 - Données initiales pour l'analyse de régression


Selon les données du tableau et sur la base des facteurs avec les valeurs les plus significatives des coefficients de corrélation, des fonctions de régression de la dépendance du profit aux facteurs ont été construites.

L'équation de régression dans notre cas prendra la forme :

L'influence quantitative des facteurs évoqués ci-dessus sur le montant du profit est indiquée par les coefficients de l'équation de régression. Ils montrent combien de milliers de roubles sa valeur change lorsque la caractéristique du facteur change d'une unité. Comme il ressort de l'équation, une augmentation du coefficient du marketing mix d'une unité donne une augmentation du bénéfice de 1 547,7 milliers de roubles. Cela suggère que l’amélioration des activités de marketing présente un énorme potentiel d’amélioration des performances économiques des entreprises.

Lors de l'étude de l'efficacité du marketing, le facteur le plus intéressant et le plus important est le facteur X5 - le coefficient marketing. Conformément à la théorie des statistiques, l'avantage de l'équation de régression multiple existante est la possibilité d'évaluer l'influence isolée de chaque facteur, y compris le facteur marketing.

Les résultats de l'analyse de régression ont une application plus large que le calcul des paramètres de l'équation. Le critère de classement des entreprises (Kef) comme relativement meilleures ou relativement moins bonnes repose sur l'indicateur relatif du résultat :

où Y facti est la valeur réelle de la ième entreprise, en milliers de roubles ;

Y calculé - le montant du profit de la ième entreprise, obtenu par calcul à l'aide de l'équation de régression

En fonction du problème à résoudre, la valeur est appelée « coefficient d'efficacité ». L'activité d'une entreprise peut être considérée comme efficace dans les cas où la valeur du coefficient est supérieure à un. Cela signifie que le profit réel est supérieur au profit moyen sur l’échantillon.

Les valeurs des bénéfices réels et estimés sont présentées dans le tableau. 2.

Tableau 2 - Analyse de la caractéristique résultante dans le modèle de régression

L'analyse du tableau montre que dans notre cas, les activités des entreprises 3, 5, 7, 9, 12, 14, 15, 17 pour la période sous revue peuvent être considérées comme réussies.

L'analyse de régression est l'une des méthodes de recherche statistique les plus populaires. Il peut être utilisé pour établir le degré d’influence des variables indépendantes sur la variable dépendante. Microsoft Excel dispose d'outils conçus pour effectuer ce type d'analyse. Voyons ce qu'ils sont et comment les utiliser.

Mais, pour utiliser la fonction qui vous permet d'effectuer une analyse de régression, vous devez d'abord activer le package d'analyse. Ce n'est qu'alors que les outils nécessaires à cette procédure apparaîtront sur le ruban Excel.


Maintenant, quand nous allons à l'onglet "Données", sur le ruban dans la boîte à outils "Analyse" nous verrons un nouveau bouton - "Analyse des données".

Types d'analyse de régression

Il existe plusieurs types de régressions :

  • parabolique;
  • calme;
  • logarithmique;
  • exponentiel;
  • démonstratif;
  • hyperbolique;
  • régression linéaire.

Nous parlerons plus en détail de l’exécution du dernier type d’analyse de régression dans Excel plus tard.

Régression linéaire dans Excel

Ci-dessous, à titre d'exemple, un tableau indiquant la température quotidienne moyenne de l'air extérieur et le nombre de clients du magasin pour la journée de travail correspondante. Découvrons, à l'aide de l'analyse de régression, comment les conditions météorologiques, sous forme de température de l'air, peuvent affecter la fréquentation d'un établissement de vente au détail.

L'équation générale de régression linéaire est la suivante : Y = a0 + a1x1 +...+akhk. Dans cette formule Oui désigne une variable, l'influence des facteurs sur lesquels nous essayons d'étudier. Dans notre cas, il s'agit du nombre d'acheteurs. Signification x sont les différents facteurs qui influencent une variable. Possibilités un sont des coefficients de régression. Autrement dit, ce sont eux qui déterminent l’importance d’un facteur particulier. Indice k désigne le nombre total de ces mêmes facteurs.


Analyse des résultats de l'analyse

Les résultats de l'analyse de régression sont affichés sous forme de tableau à l'endroit précisé dans les paramètres.

L’un des principaux indicateurs est Carré R. Il indique la qualité du modèle. Dans notre cas, ce coefficient est de 0,705 soit environ 70,5 %. Il s'agit d'un niveau de qualité acceptable. Une dépendance inférieure à 0,5 est mauvaise.

Un autre indicateur important est situé dans la cellule à l'intersection de la ligne « intersection en Y » et colonne "Chances". Cela indique quelle valeur Y aura, et dans notre cas, il s’agit du nombre d’acheteurs, tous les autres facteurs étant égaux à zéro. Dans ce tableau, cette valeur est 58,04.

Valeur à l'intersection du graphique "Variable X1" Et "Chances" montre le niveau de dépendance de Y vis-à-vis de X. Dans notre cas, il s'agit du niveau de dépendance du nombre de clients du magasin à la température. Un coefficient de 1,31 est considéré comme un indicateur d'influence assez élevé.

Comme vous pouvez le constater, à l'aide de Microsoft Excel, il est assez simple de créer un tableau d'analyse de régression. Mais seule une personne formée peut travailler avec les données de sortie et en comprendre l'essence.

Dans ses œuvres datant de 1908. Il l'a décrit en utilisant l'exemple du travail d'un agent vendant des biens immobiliers. Dans ses dossiers, le spécialiste des ventes de maisons a conservé une large gamme de données d'entrée pour chaque bâtiment spécifique. Sur la base des résultats de l'enchère, il a été déterminé quel facteur avait la plus grande influence sur le prix de la transaction.

L'analyse d'un grand nombre de transactions a donné des résultats intéressants. Le prix final a été influencé par de nombreux facteurs, conduisant parfois à des conclusions paradoxales, voire à des « valeurs aberrantes » évidentes lorsqu'une maison au potentiel initial élevé était vendue à un prix réduit.

Le deuxième exemple d'application d'une telle analyse est celui dont les travaux ont été confiés à la détermination de la rémunération des salariés. La complexité de la tâche résidait dans le fait qu'elle exigeait non pas la distribution d'un montant fixe à chacun, mais sa stricte correspondance avec le travail spécifique effectué. L'émergence de nombreux problèmes avec des solutions pratiquement similaires a nécessité une étude plus détaillée de ceux-ci au niveau mathématique.

Une place importante a été accordée à la section « analyse de régression », qui regroupait des méthodes pratiques utilisées pour étudier les dépendances relevant de la notion de régression. Ces relations sont observées entre les données obtenues à partir d'études statistiques.

Parmi les nombreuses tâches à résoudre, les objectifs principaux sont au nombre de trois : détermination d'une équation de régression générale ; construire des estimations de paramètres inconnus qui font partie de l'équation de régression ; test des hypothèses de régression statistique. Au cours de l'étude de la relation qui naît entre un couple de grandeurs obtenues à la suite d'observations expérimentales et constituant une série (ensemble) du type (x1, y1), ..., (xn, yn), ils s'appuient sur les dispositions de la théorie de la régression et supposent que pour une quantité Y, il existe une certaine distribution de probabilité, tandis que l'autre X reste fixe.

Le résultat Y dépend de la valeur de la variable X ; cette dépendance peut être déterminée par divers modèles, tandis que la précision des résultats obtenus est influencée par la nature des observations et le but de l'analyse. Le modèle expérimental repose sur certaines hypothèses simplifiées mais plausibles. La condition principale est que le paramètre X soit une grandeur contrôlée. Ses valeurs sont fixées avant le début de l'expérimentation.

Si une paire de variables non contrôlées XY est utilisée au cours d'une expérience, une analyse de régression est effectuée de la même manière, mais des méthodes sont utilisées pour interpréter les résultats, au cours desquelles la relation entre les variables aléatoires étudiées est étudiée. Méthodes de statistiques mathématiques. ne sont pas un sujet abstrait. Ils trouvent une application dans la vie dans diverses sphères de l'activité humaine.

Dans la littérature scientifique, le terme analyse de régression linéaire est largement utilisé pour définir la méthode ci-dessus. Pour la variable X, le terme régresseur ou prédicteur est utilisé, et les variables Y dépendantes sont également appelées variables critères. Cette terminologie reflète uniquement la dépendance mathématique des variables, mais pas la relation de cause à effet.

L'analyse de régression est la méthode la plus couramment utilisée pour traiter les résultats d'une grande variété d'observations. Les dépendances physiques et biologiques sont étudiées selon cette méthode ; elle est mise en œuvre aussi bien en économie qu'en technologie. De nombreux autres domaines utilisent des modèles d'analyse de régression. L'analyse de variance et l'analyse statistique multivariée fonctionnent en étroite collaboration avec cette méthode d'étude.



Avez-vous aimé l'article? Partagez avec vos amis !