Construction d'un champ de corrélation à partir des données du tableau. Analyse de corrélation et de régression dans Excel : instructions d'exécution

Graphiquement, la relation entre deux caractéristiques est représentée à l'aide du champ de corrélation. Dans le système de coordonnées, les valeurs de la caractéristique factorielle sont tracées sur l'axe des abscisses et la caractéristique résultante est tracée sur l'axe des ordonnées. Chaque intersection de lignes passant par ces axes est indiquée par un point. En l'absence de connexions étroites, il existe une disposition aléatoire des points sur le graphique (Fig. 11.1).  


Représentons graphiquement la dépendance résultante avec des points sur le plan de coordonnées (Fig. 3.1). Une telle image d’une dépendance statistique est appelée champ de corrélation.  

Construisez un champ de corrélation et formulez une hypothèse sur la forme de la connexion.  

Lorsqu'on étudie la relation entre deux caractéristiques, la méthode graphique de sélection du type d'équation de régression est assez claire. Il est basé sur le champ de corrélation. Les principaux types de courbes utilisés dans l'évaluation quantitative des connexions sont présentés dans la Fig. 2.1.  

Étant donné que tous les points du champ de corrélation ne se trouvent pas sur la droite de régression, leur dispersion se produit toujours, à la fois en raison de l'influence du facteur x, c'est-à-dire de la régression de y sur x, et pour d'autres raisons (variation inexpliquée). L’adéquation d’une droite de régression pour la prédiction dépend de la part de la variation totale du trait y expliquée par la variation expliquée. Évidemment, si la somme des carrés des écarts dus à la régression est supérieure à la somme résiduelle des carrés, alors l'équation de régression est statistiquement significative et le facteur x a un impact significatif sur le résultat. Cela équivaut au fait que le coefficient de détermination r2 se rapprochera de l'unité.  

En conséquence, pour la dépendance montrée dans les champs de corrélation de la Fig. 3.5 b) et c), l'hétéroscédasticité des résidus est présentée sur la Fig. 3.9 et 3.10.  

Si les quantités sont indépendantes, alors le « champ de corrélation » ou pa-  

Si le champ de corrélation peut être approximé par une ligne droite, appelée ligne de régression, procédez alors au calcul du coefficient de corrélation de paire r. Ses valeurs numériques sont dans l'intervalle [-1, 1]. Si r est égal à 1 ou -1, alors il existe une relation fonctionnelle de rétroaction ou de rétroaction. Lorsque r est proche de zéro, il n’y a aucun lien entre les phénomènes, et lorsque r vaut 0,7, le lien est considéré comme significatif. Le coefficient de corrélation est calculé à l'aide de la formule  

Après avoir identifié les groupes de parcs ferroviaires mentionnés ci-dessus, une autre méthode approximative d'analyse préliminaire de l'homogénéité de la population pour chaque groupe de parcs ferroviaires a été utilisée - la construction de champs de corrélation pour chacun des facteurs inclus dans l'étude avec le coût du transport. Le principal signe d'homogénéité ou d'hétérogénéité des populations sélectionnées était l'absence ou la présence de cassures et de sauts dans la localisation des points dans les champs de corrélation.  

Pour l’étude, tous les facteurs possibles ont été présélectionnés grâce à une analyse logique professionnelle, dont les données sur les changements pour les entreprises sont disponibles dans les rapports du ministère. Ces facteurs doivent être pris en compte le volume total de transport, la productivité moyenne des voitures et des locomotives du parc en activité, l'intensité du fret, l'intensité capitalistique d'une unité de transport et la productivité du travail, etc. (11 facteurs au total). Ainsi, 44 champs de corrélation ont été construits pour quatre groupes d'entreprises.  

Après avoir déterminé les quantités indiquées, une équation de dépendance par paire est obtenue, dont la représentation graphique dans les axes de coordonnées est appelée ligne de régression théorique. Si l’on trace toutes les mesures sur un tel champ, et pas seulement la droite de régression théorique, alors on obtient un champ de corrélation.  

Nous systématisons le matériel source dans le champ de corrélation et dans le tableau de corrélation. Dans notre exemple, le facteur est le coût des machines Cm, et la fonction est le nombre annuel moyen de travailleurs R.  

À la suite de la décomposition en intervalles, l'ensemble du plan sur lequel les mesures sont tracées pour les deux caractéristiques k et y, appelé champ de corrélation, représentera des cellules, et chaque mesure n'est pas caractérisée par les valeurs exactes de ses coordonnées, mais uniquement par les valeurs de l'intervalle auquel il est affecté.  

Sur la fig. La figure 16 montre un champ de corrélation, sur lequel les intervalles pour les valeurs de l'argument Ci sont donnés le long de l'axe des abscisses, et les intervalles pour la valeur de la fonction P sont donnés le long de l'axe des ordonnées. Le champ de corrélation construit dans celui-ci. La voie est dite secondaire.  

Un champ de corrélation primaire peut également être construit pour sélectionner des intervalles. Tous les points de ce champ sont marqués en tenant compte des valeurs de leurs coordonnées. Les intervalles sont délimités en fonction de la densité des points.  

Parallèlement à la construction du champ de corrélation, comme indiqué ci-dessus, un tableau de corrélation est compilé dans lequel sont effectués tous les calculs liés à la détermination des moyennes, à la construction d'une droite de régression empirique et aux données initiales permettant de déterminer les paramètres dans un système d'équations normales.  

Dans le tableau 36 tout le matériel est distribué en intervalles. En l'utilisant, nous construisons un champ de corrélation secondaire, sur lequel nous traçons toutes les valeurs des variables, et déterminons les valeurs moyennes (/, //,..., pn sur des intervalles. En reliant les valeurs moyennes ​​dans chaque intervalle comportant des segments de droite, nous obtenons une droite de régression empirique (voir fig. 16).  

En reconstruisant la perpendiculaire à l'axe des x à partir du centre de chaque intervalle, on trace sur chacun d'eux les valeurs correspondantes pour les intervalles r/, = 1081, 1/2 = 1774, etc. On relie les points résultants avec chacun l'autre par des segments de droite. La ligne brisée qui en résulte est une droite de régression empirique de la relation entre le coût des machines Cm et le nombre de travailleurs R. Par analogie avec les calculs effectués, on peut construire des tables de corrélation et des champs de corrélation pour identifier la relation entre le nombre de travailleurs P , le volume de travail O, le nombre de structures préfabriquées en béton et en béton armé /Izh.b.  
Riz. 18. Tableau de corrélation et champ de corrélation secondaire entre le nombre d'ouvriers et le volume d'utilisation des structures préfabriquées en béton armé /info/5440">Les équations de régression appariée et de régression multiple dérivées ultérieurement sont applicables si les variables changent dans les limites suivantes : nombre de travailleurs - de 850 à 7850 personnes, coût des machines - de 0,15 à 3,15 millions de roubles. , le volume des structures préfabriquées est de 10 à 230 000 m et est tracé le long de l'axe vertical, et les valeurs indépendantes sont tracées le long de l'axe horizontal. Le champ de corrélation est utilisé pour déterminer la forme de la relation entre les variables. donne le premier au chercheur.  

La troisième prémisse de l'OLS exige que la variance des résidus soit homoscédastique. Cela signifie que pour chaque valeur du facteur Xj, les résidus e, - ont la même variance. Si cette condition d’utilisation des MCO n’est pas remplie, une hétéroscédasticité se produit. La présence d'hétéroscédasticité est clairement visible dans le champ de corrélation (Fig. 3.5).  

Un autre problème de recherche typique - l'évaluation des relations entre les phénomènes - est résolu à l'aide de l'appareil de théorie des corrélations, bien développé en statistique mathématique. Pour ce faire, il est nécessaire de disposer d'échantillons de phénomènes comparables représentés sur des cartes de sujets différents (par exemple, D et C). Les valeurs de a et b sont prises aux mêmes points i, c'est-à-dire strictement coordonné, puis tracez le champ de corrélation.  

Une représentation visuelle d'une table de corrélation est le champ de corrélation. Il s'agit d'un graphique où les valeurs X sont tracées sur l'axe des abscisses, les valeurs Y sont tracées sur l'axe des ordonnées et les combinaisons de X et Y sont représentées par des points. Par l'emplacement des points, on peut juger de la présence. d'une connexion.

Utilisation de la méthode graphique.

Cette méthode est utilisée pour représenter visuellement la forme de connexion entre les indicateurs économiques étudiés. Pour ce faire, un graphique est dessiné dans un système de coordonnées rectangulaires, les valeurs individuelles de la caractéristique résultante Y sont tracées le long de l'axe des ordonnées et les valeurs individuelles de la caractéristique factorielle X sont tracées le long de l'axe des abscisses.

L'ensemble des points des caractéristiques résultantes et factorielles est appelé champ de corrélation.

Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

L'équation de régression linéaire est y = bx + a + ε

Ici ε est une erreur aléatoire (déviation, perturbation).

Raisons de l'existence d'une erreur aléatoire :

1. Défaut d’inclure des variables explicatives significatives dans le modèle de régression ;

2. Agrégation de variables. Par exemple, la fonction de consommation totale est une tentative d’exprimer de manière générale l’ensemble des décisions de dépenses individuelles. Il ne s’agit ici que d’une approximation de relations individuelles ayant des paramètres différents.

3. Description incorrecte de la structure du modèle ;

4. Spécification fonctionnelle incorrecte ;

21. Analyse de corrélation et de régression.

L'analyse de corrélation-régression en tant que concept général comprend la mesure de l'étroitesse et de la direction d'une connexion et l'établissement d'une expression analytique (forme) de la connexion (analyse de régression).

Le but de l'analyse de régression est d'évaluer la dépendance fonctionnelle de la valeur moyenne conditionnelle de la caractéristique résultante (Y) sur les facteurs factoriels (x1, x2, ..., xk).

L'équation de régression, ou modèle statistique de la relation entre phénomènes socio-économiques, s'exprime par la fonction :

Yx = f(x1, x2, …, xn),

où « n » est le nombre de facteurs inclus dans le modèle ;

Хi – facteurs influençant le résultat Y.

Étapes d'analyse de corrélation et de régression :

Analyse préliminaire (a priori). Elle donne de bons résultats si elle est réalisée par un chercheur suffisamment qualifié.

Collecte d'informations et son traitement primaire.

Construire un modèle (équations de régression). En règle générale, cette procédure est effectuée sur un PC à l'aide de programmes standards.

Évaluer l'étroitesse des relations entre les caractéristiques, estimer l'équation de régression et analyser le modèle.

Prévoir l'évolution du système analysé à l'aide de l'équation de régression.

Dans un premier temps, le problème de recherche est formulé, la méthodologie de mesure des indicateurs ou de collecte d'informations est déterminée, le nombre de facteurs est déterminé et les facteurs en double ou liés dans un système rigidement déterminé sont éliminés.

Dans un deuxième temps, le volume d'unités est analysé : la population doit être suffisamment grande en nombre d'unités et d'observations (N>>50), le nombre de facteurs « n » doit correspondre au nombre d'observations « N ». Les données doivent être quantitativement et qualitativement homogènes.

Dans la troisième étape, la forme de la connexion et le type de fonction analytique (parabole, hyperbole, droite) sont déterminés et ses paramètres sont trouvés.

Lors de la quatrième étape, la fiabilité de toutes les caractéristiques de la relation de corrélation et de l'équation de régression est évaluée à l'aide du critère de fiabilité de Fisher ou de Student, et une analyse économique et technologique des paramètres est effectuée.

À la cinquième étape, les valeurs possibles du résultat sont prédites sur la base des meilleures valeurs des caractéristiques factorielles incluses dans le modèle. Ici, les meilleures et les pires valeurs des facteurs et le résultat sont sélectionnés.

22. Types d'équations de régression.

Pour décrire quantitativement les relations entre les variables économiques, les statistiques utilisent des méthodes de régression et de corrélation.

La régression est une quantité qui exprime la dépendance de la valeur moyenne d'une variable aléatoire y sur les valeurs d'une variable aléatoire x.

L'équation de régression exprime la valeur moyenne d'une caractéristique en fonction d'une autre.

La fonction de régression est un modèle de la forme y = l », où y est la variable dépendante (attribut résultat) ; x est une variable indépendante ou explicative (facteur caractéristique).

Ligne de régression - graphique de la fonction y = f (x).

2 types de relations entre x et y :

1) on ne sait pas laquelle des deux variables est indépendante et laquelle est dépendante, les variables sont égales, il s'agit d'une relation de type corrélation ;

2) si x et y sont inégaux et que l'un d'eux est considéré comme une variable explicative (indépendante) et l'autre comme une variable dépendante, alors il s'agit d'une relation de type régression.

Types de régressions :

1) hyperbolique - régression d'une hyperbole équilatérale : y = a + b / x + E ;

2) linéaire - régression utilisée en statistique sous la forme d'une interprétation économique claire de ses paramètres : y = a+b*x+E ;

3) logarithmiquement linéaire - régression de la forme : In y = In a + b * In x + In E

4) multiple - régression entre les variables y et x1, x2 ...xm, c'est-à-dire un modèle de la forme : y = f(x1, x2 ...xm)+E, où y est la variable dépendante (attribut résultat), x1 , x2 ...xm - variables explicatives indépendantes (caractéristiques-facteurs), E - perturbation ou variable stochastique, y compris l'influence de facteurs non pris en compte dans le modèle ;

5) non linéaire - régression non linéaire par rapport aux variables explicatives incluses dans l'analyse, mais linéaire par rapport aux paramètres estimés ; ou une régression non linéaire dans les paramètres estimés.

6) inverse - régression réduite à une forme linéaire, implémentée dans des packages d'applications standards de la forme : y = 1/a + b*x+E ;

    apparié - régression entre deux variables y et x, c'est-à-dire un modèle de la forme : y = f (x) + E, où y est la variable dépendante (attribut résultant), x est la variable indépendante et explicative (attribut - facteur) , E - perturbation ou variable stochastique, y compris l'influence de facteurs non pris en compte dans le modèle.

    Séries dynamiques et leurs types

Une série chronologique se compose toujours de 2 éléments : 1) un moment ou une période de temps par rapport auquel des données statistiques sont fournies, 2) un indicateur statistique appelé niveau de la série chronologique.

Selon le contenu de l'indicateur de temps, la série dynamique peut être un moment ou un intervalle

Selon le type d'indicateur statistique, les séries chronologiques sont divisées en séries de valeurs absolues, relatives et moyennes.

Valeurs absolues affichées avec précision

Les indicateurs relatifs montrent les changements dans les poids spécifiques de l'indicateur dans la population totale

Les valeurs moyennes contiennent l'évolution dans le temps de l'indicateur, qui est le niveau moyen du phénomène

    Indicateurs d'une série de dynamiques. Niveau moyen de la série dynamique.

Indicateurs : 1) niveau moyen des séries dynamiques, 2) croissance absolue, chaîne et base, croissance absolue moyenne, 3) croissance et taux de croissance, chaîne et base, croissance moyenne et taux d'incrément, 4) valeurs fmcjk.nyst 1 % augmenter

Dynamique moyenne

Caractéristiques généralisées d'un certain nombre de dynamiques, avec leur aide, l'intensité du développement d'un phénomène est comparée par rapport à différents objets, par exemple par pays, industrie, entreprise

Niveau moyen à l'heure actuelle ui. La méthode de calcul du niveau moyen dépend du type de série (instantané/intervalle) (à intervalles égaux/différents). Si une série d'intervalles de dynamiques de valeurs absolues ou moyennes avec des intervalles de temps égaux est donnée, alors pour calculer le niveau moyen, la formule de calcul de la valeur simple moyenne est utilisée. Si les intervalles de temps de la série d'intervalles sont inégaux, alors le niveau moyen est trouvé à l'aide de la moyenne arithmétique pondérée. Usr=smmUi*Ti/smmTi

25. Augmentation absolue(delta et) est la différence entre deux niveaux d'une série dynamique, qui montre à quel point un niveau donné d'une série dépasse le niveau pris comme base de comparaison. Deltau=Ui-U0

Delta u=Ui-Ui-1

Accélération absolue- la différence entre la croissance absolue pour une période donnée et la croissance absolue pour la période précédente de même durée : Delta et avec la droite = delta et - delta et -1. L'accélération absolue montre à quel point le taux de variation d'un indicateur a augmenté (diminué). L'indicateur d'accélération est utilisé pour les incréments absolus de la chaîne. Une valeur d'accélération négative indique un ralentissement de la croissance ou une accélération de la baisse des niveaux de série.

    Indicateurs de changements relatifs dans les niveaux d'une série de dynamiques.

Taux de croissance (taux de croissance)- c'est le rapport de deux niveaux comparés, qui montre combien de fois ce niveau dépasse le niveau de la période de base. Reflète l'intensité des changements dans les niveaux d'une série de dynamiques et montre combien de fois le niveau a augmenté par rapport au niveau de base, et en cas de diminution, quelle partie du niveau de base est le niveau comparé.

Formule de calcul du taux de croissance : par rapport à une base constante: K je .=y je /y 0 , par rapport à une base variable: K je .=y je /y je -1 .

Taux de croissance est le taux de croissance exprimé en pourcentage :

T r = À 100 %.

Les taux de croissance pour toute série chronologique sont des indicateurs d'intervalle, c'est-à-dire caractériser une période (intervalle) de temps particulière.

Taux d'augmentation- le montant relatif de la croissance, c'est-à-dire le rapport entre la croissance absolue et le niveau précédent ou de référence. Caractérise de quel pourcentage le niveau d'une période donnée est supérieur (ou inférieur) au niveau de base.

Taux d'augmentation- le rapport entre la croissance absolue et le niveau pris comme base de comparaison :

Tpr=Ui-U0/U0*100 %

Taux d'augmentation- la différence entre le taux de croissance (en pourcentage) et 100,

Résolution systématique de problèmes Lapygin Yuri Nikolaevich

7.3. Champ de corrélation

7.3. Champ de corrélation

La logique est une camisole de force du fantasme.

Helmar Nahr

Les graphiques sont généralement utilisés pour établir des relations entre deux variables.

Si les deux variables changent de manière synchrone, cela peut signifier qu’il existe des liens entre elles et qu’elles s’influencent mutuellement. Un exemple est la dynamique de croissance de la part des salaires dans la structure des coûts des produits et la dynamique de la productivité du travail. Les observations montrent que lorsque la première variable augmente, la seconde augmente également.

Même s'il convient de garder à l'esprit que même s'il existe un certain degré de synchronicité dans les changements de variables, cela ne signifie pas la présence inconditionnelle d'une relation de cause à effet entre elles (il existe peut-être une troisième variable qui provoque une telle effet).

Des exemples de champs de corrélation sont présentés dans la Fig. 7.2.

Une description du tracé est présentée ci-dessous.

1. Deux variables sont sélectionnées pour l'analyse : l'une indépendante, l'autre dépendante.

2. Pour chaque valeur de la variable indépendante, mesurez la valeur correspondante de la variable dépendante. Ces deux valeurs forment une paire de données qui est tracée sous forme de point sur le graphique. En règle générale, vous devez prendre au moins 30 points, mais pour créer un graphique significatif, le nombre de points doit être d'au moins 100.

3. La valeur de la variable indépendante caractérisant la cause attendue est tracée le long de l'axe X, et la valeur de la variable dépendante caractérisant le problème est le long de l'axe à.

4. Les paires de données résultantes sont tracées sous forme de points sur le graphique et le résultat est analysé. Si la corrélation n'apparaît pas dans le diagramme, vous pouvez essayer de construire un graphique sur une échelle logarithmique.

Extrait du livre Guerres de marketing par Rice Al

Extrait du livre Texte publicitaire. Méthodologie de compilation et de conception auteur Berdyshev Sergueï Nikolaïevitch

5.2. Champ onomastique A.V. Superanskaya, N.V. Podolskaya et d'autres linguistes ont tendance à identifier les classes suivantes d'objets nommés et les catégories onomastiques correspondantes qui sont significatives pour la dénomination et le commerce en général : noms de documents et de lois - documentonymes,

Extrait du livre Vous devez utiliser ceci auteur Slovtsova Irina

La sécurité réside-t-elle dans le nombre ? Pendant plusieurs années, j'ai travaillé dans la presse régionale et j'ai écrit sur les problèmes des collectivités locales. Je dois dire que l'appareil bureaucratique est tellement structuré, construit selon un schéma hiérarchique, imprègne toutes les sphères de notre vie, qu'une seule personne (même

Extrait du livre Ma vie dans la publicité par Claude Hopkins

Extrait du livre iPresentation. Leçons de persuasion du leader d’Apple, Steve Jobs par Gallo Carmine

"Champ de distorsion de la réalité" Sculley a été témoin de ce que le vice-président d'Apple, Bud Tribble, a décrit un jour comme un "champ de distorsion de la réalité" : la capacité de convaincre n'importe qui de presque tout. Beaucoup de gens ne peuvent pas résister à cette attraction magnétique et

Extrait du livre Gestion des expositions : stratégies de gestion et communications marketing auteur Filonenko Igor

9. Relations publiques sur le terrain d'exposition 9.1. Buts, objectifs, outils des relations publiques dans le domaine de l'exposition Au sens large, les relations publiques (ci-après - PR) sont définies comme « les efforts planifiés et mis en œuvre visant à établir et à maintenir la bonne volonté

Extrait du livre Le manager inspirant auteur Leary Joyce Judith

« Le Champ des Miracles » Personnellement, je pense que c'est une excellente perspective : je ne pouvais même pas rêver de mieux. En fait, c'est pourquoi j'ai écrit ce livre. Avez-vous vu le film « Field of Dreams » ? Là-bas, le personnage de Kevin Costner décide de construire sur sa plantation de maïs

Extrait du livre Agence de publicité : par où commencer, comment réussir auteur Golovanov Vassili Anatolievitch

"Dans le champ!" Dans ce chapitre, nous examinerons toutes les principales questions liées à l'étape principale du travail de négociation et de conclusion des contrats pour les services que vous allez vendre. Dans 80 % des cas, tous les entrepreneurs sont facilement disponibles pour les négociations - je le sais.

Extrait du livre Apple. Le phénomène de la foi auteur Vassiliev Youri Nikolaïevitch

Le champ de réalité altérée L'un des principaux développeurs du premier Mac, Andy Herzwild, a déclaré ce qui suit à propos de Steve Jobs : « Le champ de réalité altérée était un mélange étonnant de style oratoire charismatique, d'entêtement et de désir de déformer n'importe quel fait pour qu'il

Extrait du livre Étiquette. Un ensemble complet de règles pour la communication sociale et professionnelle. Comment se comporter dans des situations familières et inhabituelles auteur Tatiana Belousova

Extrait du livre Ce qui n'a pas tué la société LEGO, mais l'a rendue plus forte. Brique par brique par Bryn Bill

Extrait du livre Trois cercles de leadership auteur Alexandre Sudarkine

Il y a la sécurité dans le nombre. Impliquer un spécialiste RH dans le travail Il y a quelque temps, au milieu des années 2000, le thème « Les RH comme partenaire stratégique du manager » était activement débattu sur les forums des managers RH. Les différends ont cédé la place à des consensus temporaires, les invités à prendre la parole

Extrait du livre Lancement ! Démarrage rapide pour votre entreprise par Walker Jeff

Extrait du livre Le Gros Livre du Directeur de Magasin 2.0. Nouvelles technologies par Krok Gulfira

Extrait du livre Embrassez vos clients. Pratique de service exceptionnelle par Mitchell Jack

Extrait du livre Lignes directrices pour l'organisation du travail du service de presse diocésain auteur E Joukovskaya E

Partie théorique

Pour distinguer la direction d'influence d'une caractéristique sur une autre, les concepts de connexions positives et négatives ont été introduits.

Si avec une augmentation (diminution) d'un attribut, les valeurs d'un autre augmentent (diminuent) généralement, alors une telle corrélation est dite directe ou positive.

Si, avec une augmentation (diminution) d'une caractéristique, les valeurs d'une autre diminuent (augmentent) généralement, alors une telle corrélation est appelée inverse ou négative.

Champs de corrélation et leur utilisation dans l'analyse de corrélation préliminaire

Lorsqu'on se pose la question de la corrélation entre deux caractéristiques statistiques X et Y, une expérimentation est réalisée avec enregistrement parallèle de leurs valeurs.

Exemple -
Nous appellerons le champ de corrélation la zone de dispersion des points ainsi obtenus sur le graphique. En analysant visuellement le champ de corrélation de la figure 8, vous pouvez voir qu'il semble être allongé le long d'une ligne droite. Cette image est typique de la relation dite de corrélation linéaire entre les caractéristiques. Dans ce cas, on peut généralement supposer qu'avec une augmentation de la vitesse finale de décollage, la longueur du saut augmente également, et vice versa. Ceux. Il existe une relation directe (positive) entre les caractéristiques considérées.

Parallèlement à cet exemple, parmi les nombreux autres champs de corrélation possibles, on peut distinguer les suivants (Fig. 9-11) :

La figure 9 montre également une relation linéaire, mais à mesure que les valeurs d'un attribut augmentent, les valeurs de l'autre diminuent, et vice versa, c'est-à-dire Commentaires ou négatifs. On peut supposer que sur la figure 11, les points du champ de corrélation sont dispersés autour d'une sorte de ligne courbe. Dans ce cas, ils disent qu’il existe une corrélation curviligne entre les caractéristiques.

En ce qui concerne le champ de corrélation représenté sur la figure 10, on ne peut pas dire que les points sont situés le long d'une ligne droite ou courbe ; ils ont une forme sphérique ; Dans ce cas, on dit que les caractéristiques X et Y ne dépendent pas l’une de l’autre.



De plus, le champ de corrélation peut être utilisé pour juger approximativement de l'étroitesse de la connexion de corrélation, si cette connexion existe. Ici, ils disent : moins il y a de points dispersés autour de la ligne moyenne imaginaire, plus la corrélation entre les caractéristiques considérées est étroite.

L'analyse visuelle des champs de corrélation aide à comprendre l'essence de la relation de corrélation et nous permet de faire des hypothèses sur la présence, la direction et l'étroitesse de la connexion. Mais il est impossible de dire avec certitude s'il existe ou non un lien entre les signes, un lien linéaire ou curviligne, un lien étroit (fiable) ou faible (peu fiable), en utilisant cette méthode. La méthode la plus précise pour identifier et évaluer la relation linéaire entre les caractéristiques est la méthode de détermination de divers indicateurs de corrélation à partir de données statistiques.

3. Coefficients de corrélation et leurs propriétés

Souvent pour déterminer la fiabilité de la relation entre deux caractéristiques (X, Oui) utiliser coefficient de corrélation de Spearman non paramétrique (rang) et coefficient de corrélation paramétrique de Pearson . La valeur de ces indicateurs de corrélation est déterminée par les formules suivantes :

(1)

Où : dx - rangs de données statistiques de caractéristique x ;

dy - rangs de données statistiques de la caractéristique y.

(2)

Où : - données statistiques de caractéristique x,

Données statistiques de la caractéristique y.

Ces coefficients présentent les caractéristiques puissantes suivantes :

1. Sur la base des coefficients de corrélation, on ne peut juger que d'une corrélation linéaire entre les caractéristiques. On ne peut rien dire sur une connexion curviligne avec leur aide.
2. Les valeurs des coefficients de corrélation sont une quantité sans dimension qui ne peut être inférieure à -1 ni supérieure à +1, c'est-à-dire
3.
4. Si les valeurs des coefficients de corrélation sont nulles, c'est-à-dire = 0 ou = 0, alors le lien entre les caractéristiques x, y absent.
5. Si les valeurs des coefficients de corrélation sont négatives, c'est-à-dire< 0 или < 0, то связь между признаками Х и Y inverse.
6. Si les valeurs des coefficients de corrélation sont positives, c'est-à-dire > 0 ou y > 0, alors la relation entre les caractéristiques X et Y droit(positif).
7. Si les coefficients de corrélation prennent des valeurs +1 ou -1, c'est-à-dire = ± 1 ou = ± 1, alors la relation entre les caractéristiques X et Y linéaire (fonctionnel).
8. La fiabilité de la corrélation entre les caractéristiques ne peut être jugée uniquement par l'ampleur des coefficients de corrélation. Cette fiabilité dépend également de nombre de degrés de liberté.

Partie pratique.

Déterminez le coefficient de corrélation entre la température corporelle et la fréquence du pouls et évaluez la relation identifiée.

Vous aurez besoin

  • - séries de distribution à partir de la variable dépendante et indépendante ;
  • - papier, crayon ;
  • - un programme informatique et un tableur.

Instructions

Choisissez-en deux qui, selon vous, entretiennent une relation, généralement celles qui changent avec le temps. Notez qu'une des variables doit être indépendante ; elle agira comme une cause. Le second devrait changer avec lui - diminuer, augmenter ou changer de manière aléatoire.

Mesurez la valeur de la variable dépendante pour chaque variable indépendante. Enregistrez vos résultats dans un tableau, sur deux lignes ou deux colonnes. Pour détecter la présence d'une connexion, au moins 30 lectures sont nécessaires, mais pour un résultat plus précis, assurez-vous qu'il y a au moins 100 points.

Construisez un plan de coordonnées et tracez les valeurs de la variable dépendante sur l'axe des ordonnées et de la variable indépendante sur l'axe des abscisses. Étiquetez les axes et indiquez les unités de mesure pour chaque indicateur.

Marquez les points du champ de corrélation sur le graphique. Sur l'axe des x, recherchez la première valeur de la variable indépendante et sur l'axe des y, recherchez la valeur correspondante de la variable dépendante. Construisez des perpendiculaires à ces projections et trouvez le premier point. Marquez-le, entourez-le avec un crayon doux ou un stylo. Construisez tous les autres points de la même manière.

L'ensemble de points résultant est appelé corrélation champ. Analysez le graphique obtenu, tirez des conclusions sur la présence d'une relation de cause à effet forte ou faible, ou sur son absence.

Veuillez noter des écarts occasionnels par rapport à l'horaire. Si, en général, une relation linéaire ou autre peut être tracée, mais que l'ensemble du « tableau » est gâché par un ou deux points qui sont en dehors de la population générale, ils peuvent être causés par des erreurs aléatoires et ne pas être pris en compte lors de l'interprétation de la situation. graphique.

Si vous avez besoin de construire et d'analyser un champ corrélations Pour de grandes quantités de données, utilisez des tableurs tels qu'Excel ou achetez des programmes spéciaux.

La relation entre plusieurs quantités, au cours de laquelle des changements dans l'une entraînent des changements dans les autres, est appelée corrélation. Elle peut être simple, multiple ou partielle. Ce concept est accepté non seulement en mathématiques, mais aussi en biologie.

Mot corrélation vient du latin correlatio, relation. Tous les phénomènes, événements et objets, ainsi que les grandeurs qui les caractérisent, sont interconnectés. La dépendance de corrélation diffère de la dépendance fonctionnelle en ce sens que dans ce type de dépendance, toute dépendance ne peut être mesurée qu'en moyenne, approximativement. La dépendance de corrélation suppose qu'une valeur variable correspond aux changements d'une valeur indépendante uniquement avec un certain degré de probabilité. Le degré de dépendance est appelé coefficient de corrélation. Le concept de corrélation est la relation entre la structure et les fonctions des différentes parties du corps. corrélation utilisé par les statisticiens. En statistique, il s'agit de la relation entre les quantités statistiques, les séries et les groupes. Pour déterminer la présence, l'absence ou l'existence d'une corrélation, une méthode spéciale est utilisée. La méthode de corrélation est utilisée pour déterminer les changements directs ou inverses des nombres dans les séries comparées. Une fois trouvé, alors la mesure ou le degré de parallélisme lui-même. Mais les facteurs de cause à effet internes ne sont pas découverts de cette manière. La tâche principale des statistiques en tant que science est de détecter de telles dépendances causales pour d'autres sciences. Sous la forme, une relation de corrélation peut être linéaire ou non linéaire, positive et négative. Lorsque, à mesure que l’une des variables augmente ou diminue, l’autre augmente ou diminue également, alors la relation est linéaire. Si, lorsqu'une quantité change, la nature des changements dans une autre est non linéaire, alors cela corrélation non linéaire.Positive corrélation On considère qu'une augmentation du niveau d'une valeur s'accompagne d'une augmentation du niveau d'une autre. Par exemple, lorsqu'une augmentation du son s'accompagne d'une sensation d'augmentation de sa hauteur, une corrélation lorsqu'une augmentation du niveau d'une variable s'accompagne d'une diminution du niveau d'une autre est dite négative. Dans les communautés, un niveau accru d'anxiété d'un individu entraîne une diminution de la probabilité que cet individu occupe une niche dominante parmi ses semblables. Lorsqu'il n'y a pas de lien entre les variables, corrélation est appelé zéro.

Vidéo sur le sujet

Sources :

  • Corrélation non linéaire en 2019

La corrélation est la dépendance mutuelle de deux variables aléatoires (généralement deux groupes de valeurs), dans laquelle un changement dans l'une d'elles entraîne un changement dans l'autre. Le coefficient de corrélation montre la probabilité que la deuxième valeur change lorsque les valeurs de la première changent, c'est-à-dire le degré de sa dépendance. Le moyen le plus simple de calculer cette valeur consiste à utiliser la fonction correspondante intégrée à l'éditeur de feuille de calcul Microsoft Office Excel.

Vous aurez besoin

  • Éditeur de feuilles de calcul Microsoft Office Excel.

Instructions

Lancez Excel et ouvrez un document contenant des groupes de données entre lesquels vous souhaitez calculer le coefficient de corrélation. Si un tel document n'a pas encore été créé, saisissez les données - l'éditeur de feuille de calcul le crée automatiquement lorsque vous démarrez le programme. Saisissez chacun des groupes de valeurs dont la corrélation vous intéresse dans une colonne distincte. Il n'est pas nécessaire qu'il s'agisse de colonnes adjacentes ; vous êtes libre de concevoir le tableau de la manière la plus pratique : ajoutez des colonnes supplémentaires avec des explications sur les données, des en-têtes de colonnes, des cellules récapitulatives avec des valeurs totales ou moyennes, etc. Vous pouvez même organiser les données non pas dans le sens vertical (en colonnes), mais dans le sens horizontal (en lignes). La seule condition à remplir est que les cellules contenant les données de chaque groupe soient situées séquentiellement les unes après les autres, afin de créer ainsi un tableau continu.

Accédez à la cellule qui doit contenir la valeur de corrélation des données des deux tableaux, et cliquez sur l'onglet « Formules » dans le menu Excel. Dans le groupe de commandes "Bibliothèque de fonctions", cliquez sur l'icône la plus récente - "Plus de fonctions". Une liste déroulante s'ouvrira dans laquelle vous devrez vous rendre dans la section « Statistiques » et sélectionner la fonction CORREL. En conséquence, la fenêtre Assistant de fonction s'ouvrira avec un formulaire à remplir. La même fenêtre peut être appelée sans l'onglet « Formules » en cliquant simplement sur l'icône d'insertion de fonction située à gauche de la barre de formule.

Spécifiez le premier groupe de données en corrélation dans le champ Array1 de l'assistant de formule. Pour saisir manuellement une plage de cellules, saisissez l'adresse de la première et de la dernière cellule, en les séparant par deux points (sans espaces). Une autre option consiste simplement à sélectionner la plage souhaitée avec la souris, et Excel placera lui-même l'entrée requise dans ce champ de formulaire. La même opération doit être effectuée avec le deuxième groupe de données dans le champ « Array2 ».

Cliquez sur OK. L'éditeur de feuille de calcul calculera et affichera la valeur de corrélation dans la cellule avec la formule. Si nécessaire, vous pouvez enregistrer ce document pour une utilisation ultérieure (raccourci clavier Ctrl + S).



Avez-vous aimé l'article? Partagez avec vos amis !