Quelle valeur peut prendre le coefficient de corrélation multiple ? Corrélation linéaire multiple

7.1. Analyse de régression linéaire consiste à ajuster un graphique à un ensemble d'observations en utilisant la méthode des moindres carrés. L'analyse de régression nous permet d'établir une relation fonctionnelle entre une variable aléatoire Oui et une certaine influence Oui valeurs X. Cette dépendance est appelée équation de régression. Il existe des simples ( y=m*x+b) et au pluriel ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) régression de type linéaire et non linéaire.
Pour évaluer le degré de lien entre les quantités, il est utilisé Coefficient de corrélation multiple de Pearson R(rapport de corrélation), qui peut prendre des valeurs de 0 à 1. R.=0 s'il n'y a pas de relation entre les quantités, et R.=1 s'il existe une connexion fonctionnelle entre les grandeurs. Dans la plupart des cas, R prend des valeurs intermédiaires de 0 à 1. La valeur R2 appelé coefficient de détermination.
La tâche de construire une dépendance de régression est de trouver le vecteur de coefficients M modèle de régression linéaire multiple, dans lequel le coefficient R. prend la valeur maximale.
Pour évaluer l’importance R. s'applique Test F de Fisher, calculé par la formule :

n– nombre d'expériences ; k– nombre de coefficients du modèle. Si F dépasse une certaine valeur critique pour les données n Et k et la probabilité de confiance acceptée, alors la valeur R. considérée comme significative.

7.2. Outil Régression depuis Pack d'analyse permet de calculer les données suivantes :

· coefficients de la fonction de régression linéaire– méthode des moindres carrés ; le type de fonction de régression est déterminé par la structure des données source ;

· coefficient de détermination et grandeurs associées(tableau Statistiques de régression);

· tableau de variance et statistiques de critères pour tester la signification de la régression(tableau Analyse de variance);

· l'écart type et ses autres caractéristiques statistiques pour chaque coefficient de régression, permettant de vérifier la significativité de ce coefficient et de construire des intervalles de confiance pour celui-ci ;

· valeurs et résidus de la fonction de régression– différences entre les valeurs initiales de la variable Oui et valeurs calculées de la fonction de régression (tableau Retrait du solde);

· probabilités correspondant aux valeurs de la variable Y ordonnées par ordre croissant(tableau Sortie de probabilité).

7.3. Appelez l'outil de sélection via Données > Analyse des données > Régression.

7.4. Dans le champ Intervalle de saisie Y saisissez l'adresse de la plage contenant les valeurs de la variable dépendante Y. La plage doit être constituée d'une colonne.
Dans le champ Intervalle de saisie X saisissez l'adresse d'une plage contenant les valeurs de la variable X. La plage doit être composée d'une ou plusieurs colonnes, mais pas plus de 16 colonnes. Si précisé dans les champs Intervalle de saisie Y Et Intervalle de saisie X les plages incluent les en-têtes de colonnes, vous devez alors cocher la case d'option Balises– ces en-têtes seront utilisés dans les tables de sortie générées par l’outil Régression.
Case à cocher des options Constante - zéro doit être établi si l'équation de régression a une constante b est forcé égal à zéro.
Option Niveau de fiabilité est défini lorsqu'il est nécessaire de construire des intervalles de confiance pour les coefficients de régression avec un niveau de confiance autre que 0,95, qui est utilisé par défaut. Après avoir coché la case d'option Niveau de fiabilité Un champ de saisie devient disponible dans lequel une nouvelle valeur de niveau de confiance est saisie.
Dans la région Restes Il existe quatre options : Restes, Soldes standardisés, Tableau de solde Et Calendrier de sélection. Si au moins l'un d'entre eux est installé, le tableau apparaîtra dans les résultats de sortie Retrait du solde, dans lequel seront affichées les valeurs de la fonction de régression et les résidus - les différences entre les valeurs initiales de la variable Y et les valeurs calculées de la fonction de régression. Dans la région Probabilité normale Il y a une option – ; son installation génère un tableau dans les résultats de sortie Sortie de probabilité et conduit à la construction du graphe correspondant.


7.5. Réglez les paramètres selon l'image. Assurez-vous que la valeur Y est la première variable (y compris la cellule de titre) et que la valeur X correspond aux deux autres variables (y compris les cellules de titre). Cliquez D'ACCORD.

7.6. Dans le tableau Statistiques de régression Les données suivantes sont fournies.

Pluriel R– racine du coefficient de détermination R 2 donné à la ligne suivante. Un autre nom pour cet indicateur est l'indice de corrélation, ou coefficient de corrélation multiple.

Carré R– coefficient de détermination R 2 ; calculé comme un rapport somme des carrés de régression(cellule C12) à somme totale des carrés(cellule C14).

R carré normalisé calculé par la formule

où n est le nombre de valeurs de la variable Y, k est le nombre de colonnes dans l'intervalle d'entrée de la variable X.

Erreur type– racine de la variance résiduelle (cellule D13).

Observations– nombre de valeurs de la variable Y.

7.7. DANS Tableau de dispersion en colonne SS les sommes des carrés sont données dans la colonne df– nombre de degrés de liberté. en colonne MS– la dispersion. En ligne Régression en colonne f La valeur des statistiques du critère a été calculée pour tester la signification de la régression. Cette valeur est calculée comme le rapport de la variance de régression à la variance résiduelle (cellules D12 et D13). En colonne Signification F la probabilité de la valeur obtenue des statistiques de critère est calculée. Si cette probabilité est inférieure, par exemple, à 0,05 (un niveau de signification donné), alors l'hypothèse de l'insignifiance de la régression (c'est-à-dire l'hypothèse selon laquelle tous les coefficients de la fonction de régression sont égaux à zéro) est rejetée et la régression est considérée comme significative. Dans cet exemple, la régression n’est pas significative.

7.8. Dans le tableau suivant, dans la colonne Chances, les valeurs calculées des coefficients de la fonction de régression sont écrites, tandis que dans la ligne Intersection en Y la valeur du terme libre s'écrit b. En colonne Erreur type Les écarts types des coefficients ont été calculés.
En colonne statistique t Les ratios des valeurs des coefficients sur leurs écarts types sont enregistrés. Ce sont les valeurs des critères statistiques permettant de tester des hypothèses sur la signification des coefficients de régression.
En colonne Valeur P des niveaux de signification correspondant aux valeurs des statistiques de critères sont calculés. Si le niveau de signification calculé est inférieur au niveau de signification spécifié (par exemple, 0,05). alors l'hypothèse selon laquelle le coefficient diffère significativement de zéro est acceptée ; sinon, l’hypothèse selon laquelle le coefficient diffère peu de zéro est acceptée. Dans cet exemple, seul le coefficient b significativement différent de zéro, le reste - de manière insignifiante.
En colonnes 95 % inférieurs Et Meilleurs 95 % les limites des intervalles de confiance avec un niveau de confiance de 0,95 sont données. Ces limites sont calculées à l'aide des formules
Inférieur 95 % = Coefficient - Erreur standard * t α;
95 % supérieurs = Coefficient + Erreur type * t α.
Ici t α– quantile d’ordre α Distributions t de Student avec (n-k-1) degrés de liberté. Dans ce cas α = 0,95. Les limites des intervalles de confiance dans les colonnes sont calculées de la même manière 90,0 % inférieurs Et Meilleurs 90,0 %.

7.9. Considérez le tableau Retrait du soldeà partir des résultats de sortie. Ce tableau apparaît dans les résultats de sortie uniquement lorsqu'au moins une option dans la zone est définie Restes boîte de dialogue Régression.

En colonne Observation les numéros de série des valeurs des variables sont donnés Oui.
En colonne Y prédit les valeurs de la fonction de régression y i = f(x i) sont calculées pour ces valeurs de la variable X, qui correspond au numéro de série je en colonne Observation.
En colonne Restes contient les différences (résidus) ε i =Y-y i , et la colonne Balances standards– les résidus normalisés, qui sont calculés sous forme de ratios ε i / s ε. où s ε est l'écart type des résidus. Le carré de la valeur s ε est calculé à l'aide de la formule

où est la moyenne des résidus. La valeur peut être calculée comme le rapport de deux valeurs du tableau de dispersion : la somme des carrés des résidus (cellule C13) et les degrés de liberté de la ligne Total(cellule B14).

7.10. Par valeurs de table Retrait du solde deux types de graphiques sont construits : graphiques résiduels Et calendriers de sélection(si les options appropriées sont définies dans la zone Restes boîte de dialogue Régression). Ils sont construits pour chaque composante variable X séparément.

Sur tableaux d'équilibre les soldes sont affichés, c'est-à-dire différences entre les valeurs d'origine Oui et calculé à partir de la fonction de régression pour chaque valeur de la composante variable X.

Sur calendriers de sélection affiche à la fois les valeurs Y d'origine et les valeurs calculées de la fonction de régression pour chaque valeur de composant variable X.

7.11. Le dernier tableau des résultats de sortie est le tableau Sortie de probabilité. Il apparaît si dans la boîte de dialogue Régression option installée Diagramme de probabilité normale.
Valeurs des colonnes Centile sont calculés comme suit. Le pas est calculé h = (1/n)*100 %, la première valeur est h/2, ce dernier est égal 100 h/2. A partir de la deuxième valeur, chaque valeur suivante est égale à la précédente, à laquelle s'ajoute un pas h.
En colonne Oui les valeurs des variables sont données Oui, triés par ordre croissant. Sur la base des données de ce tableau, ce qu'on appelle graphique de distribution normale. Il vous permet d'évaluer visuellement le degré de linéarité de la relation entre les variables X Et Oui.


8. D analyse de variance

8.1. Pack d'analyse permet trois types d’analyse de variance. Le choix d'un instrument spécifique est déterminé par le nombre de facteurs et le nombre d'échantillons dans l'ensemble de données étudié.
utilisé pour tester l’hypothèse selon laquelle les moyennes de deux échantillons ou plus appartenant à la même population sont similaires.
ANOVA bidirectionnelle avec répétitions est une version plus complexe de l'analyse univariée qui comprend plus d'un échantillon pour chaque groupe de données.
ANOVA bidirectionnelle sans répétition est une analyse de variance bidirectionnelle qui n’inclut pas plus d’un échantillon par groupe. Il est utilisé pour tester l’hypothèse selon laquelle les moyennes de deux échantillons ou plus sont identiques (les échantillons appartiennent à la même population).

8.2. ANOVA unidirectionnelle

8.2.1. Préparons les données pour l'analyse. Créez une nouvelle feuille et copiez-y les colonnes A, B, C, D. Supprimez les deux premières lignes. Les données préparées peuvent être utilisées pour effectuer Analyse de variance unidirectionnelle.

8.2.2. Appelez l'outil de sélection via Données > Analyse des données > ANOVA unidirectionnelle. Remplissez selon l'image. Cliquez D'ACCORD.

8.2.3. Considérez le tableau Résultats: Vérifier– nombre de répétitions, Somme– la somme des valeurs des indicateurs par ligne, Dispersion– variance partielle de l'indicateur.

8.2.4. Tableau Analyse de variance: première colonne Source de variation contient le nom des dispersions, SS– somme des carrés des écarts, df– degré de liberté, MS– carré moyen, Test F distribution F réelle. Valeur P– la probabilité que la variance reproduite par l'équation soit égale à la variance des résidus. Il établit la probabilité que la détermination quantitative obtenue de la relation entre les facteurs et le résultat puisse être considérée comme aléatoire. F-critique est la valeur F théorique, qui est ensuite comparée à la valeur F réelle.

8.2.5. L'hypothèse nulle sur l'égalité des attentes mathématiques de tous les échantillons est acceptée si l'inégalité Test F < F-critique. cette hypothèse doit être rejetée. Dans ce cas, les valeurs moyennes des échantillons diffèrent considérablement.

L'analyse de régression est une méthode de recherche statistique qui permet de montrer la dépendance d'un paramètre particulier à une ou plusieurs variables indépendantes. À l’ère pré-informatique, son utilisation était assez difficile, surtout lorsqu’il s’agissait de gros volumes de données. Aujourd'hui, après avoir appris à créer une régression dans Excel, vous pouvez résoudre des problèmes statistiques complexes en quelques minutes seulement. Vous trouverez ci-dessous des exemples spécifiques issus du domaine de l’économie.

Types de régression

Ce concept lui-même a été introduit en mathématiques en 1886. La régression se produit :

  • linéaire;
  • parabolique;
  • calme;
  • exponentiel;
  • hyperbolique;
  • démonstratif;
  • logarithmique.

Exemple 1

Considérons le problème de la détermination de la dépendance du nombre de membres de l'équipe qui ont démissionné par rapport au salaire moyen dans 6 entreprises industrielles.

Tâche. Dans six entreprises, le salaire mensuel moyen et le nombre de salariés qui ont démissionné volontairement ont été analysés. Sous forme de tableau, nous avons :

Nombre de personnes qui ont arrêté

Salaire

30 000 roubles

35 000 roubles

40 000 roubles

45 000 roubles

50 000 roubles

55 000 roubles

60 000 roubles

Pour déterminer la dépendance du nombre de travailleurs qui quittent leur emploi par rapport au salaire moyen dans 6 entreprises, le modèle de régression a la forme de l'équation Y = a 0 + a 1 x 1 +...+ak x k, où x i sont les variables d'influence, a i sont les coefficients de régression et k est le nombre de facteurs.

Pour ce problème, Y est l'indicateur des salariés qui démissionnent, et le facteur d'influence est le salaire, que nous désignons par X.

Utiliser les capacités du tableur Excel

L'analyse de régression dans Excel doit être précédée de l'application de fonctions intégrées aux données tabulaires existantes. Cependant, à ces fins, il est préférable d'utiliser le module complémentaire très utile « Analysis Package ». Pour l'activer il vous faut :

  • depuis l'onglet « Fichier », allez dans la section « Options » ;
  • dans la fenêtre qui s'ouvre, sélectionnez la ligne « Modules complémentaires » ;
  • cliquez sur le bouton « Go » situé en bas, à droite de la ligne « Gestion » ;
  • cochez la case à côté du nom « Package d'analyse » et confirmez vos actions en cliquant sur « Ok ».

Si tout est fait correctement, le bouton requis apparaîtra sur le côté droit de l'onglet « Données », situé au-dessus de la feuille de calcul Excel.

dans Excel

Maintenant que nous disposons de tous les outils virtuels nécessaires pour effectuer des calculs économétriques, nous pouvons commencer à résoudre notre problème. Pour ce faire :

  • cliquez sur le bouton « Analyse des données » ;
  • dans la fenêtre qui s'ouvre, cliquez sur le bouton « Régression » ;
  • dans l'onglet qui apparaît, saisissez la plage de valeurs pour Y (le nombre d'employés démissionnaires) et pour X (leurs salaires) ;
  • Nous confirmons nos actions en appuyant sur le bouton « Ok ».

En conséquence, le programme remplira automatiquement une nouvelle feuille de calcul avec les données d'analyse de régression. Faites attention! Excel vous permet de définir manuellement l'emplacement que vous préférez à cet effet. Par exemple, il pourrait s'agir de la même feuille où se trouvent les valeurs Y et X, ou même d'un nouveau classeur spécialement conçu pour stocker ces données.

Analyse des résultats de régression pour le R-carré

Dans Excel, les données obtenues lors du traitement des données dans l'exemple considéré ont la forme :

Tout d’abord, vous devez faire attention à la valeur R au carré. Il représente le coefficient de détermination. Dans cet exemple, R carré = 0,755 (75,5 %), c'est-à-dire que les paramètres calculés du modèle expliquent la relation entre les paramètres considérés à 75,5 %. Plus la valeur du coefficient de détermination est élevée, plus le modèle sélectionné est adapté à une tâche spécifique. On considère que la situation réelle est correctement décrite lorsque la valeur R-carré est supérieure à 0,8. Si R au carré<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analyse des cotes

Le nombre 64,1428 montre quelle sera la valeur de Y si toutes les variables xi du modèle que nous considérons sont remises à zéro. En d’autres termes, on peut affirmer que la valeur du paramètre analysé est également influencée par d’autres facteurs qui ne sont pas décrits dans un modèle spécifique.

Le coefficient suivant -0,16285, situé dans la cellule B18, montre le poids de l'influence de la variable X sur Y. Cela signifie que le salaire mensuel moyen des salariés au sein du modèle considéré affecte le nombre de sortants avec un poids de -0,16285, soit le degré de son influence est complètement faible. Le signe "-" indique que le coefficient est négatif. C'est une évidence, puisque chacun sait que plus le salaire dans l'entreprise est élevé, moins les personnes expriment le désir de mettre fin au contrat de travail ou de démissionner.

Régression multiple

Ce terme fait référence à une équation de relation à plusieurs variables indépendantes de la forme :

y=f(x 1 +x 2 +…x m) + ε, où y est la caractéristique résultante (variable dépendante) et x 1, x 2,…x m sont des caractéristiques factorielles (variables indépendantes).

Estimation des paramètres

Pour la régression multiple (MR), elle est réalisée selon la méthode des moindres carrés (OLS). Pour les équations linéaires de la forme Y = a + b 1 x 1 +…+b m x m + ε nous construisons un système d'équations normales (voir ci-dessous)

Pour comprendre le principe de la méthode, considérons un cas à deux facteurs. On a alors une situation décrite par la formule

De là, nous obtenons :

où σ est la variance de la caractéristique correspondante reflétée dans l'indice.

OLS est applicable à l’équation MR sur une échelle standardisée. Dans ce cas, on obtient l'équation :

dans laquelle t y, t x 1, ... t xm sont des variables standardisées, dont les valeurs moyennes sont égales à 0 ; β i sont les coefficients de régression standardisés et l'écart type est 1.

Veuillez noter que tous les β i dans ce cas sont spécifiés comme normalisés et centralisés, leur comparaison les uns avec les autres est donc considérée comme correcte et acceptable. De plus, il est habituel d’éliminer les facteurs en écartant ceux qui présentent les valeurs βi les plus faibles.

Problème utilisant l'équation de régression linéaire

Supposons que nous ayons un tableau de la dynamique des prix pour un produit spécifique N au cours des 8 derniers mois. Il est nécessaire de prendre une décision sur l'opportunité d'en acheter un lot au prix de 1850 roubles/t.

numéro du mois

nom du mois

prix du produit SUBST

1750 roubles par tonne

1755 roubles par tonne

1767 roubles par tonne

1760 roubles par tonne

1770 roubles par tonne

1790 roubles par tonne

1810 roubles par tonne

1840 roubles par tonne

Pour résoudre ce problème dans le tableur Excel, vous devez utiliser l'outil « Analyse des données », déjà connu grâce à l'exemple présenté ci-dessus. Ensuite, sélectionnez la section « Régression » et définissez les paramètres. Il ne faut pas oublier que dans le champ « Intervalle de saisie Y », une plage de valeurs doit être saisie pour la variable dépendante (dans ce cas, les prix des marchandises dans des mois spécifiques de l'année), et dans le champ « Intervalle de saisie X ». - pour la variable indépendante (numéro du mois). Confirmez l'action en cliquant sur « OK ». Sur une nouvelle feuille (si cela est indiqué), nous obtenons des données de régression.

En les utilisant, nous construisons une équation linéaire de la forme y=ax+b, où les paramètres a et b sont les coefficients de la ligne portant le nom du numéro du mois et les coefficients et lignes « Y-intersection » de la feuille avec les résultats de l’analyse de régression. Ainsi, l'équation de régression linéaire (LR) pour la tâche 3 s'écrit :

Prix ​​du produit N = 11,714* numéro du mois + 1727,54.

ou en notation algébrique

y = 11,714 x + 1727,54

Analyse des résultats

Pour décider si l'équation de régression linéaire résultante est adéquate, les coefficients de corrélation multiple (MCC) et de détermination sont utilisés, ainsi que le test de Fisher et le test t de Student. Dans la feuille de calcul Excel contenant les résultats de régression, ils sont appelés respectivement multiple R, R-carré, F-statistique et t-statistique.

KMC R permet d'évaluer l'étroitesse de la relation probabiliste entre les variables indépendantes et dépendantes. Sa valeur élevée indique un lien assez fort entre les variables « Nombre de mois » et « Prix du produit N en roubles pour 1 tonne ». Cependant, la nature de cette relation reste inconnue.

Le carré du coefficient de détermination R2 (RI) est une caractéristique numérique de la proportion de la dispersion totale et montre la dispersion de quelle partie des données expérimentales, c'est-à-dire les valeurs de la variable dépendante correspondent à l'équation de régression linéaire. Dans le problème considéré, cette valeur est égale à 84,8 %, c'est-à-dire que les données statistiques sont décrites avec un haut degré de précision par le SD résultant.

Les statistiques F, également appelées test de Fisher, sont utilisées pour évaluer la signification d'une relation linéaire, réfutant ou confirmant l'hypothèse de son existence.

(Test de Student) permet d'évaluer la significativité du coefficient pour un terme inconnu ou libre d'une relation linéaire. Si la valeur du test t > tcr, alors l'hypothèse de l'insignifiance du terme libre de l'équation linéaire est rejetée.

Dans le problème considéré pour le terme libre, à l'aide des outils Excel, il a été obtenu que t = 169,20903 et p = 2,89E-12, c'est-à-dire que nous avons une probabilité nulle que l'hypothèse correcte sur l'insignifiance du terme libre soit rejetée . Pour le coefficient pour l'inconnu t=5,79405 et p=0,001158. En d'autres termes, la probabilité que l'hypothèse correcte sur l'insignifiance du coefficient pour une inconnue soit rejetée est de 0,12 %.

Ainsi, on peut affirmer que l’équation de régression linéaire qui en résulte est adéquate.

Le problème de la faisabilité de l'achat d'un bloc d'actions

La régression multiple dans Excel est effectuée à l'aide du même outil d'analyse de données. Considérons un problème d'application spécifique.

La direction de la société NNN doit décider de l'opportunité d'acquérir une participation de 20 % dans MMM JSC. Le coût du package (SP) est de 70 millions de dollars américains. Les spécialistes de NNN ont collecté des données sur des transactions similaires. Il a été décidé d'évaluer la valeur de la participation selon des paramètres, exprimés en millions de dollars américains, tels que :

  • comptes créditeurs (VK);
  • volume de chiffre d'affaires annuel (VO) ;
  • comptes clients (VD);
  • coût des immobilisations (COF).

De plus, le paramètre des arriérés de salaires de l'entreprise (V3 P) en milliers de dollars américains est utilisé.

Solution utilisant un tableur Excel

Tout d'abord, vous devez créer un tableau de données sources. Cela ressemble à ceci :

  • appeler la fenêtre « Analyse des données » ;
  • sélectionnez la section « Régression » ;
  • Dans la case « Intervalle de saisie Y », saisissez la plage de valeurs des variables dépendantes de la colonne G ;
  • Cliquez sur l'icône avec une flèche rouge à droite de la fenêtre « Intervalle de saisie X » et mettez en surbrillance la plage de toutes les valeurs des colonnes B, C, D, F de la feuille.

Marquez l'élément « Nouvelle feuille de calcul » et cliquez sur « Ok ».

Obtenez une analyse de régression pour un problème donné.

Etude des résultats et conclusions

Nous « collectons » l'équation de régression à partir des données arrondies présentées ci-dessus sur la feuille de calcul Excel :

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Sous une forme mathématique plus familière, cela peut s’écrire :

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Les données pour MMM JSC sont présentées dans le tableau :

En les remplaçant dans l'équation de régression, nous obtenons un chiffre de 64,72 millions de dollars américains. Cela signifie que les actions de MMM JSC ne valent pas la peine d'être achetées, car leur valeur de 70 millions de dollars américains est assez gonflée.

Comme vous pouvez le constater, l’utilisation du tableur Excel et de l’équation de régression a permis de prendre une décision éclairée quant à la faisabilité d’une transaction bien précise.

Vous savez maintenant ce qu'est la régression. Les exemples Excel discutés ci-dessus vous aideront à résoudre des problèmes pratiques dans le domaine de l'économétrie.

La construction d'une régression linéaire, l'évaluation de ses paramètres et leur signification peuvent être effectués beaucoup plus rapidement en utilisant le progiciel d'analyse Excel (Régression). Considérons l'interprétation des résultats obtenus dans le cas général ( k variables explicatives) selon l’exemple 3.6.

Dans le tableau statistiques de régression les valeurs suivantes sont données :

Multiple R. – coefficient de corrélation multiple ;

R.- carré– coefficient de détermination R. 2 ;

Normalisé R. - carré– ajusté R. 2 ajusté du nombre de degrés de liberté ;

Erreur type– erreur type de régression S;

Observations – nombre d'observations n.

Dans le tableau Analyse de variance sont donnés :

1. Colonne df - nombre de degrés de liberté égal à

pour chaîne Régression df = k;

pour chaîne Restedf = nk – 1;

pour chaîne Totaldf = n– 1.

2. Colonne SS – la somme des carrés des écarts égale à

pour chaîne Régression ;

pour chaîne Reste ;

pour chaîne Total .

3. Colonne MSécarts déterminés par la formule MS = SS/df:

pour chaîne Régression– dispersion des facteurs ;

pour chaîne Reste– variance résiduelle.

4. Colonne F – valeur calculée F-critère calculé par la formule

F = MS(régression)/ MS(reste).

5. Colonne Importance F – valeur du niveau de signification correspondant à la valeur calculée F-statistiques .

Importance F= LISTEFD( F- statistiques, df(régression), df(reste)).

Si la signification F < стандартного уровня значимости, то R. 2 est statistiquement significatif.

Chances Erreur type statistiques t Valeur P 95 % inférieurs Meilleurs 95 %
Oui 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Ce tableau montre :

1. Chances– valeurs des coefficients un, b.

2. Erreur type– erreurs types des coefficients de régression S une, S b.



3. t- statistiques– valeurs calculées t -critères calculés par la formule :

statistique t = Coefficients/Erreur standard.

4.R.-valeur (importance t) est la valeur du niveau de signification correspondant au calcul t- statistiques.

R.-valeur = STUDIDISTE(t-statistiques, df(reste)).

Si R.-signification< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95 % inférieurs et 95 % supérieurs– limites inférieure et supérieure des intervalles de confiance à 95 % pour les coefficients de l'équation théorique de régression linéaire.

RETRAIT DU RESTE
Observation Prédit y Résidus e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Dans le tableau RETRAIT DU RESTE indiqué:

en colonne Observation– numéro d'observation;

en colonne Prédit oui – valeurs calculées de la variable dépendante ;

en colonne Restes e – la différence entre les valeurs observées et calculées de la variable dépendante.

Exemple 3.6. Il existe des données (unités conventionnelles) sur les coûts alimentaires oui et revenu par habitant x pour neuf groupes de familles :

x
oui

À l'aide des résultats du progiciel d'analyse Excel (Régression), nous analyserons la dépendance des coûts alimentaires par rapport au revenu par habitant.

Les résultats de l'analyse de régression sont généralement écrits sous la forme :

où les erreurs types des coefficients de régression sont indiquées entre parenthèses.

Coefficients de régression UN = 65,92 et b= 0,107. Direction de la communication entre oui Et x détermine le signe du coefficient de régression b= 0,107, soit la connexion est directe et positive. Coefficient b= 0,107 montre qu'avec une augmentation du revenu par habitant de 1 conventionnel. unités les coûts alimentaires augmentent de 0,107 unités conventionnelles. unités

Évaluons la significativité des coefficients du modèle résultant. Importance des coefficients ( une, b) est vérifié par t-test:

Valeur P ( un) = 0,00080 < 0,01 < 0,05

Valeur P ( b) = 0,00016 < 0,01 < 0,05,

donc les coefficients ( une, b) sont significatifs au seuil de 1 %, et encore plus au seuil de signification de 5 %. Ainsi, les coefficients de régression sont significatifs et le modèle est adéquat aux données originales.

Les résultats de l'estimation de régression sont compatibles non seulement avec les valeurs obtenues des coefficients de régression, mais également avec un certain ensemble d'entre eux (intervalle de confiance). Avec une probabilité de 95 %, les intervalles de confiance pour les coefficients sont (38,16 – 93,68) pour un et (0,0728 – 0,142) pour b.

La qualité du modèle est évaluée par le coefficient de détermination R. 2 .

Ampleur R. 2 = 0,884 signifie que le facteur de revenu par habitant peut expliquer 88,4 % de la variation (dispersion) des dépenses alimentaires.

Importance R. 2 est vérifié par F- test : signification F = 0,00016 < 0,01 < 0,05, следовательно, R. 2 est significatif au seuil de 1 %, et encore plus au seuil de signification de 5 %.

Dans le cas d'une régression linéaire par paires, le coefficient de corrélation peut être défini comme . La valeur obtenue du coefficient de corrélation indique que la relation entre les dépenses alimentaires et le revenu par habitant est très étroite.

Lors de l’étude de phénomènes complexes, il est nécessaire de prendre en compte plus de deux facteurs aléatoires. Une compréhension correcte de la nature de la relation entre ces facteurs ne peut être obtenue que si tous les facteurs aléatoires considérés sont examinés en même temps. Une étude conjointe de trois facteurs aléatoires ou plus permettra au chercheur d'établir des hypothèses plus ou moins raisonnables sur les dépendances causales entre les phénomènes étudiés. Une forme simple de relation multiple est une relation linéaire entre trois caractéristiques. Les facteurs aléatoires sont notés X 1 , X 2 et X 3. Coefficients de corrélation appariés entre X 1 et X 2 est noté r 12, respectivement entre X 1 et X 3 - r 12, entre X 2 et X 3 - r 23. Pour mesurer l'étroitesse de la relation linéaire entre trois caractéristiques, plusieurs coefficients de corrélation sont utilisés, notés R. 1 et 23, R. 2 et 13, R. 3 ּ 12 et coefficients de corrélation partielle, notés r 12.3 , r 13.2 , r 23.1 .

Le coefficient de corrélation multiple R 1,23 de trois facteurs est un indicateur de l'étroitesse de la relation linéaire entre l'un des facteurs (indice avant le point) et la combinaison de deux autres facteurs (indices après le point).

Les valeurs du coefficient R sont toujours comprises entre 0 et 1. À mesure que R s'approche de un, le degré de relation linéaire entre les trois caractéristiques augmente.

Entre le coefficient de corrélation multiple, par ex. R. 2 ּ 13 et deux coefficients de corrélation de paires r 12 et r 23 il existe une relation : chacun des coefficients appariés ne peut excéder en valeur absolue R. 2 et 13 .

Les formules de calcul de coefficients de corrélation multiples avec des valeurs connues des coefficients de corrélation de paires r 12, r 13 et r 23 ont la forme :

Coefficient de corrélation multiple au carré R. 2 s'appelle coefficient de détermination multiple. Il montre la proportion de variation de la variable dépendante sous l'influence des facteurs étudiés.

L'importance de la corrélation multiple est évaluée par F-critère:

n – taille de l'échantillon ; k- nombre de facteurs. Dans notre cas k = 3.

hypothèse nulle sur l'égalité du coefficient de corrélation multiple dans la population à zéro ( ho:r=0) est accepté si f f<ft, et est rejeté si
ff T.

valeur théorique f-des critères sont déterminés pour v 1 = k- 1 et v 2 = n - k degrés de liberté et niveau de signification accepté a (Annexe 1).

Exemple de calcul du coefficient de corrélation multiple. Lors de l'étude de la relation entre les facteurs, des coefficients de corrélation de paires ont été obtenus ( n =15): r 12 ==0,6 ; g13 = 0,3 ; r 23 = - 0,2.

Il est nécessaire de connaître la dépendance de la fonctionnalité X 2 du signe X 1 et X 3, c'est-à-dire calculer le coefficient de corrélation multiple :

Valeur du tableau F-critères avec n 1 = 2 et n 2 = 15 – 3 = 12 degrés de liberté avec a = 0,05 F 0,05 = 3,89 et à a = 0,01 F 0,01 = 6,93.

Ainsi, la relation entre les signes R. 2,13 = 0,74 est significatif à
Niveau de signification de 1 % F f > F 0,01 .

A en juger par le coefficient de détermination multiple R. 2 = (0,74) 2 = 0,55, variation des traits X 2 est associé à 55 % à l'effet des facteurs étudiés, et 45 % de la variation (1-R 2) ne peut s'expliquer par l'influence de ces variables.

Corrélation linéaire partielle

Coefficient de corrélation partielle est un indicateur qui mesure le degré de conjugaison de deux caractéristiques.

Les statistiques mathématiques permettent d'établir une corrélation entre deux caractéristiques avec une valeur constante de la troisième, sans mener d'expérience particulière, mais en utilisant des coefficients de corrélation appariés r 12 , r 13 , r 23 .

Les coefficients de corrélation partielle sont calculés à l'aide des formules :

Les chiffres avant le point indiquent quelles caractéristiques la relation est étudiée, et le nombre après le point indique l'influence de quelle caractéristique est exclue (éliminée). L'erreur et le critère de signification pour la corrélation partielle sont déterminés à l'aide des mêmes formules que pour la corrélation par paires :

.

Valeur théorique t- le critère est déterminé pour v = n– 2 degrés de liberté et niveau de signification accepté a (Annexe 1).

L'hypothèse nulle selon laquelle le coefficient de corrélation partielle dans la population est égal à zéro ( H o: r= 0) est accepté si t f< t t, et est rejeté si
tt T.

Les coefficients partiels peuvent prendre des valeurs comprises entre -1 et +1. Privé coefficients de détermination trouvé en mettant au carré les coefficients de corrélation partielle :

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Déterminer le degré d'influence partielle de facteurs individuels sur un trait efficace tout en excluant (éliminant) son lien avec d'autres traits qui faussent cette corrélation est souvent d'un grand intérêt. Il arrive parfois qu'à valeur constante de la caractéristique éliminée, il soit impossible de constater son influence statistique sur la variabilité des autres caractéristiques. Pour comprendre la technique de calcul du coefficient de corrélation partielle, prenons un exemple. Il y a trois options X, Oui Et Z. Pour la taille de l'échantillon n= 180 coefficients de corrélation appariés sont déterminés

r xy = 0,799; rxz = 0,57; r yz = 0,507.

Déterminons les coefficients de corrélation partielle :

Coefficient de corrélation partielle entre paramètre X Et Oui Z (r xyּz = 0,720) montre que seule une petite partie de la relation entre ces caractéristiques dans la corrélation globale ( r xy= 0,799) est dû à l'influence de la troisième caractéristique ( Z). Une conclusion similaire doit être tirée concernant le coefficient de corrélation partielle entre le paramètre X et paramètre Z avec une valeur de paramètre constante Oui (r X zּу = 0,318 et rxz= 0,57). Au contraire, le coefficient de corrélation partielle entre les paramètres Oui Et Z avec une valeur de paramètre constante X r yz ּ x= 0,105 est significativement différent du coefficient de corrélation global r y z = 0,507. Il ressort clairement de cela que si vous sélectionnez des objets avec la même valeur de paramètre X, puis la relation entre les signes Oui Et Z ils en auront une très faible, puisqu'une partie importante de cette relation est due à la variation du paramètre X.

Dans certaines circonstances, le coefficient de corrélation partielle peut être de signe opposé à celui de la paire.

Par exemple, lors de l'étude de la relation entre les caractéristiques X, Oui Et Z- des coefficients de corrélation appariés ont été obtenus (avec n = 100): r xy = 0,6 ; r X z= 0,9;
ry z = 0,4.

Coefficients de corrélation partielle excluant l'influence de la troisième caractéristique :

L'exemple montre que les valeurs du coefficient de paire et du coefficient de corrélation partielle diffèrent en signe.

La méthode de corrélation partielle permet de calculer le coefficient de corrélation partielle du second ordre. Ce coefficient indique la relation entre les première et deuxième caractéristiques avec une valeur constante des troisième et quatrième. La détermination du coefficient partiel du second ordre s'effectue à partir des coefficients partiels du premier ordre selon la formule :

r 12 . 4 , r 13 et 4, r 23 ּ4 - coefficients partiels dont la valeur est déterminée par la formule des coefficients partiels, à l'aide de coefficients de corrélation par paires r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

Le coefficient de corrélation multiple de trois variables est un indicateur de l'étroitesse de la relation linéaire entre l'une des caractéristiques (la lettre d'index avant le tiret) et la combinaison de deux autres caractéristiques (la lettre d'index après le tiret) :

; (12.7)

(12.8)

Ces formules facilitent le calcul de plusieurs coefficients de corrélation avec des valeurs connues de coefficients de corrélation de paires r xy, r xz et r yz.

Coefficient R. n'est pas négatif et varie toujours de 0 à 1. À mesure que vous vous approchez R. D’une part, le degré de connexion linéaire entre les trois caractéristiques augmente. Entre le coefficient de corrélation multiple, par ex. R y-xz, et deux coefficients de corrélation de paires r yx Et r yz il existe la relation suivante : chacun des coefficients appariés ne peut excéder en valeur absolue R y-xz.

Coefficient de corrélation multiple au carré R2 appelé coefficient de détermination multiple. Il montre la proportion de variation de la variable dépendante sous l'influence des facteurs étudiés.

L'importance de la corrélation multiple est évaluée par
F-critère:

, (12.9)

n– taille de l'échantillon,

k– nombre de signes ; dans notre cas k = 3.

Valeur théorique F– les critères sont tirés du tableau de candidature pour ν 1 = k–1 et ν 2 = n–k degrés de liberté et niveau de signification accepté. L'hypothèse nulle selon laquelle le coefficient de corrélation multiple dans la population est égal à zéro ( H0:R= 0) est accepté si F fait.< F табл . et est rejeté si F fait. ≥ Tableau F.

Fin des travaux -

Ce sujet appartient à la section :

Statistiques mathématiques

Établissement d'enseignement.. Université d'État de Gomel.. du nom de Francis Skaryna Yu M Zhuchenko..

Si vous avez besoin de matériel supplémentaire sur ce sujet, ou si vous n'avez pas trouvé ce que vous cherchiez, nous vous recommandons d'utiliser la recherche dans notre base de données d'œuvres :

Que ferons-nous du matériel reçu :

Si ce matériel vous a été utile, vous pouvez l'enregistrer sur votre page sur les réseaux sociaux :

Tous les sujets de cette section :

Tutoriel
pour les étudiants universitaires étudiant dans la spécialité 1-31 01 01 « Biologie » Gomel 2010

Sujet et méthode des statistiques mathématiques
Le sujet des statistiques mathématiques est l'étude des propriétés des phénomènes de masse en biologie, économie, technologie et autres domaines. Ces phénomènes sont généralement présentés comme complexes en raison de la diversité (variations)

Le concept d'événement aléatoire
L'induction statistique ou les conclusions statistiques, en tant que composante principale de la méthode d'étude des phénomènes de masse, ont leurs propres caractéristiques. Les conclusions statistiques sont tirées avec des chiffres

Probabilité d'un événement aléatoire
Une caractéristique numérique d'un événement aléatoire qui a la propriété que pour toute série de tests suffisamment importante, la fréquence de l'événement ne diffère que légèrement de cette caractéristique est appelée

Calculer les probabilités
Il est souvent nécessaire d’additionner et de multiplier simultanément les probabilités. Par exemple, vous devez déterminer la probabilité d'obtenir 5 points en lançant 2 dés en même temps. Le montant requis est probablement

Le concept de variable aléatoire
Après avoir défini le concept de probabilité et clarifié ses principales propriétés, passons à l'un des concepts les plus importants de la théorie des probabilités - le concept de variable aléatoire.

Supposons qu'en conséquence
Variables aléatoires discrètes

Une variable aléatoire est discrète si l'ensemble de ses valeurs possibles est fini, ou du moins dénombrable. Supposons que la variable aléatoire X puisse prendre des valeurs x1
Variables aléatoires continues

Contrairement aux variables aléatoires discrètes abordées dans la sous-section précédente, l'ensemble des valeurs possibles d'une variable aléatoire continue n'est pas seulement non fini, mais également non soumis à
Attente et écart

Il est souvent nécessaire de caractériser la distribution d'une variable aléatoire à l'aide d'un ou deux indicateurs numériques exprimant les propriétés les plus essentielles de cette distribution. À un tel
Instants

Les moments dits de distribution d'une variable aléatoire sont d'une grande importance en statistique mathématique. Dans l'attente mathématique, les grandes valeurs d'une variable aléatoire ne sont pas suffisamment prises en compte.
Distribution binomiale et mesure de probabilité

Dans ce sujet, nous examinerons les principaux types de distribution de variables aléatoires discrètes. Supposons que la probabilité d'occurrence d'un événement aléatoire A au cours d'un seul essai est égale à
Distribution rectangulaire (uniforme)

La distribution rectangulaire (uniforme) est le type de distribution continue le plus simple. Si une variable aléatoire X peut prendre n'importe quelle valeur réelle dans l'intervalle (a, b), où a et b sont réels
La distribution normale joue un rôle fondamental dans les statistiques mathématiques. Ceci n’est pas du tout accidentel : dans la réalité objective, on rencontre très souvent des signes divers

Distribution lognormale
Une variable aléatoire Y a une distribution lognormale de paramètres μ et σ si une variable aléatoire X = lnY a une distribution normale de mêmes paramètres μ et &

Valeurs moyennes
De toutes les propriétés du groupe, le niveau moyen, mesuré par la valeur moyenne de l'attribut, a la plus grande signification théorique et pratique.

La valeur moyenne d'une fonctionnalité est un concept très profond,
Propriétés générales des moyennes

Pour une utilisation correcte des valeurs moyennes, il est nécessaire de connaître les propriétés de ces indicateurs : localisation médiane, abstraction et unité de l'action totale.
Selon sa valeur numérique

Moyenne arithmétique
La moyenne arithmétique, ayant les propriétés générales des valeurs moyennes, a ses propres caractéristiques, qui peuvent être exprimées par les formules suivantes :

Classement moyen (moyenne non paramétrique)
Le classement moyen est déterminé pour les caractéristiques pour lesquelles des méthodes de mesure quantitatives n'ont pas encore été trouvées. Selon le degré de manifestation de ces signes, les objets peuvent être classés, c'est-à-dire localisés

Moyenne arithmétique pondérée
Habituellement, pour calculer la moyenne arithmétique, toutes les valeurs de l'attribut sont additionnées et la somme résultante est divisée par le nombre d'options. Dans ce cas, chaque valeur incluse dans la somme l'augmente de plein droit

Carré moyen
Le carré moyen est calculé à l'aide de la formule : , (6,5) Il est égal à la racine carrée de la somme

Médian
La médiane est une valeur caractéristique qui divise l'ensemble du groupe en deux parties égales : une partie a une valeur caractéristique inférieure à la médiane et l'autre a une valeur supérieure.

Par exemple, si vous avez
Moyenne géométrique

Pour obtenir la moyenne géométrique d'un groupe avec n données, vous devez multiplier toutes les options et extraire la nième racine du produit résultant :
Moyenne harmonique

La moyenne harmonique est calculée à l'aide de la formule. (6.14) Pour cinq options : 1, 4, 5, 5 mercredi
L'écart type est une valeur nommée exprimée dans les mêmes unités de mesure que la moyenne arithmétique.

Par conséquent, pour comparer différentes caractéristiques exprimées dans différentes unités de
Limites et portée

Pour une évaluation rapide et approximative du degré de diversité, les indicateurs les plus simples sont souvent utilisés : lim = (min ¸ max) – limites, c'est-à-dire les valeurs les plus petites et les plus grandes de la caractéristique, p =
Déviation normalisée

Habituellement, le degré de développement d'un trait est déterminé en le mesurant et est exprimé par un certain nombre nommé : 3 kg de poids, 15 cm de longueur, 20 crochets sur l'aile des abeilles, 4 % de matière grasse dans le lait, 15 kg de coupure
Moyenne et sigma du groupe total

Parfois, il est nécessaire de déterminer la moyenne et le sigma d'une distribution récapitulative composée de plusieurs distributions. Dans ce cas, ce ne sont pas les distributions elles-mêmes qui sont connues, mais seulement leurs moyennes et sigmas.
Asymétrie (asymétrie) et raideur (aplatissement) de la courbe de distribution

Pour les grands échantillons (n ​​> 100), deux statistiques supplémentaires sont calculées.
L’asymétrie de la courbe est appelée asymétrie :

Série de variantes
À mesure que le nombre de groupes étudiés augmente, le modèle de diversité qui, dans les petits groupes, était masqué par la forme aléatoire de sa manifestation devient de plus en plus apparent.

Histogramme et courbe de variation
Un histogramme est une série de variations présentée sous la forme d'un diagramme dans lequel différentes valeurs de fréquence sont représentées par différentes hauteurs des barres. L'histogramme de la distribution des données est présenté en p

Fiabilité des différences de distributions
Une hypothèse statistique est une hypothèse spécifique concernant la distribution de probabilité sous-jacente à un échantillon de données observé.

Le test d'hypothèses statistiques est un processus d'acceptation
Critère d'asymétrie et d'aplatissement

Certaines caractéristiques des plantes, des animaux et des micro-organismes, lors de la combinaison d'objets en groupes, donnent des distributions qui diffèrent considérablement de la normale.
Dans les cas où un

Population et échantillon
L'estimation de paramètres généraux à l'aide d'échantillons d'indicateurs a ses propres caractéristiques.

Une partie ne peut jamais caractériser complètement le tout, donc les caractéristiques de la population générale
Limites de confiance

Il est nécessaire de déterminer l'ampleur des erreurs de représentativité afin d'utiliser également des exemples d'indicateurs pour trouver les valeurs possibles des paramètres généraux. Ce processus est appelé o
Procédure générale d'évaluation

Trois grandeurs nécessaires pour évaluer le paramètre général - indicateur d'échantillon (), critère de fiabilité
Estimation de la moyenne arithmétique

L'estimation de la valeur moyenne vise à établir la valeur de la moyenne générale pour la catégorie d'objets étudiée. L'erreur de représentativité requise à cet effet est déterminée par la formule :
Estimation de la différence moyenne

Certaines études prennent la différence entre deux mesures comme donnée principale. Cela peut être le cas lorsque chaque individu de l'échantillon est étudié dans deux États - soit à des âges différents, soit
Estimation peu fiable et fiable de la différence moyenne

Les résultats d'études sur échantillons pour lesquels aucune estimation précise du paramètre général ne peut être obtenue (ou s'il est supérieur à zéro, ou inférieur ou égal à zéro) sont qualifiés de peu fiables.
Estimation de la différence entre les moyennes générales

En recherche biologique, la différence entre deux quantités revêt une importance particulière. Par différence, des comparaisons sont faites entre différentes populations, races, races, variétés, lignées, familles, groupes expérimentaux et témoins (méthode gr
Critère de fiabilité de différence

Compte tenu de la grande importance que revêt pour les chercheurs l’obtention de différences fiables, il est nécessaire de maîtriser des méthodes permettant de déterminer de manière réaliste si le résultat obtenu est fiable.
Représentativité dans l'étude des caractéristiques qualitatives

Les caractéristiques qualitatives ne peuvent généralement pas avoir de gradations de manifestation : elles sont soit présentes, soit non présentes chez chacun des individus, par exemple le sexe, l'homogénéité, la présence ou l'absence de certains traits, la déformation.
Fiabilité de la différence d'actions

La fiabilité de la différence des proportions d'échantillon est déterminée de la même manière que pour la différence de moyennes : (10.34)
Coefficient de corrélation

De nombreuses études nécessitent d’examiner plusieurs traits dans leurs interrelations. Si vous effectuez une telle étude par rapport à deux caractéristiques, vous remarquerez que la variabilité d'une caractéristique n'est pas
Erreur de coefficient de corrélation

Fiabilité du coefficient de corrélation de l'échantillon
Le critère du coefficient de corrélation de l'échantillon est déterminé par la formule : (11.9) où :

Limites de confiance du coefficient de corrélation
Les limites de confiance de la valeur générale du coefficient de corrélation se trouvent de manière générale à l'aide de la formule :

Fiabilité de la différence entre deux coefficients de corrélation
La fiabilité de la différence des coefficients de corrélation est déterminée de la même manière que la fiabilité de la différence des moyennes, selon la formule habituelle

Équation de régression droite
Une corrélation linéaire est différente en ce sens que, dans cette forme de connexion, à chacune des modifications identiques de la première caractéristique correspond une modification tout à fait définie et également identique en moyenne de l'autre caractéristique.

Erreurs dans les éléments de l'équation de régression linéaire
Dans l’équation de régression linéaire simple : y = a + bx, trois erreurs de représentativité surviennent.

1 Erreur du coefficient de régression :
Coefficient de corrélation partielle

Un coefficient de corrélation partielle est un indicateur qui mesure le degré de conjugaison de deux caractéristiques avec une valeur constante de la troisième.
Les statistiques mathématiques nous permettent d'établir une corrélation

Équation de régression multiple linéaire
L'équation mathématique pour une relation linéaire entre trois variables est appelée équation plane de régression linéaire multiple. Il a la forme générale suivante :

Relation de corrélation
Si la relation entre les phénomènes étudiés s'écarte considérablement de la relation linéaire, facile à établir à partir d'un graphique, alors le coefficient de corrélation ne convient pas comme mesure de connexion. Il peut signaler l'absence

Propriétés d'une relation de corrélation
Le rapport de corrélation mesure le degré de corrélation sous quelque forme que ce soit.

De plus, la relation de corrélation possède un certain nombre d'autres propriétés qui présentent un grand intérêt en statistique.
Erreur de représentativité de la relation de corrélation

Une formule exacte pour l’erreur de représentativité d’une relation de corrélation n’a pas encore été développée. Habituellement, la formule donnée dans les manuels présente des inconvénients qui ne peuvent pas toujours être ignorés. Cette formule n'enseigne pas
Critère de linéarité de la corrélation

Pour déterminer le degré de rapprochement d'une dépendance curviligne par rapport à une dépendance rectiligne, on utilise le critère F, calculé par la formule :
L'influence statistique est le reflet dans la diversité de l'attribut résultant de la diversité du facteur (ses gradations) organisé dans l'étude.

Évaluer l’influence du facteur néo
Influence factorielle

L'influence factorielle est une influence statistique simple ou combinée des facteurs étudiés.
Dans les complexes monofactoriels, la simple influence d'un facteur est étudiée dans certaines conditions organisationnelles.

Complexe de dispersion à un facteur
L'analyse de dispersion a été développée et introduite dans la pratique de la recherche agricole et biologique par le scientifique anglais R. A. Fisher, qui a découvert la loi de distribution du rapport des carrés moyens

Complexe de dispersion multifactoriel
Une compréhension claire du modèle mathématique de l'analyse de la variance facilite la compréhension des opérations de calcul nécessaires, en particulier lors du traitement des données provenant d'expériences multifactorielles dans lesquelles plus

Transformations
L'utilisation correcte de l'analyse de variance pour le traitement du matériel expérimental présuppose une homogénéité des variances entre les variantes (échantillons), une distribution normale ou proche de la normale dans

Indicateurs de la force des influences
Déterminer la force des influences en fonction de leurs résultats est nécessaire en biologie, en agriculture, en médecine pour sélectionner les moyens d'influence les plus efficaces, pour le dosage des agents physiques et chimiques - art.

Erreur de représentativité du principal indicateur de la force d'influence
La formule d'erreur exacte pour le principal indicateur de la force d'influence n'a pas encore été trouvée.

Dans les complexes à un facteur, lorsque l'erreur de représentativité n'est déterminée que pour un seul indicateur factoriel
Valeurs limites des indicateurs d'influence

Le principal indicateur de la force d'influence est égal à la part d'un terme dans la somme totale des termes. De plus, cet indicateur est égal au carré du rapport de corrélation. Pour ces deux raisons, le voyant d'alimentation
Fiabilité des influences

Le principal indicateur de la force d'influence obtenu dans une étude par sondage caractérise tout d'abord le degré d'influence qui s'est réellement manifesté dans le groupe d'objets étudiés.
Analyse Discriminante

L'analyse discriminante est l'une des méthodes d'analyse statistique multivariée. Le but de l'analyse discriminante est, à partir de la mesure de diverses caractéristiques (caractéristiques, paires)
L’analyse discriminante « fonctionne » si un certain nombre d’hypothèses sont remplies.

L'hypothèse selon laquelle les quantités observables (caractéristiques mesurables d'un objet) ont une distribution normale. Ce
Algorithme d'analyse discriminante

La solution aux problèmes de discrimination (analyse discriminante) consiste à diviser l'ensemble de l'espace échantillon (l'ensemble des réalisations de toutes les variables aléatoires multidimensionnelles considérées) en un certain nombre
Analyse de cluster

L'analyse groupée combine diverses procédures utilisées pour effectuer la classification. Suite à l'application de ces procédures, l'ensemble initial d'objets est divisé en clusters ou groupes
Méthodes d'analyse de cluster

En pratique, des méthodes de clustering agglomératives sont généralement mises en œuvre.
Habituellement, avant le début de la classification, les données sont standardisées (la moyenne est soustraite et divisée par la racine carrée



Algorithme d'analyse de cluster L'analyse groupée est un ensemble de méthodes permettant de classer des observations ou des objets multidimensionnels, basées sur la définition du concept de distance entre les objets, puis sur l'identification de groupes à partir d'eux, &