Analyse de corrélation de Spearman en psychologie. Coefficient de corrélation bisériale ponctuelle

37. Coefficient de corrélation de rang de Spearman.

Article 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Le coefficient de corrélation de rang de Spearman est utilisé dans les cas où :
- les variables ont échelle de classement des mesures;
- la distribution des données est trop différente de normale ou pas connu du tout ;
- les échantillons ont un petit volume (N< 30).

L'interprétation du coefficient de corrélation des rangs de Spearman n'est pas différente du coefficient de Pearson, mais sa signification est quelque peu différente. Pour comprendre la différence entre ces méthodes et justifier logiquement leurs domaines d’application, comparons leurs formules.

Coefficient de corrélation de Pearson :

Coefficient de corrélation de Spearman :

Comme vous pouvez le constater, les formules diffèrent considérablement. Comparons les formules

La formule de corrélation de Pearson utilise la moyenne arithmétique et l'écart type de la série corrélée, mais pas la formule de Spearman. Ainsi, pour obtenir un résultat adéquat en utilisant la formule de Pearson, il faut que les séries corrélées soient proches de la distribution normale (la moyenne et l'écart type sont paramètres de distribution normale). Ceci n'est pas pertinent pour la formule de Spearman.

Un élément de la formule de Pearson est la standardisation de chaque série dans échelle z.

Comme vous pouvez le constater, la conversion des variables à l'échelle Z est présente dans la formule du coefficient de corrélation de Pearson. Ainsi, pour le coefficient de Pearson, l'échelle des données n'a aucune importance : par exemple, on peut corréler deux variables dont l'une a un min. = 0 et max. = 1, et la deuxième min. = 100 et max. = 1000. Quelle que soit la différence entre la plage de valeurs, elles seront toutes converties en valeurs z standard de même échelle.

Une telle normalisation ne se produit pas dans le coefficient de Spearman, donc

UNE CONDITION OBLIGATOIRE POUR L'UTILISATION DU COEFFICIENT SPEARMAN EST L'ÉGALITÉ DE LA PLAGE DES DEUX VARIABLES.

Avant d'utiliser le coefficient de Spearman pour des séries de données avec des plages différentes, il est nécessaire de rang. Le classement fait que les valeurs de ces séries acquièrent le même minimum = 1 (rang minimum) et un maximum égal au nombre de valeurs (maximum, dernier rang = N, c'est-à-dire le nombre maximum de cas dans l'échantillon) .

Dans quels cas peut-on se passer de classement ?

Il s'agit de cas où les données sont initialement échelle de classement. Par exemple, le test de Rokeach sur les orientations de valeurs.

Il s’agit également de cas où le nombre d’options de valeur est faible et où l’échantillon contient un minimum et un maximum fixes. Par exemple, dans un différentiel sémantique, minimum = 1, maximum = 7.

Exemple de calcul du coefficient de corrélation de rang de Spearman

Le test d'orientations de valeurs de Rokeach a été réalisé sur deux échantillons X et Y. Objectif : découvrir à quel point les hiérarchies de valeurs de ces échantillons sont proches (littéralement, à quel point elles sont similaires).

La valeur résultante r=0,747 est vérifiée par tableau des valeurs critiques. D'après le tableau, avec N=18, la valeur obtenue est significative au niveau p<=0,005

Coefficients de corrélation de rang de Spearman et Kendal

Pour les variables appartenant à une échelle ordinale ou pour les variables non soumises à une distribution normale, ainsi que pour les variables appartenant à une échelle d'intervalle, la corrélation de rang de Spearman est calculée à la place du coefficient de Pearson. Pour ce faire, des valeurs de variables individuelles se voient attribuer des rangs, qui sont ensuite traités à l'aide de formules appropriées. Pour détecter la corrélation de rang, décochez la case par défaut Corrélation de Pearson dans la boîte de dialogue Corrélations bivariées.... Activez plutôt le calcul de corrélation de Spearman. Ce calcul donnera les résultats suivants. Les coefficients de corrélation de rang sont très proches des valeurs correspondantes des coefficients de Pearson (les variables d'origine ont une distribution normale).

titkova-matmetody.pdf p. 45

La méthode de corrélation des rangs de Spearman vous permet de déterminer l'étanchéité (force) et la direction

corrélation entre deux signes ou deux profils (hiérarchies) panneaux.

Pour calculer la corrélation de rang, il est nécessaire d'avoir deux lignes de valeurs,

qui peut être classé. Une telle série de valeurs pourrait être :

1) deux signes mesuré dans le même groupe sujets;

2) deux hiérarchies individuelles de caractéristiques, identifié chez deux sujets utilisant le même

ensemble de fonctionnalités ;

3) deux regrouper les hiérarchies de caractéristiques,

4) individuel et en groupe hiérarchie des fonctionnalités.

Premièrement, les indicateurs sont classés séparément pour chacune des caractéristiques.

En règle générale, un rang inférieur est attribué à une valeur d'attribut inférieure.

Dans le premier cas (deux caractéristiques), les valeurs individuelles sont classées selon la première

caractéristique obtenue par différents sujets, puis valeurs individuelles pour le second

signe.

Si deux caractéristiques sont positivement liées, alors les sujets de faible rang

l'un d'eux aura un rang bas dans l'autre, et les sujets qui auront un rang élevé dans l'autre.

l’une des caractéristiques aura également un rang élevé pour l’autre caractéristique. Pour calculer rs

les différences doivent être déterminées (d) entre les rangs obtenus par un sujet donné dans les deux

panneaux. Ensuite, ces indicateurs d sont transformés d'une certaine manière et soustraits de 1. Que

Plus la différence entre les rangs est petite, plus rs sera grand, plus il sera proche de +1.

S'il n'y a pas de corrélation, alors tous les rangs seront mélangés et il n'y aura pas de corrélation.

aucune correspondance. La formule est conçue pour que dans ce cas, rs soit proche de 0.

En cas de corrélation négative faibles rangs de sujets sur une base

les rangs élevés sur une autre base correspondront, et vice versa. Plus l'écart est grand

entre les rangs des sujets sur deux variables, plus r est proche de -1.

Dans le deuxième cas (deux profils individuels), les individuels sont classés

valeurs obtenues par chacun des 2 sujets selon un certain (le même pour eux

les deux) ensemble de fonctionnalités. Le premier rang sera attribué à la fonctionnalité ayant la valeur la plus basse ; deuxième rang –

un signe avec une valeur plus élevée, etc. Évidemment, toutes les caractéristiques doivent être mesurées

les mêmes unités, sinon le classement est impossible. Par exemple, il est impossible

classer les indicateurs sur le Cattell Personality Inventory (16PF), s'ils sont exprimés en

des scores « bruts », puisque les plages de valeurs sont différentes selon les facteurs : de 0 à 13, de 0 à

20 et de 0 à 26. Nous ne pouvons pas dire quel facteur occupera la première place dans

expression jusqu'à ce que nous ramenions toutes les valeurs à une seule échelle (le plus souvent il s'agit de l'échelle murale).

Si les hiérarchies individuelles de deux sujets sont positivement liées, alors les signes

avoir un rang bas dans l’un d’eux aura un rang bas dans l’autre, et vice versa.

Par exemple, si le facteur E (dominance) d’un sujet a le rang le plus bas, alors

un autre sujet de test, il devrait avoir un rang faible si un sujet de test a le facteur C

(stabilité émotionnelle) a le rang le plus élevé, alors l'autre sujet doit également avoir

ce facteur a un rang élevé, etc.

Dans le troisième cas (deux profils de groupe), les valeurs moyennes du groupe sont classées,

obtenu en 2 groupes de sujets selon un ensemble précis, identique pour les deux groupes

panneaux. Dans ce qui suit, le raisonnement est le même que dans les deux cas précédents.

Dans le cas 4 (profils individuels et de groupe), ils sont classés séparément

valeurs individuelles du sujet et valeurs moyennes du groupe pour le même ensemble

signes qui sont obtenus, en règle générale, en excluant ce sujet individuel - il

ne participe pas au profil de groupe moyen avec lequel son individu sera comparé

profil. La corrélation des classements vous permettra de vérifier la cohérence des performances individuelles et

profils de groupe.

Dans les quatre cas, la signification du coefficient de corrélation résultant est déterminée

par le nombre de valeurs classées N. Dans le premier cas, cette quantité coïncidera avec

taille de l'échantillon n. Dans le second cas, le nombre d'observations sera le nombre d'entités,

constituant la hiérarchie. Dans les troisième et quatrième cas, N est aussi le nombre de comparaisons

caractéristiques, et non le nombre de sujets dans les groupes. Des explications détaillées sont données dans les exemples. Si

la valeur absolue de rs atteint ou dépasse une valeur critique, corrélation

fiable.

Hypothèses.

Il y a deux hypothèses possibles. Le premier s'applique au cas 1, le second aux trois autres

Première version des hypothèses

H0 : La corrélation entre les variables A et B n'est pas différente de zéro.

H2 : La corrélation entre les variables A et B est significativement différente de zéro.

Deuxième version des hypothèses

H0 : La corrélation entre les hiérarchies A et B n'est pas différente de zéro.

H2 : La corrélation entre les hiérarchies A et B est significativement différente de zéro.

Limites du coefficient de corrélation de rang

1. Pour chaque variable, au moins 5 observations doivent être présentées. Supérieur

la limite d'échantillonnage est déterminée par les tableaux de valeurs critiques disponibles .

2. Coefficient de corrélation de rang de Spearman rs pour un grand nombre de valeurs identiques

les classements pour une ou les deux variables comparées donnent des valeurs approximatives. Idéalement

les deux séries corrélées doivent représenter deux séquences de valeurs divergentes

valeurs. Si cette condition n'est pas remplie, une modification doit être apportée à

mêmes rangs.

Le coefficient de corrélation de rang de Spearman est calculé à l'aide de la formule :

Si les deux séries de rangs comparées contiennent des groupes de mêmes rangs,

avant de calculer le coefficient de corrélation de rang, il est nécessaire d'apporter des corrections pour le même

Classements Ta et TV :

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

UN - le volume de chaque groupe de rangs identiques dans la rangée de rang A, en volume de chacun

groupes de rangs identiques dans la série de rangs B.

Pour calculer la valeur empirique de rs, utilisez la formule :

38. Coefficient de corrélation point-bisérial.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Supposons que la variable X soit mesurée sur une échelle forte et la variable Y sur une échelle dichotomique. Le coefficient de corrélation bisériale ponctuelle rpb est calculé à l'aide de la formule :

Ici, x 1 est la valeur moyenne sur X objets avec une valeur de « un » sur Y ;

x 0 – valeur moyenne sur X objets avec une valeur de « zéro » sur Y ;

s x – écart type de toutes les valeurs le long de X ;

n 1 – nombre d'objets « un » dans Y, n 0 – nombre d'objets « zéro » dans Y ;

n = n 1 + n 0 – taille de l'échantillon.

Le coefficient de corrélation bisériale ponctuelle peut également être calculé à l'aide d'autres expressions équivalentes :

Ici x– valeur moyenne globale de la variable X.

Coefficient de corrélation bisériale ponctuelle rpb varie de –1 à +1. Sa valeur est nulle si les variables avec un Oui avoir une moyenne Oui, égal à la moyenne des variables avec zéro sur Oui.

Examen hypothèses de signification le coefficient de corrélation bisérial ponctuel est à vérifier hypothèse nulleh 0 sur l’égalité du coefficient de corrélation général à zéro : ρ = 0, qui est réalisée à l’aide du test t de Student. Signification empirique

par rapport aux valeurs critiques t un (df) pour le nombre de degrés de liberté df = n– 2

Si la condition | t| ≤ ta(df), l'hypothèse nulle ρ = 0 n'est pas rejetée. Le coefficient de corrélation bisériale ponctuelle diffère significativement de zéro si la valeur empirique | t| tombe dans la région critique, c'est-à-dire si la condition | t| > ta(n– 2). Fiabilité de la relation calculée à l'aide du coefficient de corrélation bisériale ponctuelle rpb, peut également être déterminé à l'aide du critère χ 2 pour le nombre de degrés de liberté df= 2.

Corrélation bisériale ponctuelle

La modification ultérieure du coefficient de corrélation du produit des moments s'est reflétée dans le point bisérial r. Cette statistique. montre la relation entre deux variables, dont l'une est censée être continue et normalement distribuée, et l'autre est discrète au sens strict du terme. Le coefficient de corrélation bisériale ponctuelle est noté r pbis Depuis dans r pbis la dichotomie reflète la vraie nature de la variable discrète, et n'est pas artificielle, comme dans le cas r bis, son signe est déterminé arbitrairement. Par conséquent, à toutes fins pratiques. objectifs r pbis considéré dans la plage de 0,00 à +1,00.

Il existe également le cas où deux variables sont supposées continues et normalement distribuées, mais toutes deux sont artificiellement dichotomisées, comme dans le cas de la corrélation bisériale. Pour évaluer la relation entre ces variables, le coefficient de corrélation tétrachorique est utilisé r tet, qui a également été élevé par Pearson. Basique formules (exactes) et procédures de calcul r tet assez complexe. Par conséquent, avec des moyens pratiques Cette méthode utilise des approximations r tet,obtenu sur la base de procédures et de tableaux abrégés.

/en ligne/dictionnaire/dictionary.php?term=511

COEFFICIENT BISERIAL DU POINT est le coefficient de corrélation entre deux variables, l'une mesurée sur une échelle dichotomique et l'autre sur une échelle d'intervalle. Il est utilisé dans les tests classiques et modernes comme indicateur de la qualité d'une tâche de test - fiabilité et cohérence avec la note globale du test.

Pour corréler les variables mesurées dans échelle dichotomique et d'intervalle utiliser coefficient de corrélation point-bisérien.
Le coefficient de corrélation point-bisérial est une méthode d'analyse de corrélation de la relation de variables dont l'une est mesurée sur une échelle de noms et ne prend que 2 valeurs (par exemple, hommes/femmes, bonne réponse/fausse réponse, caractéristique présent/non présent), et le second sur une échelle de rapports ou d'intervalles. Formule de calcul du coefficient de corrélation point-bisérial :

Où:
m1 et m0 sont les valeurs moyennes de X avec une valeur de 1 ou 0 dans Y.
σx – écart type de toutes les valeurs par X
n1,n0 – nombre de valeurs X de 1 ou 0 à Y.
n – nombre total de paires de valeurs

Le plus souvent, ce type de coefficient de corrélation est utilisé pour calculer la relation entre les éléments de test et l'échelle totale. Il s’agit d’un type de contrôle de validité.

39. Coefficient de corrélation rang-bisérial.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Coefficient de corrélation bisérielle de rang, utilisé dans les cas où l'une des variables ( X) est présenté sur une échelle ordinale, et l'autre ( Oui) – dichotomique, calculé par la formule

.

Voici le rang moyen des objets en possédant un sur Oui; – rang moyen des objets de zéro à Oui, n- taille de l'échantillon.

Examen hypothèses de signification Le coefficient de corrélation rang-bisérial est réalisé de manière similaire au coefficient de corrélation bisérial ponctuel en utilisant le test de Student avec remplacement dans les formules rpb sur rrb.

Dans les cas où une variable est mesurée sur une échelle dichotomique (variable X), et l'autre dans l'échelle de rang (variable Y), le coefficient de corrélation rang-bisérial est utilisé. On rappelle que la variable X, mesuré sur une échelle dichotomique, ne prend que deux valeurs (codes) 0 et 1. Soulignons particulièrement : malgré le fait que ce coefficient varie dans la plage de –1 à +1, son signe n'a pas d'importance pour l'interprétation du résultats. Il s'agit d'une autre exception à la règle générale.

Ce coefficient est calculé à l'aide de la formule :

où ` X 1 rang moyen pour ces éléments de la variable Oui, qui correspond au code (signe) 1 dans la variable X;

`X 0 – rang moyen pour ces éléments de la variable Oui, qui correspond au code (signe) 0 dans la variable X\

N – nombre total d'éléments dans la variable X.

Pour appliquer le coefficient de corrélation rang-bisérial, les conditions suivantes doivent être remplies :

1. Les variables comparées doivent être mesurées à différentes échelles : une X - sur une échelle dichotomique ; autre O– sur une échelle de classement.

2. Nombre de caractéristiques variables dans les variables comparées X Et Oui devrait être le même.

3. Pour évaluer le niveau de fiabilité du coefficient de corrélation rang-bisérial, vous devez utiliser la formule (11.9) et le tableau des valeurs critiques pour le test de Student k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Cas où l'une des variables est représentée dans échelle dichotomique, et l'autre dans rang (ordinal), nécessite une demande coefficient de corrélation rang-bisérien :

rpb=2 / n * (m1 - m0)

Où:
n – nombre d'objets de mesure
m1 et m0 - le rang moyen des objets avec 1 ou 0 sur la deuxième variable.
Ce coefficient est également utilisé lors du contrôle de la validité des tests.

40. Coefficient de corrélation linéaire.

Pour la corrélation en général (et la corrélation linéaire en particulier), voir question n°36 Avec. 56 (64) 063.JPG

COEFFICIENT DE M. PEARSON

r-Pearson (Pearson r) est utilisé pour étudier la relation entre deux métriquesdifférentes variables mesurées sur le même échantillon. Il existe de nombreuses situations dans lesquelles son utilisation est appropriée. L’intelligence affecte-t-elle les performances académiques dans les cours universitaires supérieurs ? Le montant du salaire d’un salarié est-il lié à sa convivialité envers ses collègues ? L’humeur d’un élève affecte-t-elle la réussite de la résolution d’un problème arithmétique complexe ? Pour répondre à ces questions, le chercheur doit mesurer deux indicateurs d’intérêt pour chaque membre de l’échantillon. Les données permettant d'étudier la relation sont ensuite tabulées, comme dans l'exemple ci-dessous.

EXEMPLE 6.1

Le tableau présente un exemple de données initiales pour mesurer deux indicateurs d'intelligence (verbale et non verbale) pour 20 élèves de 8e année.

La relation entre ces variables peut être représentée à l'aide d'un nuage de points (voir Figure 6.3). Le diagramme montre qu'il existe une certaine relation entre les indicateurs mesurés : plus la valeur de l'intelligence verbale est grande, plus (généralement) la valeur de l'intelligence non verbale est grande.

Avant de donner la formule du coefficient de corrélation, essayons de retracer la logique de son apparition en utilisant les données de l'exemple 6.1. La position de chaque point / (sujet avec le numéro /) sur le diagramme de dispersion par rapport aux autres points (Fig. 6.3) peut être précisée par les valeurs et les signes d'écarts des valeurs variables correspondantes par rapport à leurs valeurs moyennes. : (xj - MJ Et (esprit à ). Si les signes de ces écarts coïncident, cela indique une relation positive (des valeurs plus grandes pour X les grandes valeurs correspondent à à ou des valeurs inférieures X des valeurs plus petites correspondent à y).

Pour le sujet n°1, écart par rapport à la moyenne X et par à positif, et pour le sujet n°3 les deux écarts sont négatifs. Par conséquent, les données des deux indiquent une relation positive entre les traits étudiés. Au contraire, si les signes d'écarts par rapport à la moyenne X et par à diffèrent, cela indiquera une relation négative entre les caractéristiques. Ainsi, pour le sujet n°4, l'écart par rapport à la moyenne X est négatif, par oui - positif, et pour le sujet n°9 - vice versa.

Ainsi, si le produit des écarts (x,- M. X ) X (esprit à ) positif, alors les données du /-sujet indiquent une relation directe (positive), et si négatives, alors une relation inverse (négative). En conséquence, si Xwouais sont généralement liés en proportion directe, alors la plupart des produits des écarts seront positifs, et s'ils sont liés par une relation inverse, alors la plupart des produits seront négatifs. Par conséquent, un indicateur général de la force et de la direction de la relation peut être la somme de tous les produits des écarts pour un échantillon donné :

Avec une relation directement proportionnelle entre les variables, cette valeur est grande et positive - pour la plupart des sujets, les écarts coïncident en signe (les grandes valeurs d'une variable correspondent aux grandes valeurs d'une autre variable et vice versa). Si X Et à avoir des commentaires, alors pour la plupart des sujets, des valeurs plus grandes d'une variable correspondront à des valeurs plus petites d'une autre variable, c'est-à-dire que les signes des produits seront négatifs et la somme des produits dans leur ensemble sera également grande en valeur absolue, mais de signe négatif. S'il n'y a pas de connexion systématique entre les variables, alors les termes positifs (produits des écarts) seront équilibrés par des termes négatifs et la somme de tous les produits des écarts sera proche de zéro.

Pour s'assurer que la somme des produits ne dépend pas de la taille de l'échantillon, il suffit d'en faire la moyenne. Mais nous nous intéressons à la mesure de l'interconnexion non pas en tant que paramètre général, mais en tant qu'estimation calculée de celui-ci - des statistiques. Par conséquent, comme pour la formule de dispersion, dans ce cas nous ferons de même, diviserons la somme des produits des écarts non par N, et à la télévision - 1. Le résultat est une mesure de connexion, largement utilisée en physique et en sciences techniques, appelée covariance (Covahance):


DANS En psychologie, contrairement à la physique, la plupart des variables sont mesurées sur des échelles arbitraires, puisque les psychologues ne s'intéressent pas à la valeur absolue d'un signe, mais à la position relative des sujets dans un groupe. De plus, la covariance est très sensible à l’échelle de l’échelle (variance) sur laquelle les traits sont mesurés. Pour rendre la mesure de connexion indépendante des unités de mesure des deux caractéristiques, il suffit de diviser la covariance en écarts types correspondants. On a ainsi obtenu pour-Mule du coefficient de corrélation de K. Pearson :

ou, après avoir remplacé les expressions de ox et


Si les valeurs des deux variables étaient converties en valeurs r à l'aide de la formule


alors la formule du coefficient de corrélation r-Pearson semble plus simple (071.JPG) :

/dict/sociologie/article/soc/soc-0525.htm

CORRÉLATION LINÉAIRE- relation statistique linéaire de nature non causale entre deux variables quantitatives X Et à. Mesuré à l'aide du « coefficient K.L ». Pearson, qui est le résultat de la division de la covariance par les écarts types des deux variables :

,

s xy- covariance entre variables X Et à;

s X , s oui- écarts types pour les variables X Et à;

X je , oui je- valeurs variables X Et à pour objet avec numéro je;

X, oui- moyennes arithmétiques des variables X Et à.

Coefficient de Pearson r peut prendre des valeurs de l'intervalle [-1; +1]. Signification r = 0 signifie qu'il n'y a pas de relation linéaire entre les variables X Et à(mais n'exclut pas une relation statistique non linéaire). Valeurs de coefficient positives ( r> 0) indique une connexion linéaire directe ; plus sa valeur est proche de +1, plus la relation est forte. Valeurs de coefficient négatives ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 signifie la présence d'une connexion linéaire complète, directe ou inverse. Dans le cas d'une connexion complète, tous les points avec des coordonnées ( X je , oui je) s'allonger sur une ligne droite oui = un + bx.

"Coefficient K.L." Pearson est également utilisé pour mesurer la force de la connexion dans un modèle de régression linéaire par paires.

41. Matrice de corrélation et graphique de corrélation.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

Matrice de corrélation. Souvent, l'analyse de corrélation comprend l'étude des liens entre non pas deux, mais de nombreuses variables mesurées sur une échelle quantitative dans un échantillon. Dans ce cas, des corrélations sont calculées pour chaque paire de cet ensemble de variables. Les calculs sont généralement effectués sur un ordinateur et le résultat est une matrice de corrélation.

Matrice de corrélation(Corrélation Matrice) est le résultat du calcul de corrélations d'un type pour chaque paire de l'ensemble R. variables mesurées sur une échelle quantitative dans un échantillon.

EXEMPLE

Supposons que nous étudions les relations entre 5 variables (vl, v2,..., v5 ; P.= 5), mesuré sur un échantillon de N=30 Humain. Vous trouverez ci-dessous un tableau des données sources et une matrice de corrélation.

ET
données similaires :

Matrice de corrélation :

Il est facile de remarquer que la matrice de corrélation est carrée, symétrique par rapport à la diagonale principale (takkak,y = /) y), avec des unités sur la diagonale principale (puisque g Et = Gu = 1).

La matrice de corrélation est carré: le nombre de lignes et de colonnes est égal au nombre de variables. Elle symétrique par rapport à la diagonale principale, puisque la corrélation X Avec àégal à la corrélation à Avec X. Les unités sont situées sur sa diagonale principale, puisque la corrélation de la caractéristique avec elle-même est égale à un. Par conséquent, tous les éléments de la matrice de corrélation ne sont pas soumis à analyse, mais ceux qui se situent au-dessus ou en dessous de la diagonale principale.

Nombre de coefficients de corrélation, Les caractéristiques à analyser lors de l'étude des relations sont déterminées par la formule : P(P- 1)/2. Dans l'exemple ci-dessus, le nombre de ces coefficients de corrélation est 5(5 - 1)/2 = 10.

La tâche principale de l'analyse de la matrice de corrélation est identifier la structure des relations entre de nombreuses fonctionnalités. Dans ce cas, une analyse visuelle est possible galaxies de corrélation- image graphique structures statistiquementdes liens significatifs, s'il n'y a pas beaucoup de connexions de ce type (jusqu'à 10-15). Une autre façon est d'utiliser des méthodes multivariées : régression multiple, analyse factorielle ou cluster (voir section « Méthodes multivariées... »). À l’aide de l’analyse factorielle ou groupée, il est possible d’identifier des groupements de variables plus étroitement liées les unes aux autres qu’aux autres variables. Une combinaison de ces méthodes est également très efficace, par exemple s’il existe de nombreux signes et qu’ils ne sont pas homogènes.

Comparaison des corrélations - une tâche supplémentaire d'analyse de la matrice de corrélation, qui propose deux options. S'il est nécessaire de comparer les corrélations dans l'une des lignes de la matrice de corrélation (pour l'une des variables), la méthode de comparaison des échantillons dépendants est utilisée (p. 148-149). Lors de la comparaison de corrélations du même nom calculées pour différents échantillons, la méthode de comparaison pour échantillons indépendants est utilisée (p. 147-148).

Méthodes de comparaison corrélations en diagonales matrice de corrélation (pour évaluer la stationnarité d'un processus aléatoire) et comparaison plusieurs les matrices de corrélation obtenues pour différents échantillons (en raison de leur homogénéité) demandent beaucoup de travail et dépassent le cadre de ce livre. Vous pouvez vous familiariser avec ces méthodes dans le livre de G.V. Sukhodolsky 1.

Le problème de la signification statistique des corrélations. Le problème est que la procédure de test d’hypothèse statistique suppose un-plusieurs test effectué sur un échantillon. Si la même méthode est appliquée à plusieurs reprises, même si par rapport à différentes variables, la probabilité d'obtenir un résultat purement par hasard augmente. En général, si nous répétons la même méthode de test d'hypothèse une fois par rapport à différentes variables ou échantillons, alors avec la valeur établie a nous sommes assurés de recevoir la confirmation de l'hypothèse dans ahk Nombre de cas.

Supposons qu'une matrice de corrélation soit analysée pour 15 variables, c'est-à-dire que 15(15-1)/2 = 105 coefficients de corrélation sont calculés. Pour tester les hypothèses, le niveau a = 0,05 est fixé. En vérifiant l'hypothèse 105 fois, nous en recevrons la confirmation cinq fois (!), que la connexion existe réellement ou non. Sachant cela et disposant, disons, de 15 coefficients de corrélation « statistiquement significatifs », pouvons-nous dire lesquels ont été obtenus par hasard et lesquels reflètent une relation réelle ?

À proprement parler, pour prendre une décision statistique, il faut réduire le niveau a d’autant de fois que le nombre d’hypothèses testées. Mais cela n’est guère conseillé, car la probabilité d’ignorer une connexion réellement existante (faire une erreur de type II) augmente de manière imprévisible.

La matrice de corrélation seule ne constitue pas une base suffisantepour des conclusions statistiques concernant les coefficients individuels qui y sont incluscorrélations!

Il n'existe qu'une seule façon vraiment convaincante de résoudre ce problème : diviser l'échantillon de manière aléatoire en deux parties et ne prendre en compte que les corrélations statistiquement significatives dans les deux parties de l'échantillon. Une alternative peut être l’utilisation de méthodes multivariées (analyse factorielle, groupée ou de régression multiple) pour identifier et ensuite interpréter des groupes de variables statistiquement significativement liées.

Problème de valeurs manquantes. S'il manque des valeurs dans les données, alors deux options sont possibles pour calculer la matrice de corrélation : a) suppression des valeurs ligne par ligne (Exclurecaspar liste); b) suppression de valeurs par paires (Exclurecaspar paires). À suppression ligne par ligne observations avec des valeurs manquantes, la ligne entière d'un objet (sujet) qui a au moins une valeur manquante pour l'une des variables est supprimée. Cette méthode conduit à une matrice de corrélation « correcte » dans le sens où tous les coefficients sont calculés à partir du même ensemble d’objets. Cependant, si les valeurs manquantes sont réparties de manière aléatoire dans les variables, cette méthode peut alors conduire au fait qu'il ne reste plus un seul objet dans l'ensemble de données considéré (il y aura au moins une valeur manquante dans chaque ligne) . Pour éviter cette situation, utilisez une autre méthode appelée retrait par paire. Cette méthode prend uniquement en compte les écarts dans chaque paire colonne-variable sélectionnée et ignore les écarts dans les autres variables. La corrélation pour une paire de variables est calculée pour les objets pour lesquels il n'y a pas d'écart. Dans de nombreuses situations, notamment lorsque le nombre d’écarts est relativement faible, disons 10 %, et que les écarts sont répartis de manière assez aléatoire, cette méthode ne conduit pas à de graves erreurs. Cependant, ce n’est parfois pas le cas. Par exemple, un biais (décalage) systématique dans l'évaluation peut « cacher » un arrangement systématique d'omissions, ce qui explique la différence entre les coefficients de corrélation construits pour différents sous-ensembles (par exemple, pour différents sous-groupes d'objets). Un autre problème lié à la matrice de corrélation calculée avec par paires la suppression des lacunes se produit lors de l'utilisation de cette matrice dans d'autres types d'analyse (par exemple, dans la régression multiple ou l'analyse factorielle). Ils supposent que la matrice de corrélation « correcte » est utilisée avec un certain niveau de cohérence et de « conformité » des différents coefficients. L'utilisation d'une matrice avec des estimations « mauvaises » (biaisées) conduit au fait que le programme est soit incapable d'analyser une telle matrice, soit que les résultats seront erronés. Par conséquent, si la méthode par paires d’exclusion des données manquantes est utilisée, il est nécessaire de vérifier s’il existe des modèles systématiques dans la distribution des données manquantes.

Si la suppression par paire des données manquantes n'entraîne pas de déplacement systématique des moyennes et des variances (écarts types), alors ces statistiques seront similaires à celles calculées à l'aide de la méthode ligne par ligne de suppression des données manquantes. Si une différence significative est observée, il y a alors lieu de supposer qu’il y a un changement dans les estimations. Par exemple, si la moyenne (ou écart type) des valeurs d'une variable UN, qui a été utilisé pour calculer sa corrélation avec la variable DANS, bien inférieur à la moyenne (ou écart type) des mêmes valeurs de la variable UN, qui ont été utilisées pour calculer sa corrélation avec la variable C, alors il y a tout lieu de s'attendre à ce que ces deux corrélations (UN Bnous) basé sur différents sous-ensembles de données. Il y aura un biais dans les corrélations causé par le placement non aléatoire des écarts dans les valeurs des variables.

Analyse des galaxies de corrélation. Après avoir résolu le problème de la signification statistique des éléments de la matrice de corrélation, les corrélations statistiquement significatives peuvent être représentées graphiquement sous la forme d'une galaxie ou d'une galaxie de corrélation. Galaxie de corrélation - Il s'agit d'une figure composée de sommets et de lignes qui les relient. Les sommets correspondent aux caractéristiques et sont généralement désignés par des nombres - nombres variables. Les lignes correspondent à des connexions statistiquement significatives et expriment graphiquement le signe et parfois le niveau j de signification de la connexion.

La galaxie de corrélation peut refléter Tous connexions statistiquement significatives de la matrice de corrélation (parfois appelées graphique de corrélation ) ou seulement leur partie significativement sélectionnée (par exemple, correspondant à un facteur selon les résultats de l'analyse factorielle).

EXEMPLE DE CONSTRUCTION D'UNE PLÉIADE DE CORRÉLATION


Préparation à la certification d'État (finale) des diplômés : constitution de la base de données de l'Examen d'État unifié (liste générale des participants à l'Examen d'État unifié de toutes catégories, indiquant les matières) - prise en compte des jours de réserve pour les mêmes matières ;

  • Plan de travail (27)

    Solution

    2. Activités de l'établissement d'enseignement visant à améliorer le contenu et à évaluer la qualité des matières d'enseignement des sciences et des mathématiques Établissement d'enseignement municipal école secondaire n° 4, Litvinovskaya, Chapaevskaya,

  • Corrélation des rangs de Spearman(corrélation des rangs). La corrélation de rang de Spearman est le moyen le plus simple de déterminer le degré de relation entre les facteurs. Le nom de la méthode indique que la relation est déterminée entre des rangs, c'est-à-dire des séries de valeurs quantitatives obtenues, classées par ordre décroissant ou croissant. Il faut garder à l'esprit que, premièrement, la corrélation de rang n'est pas recommandée si la connexion entre les paires est inférieure à quatre et supérieure à vingt ; d'autre part, la corrélation de rang permet de déterminer la relation dans un autre cas, si les valeurs sont de nature semi-quantitative, c'est-à-dire qu'elles n'ont pas d'expression numérique et reflètent un ordre clair d'apparition de ces valeurs ; troisièmement, il est conseillé d'utiliser la corrélation de rang dans les cas où elle suffit pour obtenir des données approximatives. Un exemple de calcul du coefficient de corrélation de rang pour déterminer la question : le questionnaire mesure X et Y qualités personnelles similaires des sujets. À l'aide de deux questionnaires (X et Y), qui nécessitent des réponses alternatives « oui » ou « non », les principaux résultats ont été obtenus - les réponses de 15 sujets (N = 10). Les résultats ont été présentés comme la somme des réponses affirmatives séparément pour le questionnaire X et pour le questionnaire B. Ces résultats sont résumés dans le tableau. 5.19.

    Tableau 5.19. Tabulation des résultats primaires pour calculer le coefficient de corrélation de rang de Spearman (p) *

    Analyse de la matrice récapitulative de corrélation. Méthode de corrélation des galaxies.

    Exemple. Dans le tableau La figure 6.18 montre les interprétations de onze variables testées à l'aide de la méthode Wechsler. Les données ont été obtenues à partir d'un échantillon homogène âgé de 18 à 25 ans (n ​​= 800).

    Avant la stratification, il est conseillé de classer la matrice de corrélation. Pour ce faire, les valeurs moyennes des coefficients de corrélation de chaque variable avec toutes les autres sont calculées dans la matrice d'origine.

    Puis selon le tableau. 5.20 déterminer les niveaux acceptables de stratification de la matrice de corrélation avec une probabilité de confiance donnée de 0,95 et n - quantités

    Tableau 6.20. Matrice de corrélation ascendante

    Variables 1 2 3 4 serait 0 7 8 0 10 11 M (rij) Rang
    1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
    2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
    3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
    4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
    5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
    6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
    7 1 0,310 0,388 0,264 0,266 0,310 9
    8 1 0,897 0,363 0,388 0,363 5
    9 1 0,388 0,430 0,846 6
    10 1 0,336 0,310 8
    11 1 0,300 10

    Désignations : 1 - sensibilisation générale ; 2 - conceptualité ; 3 - attention ; 4 - vdataness K de généralisation ; b - mémorisation directe (en chiffres) 6 - niveau de maîtrise de la langue maternelle ; 7 - rapidité de maîtrise des compétences sensorimotrices (codage des symboles) 8 - observation ; 9 - capacités combinatoires (pour l'analyse et la synthèse) 10 - capacité à organiser des parties en un tout significatif ; 11 - capacité de synthèse heuristique ; M (rij) - la valeur moyenne des coefficients de corrélation de la variable avec d'autres variables d'observation (dans notre cas n = 800) : r (0) - la valeur du plan zéro "Dissection" - la valeur absolue significative minimale du coefficient de corrélation (n - 120, r (0) = 0,236 ; n = 40, r (0) = 0,407) | Δr | - pas de stratification admissible (n = 40, | Δr | = 0,558) dans - nombre admissible de niveaux de stratification (n = 40, s = 1 ; n = 120, s = 2) ; r (1), r (2), ..., r (9) - valeur absolue du plan de coupe (n = 40, r (1) = 0,965).

    Pour n = 800, nous trouvons la valeur de gtype et les limites de gi, après quoi nous stratifions la matrice de corrélation, en mettant en évidence les pléiades de corrélation dans les couches, ou des parties séparées de la matrice de corrélation, en dessinant des associations de pléiades de corrélation pour les couches sus-jacentes (Fig. .5.5).

    Une analyse significative des galaxies résultantes va au-delà des statistiques mathématiques. Il convient de noter qu’il existe deux indicateurs formels qui facilitent l’interprétation significative des Pléiades. Un indicateur important est le degré d’un sommet, c’est-à-dire le nombre d’arêtes adjacentes à un sommet. La variable avec le plus grand nombre d'arêtes est le « noyau » de la galaxie et peut être considérée comme un indicateur des variables restantes de cette galaxie. Un autre indicateur important est la densité de la communication. Une variable peut avoir moins de connexions dans une galaxie, mais plus proches, et plus de connexions dans une autre galaxie, mais moins proches.

    Prédictions et estimations. L'équation y = b1x + b0 est appelée l'équation générale de la droite. Cela indique que les paires de points (x, y), qui

    Riz. 5.5. Galaxies de corrélation obtenues par superposition matricielle

    se trouvent sur une certaine ligne, connectée de telle manière que pour toute valeur x, la valeur b qui lui est associée peut être trouvée en multipliant x par un certain nombre b1 et en ajoutant deuxièmement le nombre b0 à ce produit.

    Le coefficient de régression vous permet de déterminer le degré de changement du facteur d'enquête lorsque le facteur causal change d'une unité. Les valeurs absolues caractérisent la relation entre les facteurs variables par leurs valeurs absolues. Le coefficient de régression est calculé à l'aide de la formule :

    Conception et analyse d'expériences. La conception et l'analyse d'expériences constituent la troisième branche importante des méthodes statistiques développées pour trouver et tester les relations causales entre les variables.

    Pour étudier les dépendances multifactorielles, les méthodes de conception expérimentale mathématique ont récemment été de plus en plus utilisées.

    La possibilité de faire varier simultanément tous les facteurs permet de : a) réduire le nombre d'expériences ;

    b) réduire les erreurs expérimentales au minimum ;

    c) simplifier le traitement des données reçues ;

    d) garantir la clarté et la facilité de comparaison des résultats.

    Chaque facteur peut acquérir un certain nombre correspondant de valeurs différentes, appelées niveaux et notées -1, 0 et 1. Un ensemble fixe de niveaux de facteurs détermine les conditions de l'une des expériences possibles.

    La totalité de toutes les combinaisons possibles est calculée à l'aide de la formule :

    Une expérience factorielle complète est une expérience dans laquelle toutes les combinaisons possibles de niveaux de facteurs sont mises en œuvre. Les expériences factorielles complètes peuvent avoir la propriété d'orthogonalité. Avec la planification orthogonale, les facteurs de l'expérience ne sont pas corrélés ; les coefficients de régression finalement calculés sont déterminés indépendamment les uns des autres.

    Un avantage important de la méthode de planification expérimentale mathématique est sa polyvalence et son adéquation à de nombreux domaines de recherche.

    Considérons un exemple de comparaison de l'influence de certains facteurs sur la formation du niveau de stress mental dans les contrôleurs de télévision couleur.

    L'expérience est basée sur un plan orthogonal 2 à trois (trois facteurs changent à deux niveaux).

    L'expérience a été réalisée avec une partie complète 2 + 3 avec trois répétitions.

    La planification orthogonale repose sur la construction d'une équation de régression. Pour trois facteurs, cela ressemble à ceci :

    Le traitement des résultats dans cet exemple comprend :

    a) construction d'une table de plan orthogonal 2 +3 pour le calcul ;

    b) calcul des coefficients de régression ;

    c) vérifier leur signification ;

    d) interprétation des données obtenues.

    Pour les coefficients de régression de l'équation mentionnée, il a fallu mettre N = 2 3 = 8 options afin de pouvoir évaluer la significativité des coefficients, où le nombre de répétitions K était de 3.

    La matrice de planification de l'expérience a été compilée et ressemblait à ceci :

    Cette calculatrice ci-dessous calcule le coefficient de corrélation de rang de Spearman entre deux variables aléatoires. La partie théorique est traditionnelle sous la calculatrice.

    ajouter Importer / Exporter mode_edit supprimer

    Changements de variables aléatoires

    arrow_upwardarrow_downward arrow_upwardarrow_downward
    Articles par page : 5 10 20 50 100 chevron_gauche chevron_right

    Changements de variables aléatoires

    Erreur d'importation de données

    "L'un des caractères suivants est utilisé pour séparer les champs de données : tabulation, point-virgule (;) ou virgule (,)" Exemple : -50,5 ; -50,5

    Importer Retour Annuler

    Chiffres après la virgule : 4

    Calculer

    Coefficient de corrélation de Spearman

    Sauvegarder partager extension

    La méthode de calcul du coefficient de corrélation de rang de Spearman est en fait assez simple. C'est comme le coefficient de corrélation de Pearson, mais pas uniquement pour les mesures de variables aléatoires, mais pour elles. valeurs de classement.

    Il suffit de comprendre quelle est la valeur du rang et pourquoi tout cela est nécessaire.

    Si les éléments d'une série variationnelle sont classés par ordre croissant ou décroissant, cela rang de l'élément sera son numéro en série ordonnée.

    Par exemple, nous avons une série variable (17,26,5,14,21). Trions ses éléments par ordre décroissant (26,21,17,14,5). 26 a un rang de 1, 21 - un rang de 2 et ainsi de suite, la série variationnelle de valeurs de classement ressemblera à ceci (3,1,5,4,2).

    C'est à dire. lors du calcul du coefficient de Spearman, les séries de variations initiales sont converties en séries variationnelles de valeurs de classement, puis la formule de Pearson leur est appliquée.
    .
    Il y a une subtilité - le rang des valeurs répétitives est considéré comme la moyenne des rangs. Autrement dit, pour une série (17, 15, 14, 15), la série de classement ressemblera à (1, 2,5, 4, 2,5), puisque le premier élément est 15 et a un rang de 2, et le second un rang de 3, et.

    Si vous n'avez pas les valeurs répétitives, c'est-à-dire toutes les valeurs des séries de classement - les nombres compris entre 1 et n, la formule de Pearson peut être simplifiée en

    D'ailleurs, cette formule est souvent donnée comme formule de calcul du coefficient de Spearman.

    Quelle est l'essence du passage des valeurs elles-mêmes à leur valeur de rang ?
    En étudiant la corrélation des valeurs de classement, vous pouvez déterminer dans quelle mesure la dépendance des deux variables est décrite par une fonction monotone.

    Le signe du coefficient indique le sens de la relation entre les variables. Si le signe est positif les valeurs de Y ont tendance à augmenter avec l'augmentation de X. Si le signe est négatif les valeurs de Y ont tendance à diminuer avec l'augmentation de X. Si le coefficient est 0 là il n'y a donc pas de tendance. Si le coefficient est égal à 1 ou -1, la relation entre X et Y a une apparence de fonction monotone, c'est-à-dire avec l'augmentation de X, Y augmente également et vice versa.

    Autrement dit, contrairement au coefficient de corrélation de Pearson, qui ne peut détecter que la relation linéaire entre une variable et une autre, le coefficient de corrélation de Spearman peut détecter une dépendance monotone, où la relation linéaire directe ne peut pas être révélée.

    Voici un exemple.
    Laissez-moi vous expliquer avec un exemple. Supposons que nous examinions la fonction y=10/x.
    Nous avons les mesures suivantes de X et Y
    {{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
    Pour ces données, le coefficient de corrélation de Pearson est égal à -0,4686, soit la relation est faible ou absente. Et le coefficient de corrélation de Spearman est strictement égal à -1, comme si cela indiquait au chercheur que Y a une dépendance monotone fortement négative par rapport à X.

    Brève théorie

    La corrélation de rang est une méthode d'analyse de corrélation qui reflète les relations de variables classées par valeur croissante.

    Les rangs sont les numéros de série des unités agrégées dans une série classée. Si nous classons une population selon deux caractéristiques dont la relation est étudiée, alors la coïncidence complète des rangs signifie la connexion directe la plus étroite possible, et l'opposé complet des rangs signifie la rétroaction la plus proche possible. Il est nécessaire de classer les deux caractéristiques dans le même ordre : soit des valeurs les plus petites de la caractéristique aux plus grandes, ou vice versa.

    Pour des raisons pratiques, l’utilisation de la corrélation de rangs est très utile. Par exemple, si une corrélation de rang élevé est établie entre deux caractéristiques qualitatives des produits, il suffit alors de contrôler les produits uniquement par l'une des caractéristiques, ce qui réduit le coût et accélère le contrôle.

    Le coefficient de corrélation de rang, proposé par K. Spearman, fait référence à une mesure non paramétrique de la relation entre des variables mesurées sur une échelle de rang. Lors du calcul de ce coefficient, aucune hypothèse n'est requise sur la nature des distributions des caractéristiques au sein de la population. Ce coefficient détermine le degré d'étroitesse de connexion entre les caractéristiques ordinales, qui représentent dans ce cas les rangs des quantités comparées.

    La valeur du coefficient de corrélation de Spearman est comprise entre +1 et -1. Il peut être positif ou négatif, caractérisant le sens de la relation entre deux caractéristiques mesurées sur une échelle de rang.

    Le coefficient de corrélation de rang de Spearman est calculé à l'aide de la formule :

    Différence entre les rangs sur deux variables

    nombre de paires appariées

    La première étape du calcul du coefficient de corrélation de rang consiste à classer la série de variables. La procédure de classement commence par classer les variables par ordre croissant de leurs valeurs. Différentes valeurs se voient attribuer des rangs, désignés par des nombres naturels. S'il existe plusieurs variables de valeur égale, un rang moyen leur est attribué.

    L'avantage du coefficient de corrélation de rang de Spearman est qu'il est possible de classer selon des caractéristiques qui ne peuvent être exprimées numériquement : il est possible de classer les candidats à un certain poste par niveau professionnel, par capacité à diriger une équipe, par charme personnel, etc. Avec les évaluations d’experts, il est possible de classer les évaluations de différents experts et de trouver leurs corrélations entre elles, afin d’exclure ensuite de la considération les évaluations des experts qui sont faiblement corrélées avec les évaluations d’autres experts. Le coefficient de corrélation de rang de Spearman est utilisé pour évaluer la stabilité de la tendance. L'inconvénient du coefficient de corrélation de rang est que les mêmes différences de rangs peuvent correspondre à des différences complètement différentes dans les valeurs des caractéristiques (dans le cas de caractéristiques quantitatives). Par conséquent, pour ces derniers, la corrélation des rangs doit être considérée comme une mesure approximative de l'étroitesse de la connexion, moins informative que le coefficient de corrélation des valeurs numériques des caractéristiques.

    Exemple de solution de problème

    La tâche

    Une enquête menée auprès de 10 étudiants sélectionnés au hasard vivant dans une résidence universitaire révèle la relation entre le score moyen de la session précédente et le nombre d'heures par semaine consacrées par l'étudiant à des études indépendantes.

    Déterminez la force de la relation à l’aide du coefficient de corrélation de rang de Spearman.

    Si vous rencontrez des difficultés à résoudre des problèmes, le site propose une aide en ligne aux étudiants en statistiques avec des tests ou examens à domicile.

    La solution du problème

    Calculons le coefficient de corrélation de rang.

    Variant Comparaison des classements Différence de classement 1 26 4.7 8 1 3.1 1 8 10 -2 4 2 22 4.4 10 2 3.6 2 7 9 -2 4 3 8 3.8 12 3 3.7 3 1 4 -3 9 4 12 3.7 15 4 3.8 4 3 3 0 0 5 15 4.2 17 5 3.9 5 4 7 -3 9 6 30 4.3 20 6 4 6 9 8 1 1 7 20 3.6 22 7 4.2 7 6 2 4 16 8 31 4 26 8 4.3 8 10 6 4 16 9 10 3.1 30 9 4.4 9 2 1 1 1 10 17 3.9 31 10 4.7 10 5 5 0 0 Somme 60

    Coefficient de corrélation de rang de Spearman :

    En remplaçant les valeurs numériques, on obtient :

    Conclusion au problème

    La relation entre la moyenne cumulative de la session précédente et le nombre d'heures par semaine consacrées par l'étudiant à des études indépendantes est modérément forte.

    Si vous manquez de temps pour terminer un test, vous pouvez toujours commander une solution urgente aux problèmes de statistiques sur le site Web.

    Moyenne le coût de résolution d'un test est de 700 à 1 200 roubles (mais pas moins de 300 roubles pour la totalité de la commande). Le prix est fortement influencé par l'urgence de la décision (d'une journée à plusieurs heures). Le coût de l'aide en ligne pour un examen/test est de 1 000 roubles. pour résoudre le ticket.

    Vous pouvez poser toutes les questions sur le coût directement dans le chat, après avoir préalablement envoyé les conditions de la tâche et vous avoir informé du délai de solution dont vous avez besoin. Le temps de réponse est de quelques minutes.

    Exemples de problèmes connexes

    Rapport de Fechner
    Une brève théorie est donnée et un exemple de résolution du problème du calcul du coefficient de corrélation de signe de Fechner est considéré.

    Coefficients de contingence mutuels de Chuprov et Pearson
    La page contient des informations sur les méthodes d'étude des relations entre les caractéristiques qualitatives à l'aide des coefficients de contingence mutuelle de Chuprov et de Pearson.

    ​ Le coefficient de corrélation de rang de Spearman est une méthode non paramétrique utilisée pour étudier statistiquement la relation entre les phénomènes. Dans ce cas, le degré réel de parallélisme entre les deux séries quantitatives des caractéristiques étudiées est déterminé et une évaluation de l'étroitesse du lien établi est donnée à l'aide d'un coefficient exprimé quantitativement.

    1. Historique de l'évolution du coefficient de corrélation de rang

    Ce critère a été développé et proposé pour l'analyse de corrélation en 1904 Charles Édouard Spearman, psychologue anglais, professeur aux universités de Londres et de Chesterfield.

    2. A quoi sert le coefficient de Spearman ?

    Le coefficient de corrélation de rang de Spearman est utilisé pour identifier et évaluer l'étroitesse de la relation entre deux séries de données comparées. indicateurs quantitatifs. Dans le cas où les rangs des indicateurs, classés par degré d'augmentation ou de diminution, coïncident dans la plupart des cas (une valeur plus élevée d'un indicateur correspond à une valeur plus élevée d'un autre indicateur - par exemple, en comparant la taille et le poids du patient), on conclut qu'il existe droit connexion de corrélation. Si les rangs des indicateurs ont le sens opposé (une valeur plus élevée d'un indicateur correspond à une valeur inférieure d'un autre - par exemple, en comparant l'âge et la fréquence cardiaque), puis ils parlent de inverse liens entre les indicateurs.

      Le coefficient de corrélation de Spearman a les propriétés suivantes :
    1. Le coefficient de corrélation peut prendre des valeurs de moins un à un, et avec rs=1 il existe une relation strictement directe, et avec rs= -1 il existe une relation strictement de rétroaction.
    2. Si le coefficient de corrélation est négatif, il existe une relation de rétroaction ; s’il est positif, il existe une relation directe.
    3. Si le coefficient de corrélation est nul, alors il n'y a pratiquement aucun lien entre les quantités.
    4. Plus le module du coefficient de corrélation est proche de l'unité, plus la relation entre les grandeurs mesurées est forte.

    3. Dans quels cas le coefficient de Spearman peut-il être utilisé ?

    Du fait que le coefficient est une méthode analyse non paramétrique, les tests de distribution normale ne sont pas requis.

    Des indicateurs comparables peuvent être mesurés à la fois dans échelle continue(par exemple, le nombre de globules rouges dans 1 µl de sang), et dans ordinal(par exemple, points d'expertise de 1 à 5).

    L'efficacité et la qualité de l'évaluation de Spearman diminuent si la différence entre les différentes valeurs de l'une des quantités mesurées est suffisamment grande. Il n'est pas recommandé d'utiliser le coefficient de Spearman s'il existe une répartition inégale des valeurs de la grandeur mesurée.

    4. Comment calculer le coefficient de Spearman ?

    Le calcul du coefficient de corrélation de rang de Spearman comprend les étapes suivantes :

    5. Comment interpréter la valeur du coefficient de Spearman ?

    Lors de l'utilisation du coefficient de corrélation de rang, l'étroitesse du lien entre les caractéristiques est évaluée de manière conditionnelle, en considérant les valeurs du coefficient égales à 0,3 ou moins comme indicateurs de lien faible ; les valeurs supérieures à 0,4, mais inférieures à 0,7 sont des indicateurs d'une proximité modérée de la connexion, et les valeurs de 0,7 ou plus sont des indicateurs d'une forte proximité de la connexion.

    La signification statistique du coefficient obtenu est évaluée à l'aide du test t de Student. Si la valeur calculée du test t est inférieure à la valeur tabulée pour un nombre donné de degrés de liberté, la relation observée n'est pas statistiquement significative. Si elle est supérieure, la corrélation est considérée comme statistiquement significative.



    Avez-vous aimé l'article? Partage avec tes amis!