Ako výsledok korelačnej analýzy sa vypočítajú. Numerické vyjadrenie korelačnej závislosti

KURZOVÁ PRÁCA

Téma: Korelačná analýza

Úvod

1. Korelačná analýza

1.1 Pojem korelácie

1.2 Všeobecná klasifikácia korelácií

1.3 Korelačné polia a účel ich konštrukcie

1.4 Etapy korelačnej analýzy

1.5 Korelačné koeficienty

1.6 Normalizovaný Bravais-Pearsonov korelačný koeficient

1.7 Spearmanov koeficient poradovej korelácie

1.8 Základné vlastnosti korelačných koeficientov

1.9 Kontrola významnosti korelačných koeficientov

1.10 Kritické hodnoty párového korelačného koeficientu

2. Plánovanie multifaktoriálneho experimentu

2.1 Stav problému

2.2 Určenie stredu plánu (základná úroveň) a úrovne variácie faktorov

2.3 Konštrukcia plánovacej matice

2.4 Kontrola homogenity rozptylu a ekvivalencie meraní v rôznych sériách

2.5 Koeficienty regresnej rovnice

2.6 Rozptyl reprodukovateľnosti

2.7 Kontrola významnosti koeficientov regresnej rovnice

2.8 Kontrola primeranosti regresnej rovnice

Záver

Bibliografia

ÚVOD

Experimentálne plánovanie je matematická a štatistická disciplína, ktorá študuje metódy racionálnej organizácie experimentálneho výskumu - od optimálneho výberu skúmaných faktorov a stanovenia skutočného experimentálneho plánu v súlade s jeho účelom až po metódy analýzy výsledkov. Experimentálne plánovanie sa začalo prácami anglického štatistika R. Fishera (1935), ktorý zdôraznil, že racionálne experimentálne plánovanie poskytuje nemenej významné zisky v presnosti odhadov ako optimálne spracovanie výsledkov meraní. V 60. rokoch 20. storočia vznikla moderná teória experimentálneho plánovania. Jej metódy úzko súvisia s teóriou aproximácie funkcií a matematickým programovaním. Boli skonštruované optimálne plány a boli študované ich vlastnosti pre širokú triedu modelov.

Experimentálne plánovanie je výber experimentálneho plánu, ktorý spĺňa špecifikované požiadavky, súbor činností zameraných na vypracovanie experimentálnej stratégie (od získania apriórnych informácií až po získanie funkčného matematického modelu alebo určenie optimálnych podmienok). Ide o účelové riadenie experimentu, realizované za podmienok neúplnej znalosti mechanizmu skúmaného javu.

V procese meraní, následného spracovania údajov, ako aj formalizácie výsledkov vo forme matematického modelu vznikajú chyby a niektoré informácie obsiahnuté v pôvodných údajoch sa strácajú. Použitie metód experimentálneho plánovania umožňuje určiť chybu matematického modelu a posúdiť jeho primeranosť. Ak sa ukáže, že presnosť modelu je nedostatočná, potom použitie metód experimentálneho plánovania umožňuje modernizáciu matematického modelu o ďalšie experimenty bez straty predchádzajúcich informácií a s minimálnymi nákladmi.

Účelom plánovania experimentu je nájsť také podmienky a pravidlá na vykonávanie experimentov, za ktorých je možné získať spoľahlivé a spoľahlivé informácie o objekte s čo najmenšou námahou, ako aj prezentovať tieto informácie v kompaktnej a pohodlnej forme. s kvantitatívnym hodnotením presnosti.

Medzi hlavné metódy plánovania používané v rôznych fázach štúdie patria:

Plánovanie skríningového experimentu, ktorého hlavným významom je výber z celého súboru faktorov skupiny významných faktorov, ktoré sú predmetom ďalšieho podrobného štúdia;

Experimentálny dizajn pre ANOVA, t.j. vypracovanie plánov objektov s kvalitatívnymi faktormi;

Plánovanie regresného experimentu, ktorý umožňuje získať regresné modely (polynómy a iné);

Plánovanie extrémneho experimentu, v ktorom je hlavnou úlohou experimentálna optimalizácia výskumného objektu;

Plánovanie pri štúdiu dynamických procesov atď.

Účelom štúdia odboru je pripraviť študentov na výrobno-technickú činnosť v ich odbore s využitím metód teórie plánovania a moderných informačných technológií.

Ciele disciplíny: štúdium moderných metód plánovania, organizovania a optimalizácie vedeckých a priemyselných experimentov, uskutočňovania experimentov a spracovania získaných výsledkov.

1. KORELAČNÁ ANALÝZA

1.1 Koncept korelácie

Výskumníka často zaujíma, ako spolu súvisia dve alebo viaceré premenné v jednej alebo viacerých skúmaných vzorkách. Môže napríklad výška ovplyvniť hmotnosť človeka alebo môže krvný tlak ovplyvniť kvalitu produktu?

Tento druh závislosti medzi premennými sa nazýva korelácia alebo korelácia. Korelácia je konzistentná zmena dvoch charakteristík, ktorá odráža skutočnosť, že variabilita jednej charakteristiky je v súlade s variabilitou druhej.

Je napríklad známe, že v priemere existuje pozitívny vzťah medzi výškou ľudí a ich hmotnosťou, a to tak, že čím väčšia je výška, tým väčšia je hmotnosť osoby. Z tohto pravidla však existujú výnimky, keď majú nadváhu relatívne nízke postavy, a naopak, astenickí ľudia s vysokým vzrastom majú nízku hmotnosť. Dôvodom takýchto výnimiek je, že každý biologický, fyziologický alebo psychologický znak je určený vplyvom mnohých faktorov: environmentálnych, genetických, sociálnych, environmentálnych atď.

Korelačné súvislosti sú pravdepodobnostné zmeny, ktoré možno študovať len na reprezentatívnych vzorkách pomocou metód matematickej štatistiky. Oba pojmy – korelačné prepojenie a korelačná závislosť – sa často používajú zameniteľne. Závislosť znamená vplyv, spojenie - akékoľvek koordinované zmeny, ktoré možno vysvetliť stovkami dôvodov. Korelačné súvislosti nemožno považovať za dôkaz vzťahu príčina-následok, naznačujú iba to, že zmeny v jednej charakteristike sú zvyčajne sprevádzané určitými zmenami v inej.

Korelačná závislosť - Ide o zmeny, ktoré zavádzajú hodnoty jednej charakteristiky do pravdepodobnosti výskytu rôznych hodnôt inej charakteristiky.

Úloha korelačnej analýzy spočíva v stanovení smeru (pozitívneho alebo negatívneho) a tvaru (lineárneho, nelineárneho) vzťahu medzi premenlivými charakteristikami, zmeraní jeho blízkosti a nakoniec v kontrole úrovne významnosti získaných korelačných koeficientov.

Korelačné spojenia sa líšia formou, smerom a stupňom (sila) .

Forma korelačného vzťahu môže byť lineárna alebo krivočiara. Napríklad vzťah medzi počtom tréningov na simulátore a počtom správne vyriešených problémov v kontrolnom stretnutí môže byť jednoduchý. Napríklad vzťah medzi úrovňou motivácie a efektívnosťou úlohy môže byť krivočiary (obrázok 1). So zvyšovaním motivácie sa najprv zvyšuje efektivita plnenia úlohy, potom sa dosahuje optimálna úroveň motivácie, ktorá zodpovedá maximálnej efektivite dokončenia úlohy; Ďalší nárast motivácie je sprevádzaný poklesom efektivity.

Obrázok 1 - Vzťah medzi efektivitou riešenia problémov a silou motivačných tendencií

V smere môže byť korelačný vzťah pozitívny („priamy“) a negatívny („inverzný“). Pri pozitívnej lineárnej korelácii vyššie hodnoty jednej charakteristiky zodpovedajú vyšším hodnotám inej a nižšie hodnoty jednej charakteristiky zodpovedajú nízkym hodnotám inej (obrázok 2). Pri negatívnej korelácii sú vzťahy inverzné (obrázok 3). Pri kladnej korelácii má korelačný koeficient kladné znamienko, pri zápornej korelácii záporné znamienko.

Obrázok 2 – Priama korelácia

Obrázok 3 – Inverzná korelácia


Obrázok 4 – Žiadna korelácia

Mieru, silu alebo blízkosť korelácie určuje hodnota korelačného koeficientu. Sila spojenia nezávisí od jeho smeru a je určená absolútnou hodnotou korelačného koeficientu.

1.2 Všeobecná klasifikácia korelácií

V závislosti od korelačného koeficientu sa rozlišujú tieto korelácie:

silné alebo blízke s korelačným koeficientom r>0,70;

Priemer (0,50

Mierne (o 0:30

Slabé (pri 0,20

Veľmi slabé (v r<0,19).

1.3 Korelačné polia a účel ich konštrukcie

Korelácia je študovaná na základe experimentálnych údajov, ktorými sú namerané hodnoty (x i, y i) dvoch charakteristík. Ak existuje málo experimentálnych údajov, potom je dvojrozmerné empirické rozdelenie reprezentované ako dvojitý rad hodnôt x i a y i. Zároveň korelačná závislosť medzi charakteristikami môže byť opísaná rôznymi spôsobmi. Korešpondencia medzi argumentom a funkciou môže byť daná tabuľkou, vzorcom, grafom atď.

Korelačná analýza, podobne ako iné štatistické metódy, je založená na použití pravdepodobnostných modelov, ktoré popisujú správanie sa skúmaných charakteristík v určitej všeobecnej populácii, z ktorej sa získavajú experimentálne hodnoty xi a y i. Pri štúdiu korelácie medzi kvantitatívnymi charakteristikami, ktorých hodnoty možno presne merať v jednotkách metrických mierok (metre, sekundy, kilogramy atď.), sa veľmi často používa dvojrozmerný normálne rozložený populačný model. Takýto model zobrazuje vzťah medzi premennými x i a y i graficky vo forme geometrického umiestnenia bodov v sústave pravouhlých súradníc. Tento grafický vzťah sa tiež nazýva bodový graf alebo korelačné pole.
Tento model dvojrozmerného normálneho rozdelenia (korelačné pole) nám umožňuje dať jasnú grafickú interpretáciu korelačného koeficientu, pretože celkové rozdelenie závisí od piatich parametrov: μ x, μ y – priemerné hodnoty (matematické očakávania); σ x ,σ y – smerodajné odchýlky náhodných premenných X a Y a p – korelačný koeficient, ktorý je mierou vzťahu medzi náhodnými premennými X a Y.
Ak p = 0, potom hodnoty x i, y i získané z dvojrozmernej normálnej populácie sa nachádzajú na grafe v súradniciach x, y v rámci oblasti ohraničenej kružnicou (obrázok 5, a). V tomto prípade neexistuje žiadna korelácia medzi náhodnými premennými X a Y a nazývajú sa nekorelované. Pre dvojrozmerné normálne rozdelenie nekorelácia súčasne znamená nezávislosť od náhodných premenných X a Y.

Pri štúdiu verejného zdravia a zdravotnej starostlivosti na vedecké a praktické účely musí výskumník často vykonať štatistickú analýzu vzťahov medzi faktorovými a výkonnostnými charakteristikami štatistickej populácie (kauzálny vzťah) alebo určiť závislosť paralelných zmien viacerých charakteristík tejto populácie. na nejakej tretej hodnote (na ich spoločnej príčine ). Je potrebné vedieť študovať vlastnosti tohto spojenia, určiť jeho veľkosť a smer a tiež vyhodnotiť jeho spoľahlivosť. Na tento účel sa používajú korelačné metódy.

  1. Typy prejavu kvantitatívnych vzťahov medzi charakteristikami
    • funkčné spojenie
    • korelačné spojenie
  2. Definície funkčného a korelačného spojenia

    Funkčné pripojenie- tento typ vzťahu medzi dvoma charakteristikami, keď každá hodnota jednej z nich zodpovedá presne definovanej hodnote druhej (plocha kruhu závisí od polomeru kruhu atď.). Funkčné spojenie je charakteristické pre fyzikálne a matematické procesy.

    Korelácia- taký vzťah, v ktorom každá špecifická hodnota jednej charakteristiky zodpovedá niekoľkým hodnotám inej charakteristiky, ktorá s ňou súvisí (vzťah medzi výškou a hmotnosťou osoby; vzťah medzi telesnou teplotou a pulzovou frekvenciou atď.). Korelácia je typická pre medicínske a biologické procesy.

  3. Praktický význam vytvorenia korelačného spojenia. Zisťovanie príčinno-následkových vzťahov medzi faktorom a výslednými charakteristikami (pri hodnotení fyzického vývoja zisťovať vzťah medzi pracovnými podmienkami, životnými podmienkami a zdravotným stavom, pri zisťovaní závislosti frekvencie ochorení na veku, odslúženej dobe, zistení závislosti frekvencie výskytu ochorení od veku, dĺžky služobného pomeru, zisťovania vzťahu medzi pracovnými podmienkami, životnými podmienkami a zdravotným stavom). prítomnosť pracovných rizík atď.)

    Závislosť paralelných zmien viacerých charakteristík od nejakej tretej hodnoty. Napríklad vplyvom vysokej teploty v dielni dochádza k zmenám krvného tlaku, viskozity krvi, tepovej frekvencie atď.

  4. Hodnota charakterizujúca smer a silu vzťahu medzi charakteristikami. Korelačný koeficient, ktorý v jednom čísle dáva predstavu o smere a sile spojenia medzi znakmi (javmi), limity jeho kolísania od 0 do ± 1
  5. Metódy prezentácie korelácií
    • graf (bodový graf)
    • korelačný koeficient
  6. Smer korelácie
    • rovno
    • obrátene
  7. Sila korelácie
    • silný: ±0,7 až ±1
    • priemer: ±0,3 až ±0,699
    • slabé: 0 až ±0,299
  8. Metódy určovania korelačného koeficientu a vzorce
    • metóda štvorcov (Pearsonova metóda)
    • metóda hodnotenia (Spearmanova metóda)
  9. Metodické požiadavky na používanie korelačného koeficientu
    • meranie vzťahu je možné len v kvalitatívne homogénnych populáciách (napríklad meranie vzťahu medzi výškou a hmotnosťou v populáciách homogénnych podľa pohlavia a veku)
    • výpočet možno vykonať pomocou absolútnych alebo odvodených hodnôt
    • na výpočet korelačného koeficientu sa používajú nezoskupené variačné rady (táto požiadavka platí len pri výpočte korelačného koeficientu metódou štvorcov)
    • počet pozorovaní aspoň 30
  10. Odporúčania na používanie metódy korelácie hodnotenia (Spearmanova metóda)
    • keď nie je potrebné presne určiť silu spojenia, ale stačia približné údaje
    • keď charakteristiky sú reprezentované nielen kvantitatívnymi, ale aj atribútovými hodnotami
    • keď má distribučný rad charakteristík otvorené možnosti (napríklad pracovné skúsenosti do 1 roka atď.)
  11. Odporúčania pre použitie metódy štvorcov (Pearsonova metóda)
    • keď sa vyžaduje presné určenie sily spojenia medzi charakteristikami
    • keď znaky majú len kvantitatívne vyjadrenie
  12. Metodika a postup výpočtu korelačného koeficientu

    1) Metóda štvorcov

    2) Hodnostná metóda

  13. Schéma na posúdenie korelačného vzťahu pomocou korelačného koeficientu
  14. Výpočet chyby korelačného koeficientu
  15. Odhad spoľahlivosti korelačného koeficientu získaného metódou poradovej korelácie a metódou štvorcov

    Metóda 1
    Spoľahlivosť je určená vzorcom:

    Kritérium t sa vyhodnocuje pomocou tabuľky hodnôt t, pričom sa berie do úvahy počet stupňov voľnosti (n - 2), kde n je počet spárovaných možností. Kritérium t musí byť rovnaké alebo väčšie ako kritérium v ​​tabuľke, čo zodpovedá pravdepodobnosti p ≥ 99 %.

    Metóda 2
    Spoľahlivosť sa hodnotí pomocou špeciálnej tabuľky štandardných korelačných koeficientov. V tomto prípade sa korelačný koeficient považuje za spoľahlivý, keď sa pri určitom počte stupňov voľnosti (n - 2) rovná alebo je väčší ako tabuľkový, čo zodpovedá stupňu bezchybnej predikcie p ≥95 % .

použiť metódu štvorcov

Cvičenie: vypočítajte korelačný koeficient, určte smer a silu vzťahu medzi množstvom vápnika vo vode a tvrdosťou vody, ak sú známe nasledujúce údaje (tab. 1). Posúďte spoľahlivosť vzťahu. Vyvodiť záver.

stôl 1

Odôvodnenie výberu metódy. Na vyriešenie úlohy bola zvolená metóda štvorcov (Pearson), pretože každý zo znakov (tvrdosť vody a množstvo vápnika) má číselné vyjadrenie; žiadna otvorená možnosť.

Riešenie.
Postupnosť výpočtov je popísaná v texte, výsledky sú uvedené v tabuľke. Po zostrojení série párových porovnateľných charakteristík ich označte x (tvrdosť vody v stupňoch) a y (množstvo vápnika vo vode v mg/l).

Tvrdosť vody
(v stupňoch)
Množstvo vápnika vo vode
(v mg/l)
d x D Y d x x d y d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = Σ x / n M y = Σ y / n Σ d x x d y = 7078 Σ d x 2 = 982 Σdy2=51056
Mx=120/6=20 My = 852/6 = 142
  1. Určte priemerné hodnoty M x v riadku „x“ a M y v riadku „y“ pomocou vzorcov:
    M x = Σх/n (stĺpec 1) a
    M y = Σу/n (stĺpec 2)
  2. Nájdite odchýlku (d x a d y) každej možnosti od hodnoty vypočítaného priemeru v rade „x“ a v rade „y“
    d x = x - M x (stĺpec 3) a dy = y - M y (stĺpec 4).
  3. Nájdite súčin odchýlok d x x d y a spočítajte ich: Σ d x x d y (stĺpec 5)
  4. Umocnite každú odchýlku d x a d y a spočítajte ich hodnoty pozdĺž série „x“ a série „y“: Σ d x 2 = 982 (stĺpec 6) a Σ d y 2 = 51056 (stĺpec 7).
  5. Určite súčin Σ d x 2 x Σ d y 2 a extrahujte druhú odmocninu z tohto súčinu
  6. Výsledné hodnoty Σ (d x x d y) a √ (Σd x 2 x Σd y 2) dosaďte do vzorca na výpočet korelačného koeficientu:
  7. Určte spoľahlivosť korelačného koeficientu:
    1. spôsob. Nájdite chybu korelačného koeficientu (mr xy) a kritéria t pomocou vzorcov:

    Kritérium t = 14,1, čo zodpovedá pravdepodobnosti bezchybnej predpovede p > 99,9 %.

    2. spôsob. Spoľahlivosť korelačného koeficientu sa hodnotí pomocou tabuľky „Štandardné korelačné koeficienty“ (pozri prílohu 1). Pri počte stupňov voľnosti (n - 2)=6 - 2=4 je nami vypočítaný korelačný koeficient r xу = + 0,99 väčší ako tabuľkový (r tabuľka = + 0,917 pri p = 99%).

    Záver.Čím viac vápnika je vo vode, tým je tvrdšia (spojenie priame, silné a autentické: r xy = + 0,99, p > 99,9 %).

    použiť metódu hodnotenia

    Cvičenie: Pomocou metódy hodnotenia stanovte smer a silu vzťahu medzi rokmi pracovných skúseností a frekvenciou zranení, ak sa získajú tieto údaje:

    Zdôvodnenie výberu metódy: Na vyriešenie problému je možné zvoliť iba metódu korelácie poradia, pretože Prvý riadok atribútu „pracovná prax v rokoch“ má otvorené možnosti (pracovná prax do 1 roka a 7 a viac rokov), čo neumožňuje použiť na nadviazanie spojenia presnejšiu metódu – metódu štvorcov. medzi porovnávanými charakteristikami.

    Riešenie. Postupnosť výpočtov je uvedená v texte, výsledky sú uvedené v tabuľke. 2.

    tabuľka 2

    Pracovné skúsenosti v rokoch Počet zranení Radové čísla (hodnoty) Rozdiel v poradí Štvorcový rozdiel v poradí
    X Y d(x-y) d 2
    Do 1 roka 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 alebo viac 6 5 1 +4 16
    Σd2 = 38,5

    Štandardné korelačné koeficienty, ktoré sa považujú za spoľahlivé (podľa L.S. Kaminského)

    Počet stupňov voľnosti - 2 Úroveň pravdepodobnosti p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Vlasov V.V. Epidemiológia. - M.: GEOTAR-MED, 2004. - 464 s.
    2. Lisitsyn Yu.P. Verejné zdravie a zdravotníctvo. Učebnica pre vysoké školy. - M.: GEOTAR-MED, 2007. - 512 s.
    3. Medic V.A., Yuryev V.K. Priebeh prednášok z verejného zdravotníctva a zdravotníctva: 1. časť. Verejné zdravotníctvo. - M.: Medicína, 2003. - 368 s.
    4. Minyaev V.A., Vishnyakov N.I. a iné organizácie sociálneho lekárstva a zdravotníctva (Manuál v 2 zväzkoch). - Petrohrad, 1998. -528 s.
    5. Kucherenko V.Z., Agarkov N.M. a iné Organizácia sociálnej hygieny a zdravotnej starostlivosti (Príručka) - Moskva, 2000. - 432 s.
    6. S. Glanz. Lekárska a biologická štatistika. Preklad z angličtiny - M., Praktika, 1998. - 459 s.

Regresná a korelačná analýza sú štatistické výskumné metódy. Toto sú najbežnejšie spôsoby zobrazenia závislosti parametra od jednej alebo viacerých nezávislých premenných.

Nižšie na konkrétnych praktických príkladoch zvážime tieto dve medzi ekonómami veľmi obľúbené analýzy. Uvedieme aj príklad získania výsledkov pri ich kombinovaní.

Regresná analýza v Exceli

Zobrazuje vplyv niektorých hodnôt (nezávislých, nezávislých) na závislú premennú. Napríklad ako závisí počet ekonomicky aktívneho obyvateľstva od počtu podnikov, miezd a iných parametrov. Alebo: ako vplývajú na úroveň HDP zahraničné investície, ceny energií atď.

Výsledok analýzy vám umožní zdôrazniť priority. A na základe hlavných faktorov predvídať, plánovať rozvoj prioritných oblastí a robiť manažérske rozhodnutia.

Regresia sa deje:

  • lineárny (y = a + bx);
  • parabolický (y = a + bx + cx 2);
  • exponenciálna (y = a * exp(bx));
  • mocnina (y = a*x^b);
  • hyperbolický (y = b/x + a);
  • logaritmické (y = b * ln(x) + a);
  • exponenciálny (y = a * b^x).

Pozrime sa na príklad zostavenia regresného modelu v Exceli a interpretácie výsledkov. Zoberme si lineárny typ regresie.

Úloha. V 6 podnikoch bola analyzovaná priemerná mesačná mzda a počet odchádzajúcich zamestnancov. Je potrebné určiť závislosť počtu odchádzajúcich zamestnancov od priemernej mzdy.

Lineárny regresný model vyzerá takto:

Y = a 0 + a 1 x 1 +…+ak x k.

Kde a sú regresné koeficienty, x sú ovplyvňujúce premenné, k je počet faktorov.

V našom príklade je Y indikátorom odchodu zamestnancov. Ovplyvňujúci faktor sú mzdy (x).

Excel má vstavané funkcie, ktoré vám môžu pomôcť vypočítať parametre lineárneho regresného modelu. Ale doplnok „Analysis Package“ to urobí rýchlejšie.

Aktivujeme výkonný analytický nástroj:

Po aktivácii bude doplnok dostupný na karte Údaje.

Teraz urobme samotnú regresnú analýzu.



V prvom rade venujeme pozornosť R-kvadrátom a koeficientom.

R-squared je koeficient determinácie. V našom príklade – 0,755 alebo 75,5 %. To znamená, že vypočítané parametre modelu vysvetľujú 75,5 % vzťahu medzi skúmanými parametrami. Čím vyšší je koeficient determinácie, tým lepší je model. Dobré - nad 0,8. Zlá – menej ako 0,5 (takúto analýzu možno len ťažko považovať za primeranú). V našom príklade – „nie je to zlé“.

Koeficient 64,1428 ukazuje, aké bude Y, ak sa všetky premenné v uvažovanom modeli rovnajú 0. To znamená, že hodnota analyzovaného parametra je ovplyvnená aj inými faktormi, ktoré nie sú v modeli popísané.

Koeficient -0,16285 ukazuje váhu premennej X na Y. To znamená, že priemerná mesačná mzda v rámci tohto modelu ovplyvňuje počet odchádzajúcich s váhou -0,16285 (to je malý stupeň vplyvu). Znamienko „-“ označuje negatívny vplyv: čím vyšší plat, tým menej ľudí skončí. Čo je spravodlivé.



Korelačná analýza v Exceli

Korelačná analýza pomáha určiť, či existuje vzťah medzi ukazovateľmi v jednej alebo dvoch vzorkách. Napríklad medzi prevádzkovou dobou stroja a nákladmi na opravy, cenou zariadenia a dobou prevádzky, výškou a hmotnosťou detí atď.

Ak existuje spojenie, potom zvýšenie jedného parametra vedie k zvýšeniu (pozitívna korelácia) alebo zníženiu (negatívne) druhého. Korelačná analýza pomáha analytikovi určiť, či hodnotu jedného ukazovateľa možno použiť na predpovedanie možnej hodnoty iného ukazovateľa.

Korelačný koeficient označujeme r. Pohybuje sa od +1 do -1. Klasifikácia korelácií pre rôzne oblasti bude odlišná. Keď je koeficient 0, medzi vzorkami neexistuje lineárny vzťah.

Pozrime sa, ako nájsť korelačný koeficient pomocou Excelu.

Na nájdenie párových koeficientov sa používa funkcia CORREL.

Cieľ: Zistite, či existuje vzťah medzi prevádzkovým časom sústruhu a nákladmi na jeho údržbu.

Umiestnite kurzor do ľubovoľnej bunky a stlačte tlačidlo fx.

  1. V kategórii „Statistical“ vyberte funkciu CORREL.
  2. Argument „Pole 1“ – prvý rozsah hodnôt – prevádzkový čas stroja: A2:A14.
  3. Argument „Pole 2“ – druhý rozsah hodnôt – náklady na opravu: B2:B14. Kliknite na tlačidlo OK.

Ak chcete určiť typ pripojenia, musíte sa pozrieť na absolútne číslo koeficientu (každá oblasť činnosti má svoju vlastnú stupnicu).

Pre korelačnú analýzu viacerých parametrov (viac ako 2) je vhodnejšie použiť „Data Analysis“ (doplnok „Analysis Package“). Zo zoznamu musíte vybrať koreláciu a označiť pole. Všetky.

Výsledné koeficienty sa zobrazia v korelačnej matici. Páči sa ti to:

Korelačná a regresná analýza

V praxi sa tieto dve techniky často používajú spoločne.

Príklad:


Teraz sú údaje z regresnej analýzy viditeľné.

Akýkoľvek prírodný zákon alebo sociálny vývoj môže byť reprezentovaný popisom súboru vzťahov. Ak sú tieto závislosti stochastické a analýza sa vykonáva na vzorke bežnej populácie, potom sa táto oblasť výskumu týka úloh štatistického štúdia závislostí, ktoré zahŕňajú koreláciu, regresiu, rozptyl, kovariančnú analýzu a analýzu kontingenčné tabuľky.

    Existuje vzťah medzi skúmanými premennými?

    Ako merať blízkosť spojení?

Všeobecný diagram vzťahu medzi parametrami v štatistickej štúdii je znázornený na obr. 1.

Na obrázku S je model reálneho skúmaného objektu. Vysvetľujúce (nezávislé, faktorové) premenné popisujú prevádzkové podmienky objektu. Náhodné faktory sú faktory, ktorých vplyv je ťažké brať do úvahy alebo ktorých vplyv je v súčasnosti zanedbávaný. Výsledné (závislé, vysvetlené) premenné charakterizujú výsledok fungovania objektu.

Výber metódy na analýzu vzťahu sa vykonáva s prihliadnutím na povahu analyzovaných premenných.

Korelačná analýza je metóda spracovania štatistických údajov, ktorá zahŕňa štúdium vzťahu medzi premennými.

Účelom korelačnej analýzy je poskytnúť nejaké informácie o jednej premennej pomocou inej premennej. V prípadoch, keď je možné dosiahnuť cieľ, sa hovorí, že premenné sú korelované. Korelácia odráža len lineárnu závislosť hodnôt, ale neodráža ich funkčnú súvislosť. Ak napríklad vypočítate korelačný koeficient medzi veličinami A = sin(x) a B = cos(x), tak sa bude blížiť k nule, t.j. medzi množstvami nie je žiadny vzťah.

Pri štúdiu korelácie sa používajú grafické a analytické prístupy.

Grafická analýza začína konštrukciou korelačného poľa. Korelačné pole (alebo bodový graf) je grafický vzťah medzi výsledkami merania dvoch charakteristík. Na jeho zostavenie sa počiatočné údaje vynesú do grafu, ktorý zobrazuje každú dvojicu hodnôt (xi, yi) ako bod so súradnicami xi a yi v pravouhlom súradnicovom systéme.

Vizuálna analýza korelačného poľa nám umožňuje urobiť predpoklad o forme a smerovaní vzťahu medzi dvoma skúmanými ukazovateľmi. Podľa formy vzťahu sa korelačné závislosti zvyčajne delia na lineárne (pozri obr. 1) a nelineárne (pozri obr. 2). Pri lineárnej závislosti je obálka korelačného poľa blízka elipse. Lineárny vzťah dvoch náhodných premenných je taký, že keď jedna náhodná premenná rastie, druhá náhodná premenná má tendenciu rásť (alebo klesať) podľa lineárneho zákona.

Smer vzťahu je pozitívny, ak zvýšenie hodnoty jedného atribútu vedie k zvýšeniu hodnoty druhého (pozri obr. 3) a negatívny, ak zvýšenie hodnoty jedného atribútu vedie k zníženiu hodnoty. druhej (pozri obr. 4).

Závislosti, ktoré majú iba pozitívne alebo iba negatívne smery, sa nazývajú monotónne.

Využitie štatistických metód pri spracovaní psychologických výskumných materiálov poskytuje skvelú príležitosť na extrakciu užitočných informácií z experimentálnych údajov. Jednou z najbežnejších štatistických metód je korelačná analýza.

Termín „korelácia“ prvýkrát použil francúzsky paleontológ J. Cuvier, ktorý odvodil „zákon korelácie častí a orgánov zvierat“ (tento zákon umožňuje rekonštruovať vzhľad celého zvieraťa z nájdených častí tela) . Tento termín zaviedol do štatistiky anglický biológ a štatistik F. Galton (nie len „spojenie“ - vzťah a „akoby spojenie“ – korelácia).

Korelačná analýza je testovanie hypotéz o vzťahoch medzi premennými pomocou korelačných koeficientov, bivariačnej deskriptívnej štatistiky, kvantitatívnej miery vzťahu (spoločnej variability) dvoch premenných. Ide teda o súbor metód na zisťovanie korelácií medzi náhodnými premennými alebo charakteristikami.

Korelačná analýza pre dve náhodné premenné zahŕňa:

  • zostrojenie korelačného poľa a zostavenie korelačnej tabuľky;
  • výpočet výberových korelačných koeficientov a korelačných vzťahov;
  • testovanie štatistickej hypotézy významnosti vzťahu.

Hlavným účelom korelačnej analýzy je identifikovať vzťah medzi dvoma alebo viacerými skúmanými premennými, čo sa považuje za spoločnú koordinovanú zmenu dvoch študovaných charakteristík. Táto variabilita má tri hlavné charakteristiky: tvar, smer a pevnosť.

Forma korelačného vzťahu môže byť lineárna alebo nelineárna. Lineárna forma je vhodnejšia na identifikáciu a interpretáciu korelačného vzťahu. Pre lineárny korelačný vzťah možno rozlíšiť dva hlavné smery: pozitívny („priame spojenie“) a negatívny („spätná väzba“).

Sila vzťahu priamo naznačuje, aká výrazná je spoločná variabilita skúmaných premenných. Funkčný vzťah javov možno v psychológii empiricky identifikovať len ako pravdepodobnostné spojenie zodpovedajúcich charakteristík. Jasnú predstavu o povahe pravdepodobnostného vzťahu poskytuje bodový diagram - graf, ktorého osi zodpovedajú hodnotám dvoch premenných a každý subjekt predstavuje bod.

Ako numerická charakteristika pravdepodobnostného vzťahu sa používajú korelačné koeficienty, ktorých hodnoty sa pohybujú v rozmedzí od –1 do +1. Po vykonaní výpočtov výskumník spravidla vyberie iba najsilnejšie korelácie, ktoré sa ďalej interpretujú (tabuľka 1).

Kritériom pre výber „dostatočne silných“ korelácií môže byť buď absolútna hodnota samotného korelačného koeficientu (od 0,7 do 1), alebo relatívna hodnota tohto koeficientu, určená hladinou štatistickej významnosti (od 0,01 do 0,1), v závislosti na veľkosti vzorky. V malých vzorkách je správnejšie vybrať silné korelácie pre ďalšiu interpretáciu na základe hladiny štatistickej významnosti. Pre štúdie vykonávané na veľkých vzorkách je lepšie použiť absolútne hodnoty korelačných koeficientov.

Úloha korelačnej analýzy teda spočíva v stanovení smeru (pozitívneho alebo negatívneho) a tvaru (lineárneho, nelineárneho) vzťahu medzi meniacimi sa charakteristikami, meraním jeho tesnosti a nakoniec kontrolou úrovne významnosti získaných korelačných koeficientov. .

V súčasnosti bolo vyvinutých mnoho rôznych korelačných koeficientov. Najpoužívanejšie sú r-Pearson, r- Spearman a τ -Kendall. Moderné počítačové štatistické programy ponúkajú práve tieto tri koeficienty v menu „Korelácie“ a na riešenie iných výskumných problémov sa ponúkajú metódy na porovnávanie skupín.

Výber metódy na výpočet korelačného koeficientu závisí od typu škály, do ktorej premenné patria (tabuľka 2).

Pre intervalové a nominálne škálové premenné sa používa Pearsonov korelačný koeficient (súčinová momentová korelácia). Ak je aspoň jedna z dvoch premenných na ordinálnej stupnici alebo nie je normálne rozdelená, použije sa Spearmanova poradová korelácia resp.

t-Kendall. Ak je jedna z dvoch premenných dichotomická, možno použiť bodovú bisériovú koreláciu (táto funkcia nie je dostupná v štatistickom počítačovom programe SPSS; namiesto nej možno použiť výpočty hodnotovej korelácie). Ak sú obe premenné dichotomické, použije sa štvorpoľová korelácia (tento typ korelácie vypočíta SPSS na základe definície mier vzdialenosti a miery podobnosti). Výpočet korelačného koeficientu medzi dvoma nedichotomickými premennými je možný len vtedy, keď je vzťah medzi nimi lineárny (jednosmerný). Ak je spojenie napr. U-tvarovaný (nejednoznačný), korelačný koeficient nie je vhodný na použitie ako miera pevnosti spojenia: jeho hodnota má tendenciu k nule.

Podmienky na uplatnenie korelačných koeficientov budú teda nasledovné:

  • premenné merané na kvantitatívnej (hodnotovej, metrickej) škále na tej istej vzorke objektov;
  • vzťah medzi premennými je monotónny.

Hlavná štatistická hypotéza, ktorá sa testuje korelačnou analýzou, je nesmerová a obsahuje tvrdenie, že korelácia sa v populácii rovná nule. H0: r xy= 0. Ak sa zamietne, prijme sa alternatívna hypotéza H 1: r xy≠ 0 označuje prítomnosť pozitívnej alebo negatívnej korelácie v závislosti od znamienka vypočítaného korelačného koeficientu.

Na základe prijatia alebo odmietnutia hypotéz sa vyvodia zmysluplné závery. Ak podľa výsledkov štatistického testovania H0: r xy= 0 sa neodchyľuje na úrovni a, potom bude zmysluplný záver nasledovný: vzťah medzi X A Y nenájdené. Ak pri H 0 r xy= 0 sa odchyľuje na úrovni a, čo znamená, že medzi nimi bol zistený pozitívny (negatívny) vzťah X A Y. K interpretácii zistených korelácií však treba pristupovať opatrne. Z vedeckého hľadiska jednoduché stanovenie vzťahu medzi dvoma premennými neznamená, že existuje vzťah príčiny a následku. Okrem toho prítomnosť korelácie nestanovuje sekvenčný vzťah medzi príčinou a následkom. Jednoducho to naznačuje, že dve premenné spolu súvisia vo väčšej miere, ako by sa dalo očakávať náhodou. Ak sa však postupuje opatrne, použitie korelačných metód pri štúdiu vzťahov príčin a následkov je opodstatnené. Mali by ste sa vyhnúť kategorickým frázam ako „premenná X je dôvodom zvýšenia ukazovateľa Y" Takéto tvrdenia by mali byť formulované ako predpoklady, ktoré musia byť prísne teoreticky odôvodnené.

Podrobný popis matematického postupu pre každý korelačný koeficient je uvedený v učebniciach matematickej štatistiky; ; ; atď. Obmedzíme sa na popis možnosti použitia týchto koeficientov v závislosti od typu meracej stupnice.

Korelácia metrických premenných

Používa sa na štúdium vzťahu medzi dvoma metrickými premennými nameranými na tej istej vzorke korelačný koeficient r-Pearson. Samotný koeficient charakterizuje prítomnosť iba lineárneho vzťahu medzi charakteristikami, zvyčajne označovanými symbolmi X A Y. Koeficient lineárnej korelácie je parametrická metóda a jej správne použitie je možné len vtedy, ak sú výsledky merania prezentované na intervalovej stupnici a rozloženie hodnôt v analyzovaných premenných sa len mierne líši od normálu. Existuje veľa situácií, v ktorých je jeho použitie vhodné. Napríklad: vytvorenie spojenia medzi inteligenciou študenta a jeho akademickým výkonom; medzi náladou a úspechom pri vymanení sa z problematickej situácie; medzi úrovňou príjmu a temperamentom atď.

Pearsonov koeficient je široko používaný v psychológii a pedagogike. Napríklad v prácach I. Ya Kaplunovicha a P. D. Rabinovicha, M. P. Nuzhdina bol na potvrdenie hypotéz použitý výpočet Pearsonovho lineárneho korelačného koeficientu.

Pri manuálnom spracovaní údajov je potrebné vypočítať korelačný koeficient a následne určiť p-úroveň významnosti (na zjednodušenie overovania údajov použite tabuľky kritických hodnôt r xy, ktoré sú zostavené pomocou tohto kritéria). Hodnota Pearsonovho lineárneho korelačného koeficientu nemôže presiahnuť +1 a byť menšia ako –1. Tieto dve čísla +1 a –1 sú hranice pre korelačný koeficient. Ak je výsledkom výpočtu hodnota väčšia ako +1 alebo menšia ako –1, znamená to, že vo výpočtoch nastala chyba.

Pri výpočte na počítači štatistický program (SPSS, Statistica) doplní vypočítaný korelačný koeficient presnejšou hodnotou p-úroveň.

Pre štatistické rozhodnutie o prijatí alebo odmietnutí H 0 zvyčajne inštalované α = 0,05 a pre veľký objem pozorovaní (100 alebo viac) α = 0,01. Ak p < a, H0 sa zamietne a urobí sa zmysluplný záver, že medzi skúmanými premennými bol zistený štatisticky spoľahlivý (významný) vzťah (pozitívny alebo negatívny, v závislosti od znamienka korelácie). Kedy p > a, H0 sa nezamieta, zmysluplný záver sa obmedzuje na konštatovanie, že nebola zistená (štatisticky významná) súvislosť.

Ak sa spojenie nenájde, ale existuje dôvod domnievať sa, že spojenie v skutočnosti existuje, mali by ste skontrolovať možné dôvody nespoľahlivosti spojenia.

Nelinearita komunikácie– Na tento účel analyzujte dvojrozmerný bodový graf. Ak je vzťah nelineárny, ale monotónny, prejdite na hodnotiace korelácie. Ak vzťah nie je monotónny, potom rozdeľte vzorku na časti, v ktorých je vzťah monotónny, a vypočítajte korelácie samostatne pre každú časť vzorky, alebo rozdeľte vzorku do kontrastných skupín a potom ich porovnajte podľa úrovne vyjadrenia vlastnosť.

Prítomnosť odľahlých hodnôt a výrazná asymetria v rozložení jednej alebo oboch charakteristík. Aby ste to dosiahli, musíte sa pozrieť na histogramy frekvenčného rozloženia oboch funkcií. Ak existujú odľahlé hodnoty alebo asymetrie, vylúčte odľahlé hodnoty alebo prejdite na korelácie poradia.

Heterogenita vzorky(analyzujte 2D bodový graf). Pokúste sa rozdeliť vzorku na časti, v ktorých môže mať vzťah rôzne smery.

Ak je spojenie štatisticky významné, potom pred vyvodením zmysluplného záveru je potrebné vylúčiť možnosť falošnej korelácie:

  • spojenie je spôsobené emisiami. Ak existujú odľahlé hodnoty, prejdite na hodnotiace korelácie alebo vylúčte odľahlé hodnoty;
  • vzťah je spôsobený vplyvom tretej premennej. Ak k takémuto javu dôjde, je potrebné vypočítať koreláciu nielen pre celú vzorku, ale aj pre každú skupinu zvlášť. Ak je „tretia“ premenná metrická, vypočítajte čiastočnú koreláciu.

Parciálny korelačný koeficient r xy -z vypočítané, keď je potrebné skontrolovať predpoklad, že vzťah medzi dvoma premennými X A Y nezávisí od vplyvu tretej premennej Z. Veľmi často sú dve premenné navzájom korelované len preto, že sa obe menia v súlade pod vplyvom tretej premennej. Inými slovami, v skutočnosti neexistuje žiadna súvislosť medzi zodpovedajúcimi vlastnosťami, ale objavuje sa v štatistickom vzťahu pod vplyvom spoločnej príčiny. Napríklad vek môže byť bežnou príčinou variability dvoch premenných pri štúdiu vzťahu rôznych psychologických charakteristík v skupine rôzneho veku. Pri interpretácii parciálnej korelácie z pohľadu príčinnej súvislosti treba byť opatrný, pretože ak Z koreluje aj s X a s Y a čiastočná korelácia r xy -z je blízko nule, nemusí z toho nevyhnutne vyplývať, čo presne Z je častým dôvodom X A Y.

Korelácia premenných poradia

Ak je korelačný koeficient neprijateľný pre kvantitatívne údaje r-Pearson, potom na testovanie hypotézy o vzťahu medzi dvoma premennými po predbežnom zoradení možno použiť korelácie r- Spearman alebo τ -Kendall. Napríklad pri štúdiu psychofyzických vlastností hudobne nadaných adolescentov I. A. Lavočkinom bolo použité Spearmanovo kritérium.

Pre správny výpočet oboch koeficientov (Spearman a Kendall) musia byť výsledky merania prezentované v hodnotovej alebo intervalovej stupnici. Medzi týmito kritériami nie sú žiadne zásadné rozdiely, ale všeobecne sa uznáva, že Kendallov koeficient je „zmysluplnejší“, pretože podrobnejšie a podrobnejšie analyzuje vzťahy medzi premennými, pričom prechádza všetkými možnými zhodami medzi pármi hodnôt. Spearmanov koeficient presnejšie zohľadňuje kvantitatívnu mieru vzťahu medzi premennými.

Spearmanov koeficient poradovej korelácie je neparametrickou obdobou klasického Pearsonovho korelačného koeficientu, pri jeho výpočte sa však zohľadňujú nie distribučné ukazovatele porovnávaných premenných (aritmetický priemer a rozptyl), ale poradia. Napríklad je potrebné určiť súvislosť medzi hodnotením osobnostných kvalít zahrnutých v predstave človeka o jeho „skutočnom ja“ a „ideálnom ja“.

Spearmanov koeficient je široko používaný v psychologickom výskume. Napríklad v práci Yu V. Bushova a N. N. Nesmelovej: bola použitá na štúdium závislosti presnosti odhadu a reprodukcie trvania zvukových signálov od individuálnych charakteristík človeka.

Pretože tento koeficient je analogický r-Pearson, potom je jeho použitie na testovanie hypotéz podobné ako použitie koeficientu r-Pearson. To znamená, že testovaná štatistická hypotéza, postup pri štatistickom rozhodovaní a formulácia zmysluplného záveru sú rovnaké. V počítačových programoch (SPSS, Statistica) hladiny významnosti pre rovnaké koeficienty r-Pearson a r-Spearman sa vždy zhoduje.

Výhoda koeficientu r-Pomer Spearman vs r-Pearson – väčšia citlivosť na komunikáciu. Používame ho v nasledujúcich prípadoch:

  • prítomnosť významnej odchýlky distribúcie aspoň jednej premennej od normálnej formy (asymetria, odľahlé hodnoty);
  • vzhľad krivočiareho (monotónneho) spojenia.

Obmedzenie uplatnenia koeficientu r- Spearman sú:

  • pre každú premennú aspoň 5 pozorovaní;
  • koeficient pre veľký počet rovnakých poradí pre jednu alebo obe premenné dáva približnú hodnotu.

Koeficient poradovej korelácie τ -Kendall je nezávislá originálna metóda založená na výpočte pomeru párov hodnôt dvoch vzoriek, ktoré majú rovnaký alebo rozdielny trend (rastúce alebo klesajúce hodnoty). Tento koeficient sa nazýva aj koeficient zhody. Hlavnou myšlienkou tejto metódy je teda to, že smer spojenia možno posúdiť porovnaním subjektov v pároch: ak má pár subjektov zmenu v X sa zhoduje v smere so zmenou v Y, to naznačuje pozitívne spojenie, ak sa nezhoduje, naznačuje to negatívne spojenie, napríklad pri štúdiu osobných vlastností, ktoré sú rozhodujúce pre blaho rodiny; V tejto metóde je jedna premenná reprezentovaná ako monotónna postupnosť (napríklad manželove údaje) vo vzostupnom poradí; inej premennej (napríklad údaje manželky) sú priradené zodpovedajúce miesta v rebríčku. Počet inverzií (porušenie monotónnosti v porovnaní s prvým riadkom) sa používa vo vzorci pre korelačné koeficienty.

Pri počítaní τ- Kendall „ručne“ dáta najskôr zoradí podľa premennej X. Potom sa pre každý predmet spočíta, koľkokrát je jeho poradie podľa Y sa ukáže byť nižšia ako hodnosť nižšie uvedených subjektov. Výsledok sa zaznamená do stĺpca "Zápasy". Súčet všetkých hodnôt v stĺpci „Zhoda“ je P– celkový počet zhôd sa dosadí do vzorca na výpočet Kendallovho koeficientu, ktorý je výpočtovo jednoduchší, ale ako sa vzorka zvyšuje, na rozdiel od r-Spearman, objem výpočtov sa zvyšuje nie proporcionálne, ale exponenciálne. Tak napríklad kedy N= 12 je potrebné zoradiť 66 dvojíc predmetov a kedy N= 489 – už 1128 párov, t.j. objem výpočtov sa zvyšuje viac ako 17-krát. Pri výpočte na počítači v štatistickom programe (SPSS, Statistica) sa Kendallov koeficient počíta podobne ako koeficienty r- Spearman a r-Pearson. Vypočítaný korelačný koeficient τ -Kendall sa vyznačuje presnejšou hodnotou p-úroveň.

Použitie Kendallovho koeficientu je vhodnejšie, ak sa v zdrojových údajoch nachádzajú odľahlé hodnoty.

Charakteristickým znakom koeficientov poradovej korelácie je, že maximálne absolútne korelácie poradia (+1, –1) nemusia nevyhnutne zodpovedať striktným priamo alebo nepriamo úmerným vzťahom medzi pôvodnými premennými. X A Y: postačuje len monotónne funkčné spojenie medzi nimi. Poradové korelácie dosahujú svoju maximálnu absolútnu hodnotu, ak väčšia hodnota jednej premennej vždy zodpovedá väčšej hodnote inej premennej (+1), alebo väčšia hodnota jednej premennej vždy zodpovedá menšej hodnote inej premennej a naopak (–1 ).

Testovaná štatistická hypotéza, postup pri prijímaní štatistického rozhodnutia a formulácia zmysluplného záveru sú rovnaké ako v prípade r-Spearman alebo r-Pearson.

Ak sa nenájde štatisticky významný vzťah, ale existuje dôvod domnievať sa, že v skutočnosti existuje spojenie, mali by ste najprv prejsť z koeficientu

r-Spearman do koeficientu τ -Kendall (alebo naopak) a potom skontrolujte možné dôvody nespoľahlivého pripojenia:

  • nelinearita komunikácie: Ak to chcete urobiť, pozrite sa na 2D bodový graf. Ak vzťah nie je monotónny, potom rozdeľte vzorku na časti, v ktorých je vzťah monotónny, alebo rozdeľte vzorku do kontrastných skupín a potom ich porovnajte podľa úrovne prejavu znaku;
  • heterogenita vzorky: Pozrite sa na dvojrozmerný bodový graf, skúste rozdeliť vzorku na časti, v ktorých môže mať vzťah rôzne smery.

Ak je vzťah štatisticky významný, potom pred zmysluplným záverom je potrebné vylúčiť možnosť falošnej korelácie (analogicky s metrickými korelačnými koeficientmi).

Korelácia dichotomických premenných

Pri porovnávaní dvoch premenných nameraných na dichotomickej škále je mierou korelácie takzvaný j koeficient, čo je korelačný koeficient pre dichotomické údaje.

Rozsah koeficient φ leží v rozsahu medzi +1 a –1. Môže byť buď pozitívny alebo negatívny, charakterizujúci smer vzťahu medzi dvoma dichotomicky meranými znakmi. Interpretácia φ však môže predstavovať špecifické problémy. Dichotomické údaje zahrnuté do výpočtu koeficientu φ nepripomínajú dvojrozmerný normálny povrch, preto je nesprávne predpokladať, že interpretované hodnoty r xy=0,60 a φ = 0,60 sú rovnaké. Koeficient φ možno vypočítať kódovacou metódou, ako aj pomocou takzvanej štvorpolovej tabuľky alebo kontingenčnej tabuľky.

Na uplatnenie korelačného koeficientu φ musia byť splnené tieto podmienky:

  • porovnávané charakteristiky sa musia merať na dichotomickej škále;
  • X A Y by mala byť rovnaká.

Tento typ korelácie je vypočítaný v počítačovom programe SPSS na základe definície mier vzdialenosti a miery podobnosti. Niektoré štatistické postupy, ako je faktorová analýza, zhluková analýza, viacrozmerné škálovanie, sú postavené na použití týchto mier a niekedy samotné poskytujú dodatočné možnosti na výpočet mier podobnosti.

V prípadoch, keď sa jedna premenná meria na dichotomickej škále (premenná X) a druhý na intervalovej alebo pomerovej stupnici (premenná Y), používané bisériový korelačný koeficient, napríklad pri testovaní hypotéz o vplyve pohlavia dieťaťa na výšku a váhu. Tento koeficient sa pohybuje v rozmedzí od –1 do +1, ale na jeho znamienku nezáleží pri interpretácii výsledkov. Ak ho chcete použiť, musia byť splnené nasledujúce podmienky:

  • Porovnávané charakteristiky sa musia merať v rôznych mierkach: jedna X– v dichotomickom meradle; iné Y– na stupnici intervalov alebo pomerov;
  • premenlivý Y má normálny distribučný zákon;
  • počet rôznych charakteristík v porovnávaných premenných X A Y by mala byť rovnaká.

Ak premenná X merané na dichotomickej škále a premenná Y na hodnotovej stupnici (premenná Y), môže byť použité poradovo-dvojsériový korelačný koeficient, ktorý úzko súvisí s Kendallovým τ a vo svojej definícii používa pojmy koincidencia a inverzia. Interpretácia výsledkov je rovnaká.

Vykonanie korelačnej analýzy pomocou počítačových programov SPSS a Statistica je jednoduchá a pohodlná operácia. Ak to chcete urobiť, po vyvolaní dialógového okna Bivariačné korelácie (Analyze>Corelate>Bivariate...) je potrebné presunúť skúmané premenné do poľa Variables a vybrať metódu, pomocou ktorej bude korelačný vzťah medzi premennými identifikovaný. Výstupný súbor pre každé vypočítané kritérium obsahuje štvorcovú tabuľku (Korelácie). Každá bunka tabuľky zobrazuje: hodnotu samotného korelačného koeficientu (Correlation Coefficient), štatistickú významnosť vypočítaného koeficientu Sig, počet subjektov.

Hlavička a bočné stĺpce výslednej korelačnej tabuľky obsahujú názvy premenných. Uhlopriečka (ľavý horný - pravý dolný roh) tabuľky pozostáva z jednotiek, pretože korelácia akejkoľvek premennej so sebou je maximálna. Stôl je symetrický okolo tejto uhlopriečky. Ak je v programe zaškrtnuté políčko „Označiť významné korelácie“, potom sa v konečnej korelačnej tabuľke označia štatisticky významné koeficienty: na úrovni 0,05 a menej - jednou hviezdičkou (*) a na úrovni 0,01 - s dve hviezdičky (**).

Takže, aby som to zhrnul: hlavným účelom korelačnej analýzy je identifikovať vzťah medzi premennými. Mierou súvislosti sú korelačné koeficienty, ktorých výber priamo závisí od typu škály, v ktorej sa premenné merajú, počtu rôznych charakteristík v porovnávaných premenných a distribúcie premenných. Prítomnosť korelácie medzi dvoma premennými neznamená, že medzi nimi existuje kauzálny vzťah. Hoci korelácia priamo nenaznačuje príčinnú súvislosť, môže byť kľúčom k príčine. Na základe toho sa dajú vytvárať hypotézy. V niektorých prípadoch má nedostatok korelácie hlbší vplyv na hypotézu príčinnej súvislosti. Nulová korelácia medzi dvoma premennými môže naznačovať, že neexistuje žiadny vplyv jednej premennej na druhú.



Páčil sa vám článok? Zdieľajte so svojimi priateľmi!