Kas yra chi kvadratas statistikoje. Chi kvadrato testo naudojimas sudėtingoms hipotezėms patikrinti

​ Pearsono χ 2 testas yra neparametrinis metodas, leidžiantis įvertinti skirtumų tarp faktinio (atskleisto) rezultatų skaičiaus arba kiekvienos kategorijos imties kokybinių charakteristikų ir teorinio skaičiaus, kurio galima tikėtis tiriamajame. grupės, jei nulinė hipotezė yra teisinga. Paprasčiau tariant, metodas leidžia įvertinti dviejų ar daugiau santykinių rodiklių (dažnių, proporcijų) skirtumų statistinį reikšmingumą.

1. χ 2 kriterijaus raidos istorija

Chi kvadrato testą, skirtą nenumatytų atvejų lentelėms analizuoti, sukūrė ir 1900 m. pasiūlė anglų matematikas, statistikas, biologas ir filosofas, matematinės statistikos pradininkas ir vienas iš biometrinių duomenų įkūrėjų. Karlas Pearsonas(1857-1936).

2. Kodėl naudojamas Pirsono χ 2 testas?

Analizuojant galima naudoti chi kvadrato testą nenumatytų atvejų lentelės informacija apie pasekmių dažnumą priklausomai nuo rizikos veiksnio buvimo. Pavyzdžiui, keturių laukų nenumatytų atvejų lentelė atrodo taip:

Yra rezultatas (1) Nėra rezultato (0) Iš viso
Yra rizikos veiksnys (1) A B A+B
Nėra rizikos faktoriaus (0) C D C+D
Iš viso A+C B+D A+B+C+D

Kaip užpildyti tokią nenumatytų atvejų lentelę? Pažvelkime į nedidelį pavyzdį.

Atliekamas rūkymo poveikio rizikai susirgti arterine hipertenzija tyrimas. Tam buvo atrinktos dvi tiriamųjų grupės – į pirmąją buvo įtraukta 70 žmonių, kasdien surūkančių bent 1 pakelį cigarečių, į antrąją – 80 tokio pat amžiaus nerūkančiųjų. Pirmoje grupėje 40 žmonių turėjo aukštą kraujospūdį. Antruoju metu arterinė hipertenzija buvo pastebėta 32 žmonėms. Atitinkamai normalus kraujospūdis rūkančiųjų grupėje buvo 30 žmonių (70 - 40 = 30), o nerūkančiųjų - 48 (80 - 32 = 48).

Keturių laukų nenumatytų atvejų lentelę užpildome pradiniais duomenimis:

Gautoje nenumatytų atvejų lentelėje kiekviena eilutė atitinka konkrečią dalykų grupę. Stulpeliuose rodomas žmonių, sergančių arterine hipertenzija arba normaliu kraujospūdžiu, skaičius.

Mokslininkui keliamas uždavinys: ar yra statistiškai reikšmingų skirtumų tarp sergančiųjų kraujospūdžiu dažnumo tarp rūkančiųjų ir nerūkančiųjų? Į šį klausimą galima atsakyti apskaičiavus Pirsono chi kvadrato testą ir palyginus gautą reikšmę su kritine.

3. Pirsono chi kvadrato testo taikymo sąlygos ir apribojimai

  1. Turi būti matuojami palyginami rodikliai vardinė skalė(pavyzdžiui, paciento lytis yra vyras arba moteris) arba in eilinis(pavyzdžiui, arterinės hipertenzijos laipsnis, imant reikšmes nuo 0 iki 3).
  2. Šis metodas leidžia analizuoti ne tik keturių laukų lenteles, kai ir veiksnys, ir rezultatas yra dvejetainiai kintamieji, tai yra, jie turi tik dvi galimas reikšmes (pavyzdžiui, vyriška arba moteriška lytis, ar yra arba nėra). tam tikra liga anamnezėje...). Pirsono chi kvadrato testas taip pat gali būti naudojamas analizuojant kelių laukų lenteles, kai veiksnys ir (arba) rezultatas turi tris ar daugiau reikšmių.
  3. Lyginamos grupės turi būti nepriklausomos, ty chi kvadrato testas neturėtų būti naudojamas lyginant stebėjimus prieš ir po. McNemar testas(lyginant dvi susijusias populiacijas) arba apskaičiuotas Cochrano Q testas(jei lyginamos trys ar daugiau grupių).
  4. Analizuojant keturių laukų lenteles numatomos vertės kiekvienoje ląstelėje turi būti ne mažiau kaip 10. Jei bent vienoje langelyje laukiamas reiškinys įgyja reikšmę nuo 5 iki 9, reikia apskaičiuoti chi kvadrato testą su Yateso pataisa. Jei bent vienoje ląstelėje numatomas reiškinys yra mažesnis nei 5, tada analizė turėtų būti naudojama Tikslus Fisherio testas.
  5. Analizuojant kelių laukų lenteles, numatomas stebėjimų skaičius neturėtų būti mažesnis nei 5 daugiau nei 20 % langelių.

4. Kaip apskaičiuoti Pirsono chi kvadrato testą?

Norėdami apskaičiuoti chi kvadrato testą, jums reikia:

Šis algoritmas taikomas tiek keturių laukų, tiek kelių laukų lentelėms.

5. Kaip interpretuoti Pirsono chi kvadrato testo reikšmę?

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

6. Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Rūkymo faktoriaus įtakos arterine hipertenzija sergamumui statistinę reikšmę nustatykime pagal aukščiau aptartą lentelę:

  1. Apskaičiuojame numatomas kiekvieno langelio vertes:
  2. Raskite Pirsono chi kvadrato testo vertę:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Pasinaudoję lentele randame Pirsono chi kvadrato testo kritinę reikšmę, kuri prie reikšmingumo lygio p=0,05 ir skaičius 1 laisvės laipsnių yra 3,841.
  4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.

Šio kriterijaus naudojimas grindžiamas tokio masto (statistikos) naudojimu, nurodant neatitikimą tarp teorinių F(x) ir empirinis pasiskirstymas F* n (x) , kuris maždaug paklūsta pasiskirstymo dėsniui χ 2 . Hipotezė N 0 Paskirstymų nuoseklumas tikrinamas analizuojant šios statistikos pasiskirstymą. Norint taikyti šį kriterijų, reikia sudaryti statistinę eilutę.

Taigi, imtį tegul pateikia statistiškai šalia skaitmenų skaičiaus M. Stebėtas pataikymo rodiklis i- th rangas n i. Pagal teorinį paskirstymo dėsnį numatomas įvykių dažnis i- yra kategorija F i. Skirtumas tarp stebimo ir numatomo dažnio bus ( n iF i). Norėdami rasti bendrą neatitikimo laipsnį tarp F(x) Ir F* n (x) reikia apskaičiuoti visų statistinės eilutės skaitmenų kvadratinių skirtumų svertinę sumą

Vertė χ 2 su neribotu padidinimu n turi χ 2 pasiskirstymą (asimptotiškai pasiskirstęs kaip χ 2). Šis pasiskirstymas priklauso nuo laisvės laipsnių skaičiaus k, t.y. nepriklausomų terminų reikšmių skaičius išraiškoje (3.7). Laisvės laipsnių skaičius lygus skaičiui y atėmus imties tiesinių ryšių skaičių. Vienas ryšys egzistuoja dėl to, kad bet kurį dažnį galima apskaičiuoti iš likusių dažnių visumos M– 1 skaitmuo. Be to, jei pasiskirstymo parametrai nėra žinomi iš anksto, yra dar vienas apribojimas dėl paskirstymo pritaikymo imčiai. Jei mėginys nustato S pasiskirstymo parametrus, tada laisvės laipsnių skaičius bus k= MS–1.

Hipotezių priėmimo sritis N 0 nustatoma sąlyga χ 2 < χ 2 (k; a) , kur χ 2 (k; a) – kritinis χ2 skirstinio taškas su reikšmingumo lygiu a. I tipo klaidos tikimybė yra a, II tipo klaidos tikimybė negali būti aiškiai apibrėžta, nes yra be galo daug skirtingų būdų, kaip skirstiniai gali nesutapti. Testo galia priklauso nuo skaitmenų skaičiaus ir imties dydžio. Kriterijus rekomenduojama taikyti tada, kai n>200, naudoti leidžiama, kai n>40, būtent tokiomis sąlygomis kriterijus galioja (paprastai jis atmeta neteisingą nulinę hipotezę).

Patikros pagal kriterijų algoritmas

1. Sukurkite histogramą lygių tikimybių metodu.

2. Remdamiesi histogramos išvaizda, iškelkite hipotezę

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

Kur f 0 (x) - hipotetinio skirstinio dėsnio (pavyzdžiui, vienodo, eksponentinės, normalaus) tikimybių tankis.

komentuoti. Hipotezė apie eksponentinį pasiskirstymo dėsnį gali būti iškelta, jei visi imties skaičiai yra teigiami.

3. Pagal formulę apskaičiuokite kriterijaus reikšmę

,

Kur
pataikymo rodiklis i-asis intervalas;

p i- teorinė tikimybė, kad atsitiktinis dydis pateks į i- asis intervalas su sąlyga, kad hipotezė H 0 yra teisinga.

Skaičiavimo formulės p i eksponentinių, vienodų ir normaliųjų dėsnių atveju jie yra atitinkamai lygūs.

eksponentinė teisė

. (3.8)

Tuo pačiu metu A 1 = 0, B m = +¥.

Vienodas įstatymas

Normalus įstatymas

. (3.10)

Tuo pačiu metu A 1 = -¥, B M = +¥.

Pastabos. p i Apskaičiavus visas tikimybes

patikrinkite, ar tenkintas atskaitos santykis Funkcija Ф( X

) – nelyginis. Ф(+¥) = 1.
4. Priede esančioje Chi kvadrato lentelėje pasirinkite reikšmę k, kur a yra nurodytas reikšmingumo lygis (a = 0,05 arba a = 0,01), ir

k = M - 1 - S.

- laisvės laipsnių skaičius, nustatytas pagal formulę SČia H- parametrų, nuo kurių priklauso pasirinkta hipotezė, skaičius S 0 platinimo įstatymas. Vertybės

vienodam dėsniui tai yra 2, eksponentams dėsniui - 1, normaliam dėsniui - 2.
5. Jeigu H, tada hipotezė

0 atmesta. Priešingu atveju nėra pagrindo jį atmesti: su tikimybe 1 - b tai tiesa, o su tikimybe - b tai neteisinga, bet b reikšmė nežinoma. . 3 pavyzdys 1. Naudodami c 2 kriterijų, iškelkite ir patikrinkite hipotezę apie atsitiktinio dydžio pasiskirstymo dėsnį. X

, kurios variacijų eilutės, intervalų lentelės ir pasiskirstymo histogramos pateiktos 1.2 pavyzdyje. Reikšmingumo lygis a yra 0,05. Sprendimas 1. Naudodami c 2 kriterijų, iškelkite ir patikrinkite hipotezę apie atsitiktinio dydžio pasiskirstymo dėsnį.. Remdamiesi histogramų išvaizda, iškeliame hipotezę, kad atsitiktinis kintamasis

H 0: f(x) = paskirstoma pagal įprastą dėsnį:(m N

H 1: f(x) ¹ paskirstoma pagal įprastą dėsnį:(m, s);

, s).

(3.11)

Kriterijaus vertė apskaičiuojama pagal formulę:

Kaip minėta aukščiau, tikrinant hipotezę, geriau naudoti vienodos tikimybės histogramą. Šiuo atveju p i Teorinės tikimybės

p Skaičiuojame pagal (3.10) formulę. Tuo pačiu mes tuo tikime

0,5(-0,845+1) = 0,078.

p 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Po to iš „Chi kvadrato“ lentelės pasirinkite kritinę reikšmę

.

Nes
tada hipotezė H 0 priimtas (nėra pagrindo jį atmesti).

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Rūkymo faktoriaus įtakos arterine hipertenzija sergamumui statistinę reikšmę nustatykime pagal aukščiau aptartą lentelę:

1. Apskaičiuokite numatomas kiekvieno langelio vertes:

2. Raskite Pirsono chi kvadrato testo vertę:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Naudodami lentelę randame Pirsono chi kvadrato testo kritinę reikšmę, kuri esant reikšmingumo lygiui p=0,05 ir laisvės laipsnių skaičius 1 yra 3,841.

4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.

Be to, Pirsono chi kvadrato testas apskaičiuojamas pagal formulę

Tačiau 2x2 lentelėse tikslesni rezultatai gaunami pagal Yates pataisos kriterijų

Jeigu Tai N(0) priimtas,

Tuo atveju priimtas H(1)

Kai stebėjimų skaičius mažas, o lentelės langelių dažnis mažesnis nei 5, chi kvadrato testas netaikomas ir naudojamas hipotezėms tikrinti. Tikslus Fisherio testas . Šio kriterijaus skaičiavimo procedūra yra gana daug darbo reikalaujanti, todėl šiuo atveju geriau naudoti kompiuterines statistinės analizės programas.

Naudodamiesi nenumatytų atvejų lentele, galite apskaičiuoti dviejų kokybinių charakteristikų ryšio matą - tai yra Yule asociacijos koeficientas K (analogiškai koreliacijos koeficientui)

K yra intervale nuo 0 iki 1. Koeficientas artimas vienetui rodo stiprų ryšį tarp charakteristikų. Jei jis lygus nuliui, ryšio nėra .

Panašiai naudojamas phi kvadrato koeficientas (φ 2).

LYGINIMO UŽDUOTIS

Lentelėje aprašomas ryšys tarp mutacijų dažnio Drosophila grupėse maitinant ir be maitinimo



Nenumatytų atvejų lentelės analizė

Nenumatytų atvejų lentelės analizei iškeliama H 0 hipotezė, ty tiriamos charakteristikos įtakos tyrimo rezultatui nebuvimas. Tam apskaičiuojamas numatomas dažnis ir sudaroma lūkesčių lentelė.

Laukimo stalas

grupės Chilo pasėliai Iš viso
Suteikė mutacijas Nedavė mutacijų
Faktinis dažnis Numatomas dažnis Faktinis dažnis Numatomas dažnis
Su maitinimu
Be maitinimo
viso

1 būdas

Nustatykite laukimo dažnumą:

2756 – X ;

2. 3561 – 3124

Jei stebėjimų skaičius grupėse yra mažas, naudojant X 2, lyginant faktinį ir numatomą diskrečiųjų skirstinių dažnį, yra susijęs tam tikras netikslumas.

Biologinių tyrimų praktikoje dažnai tenka patikrinti vieną ar kitą hipotezę, tai yra išsiaiškinti, kiek eksperimentuotojo gauta faktinė medžiaga patvirtina teorinę prielaidą, o kiek analizuojami duomenys sutampa su teoriškai numatomais. vienus. Iškyla užduotis statistiškai įvertinti skirtumą tarp faktinių duomenų ir teorinio lūkesčio, nustatyti, kokiais atvejais ir su kokiu tikimybės laipsniu šis skirtumas gali būti laikomas patikimu ir, atvirkščiai, kada jį laikyti nereikšmingu, nereikšmingu, atsitiktinumo ribose. Pastaruoju atveju išlaikoma hipotezė, kurios pagrindu apskaičiuojami teoriškai tikėtini duomenys ar rodikliai. Tokia variacinė-statistinė hipotezės tikrinimo metodika yra metodas chi kvadratas (χ 2). Šis matas dažnai vadinamas „tinkamumo kriterijumi“ arba „Pirsono tinkamumo testu“. Su jo pagalba galima su skirtinga tikimybe spręsti apie empiriškai gautų duomenų atitikimo laipsnį teoriškai laukiamiems.

Formaliu požiūriu lyginamos dvi variacijų eilutės, dvi populiacijos: viena yra empirinis skirstinys, kita – imtis su tais pačiais parametrais ( n, M, S ir tt) yra toks pat kaip ir empirinis, tačiau jo dažninis skirstinys sudarytas griežtai laikantis pasirinkto teorinio dėsnio (normalusis, Puasono, binominis ir kt.), kuriam, kaip manoma, turi paklusti tiriamojo atsitiktinio dydžio elgsena. .

Apskritai atitikties kriterijaus formulę galima parašyti taip:

Kur a – faktinis stebėjimų dažnis,

A – teoriškai numatomas tam tikros klasės dažnis.

Nulinėje hipotezėje daroma prielaida, kad tarp lyginamų skirstinių nėra reikšmingų skirtumų. Norėdami įvertinti šių skirtumų svarbą, turėtumėte vadovautis specialia kritinių chi kvadrato verčių lentele (9 lentelė). P) ir lyginant apskaičiuotą vertę χ 2 su lentele nuspręskite, ar empirinis skirstinys patikimai ar nepatikimai nukrypsta nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus arba paneigta, arba palikta galioti. Jei apskaičiuota vertė χ 2 yra lygus arba viršija lentelę χ ² ( α , df), nuspręskite, kad empirinis skirstinys labai skiriasi nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus paneigta. Jeigu χ ² < χ ² ( α , df), nulinė hipotezė lieka galioti. Visuotinai pripažįstama, kad reikšmingumo lygis yra priimtinas α = 0,05, nes šiuo atveju yra tik 5% tikimybė, kad nulinė hipotezė yra teisinga, todėl yra pakankamai priežasčių (95%) ją atmesti.


Tam tikra problema yra teisingas laisvės laipsnių skaičiaus nustatymas ( df), kurių kriterijų reikšmės paimtos iš lentelės. Nustatyti laisvės laipsnių skaičių iš bendro klasių skaičiaus k reikia atimti apribojimų skaičių (t. y. parametrų, naudojamų teoriniams dažniams apskaičiuoti, skaičių).

Priklausomai nuo tiriamos charakteristikos pasiskirstymo tipo, pasikeis laisvės laipsnių skaičiaus apskaičiavimo formulė. Už alternatyva paskirstymai ( k= 2) skaičiavimuose dalyvauja tik vienas parametras (imties dydis), todėl laisvės laipsnių skaičius yra df= k−1=2−1=1. Už daugianario Paskirstymo formulė yra panaši: df= k−1. Patikrinti variacijų serijų atitiktį paskirstymui Poisson jau naudojami du parametrai – imties dydis ir vidutinė vertė (skaitmeniškai sutampanti su dispersija); laisvės laipsnių skaičius df= k−2. Tikrinant empirinio skirstinio nuoseklumą, parinktis normalus arba dvinario Pagal įstatymą laisvės laipsnių skaičius laikomas faktinių klasių skaičiumi, atėmus tris serijų sudarymo sąlygas – imties dydį, vidurkį ir dispersiją, df= k−3. Iš karto verta paminėti, kad χ² kriterijus veikia tik pavyzdžiams ne mažiau kaip 25 variantų apimtis, o atskirų klasių dažniai turėtų būti ne mažesnis kaip 4.

Pirma, mes iliustruojame chi kvadrato testo naudojimą naudodami analizės pavyzdį alternatyvus kintamumas. Vieno eksperimento, tiriančio pomidorų paveldimumą, metu buvo rasti 3629 raudoni ir 1176 geltoni vaisiai. Teorinis simbolių padalijimo dažnių santykis antroje hibridinėje kartoje turėtų būti 3:1 (nuo 75% iki 25%). Ar jis įgyvendinamas? Kitaip tariant, ar šis mėginys paimtas iš populiacijos, kurioje dažnio santykis yra 3:1 arba 0,75:0,25?

Sukurkime lentelę (4 lentelė), užpildydami empirinių dažnių reikšmes ir teorinių dažnių skaičiavimo rezultatus pagal formulę:

A = n∙p,

Kur p– teoriniai dažniai (tam tikro tipo trupmenos),

n – imties dydis.

Pavyzdžiui, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Šioje pastaboje χ 2 skirstinys naudojamas duomenų rinkinio su fiksuotu tikimybių skirstiniu nuoseklumui patikrinti. Susitarimo kriterijus dažnai O Jūs, priklausantis tam tikrai kategorijai, lyginamas su dažniais, kurių teoriškai būtų galima tikėtis, jei duomenys iš tikrųjų turėtų nurodytą pasiskirstymą.

Testavimas, naudojant χ 2 tinkamumo kriterijų, atliekamas keliais etapais. Pirmiausia nustatomas konkretus tikimybių skirstinys ir lyginamas su pirminiais duomenimis. Antra, iškeliama hipotezė apie pasirinkto tikimybių skirstinio parametrus (pavyzdžiui, jo matematinį lūkestį) arba atliekamas jų įvertinimas. Trečia, remiantis teoriniu skirstiniu, nustatoma teorinė tikimybė, atitinkanti kiekvieną kategoriją. Galiausiai χ2 testo statistika naudojama duomenų nuoseklumui ir paskirstymui patikrinti:

Kur f 0- stebimas dažnis, f e- teorinis arba numatomas dažnis, k- po sujungimo likusių kategorijų skaičius, r- įvertintinų parametrų skaičius.

Atsisiųskite pastabą formatu arba formatu, pavyzdžius formatu

Naudojant χ2 tinkamumo testą Puasono skirstiniui

Norint apskaičiuoti naudojant šią formulę programoje Excel, patogu naudoti =SUMPRODUCT() funkciją (1 pav.).

Norėdami įvertinti parametrą λ galite naudoti sąmatą . Teorinis dažnis 1. Naudodami c 2 kriterijų, iškelkite ir patikrinkite hipotezę apie atsitiktinio dydžio pasiskirstymo dėsnį. sėkmės (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ir daugiau), atitinkančios parametrą λ = 2,9 galima nustatyti naudojant funkciją =POISSON.DIST(X;;FALSE). Padauginus Puasono tikimybę iš imties dydžio n, gauname teorinį dažnį f e(2 pav.).

Ryžiai. 2. Faktiniai ir teoriniai atvykimo rodikliai per minutę

Kaip matyti iš fig. 2, teorinis devynių ar daugiau atvykimų dažnis neviršija 1,0. Siekiant užtikrinti, kad kiekvienos kategorijos dažnis būtų 1,0 ar didesnis, kategorija „9 ar daugiau“ turėtų būti derinama su kategorija „8“. Tai reiškia, kad liko devynios kategorijos (0, 1, 2, 3, 4, 5, 6, 7, 8 ir daugiau). Kadangi Puasono skirstinio matematinis lūkestis nustatomas remiantis imties duomenimis, laisvės laipsnių skaičius lygus k – p – 1 = 9 – 1 – 1 = 7. Naudodami 0,05 reikšmingumo lygį, randame χ 2 statistikos kritinė reikšmė, kuri pagal formulę =CHI2.OBR(1-0.05;7) = 14.067 turi 7 laisvės laipsnius. Sprendimo taisyklė formuluojama taip: hipotezė H 0 atmetamas, jei χ 2 > 14,067, kitu atveju hipotezė H 0 nenukrypsta.

Norėdami apskaičiuoti χ 2, naudojame formulę (1) (3 pav.).

Ryžiai. 3. Puasono skirstinio χ 2 tinkamumo kriterijaus apskaičiavimas

Kadangi χ 2 = 2,277< 14,067, следует, что гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo teigti, kad klientų atėjimas į banką nepaklūsta Puasono paskirstymui.

χ 2 -tinkamumo testo taikymas normaliajam pasiskirstymui

Ankstesnėse pastabose, tikrindami hipotezes apie skaitinius kintamuosius, manėme, kad tiriama populiacija buvo normaliai pasiskirstyta. Norėdami patikrinti šią prielaidą, galite naudoti grafinius įrankius, pavyzdžiui, langelio diagramą arba normalaus pasiskirstymo grafiką (daugiau informacijos žr.). Didelės imties dydžių atveju šioms prielaidoms patikrinti galima naudoti normaliojo skirstinio χ 2 tinkamumo testą.

Kaip pavyzdį panagrinėkime 158 investicinių fondų 5 metų grąžos duomenis (4 pav.). Tarkime, kad norite patikėti, ar duomenys paskirstyti įprastai. Nulinės ir alternatyvios hipotezės formuluojamos taip: H 0: 5 metų derlius yra normalus, H 1: 5 metų derlius nesilaiko normalaus pasiskirstymo. Normalusis skirstinys turi du parametrus – matematinį lūkestį μ ir standartinį nuokrypį σ, kurį galima įvertinti remiantis imties duomenimis. Šiuo atveju = 10,149 ir S = 4,773.

Ryžiai. 4. Sutvarkytas masyvas, kuriame yra duomenys apie 158 fondų penkerių metų vidutinę metinę grąžą

Duomenys apie fondų grąžą gali būti grupuojami, pavyzdžiui, į klases (intervalus), kurių plotis yra 5% (5 pav.).

Ryžiai. 5. 158 fondų penkerių metų vidutinės metinės grąžos dažnumo pasiskirstymas

Kadangi normalusis pasiskirstymas yra ištisinis, būtina nustatyti figūrų plotą, kurį riboja normaliojo pasiskirstymo kreivė, ir kiekvieno intervalo ribas. Be to, kadangi normalusis pasiskirstymas teoriškai svyruoja nuo –∞ iki +∞, būtina atsižvelgti į formų, kurios nepatenka į klasės ribas, plotą. Taigi plotas po normaliąja kreive į kairę nuo taško –10 yra lygus figūros, esančios po standartizuota normaliąja kreive į kairę nuo Z reikšmės, plotui, lygiam

Z = (–10 – 10,149) / 4,773 = –4,22

Figūros plotas, esantis po standartizuota normaliosios kreivės kairėje nuo reikšmės Z = –4,22, nustatomas pagal formulę =NORM.DIST(-10;10,149;4,773;TRUE) ir yra maždaug lygus 0,00001. Norint apskaičiuoti figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotą, pirmiausia reikia apskaičiuoti figūros, esančios į kairę nuo –5, plotą: =NORM.DIST( -5,10.149,4.773,TRUE) = 0,00075 . Taigi figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotas yra 0,00075 – 0,00001 = 0,00074. Panašiai galite apskaičiuoti figūros plotą, kurį riboja kiekvienos klasės ribos (6 pav.).

Ryžiai. 6. Sritys ir numatomi dažniai kiekvienai 5 metų grąžos klasei

Matyti, kad teoriniai dažniai keturiose kraštutinėse klasėse (dvi minimalios ir dvi didžiausios) yra mažesni už 1, todėl klases sujungsime, kaip parodyta 7 pav.

Ryžiai. 7. Skaičiavimai, susiję su χ 2 tinkamumo testu normaliajam pasiskirstymui

χ 2 kriterijų naudojame duomenims suderinti su normaliuoju skirstiniu, naudodami (1) formulę. Mūsų pavyzdyje po sujungimo lieka šešios klasės. Kadangi numatoma vertė ir standartinis nuokrypis apskaičiuojami pagal imties duomenis, laisvės laipsnių skaičius yra kp – 1 = 6 – 2 – 1 = 3. Naudodami 0,05 reikšmingumo lygį, nustatome, kad kritinė χ 2 statistikos reikšmė, kuri turi tris laisvės laipsnius = CI2.OBR(1-0,05;F3) = 7,815. Skaičiavimai, susiję su χ 2 tinkamumo kriterijaus naudojimu, parodyti Fig. 7.

Matyti, kad χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo teigti, kad į didelį augimą orientuotų investicinių fondų 5 metų grąža nėra normaliai paskirstoma.

Keliuose naujausiuose pranešimuose buvo nagrinėjami skirtingi kategoriškų duomenų analizės metodai. Aprašomi hipotezių apie kategoriškus duomenis, gautus analizuojant dvi ar daugiau nepriklausomų imčių, tikrinimo metodai. Be chi kvadrato testų, atsižvelgiama į neparametrines procedūras. Aprašytas Wilcoxon rango testas, kuris naudojamas situacijose, kai netenkinamos taikymo sąlygos t-hipotezės apie dviejų nepriklausomų grupių matematinių lūkesčių lygybę tikrinimo kriterijus, taip pat Kruskal-Wallis testą, kuris yra alternatyva vienfaktorinei dispersijos analizei (8 pav.).

Ryžiai. 8. Hipotezių apie kategoriškus duomenis tikrinimo metodų blokinė diagrama

Naudojama medžiaga iš knygos Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 763–769



Ar jums patiko straipsnis? Pasidalinkite su draugais!