Naudojant chi kvadrato testą. Pirsono tinkamumo testas (chi kvadrato testas)

1. Palyginamieji rodikliai turi būti matuojami vardinė skalė(pavyzdžiui, paciento lytis yra vyras arba moteris) arba in eilinis(pavyzdžiui, arterinės hipertenzijos laipsnis, imant reikšmes nuo 0 iki 3).

2. Šis metodas leidžia analizuoti ne tik keturių laukų lenteles, kai ir faktorius, ir rezultatas yra dvejetainiai kintamieji, tai yra, jie turi tik du galimas vertes(pvz., vyriška ar moteriška lytis, tam tikros ligos buvimas ar nebuvimas anamnezėje...). Pirsono chi kvadrato testas taip pat gali būti naudojamas analizuojant kelių laukų lenteles, kai veiksnys ir (arba) rezultatas turi tris ar daugiau reikšmių.

3. Lyginamos grupės turi būti nepriklausomos, tai yra, chi kvadrato testas neturėtų būti naudojamas lyginant stebėjimus „prieš-po“. McNemar testas(lyginant dvi susijusias populiacijas) arba apskaičiuotas Cochrano Q testas(jei lyginamos trys ar daugiau grupių).

4. Analizuojant keturių laukų lenteles numatomos vertės kiekvienoje ląstelėje turi būti ne mažiau kaip 10. Jei bent vienoje langelyje laukiamas reiškinys įgyja reikšmę nuo 5 iki 9, reikia apskaičiuoti chi kvadrato testą su Yateso pataisa. Jei bent vienoje ląstelėje numatomas reiškinys yra mažesnis nei 5, tada analizė turėtų būti naudojama Tikslus Fisherio testas.

5. Analizuojant daugialaukes lenteles, numatomas stebėjimų skaičius turi būti ne mažesnis kaip 5 daugiau nei 20 % langelių.

Norėdami apskaičiuoti chi kvadrato testą, jums reikia:

1. Apskaičiuokite numatomą stebėjimų skaičių kiekvienai nenumatytų atvejų lentelės langeliui (atsižvelgiant į nulinės hipotezės, kad nėra ryšio), padauginus eilučių ir stulpelių sumas ir gautą sandaugą padalijus iš bendras skaičius pastebėjimai. Bendras vaizdas Numatomų verčių lentelė pateikiama žemiau:

Yra rezultatas (1) Nėra rezultato (0) Iš viso
Yra rizikos veiksnys (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Nėra rizikos faktoriaus (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Iš viso A+C B+D A+B+C+D

2. χ 2 kriterijaus reikšmės radimas Autorius tokią formulę:

Kur i– eilutės numeris (nuo 1 iki r), j– stulpelio numeris (nuo 1 iki c), O ij– faktinis stebėjimų skaičius langelyje ij, E ij– numatomas stebėjimų skaičius langelyje ij.

Tuo atveju, jei tikėtino reiškinio skaičius yra mažesnis nei 10 bent vienoje langelyje, analizuojant keturių laukų lenteles, jis turėtų būti skaičiuojamas chi kvadrato testas su Yates korekcija. Šis pakeitimas sumažina 1 tipo klaidos tikimybę, t. y. aptikti skirtumus ten, kur jų nėra. Yates pataisa yra atimti 0,5 iš absoliuti vertė skirtumas tarp faktinio ir tikėtino stebėjimų skaičiaus kiekvienoje ląstelėje, dėl ko mažėja chi kvadrato testo reikšmė.

χ 2 kriterijaus apskaičiavimo formulė su Yates korekcija yra tokia:

3. Laisvės laipsnių skaičiaus nustatymas pagal formulę: f = (r – 1) × (c – 1). Atitinkamai, keturių laukų lentelės su 2 eilutėmis (r = 2) ir 2 stulpeliais (c = 2) laisvės laipsnių skaičius yra f 2x2 = (2 - 1)*(2 - 1) = 1.

4. χ 2 kriterijaus reikšmę lyginame su kritine reikšme esant laisvės laipsnių skaičiui f (pagal lentelę).

Šis algoritmas tinka tiek keturių laukų, tiek kelių laukų lentelėms.

Kaip interpretuoti Pirsono chi kvadrato testo vertę?

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Apibrėžkime statistinis reikšmingumas rūkymo faktoriaus įtaka sergamumui arterine hipertenzija pagal aukščiau aptartą lentelę:

1. Apskaičiuokite numatomas kiekvieno langelio vertes:

2. Raskite Pirsono chi kvadrato testo vertę:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Raskite iš lentelės kritinė vertė Pirsono chi kvadrato testas, kuris esant p=0,05 reikšmingumo lygiui ir 1 laisvės laipsnių skaičiui yra 3,841.

4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.

Laisvės laipsnių skaičius, f χ 2 esant p=0,05 χ 2 esant p=0,01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Biologinių tyrimų praktikoje dažnai tenka patikrinti vieną ar kitą hipotezę, tai yra išsiaiškinti, kiek eksperimentuotojo gauta faktinė medžiaga patvirtina teorinę prielaidą, o kiek analizuojami duomenys sutampa su teoriškai numatomais. vienus. Iškyla užduotis statistiškai įvertinti skirtumą tarp faktinių duomenų ir teorinio lūkesčio, nustatyti, kokiais atvejais ir su kokiu tikimybės laipsniu šis skirtumas gali būti laikomas patikimu ir, atvirkščiai, kada jį laikyti nereikšmingu, nereikšmingu, atsitiktinumo ribose. Pastaruoju atveju išlaikoma hipotezė, kuria remiantis apskaičiuojami teoriškai tikėtini duomenys ar rodikliai. Tokia variacinė-statistinė hipotezės tikrinimo metodika yra metodas chi kvadratas (χ 2). Šis matas dažnai vadinamas „tinkamumo kriterijumi“ arba „Pearson tinkamumo testu“. Su jo pagalba galima su skirtinga tikimybe spręsti apie empiriškai gautų duomenų atitikimo laipsnį teoriškai laukiamiems.

Formaliu požiūriu lyginamos dvi variacijų eilutės, dvi populiacijos: viena yra empirinis skirstinys, kita – imtis su tais pačiais parametrais ( n, M, S ir tt) yra toks pat kaip ir empirinis, tačiau jo dažninis skirstinys sudarytas griežtai laikantis pasirinkto teorinio dėsnio (normalusis, Puasono, binominis ir kt.), kuriam, kaip manoma, turi paklusti tiriamojo atsitiktinio dydžio elgsena. .

Apskritai atitikties kriterijaus formulę galima parašyti taip:

Kur a – faktinis stebėjimų dažnis,

A – teoriškai numatomas tam tikros klasės dažnis.

Nulinėje hipotezėje daroma prielaida, kad tarp lyginamų skirstinių nėra reikšmingų skirtumų. Norėdami įvertinti šių skirtumų svarbą, turėtumėte vadovautis specialia kritinių chi kvadrato verčių lentele (9 lentelė). P) ir lyginant apskaičiuotą vertę χ 2 su lentele nuspręskite, ar empirinis skirstinys patikimai ar nepatikimai nukrypsta nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus paneigta arba palikta galioti. Jei apskaičiuota vertė χ 2 yra lygus arba viršija lentelę χ ² ( α , df), nuspręskite, kad empirinis skirstinys labai skiriasi nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus paneigta. Jeigu χ ² < χ ² ( α , df), nulinė hipotezė lieka galioti. Visuotinai pripažįstama, kad reikšmingumo lygis yra priimtinas α = 0,05, nes šiuo atveju yra tik 5% tikimybė, kad nulinė hipotezė yra teisinga, todėl yra pakankamai priežasčių (95%) ją atmesti.


Tam tikra problema yra teisingas laisvės laipsnių skaičiaus nustatymas ( df), kurių kriterijų reikšmės paimtos iš lentelės. Nustatyti laisvės laipsnių skaičių iš bendro klasių skaičiaus k reikia atimti apribojimų skaičių (t. y. parametrų, naudojamų teoriniams dažniams apskaičiuoti, skaičių).

Priklausomai nuo tiriamos charakteristikos pasiskirstymo tipo, pasikeis laisvės laipsnių skaičiaus apskaičiavimo formulė. Už alternatyva paskirstymai ( k= 2) skaičiavimuose dalyvauja tik vienas parametras (imties dydis), todėl laisvės laipsnių skaičius yra df= k−1=2−1=1. Už daugianario Paskirstymo formulė yra panaši: df= k−1. Patikrinti variacijų serijų atitiktį paskirstymui Poisson jau naudojami du parametrai – imties dydis ir vidutinė vertė (skaitmeniškai sutampanti su dispersija); laisvės laipsnių skaičius df= k−2. Tikrinant empirinio skirstinio nuoseklumą, parinktis normalus arba dvinario Pagal įstatymą laisvės laipsnių skaičius laikomas faktinių klasių skaičiumi, atėmus tris serijų sudarymo sąlygas – imties dydį, vidurkį ir dispersiją, df= k−3. Iš karto verta paminėti, kad χ² kriterijus veikia tik pavyzdžiams ne mažiau kaip 25 variantų apimtis, o atskirų klasių dažniai turėtų būti ne mažesnis kaip 4.

Pirma, mes iliustruojame chi kvadrato testo naudojimą naudodami analizės pavyzdį alternatyvus kintamumas. Vieno eksperimento, tiriančio pomidorų paveldimumą, metu buvo rasti 3629 raudoni ir 1176 geltoni vaisiai. Teorinis simbolių padalijimo dažnių santykis antroje hibridinėje kartoje turėtų būti 3:1 (nuo 75% iki 25%). Ar jis įgyvendinamas? Kitaip tariant, ar šis mėginys paimtas iš populiacijos, kurioje dažnio santykis yra 3:1 arba 0,75:0,25?

Sukurkime lentelę (4 lentelė), užpildydami empirinių dažnių reikšmes ir teorinių dažnių skaičiavimo rezultatus pagal formulę:

A = n∙p,

Kur p– teoriniai dažniai (šio tipo varianto trupmenos),

n – imties dydis.

Pavyzdžiui, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Rusijos Federacijos švietimo ir mokslo ministerija

Irkutsko miesto federalinė švietimo agentūra

Baikalo valstybinis ekonomikos ir teisės universitetas

Informatikos ir kibernetikos katedra

Chi kvadrato skirstinys ir jo taikymas

Kolmykova Anna Andreevna

2 kurso studentas

grupė IS-09-1

Norėdami apdoroti gautus duomenis, naudojame chi kvadrato testą.

Tam sudarysime empirinių dažnių pasiskirstymo lentelę, t.y. dažniai, kuriuos stebime:

Teoriškai tikimės, kad dažniai pasiskirstys vienodai, t.y. dažnis bus proporcingai paskirstytas tarp berniukų ir mergaičių. Sudarykime teorinių dažnių lentelę. Norėdami tai padaryti, padauginkite eilutės sumą iš stulpelio sumos ir gautą skaičių padalinkite iš visos sumos (-ų).


Galutinė skaičiavimų lentelė atrodys taip:

χ2 = ∑(E - T)² / T

n = (R - 1), kur R yra lentelės eilučių skaičius.

Mūsų atveju chi kvadratas = 4,21; n = 2.

Naudodamiesi kriterijaus kritinių verčių lentele, randame: kai n = 2 ir klaidos lygis 0,05, kritinė vertė yra χ2 = 5,99.

Gauta vertė yra mažesnė už kritinę vertę, o tai reiškia, kad nulinė hipotezė yra priimta.

Išvada: mokytojai, rašydami jam charakteristikas, neteikia reikšmės vaiko lyčiai.

Taikymas

Kritiniai χ2 skirstinio taškai

1 lentelė

Išvada

Beveik visų specialybių studentai aukštojo matematikos kurso pabaigoje studijuoja skyrių „Tikimybių teorija ir matematinė statistika“, tik susipažįsta su kai kuriomis pagrindinėmis sąvokomis ir rezultatais, kurių praktiniam darbui akivaizdžiai neužtenka. Su kai kuriais matematiniais tyrimo metodais studentai supažindinami specialiuose kursuose (pvz., „Prognozavimas ir techninis bei ekonominis planavimas“, „Techninė ir ekonominė analizė“, „Gaminių kokybės kontrolė“, „Rinkodara“, „Kontrolė“, „Matematiniai prognozavimo metodai). ) “, „Statistika“ ir kt. – ekonominių specialybių studentų atveju), tačiau daugeliu atvejų pateikimas yra labai sutrumpintas ir formulinio pobūdžio. Dėl to taikomosios statistikos specialistų žinios yra nepakankamos.

Todėl technikos universitetuose didelę reikšmę turi „Taikomosios statistikos“ kursas, o ekonomikos universitetuose – „Ekonometrijos“, nes ekonometrija, kaip žinia, yra konkrečių ekonominių duomenų statistinė analizė.

Tikimybių teorija ir matematinė statistika suteikia pagrindinių žinių taikomajai statistikai ir ekonometrijai.

Jos reikalingos specialistams praktiniam darbui.

Pažvelgiau į ištisinį tikimybinį modelį ir bandžiau parodyti jo naudojimą pavyzdžiais.

Naudotos literatūros sąrašas

1. Orlovas A.I. Taikomoji statistika. M.: Leidykla „Egzaminas“, 2004 m.

2. Gmurmanas V.E. Tikimybių teorija ir matematinė statistika. M.: Aukštoji mokykla, 1999. – 479 p.

3. Ayvozyan S.A. Tikimybių teorija ir taikomoji statistika, 1 t. M.: Vienybė, 2001. – 656 p.

4. Khamitovas G.P., Vedernikova T.I. Tikimybės ir statistika. Irkutskas: BGUEP, 2006 – 272 p.

5. Ezhova L.N. Ekonometrija. Irkutskas: BGUEP, 2002. – 314 p.

6. Mostelleris F. Penkiasdešimt linksmų tikimybinių problemų su sprendimais. M.: Nauka, 1975. – 111 p.

7. Mostelleris F. Tikimybė. M.: Mir, 1969. – 428 p.

8. Yaglom A.M. Tikimybė ir informacija. M.: Nauka, 1973. – 511 p.

9. Čistjakovas V.P. Tikimybių teorijos kursas. M.: Nauka, 1982. – 256 p.

10. Kremer N.Sh. Tikimybių teorija ir matematinė statistika. M.: VIENYBĖ, 2000. – 543 p.

11. Matematinė enciklopedija, t.1. M.: Tarybinė enciklopedija, 1976. – 655 p.

12. http://psystat.at.ua/ – Psichologijos ir pedagogikos statistika. Straipsnis Chi kvadrato testas.

Kriterijaus aprašymas

Kriterijaus tikslas

Pirsono chi kvadrato testas

Paskaitų medžiaga

6 tema. Požymio pasiskirstymo skirtumų nustatymas

Pearsono kriterijus: kriterijaus tikslas, jo aprašymas, taikymo sritis, skaičiavimo algoritmas.

Kolmogorovo–Smirnovo kriterijus kiekybinių matavimų rezultatams lyginti: kriterijaus paskirtis, aprašymas, taikymo sritis, skaičiavimo algoritmas.

Nagrinėjant šią temą, būtina atsižvelgti į tai, kad abu kriterijai yra neparametriniai, jie veikia su dažniais. Ypatingą dėmesį atkreipkite į svarstomų kriterijų sprendimo taisykles: šios taisyklės gali būti priešingos. Atidžiai peržiūrėkite kriterijų taikymo apribojimus.

Išstudijavę paskaitos medžiagą, atsakykite į testo klausimus ir surašykite atsakymus į pastabas.

Pearsono chi kvadrato testas gali išspręsti keletą problemų, įskaitant paskirstymų palyginimą.

χ 2 testas naudojamas dviem tikslais;

1) palyginimui empirinis charakteristikos pasiskirstymas su teorinis - vienodas, įprastas ar kitoks;

2) palyginimui du, trys ar daugiau empirinių tos pačios charakteristikos skirstiniai, ty patikrinti jų vienalytiškumą;

3) įvertinti stochastinę (tikimybinę) nepriklausomybę atsitiktinių įvykių sistemoje ir kt.

χ 2 kriterijus atsako į klausimą, ar skirtingos charakteristikos reikšmės atsiranda vienodai dažnai empiriniuose ir teoriniuose skirstiniuose, ar dviejuose ar daugiau empirinių skirstinių.

Metodo privalumas yra tas, kad jis leidžia palyginti bet kokio masto požymių pasiskirstymą, pradedant nuo pavadinimų skalės. Paprasčiausiu alternatyvaus paskirstymo atveju („taip - ne“, „leido defektą - neleido defektuoti“, „išsprendė problemą - neišsprendė problemos“ ir pan.) jau galime taikyti χ 2 kriterijų. .

1. Imties dydis turi būti pakankamai didelis: N>30. Kai N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Teorinis kiekvienos lentelės langelio dažnis turi būti ne mažesnis kaip 5: f ≥ 5 . Tai reiškia, kad jei skaitmenų skaičius yra iš anksto nustatytas ir jo negalima pakeisti, mes negalime taikyti χ 2 metodo , nesukaupus tam tikro minimalaus stebėjimų skaičiaus. Jei, pavyzdžiui, norime patikrinti savo prielaidas, kad skambučių į Trust telefono paslaugą dažnis pasiskirsto netolygiai per 7 savaitės dienas, tuomet mums reikės 5-7 = 35 skambučių. Taigi, jei skaitmenų skaičius (k) pateiktas iš anksto, kaip ir šiuo atveju, minimalus stebėjimų skaičius (N min) nustatomas pagal formulę: .



3. Pasirinktos kategorijos turi „išsemti“ visą pasiskirstymą, tai yra aprėpti visą charakteristikų kintamumo diapazoną. Šiuo atveju grupavimas į kategorijas turi būti vienodas visuose palyginamuose skirstiniuose.

4. Lyginant ypatybių, kurios turi tik 2 reikšmes, skirstinius, būtina atlikti „nepertraukiamumo korekciją“. Atliekant pataisą, χ 2 reikšmė mažėja (žr. pavyzdį su tęstinumo korekcija).

5. Kategorijos turi būti nepersidengusios: jei stebėjimas priskiriamas vienai kategorijai, tai jis nebegali būti priskirtas jokiai kitai kategorijai. Stebėjimų suma pagal rangą visada turi būti lygi bendram stebėjimų skaičiui.

χ 2 kriterijaus apskaičiavimo algoritmas

1. Sukurkite tokio tipo požymių reikšmių abipusio konjugavimo lentelę (iš esmės tai yra dvimatė variacijų serija, kurioje nurodomi jungtinių požymių reikšmių atsiradimo dažniai) – 19 lentelė. sąlyginius dažnius, kuriuos bendrais bruožais žymėsime kaip f ij. Pavyzdžiui, charakteristikos gradacijų skaičius X lygus 3 (k=3), charakteristikos gradacijų skaičiui adresu lygus 4 (m=4); Tada i svyruoja nuo 1 iki k ir j svyruoja nuo 1 iki m.

19 lentelė

x i y j x 1 x 2 x 3
1 val f 11 f 21 f 31 f –1
2 val f 12 f 22 f 32 f –2
3 val f 13 f 23 f 33 f –3
4 val f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Toliau, skaičiavimų patogumui, originalią abipusio atsitiktinumo lentelę paverčiame tokios formos lentele (20 lentelė), stulpelius su sąlyginiais dažniais išdėstydami vieną po kito: Įveskite į lentelę kategorijų pavadinimus (1 ir 2 stulpeliai) ir atitinkamus empirinius dažnius (3 stulpelis).

20 lentelė

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 1 val f 11 f 11*
x 1 2 val f 12 f 12*
x 1 3 val f 13 f 13*
x 1 4 val f 14 f 14*
x 2 1 val f 21 f 21*
x 2 2 val f 22 f 22*
x 2 3 val f 23 f 23 *
x 2 4 val f 24 f 24 *
x 3 1 val f 31 f 31*
x 3 2 val f 32 f 32*
x 3 3 val f 33 f 33*
x 3 4 val f 34 f 34*
∑=………….

3. Šalia kiekvieno empirinio dažnio užrašykite teorinį dažnį (4 stulpelis), kuris apskaičiuojamas pagal šią formulę (bendrieji dažniai atitinkamoje eilutėje dauginami iš bendro dažnio atitinkamame stulpelyje ir padalyti iš viso pastebėjimai):

5. Nustatykite laisvės laipsnių skaičių pagal formulę: ν=(k-1)(m-1) , Kur k- atributo skaitmenų skaičius X, m - ženklo skaitmenų skaičius adresu.

Jei ν=1, pataisykite „tęstinumą“ ir parašykite jį 5a stulpelyje.

Tęstinumo korekcija susideda iš dar 0,5 atėmimo iš skirtumo tarp sąlyginio ir teorinio dažnio. Tada mūsų lentelės stulpelių antraštės atrodys taip (21 lentelė):

21 lentelė

X adresu f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Palyginkite gautus skirtumus kvadratu ir įveskite juos 6 stulpelyje.

7. Gautus skirtumus kvadratu padalykite iš teorinio dažnio ir rezultatus surašykite 7 stulpelyje.

8. Sumuokite 7 stulpelio reikšmes. Gauta suma žymima χ 2 em.

9. Sprendimo taisyklė:

Apskaičiuota kriterijaus reikšmė turi būti lyginama su kritine (arba lentelėje pateikta) verte. Kritinė vertė priklauso nuo laisvės laipsnių skaičiaus pagal Pearson χ 2 kriterijaus kritinių verčių lentelę (žr. 1.6 priedą).

Jei χ 2 apskaičiuota ≥ χ 2 lentelė, tai skirtumai tarp skirstinių yra statistiškai reikšmingi arba charakteristikos kinta nuosekliai, arba ryšys tarp charakteristikų yra statistiškai reikšmingas.

Jei χ 2 apskaičiuojamas< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

Chi kvadrato testas yra universalus metodas, leidžiantis patikrinti eksperimento rezultatų ir naudojamo statistinio modelio sutapimą.

Pearsono atstumas X 2

Pyatnitsky A.M.

Rusijos valstybinis medicinos universitetas

1900 m. Karlas Pearsonas pasiūlė paprastą, universalų ir veiksmingą būdą patikrinti modelio prognozių ir eksperimentinių duomenų suderinamumą. Jo pasiūlytas „chi kvadrato testas“ yra svarbiausias ir dažniausiai naudojamas statistinis testas. Jos pagalba galima išspręsti daugumą problemų, susijusių su nežinomų modelio parametrų įvertinimu ir modelio bei eksperimentinių duomenų sutapimo patikrinimu.

Tebūnie apriorinis („ikieksperimentinis“) tiriamo objekto ar proceso modelis (statistikoje kalbama apie „nuline hipotezę“ H 0), ir eksperimento su šiuo objektu rezultatai. Reikia nuspręsti, ar modelis yra adekvatus (ar atitinka tikrovę)? Ar eksperimentiniai rezultatai prieštarauja mūsų idėjoms apie tai, kaip veikia tikrovė, ar, kitaip tariant, H0 reikia atmesti? Dažnai šią užduotį galima susiaurinti iki stebimų (O i = Stebėtas) ir numatomų pagal modelį (E i = Tikėtinas) tam tikrų įvykių vidutinių dažnių palyginimo. Manoma, kad stebimi dažniai buvo gauti per N nepriklausomų (!) stebėjimų seriją, atliktą pastoviomis (!) sąlygomis. Po kiekvieno stebėjimo užregistruojamas vienas iš M įvykių. Šie įvykiai negali vykti vienu metu (jie nesuderinami poromis) ir būtinai įvyksta vienas iš jų (jų derinys sudaro patikimą įvykį). Visų stebėjimų visuma sumažinama iki dažnių lentelės (vektoriaus) (O i )=(O 1 ,… O M ), kuri visiškai apibūdina eksperimento rezultatus. Reikšmė O 2 =4 reiškia, kad įvykis numeris 2 įvyko 4 kartus. Dažnių suma O 1 +… O M =N. Svarbu atskirti du atvejus: N – fiksuotas, neatsitiktinis, N – atsitiktinis kintamasis. Fiksuoto bendro eksperimentų skaičiaus N dažniai turi polinominį pasiskirstymą. Iliustruojame šią bendrą schemą paprastu pavyzdžiu.

Chi kvadrato testo naudojimas paprastoms hipotezėms patikrinti.

Tegul modelis (nulinė hipotezė H 0) yra toks, kad kauliukas yra teisingas – visi veidai pasirodo vienodai dažnai su tikimybe p i =1/6, i =, M=6. Buvo atliktas eksperimentas, kurio metu kauliukas buvo išmestas 60 kartų (atlikta N = 60 nepriklausomų bandymų). Pagal modelį tikimės, kad visi stebimi O i pasireiškimo 1,2,...6 taškai dažniai turėtų būti artimi jų vidutinėms reikšmėms E i =Np i =60∙(1/6)=10. Pagal H 0 vidutinių dažnių vektorius (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hipotezės, kuriose vidutiniai dažniai yra visiškai žinomi prieš pradedant eksperimentą, vadinamos paprastomis.) Jei stebimas vektorius (O i ) būtų lygus (34,0,0,0,0,26), tai iš karto aišku, kad modelis neteisingas – kaulas negali būti teisingas, nes tik 1 ir 6 buvo išmesti 60 kartų. Tikimybė, kad įvyks teisingas kauliukas, yra nereikšminga: P = (2/6) 60 =2,4*10 -29. Tačiau tokių akivaizdžių modelio ir patirties neatitikimų atsiradimas yra išimtis. Tegu stebimų dažnių vektorius (O i ) lygus (5, 15, 6, 14, 4, 16). Ar tai atitinka H0? Taigi, turime palyginti du dažnio vektorius (E i) ir (O ​​i). Šiuo atveju laukiamų dažnių (Ei) vektorius nėra atsitiktinis, o stebimų dažnių (Oi) vektorius yra atsitiktinis – kito eksperimento metu (naujoje 60 metimų serijoje) jis pasirodys kitoks. Naudinga pateikti geometrinę problemos interpretaciją ir daryti prielaidą, kad dažnių erdvėje (šiuo atveju 6 dimensijoje) yra pateikti du taškai su koordinatėmis (5, 15, 6, 14, 4, 16) ir (10, 10, 10, 10, 10, 10). Ar jie yra pakankamai toli vienas nuo kito, kad tai būtų nesuderinama su H 0? Kitaip tariant, mums reikia:

  1. išmokti matuoti atstumus tarp dažnių (taškų dažnių erdvėje),
  2. turi kriterijų, koks atstumas turėtų būti laikomas pernelyg („neįtikėtinai“) dideliu, tai yra, nesuderinamu su H 0 .

Įprasto Euklido atstumo kvadratas būtų lygus:

X 2 Euklidas = S(O i -E i) 2 = (5-10) 2 + (15-10) 2 + (6-10) 2 + (14-10) 2 + (4-10) 2 + (16-10) 2

Šiuo atveju paviršiai X 2 Euclid = const visada yra sferos, jei fiksuojame E i reikšmes ir keičiame O i . Karlas Pearsonas pažymėjo, kad Euklido atstumas dažnių erdvėje neturėtų būti naudojamas. Taigi neteisinga manyti, kad taškai (O = 1030 ir E = 1000) ir (O ​​= 40 ir E = 10) yra vienodu atstumu vienas nuo kito, nors abiem atvejais skirtumas yra O -E = 30. Juk kuo didesnis numatomas dažnis, tuo didesni nukrypimai nuo jo turėtų būti laikomi galimais. Todėl taškai (O =1030 ir E =1000) turi būti laikomi „arti“, o taškai (O =40 ir E =10) „toli“ vienas nuo kito. Galima parodyti, kad jei hipotezė H 0 yra teisinga, tai dažnio svyravimai O i E i atžvilgiu yra E i kvadratinės šaknies(!) dydžio. Todėl Pearsonas pasiūlė, skaičiuojant atstumą, kvadratuoti ne skirtumus (O i -E i), o normalizuotus skirtumus (O i -E i)/E i 1/2. Taigi čia yra Pirsono atstumo apskaičiavimo formulė (iš tikrųjų tai atstumo kvadratas):

X 2 Pearsonas = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Mūsų pavyzdyje:

X 2 Pearsonas = (5-10) 2 /10+(15-10) 2/10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Įprasto kabliuko atveju visi numatomi dažniai E i yra vienodi, bet dažniausiai jie yra skirtingi, todėl paviršiai, ant kurių Pirsono atstumas yra pastovus (X 2 Pearsonas =const), pasirodo esąs elipsoidai, o ne sferos.

Dabar, kai pasirinkta atstumų skaičiavimo formulė, reikia išsiaiškinti, kurie atstumai turėtų būti laikomi „ne per dideliais“ (atitinka H 0 Taigi, pavyzdžiui, ką galime pasakyti apie mūsų apskaičiuotą atstumą 15.4). ? Kiek procentų atvejų (arba su kokia tikimybe) gautume didesnį nei 15,4 atstumą, atlikdami eksperimentus su įprastu matrica? Jei šis procentas mažas (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Paaiškinimas. Matavimų skaičius O i, patenkantis į lentelės langelį su skaičiumi i, turi dvinarį skirstinį su parametrais: m =Np i =E i,σ =(Np i (1-p i)) 1/2, kur N yra skaičius matavimų (N " 1), p i yra tikimybė, kad vienas matavimas pateks į tam tikrą langelį (priminkite, kad matavimai yra nepriklausomi ir atliekami pastoviomis sąlygomis). Jei p i mažas, tai: σ≈(Np i ) 1/2 =E i ir dvinario skirstinys artimas Puasono, kuriame vidutinis stebėjimų skaičius E i =λ, o standartinis nuokrypis σ=λ 1/2 = E i 1/2. Jei λ≥5, Puasono skirstinys yra artimas normaliajam N (m =E i =λ, σ=E i 1/2 =λ 1/2), o normalizuotai reikšmei (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearsonas apibrėžė atsitiktinį dydį χ 2 n - „chi kvadratą su n laisvės laipsnių“ kaip n nepriklausomų standartinių normaliųjų atsitiktinių dydžių kvadratų sumą:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , kur visi T i = N(0,1) – n. O. r. Su. V.

Pabandykime aiškiai suprasti šio svarbiausio statistikos atsitiktinio dydžio reikšmę. Norėdami tai padaryti, plokštumoje (kai n = 2) arba erdvėje (kai n = 3) pateikiame debesį taškų, kurių koordinatės yra nepriklausomos ir turi standartinį normalųjį skirstinįf T (x) ~exp (-x 2 /2 ). Plokštumoje pagal „dviejų sigmų“ taisyklę, kuri nepriklausomai taikoma abiem koordinatėms, 90 % (0,95*0,95≈0,90) taškų yra kvadrate (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Esant pakankamai dideliam laisvės laipsnių n skaičiui (n > 30), chi kvadrato skirstinys artėja prie normalaus: N (m = n; σ = (2n) ½). Tai yra „centrinės ribos teoremos“ pasekmė: identiškai paskirstytų dydžių su baigtine dispersija suma artėja prie normalaus dėsnio, kai narių skaičius didėja.

Praktiškai reikia atsiminti, kad vidutinis atstumo kvadratas yra lygus m (χ 2 n) = n, o jo dispersija yra σ 2 (χ 2 n) = 2n. Iš čia nesunku nuspręsti, kurios chi kvadrato reikšmės turėtų būti laikomos per mažomis ir per didelėmis: didžioji skirstinio dalis yra diapazone nuo n -2∙(2n) ½ iki n +2∙(2n) ½.

Taigi, Pirsono atstumai, gerokai viršijantys n +2∙ (2n) ½, turėtų būti laikomi neįtikėtinai dideliais (nesuderinami su H 0). Jei rezultatas yra artimas n +2∙(2n) ½, tuomet turėtumėte naudoti lenteles, kuriose galite tiksliai sužinoti, kokiais atvejais gali atsirasti tokios ir didelės chi kvadrato reikšmės.

Svarbu žinoti, kaip pasirinkti tinkamą laisvės laipsnių skaičiaus reikšmę (sutrumpintai n.d.f.). Atrodė natūralu manyti, kad n tiesiog lygus skaitmenų skaičiui: n =M. Savo straipsnyje Pearsonas pasiūlė tiek daug. Kauliuko pavyzdyje tai reikštų, kad n = 6. Tačiau po kelerių metų buvo įrodyta, kad Pearsonas klydo. Laisvės laipsnių skaičius visada yra mažesnis už skaitmenų skaičių, jei yra jungčių tarp atsitiktinių dydžių O i. Kauliuko pavyzdyje suma O i yra 60 ir atskirai galima keisti tik 5 dažnius, todėl teisinga reikšmė yra n = 6-1 = 5. Šiai n reikšmei gauname n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Kadangi 15.4>11.3, tai hipotezė H 0 – kauliukas teisingas, atmesti.

Išsiaiškinus klaidą, reikėjo papildyti esamas χ 2 lenteles, nes iš pradžių jose nebuvo atvejo n = 1, nes mažiausias skaitmenų skaičius = 2. Dabar paaiškėja, kad gali būti atvejų, kai Pirsono atstumas turi skirstinį χ 2 n =1.

Pavyzdys. Išmetus 100 monetų, galvų skaičius yra O 1 = 65, o uodegų skaičius O 2 = 35. Skaičių skaičius yra M = 2. Jeigu moneta simetriška, tai laukiami dažniai E 1 =50, E 2 =50.

X 2 Pearsonas = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2 * 225/50 = 9.

Gautą reikšmę reikia palyginti su tomis, kurias gali gauti atsitiktinis dydis χ 2 n =1, apibrėžiamas kaip standartinės normaliosios vertės χ 2 n =1 =T 1 2 ≥ 9 kvadratas. ó T 1 ≥3 arba T 1 ≤-3. Tokio įvykio tikimybė labai maža P (χ 2 n =1 ≥9) = 0,006. Todėl moneta negali būti laikoma simetriška: H 0 reikia atmesti. Tai, kad laisvės laipsnių skaičius negali būti lygus skaitmenų skaičiui, matyti iš to, kad stebimų dažnių suma visada lygi laukiamų, pavyzdžiui, O 1 +O 2 =65+ 35 = E 1 + E 2 = 50 + 50 = 100. Todėl atsitiktiniai taškai su koordinatėmis O 1 ir O 2 yra tiesioje linijoje: O 1 +O 2 =E 1 +E 2 =100 ir atstumas iki centro pasirodo mažesnis nei tuo atveju, jei šio apribojimo nebūtų ir jie buvo išdėstyti visame lėktuve. Iš tiesų, dviejų nepriklausomų atsitiktinių dydžių, kurių matematiniai lūkesčiai E 1 = 50, E 2 = 50, jų realizacijų suma ne visada turėtų būti lygi 100 - pavyzdžiui, reikšmės O 1 = 60, O 2 = 55 būti priimtina.

Paaiškinimas. Palyginkime Pirsono kriterijaus rezultatą esant M = 2 su tuo, ką duoda Moivre-Laplace formulė, įvertinant atsitiktinius įvykio ν =K /N, turinčio tikimybę p, pasireiškimo dažnio svyravimus N nepriklausomų Bernoulli testų serijoje ( K yra sėkmės skaičius):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 / (Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Reikšmė T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1), kai σ(K)=(Npq) ½ ≥3. Matome, kad šiuo atveju Pearsono rezultatas tiksliai sutampa su tuo, ką normalioji aproksimacija suteikia dvinariniam skirstiniui.

Iki šiol svarstėme paprastas hipotezes, kurių numatomi vidutiniai dažniai E i yra visiškai žinomi iš anksto. Informacijos apie tai, kaip pasirinkti teisingą laisvės laipsnių skaičių sudėtingoms hipotezėms, rasite toliau.

Chi kvadrato testo naudojimas sudėtingoms hipotezėms patikrinti

Pavyzdžiuose su įprastu kauliuku ir moneta numatomi dažniai gali būti nustatyti prieš (!) eksperimentą. Tokios hipotezės vadinamos „paprastomis“. Praktikoje „sudėtingos hipotezės“ yra labiau paplitusios. Be to, norint rasti numatomus dažnius E i, pirmiausia reikia įvertinti vieną ar kelis dydžius (modelio parametrus), o tai galima padaryti tik naudojant eksperimentinius duomenis. Dėl to „sudėtingoms hipotezėms“ numatomi dažniai E i priklauso nuo stebimų dažnių O i ir todėl patys tampa atsitiktiniais dydžiais, kintančiais priklausomai nuo eksperimento rezultatų. Parametrų pasirinkimo procese Pirsono atstumas mažėja – parametrai parenkami taip, kad būtų pagerintas modelio ir eksperimento sutapimas. Todėl laisvės laipsnių skaičius turėtų mažėti.

Kaip įvertinti modelio parametrus? Yra daug skirtingų įvertinimo metodų – „didžiausios tikimybės metodas“, „momentų metodas“, „pakeitimo metodas“. Tačiau jūs negalite naudoti jokių papildomų lėšų ir rasti parametrų įvertinimus sumažinę Pearsono atstumą. Ikikompiuterinėje eroje šis metodas buvo retai naudojamas: jis yra nepatogus atliekant rankinius skaičiavimus ir, kaip taisyklė, negali būti išspręstas analitiškai. Skaičiuojant kompiuteriu, skaitmeninį sumažinimą paprastai lengva atlikti, o šio metodo pranašumas yra jo universalumas. Taigi, pagal „chi kvadrato sumažinimo metodą“ pasirenkame nežinomų parametrų reikšmes taip, kad Pirsono atstumas būtų mažiausias. (Beje, tiriant šio atstumo pokyčius esant nedideliems poslinkiams, palyginti su rastu minimumu, galima įvertinti įverčio tikslumo matą: sudaryti pasikliautinuosius intervalus.) Suradus parametrus ir patį šį minimalų atstumą, yra vėl reikia atsakyti į klausimą, ar jis pakankamai mažas.

Bendra veiksmų seka yra tokia:

  1. Modelio parinkimas (H 0 hipotezė).
  2. Bitų parinkimas ir stebimų dažnių vektoriaus O i nustatymas.
  3. Nežinomų modelio parametrų įvertinimas ir jų pasikliautinųjų intervalų konstravimas (pavyzdžiui, ieškant minimalaus Pirsono atstumo).
  4. Tikėtinų dažnių E i skaičiavimas.
  5. Rastos Pirsono atstumo X 2 vertės palyginimas su chi kvadrato χ 2 kritine verte - didžiausia, kuri vis dar laikoma tikėtina, suderinama su H 0. Išspręsdami lygtį iš lentelių randame reikšmę χ 2 crit

P (χ 2 n > χ 2 krit) = 1-α,

kur α yra „reikšmingumo lygis“ arba „kriterijaus dydis“ arba „pirmojo tipo klaidos dydis“ (tipinė vertė α = 0,05).

Paprastai laisvės laipsnių skaičius n apskaičiuojamas pagal formulę

n = (skaitmenų skaičius) – 1 – (įskaičiuotinų parametrų skaičius)

Jei X 2 > χ 2 krit, tai hipotezė H 0 atmetama, kitu atveju ji priimama. α∙100% atvejų (ty gana retai) šis H 0 tikrinimo būdas sukels „pirmojo pobūdžio klaidą“: hipotezė H 0 bus atmesta klaidingai.

Pavyzdys. Ištyrus 10 serijų iš 100 sėklų, buvo suskaičiuotas užsikrėtusiųjų žaliaakėmis musėmis. Gauti duomenys: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Čia laukiamų dažnių vektorius iš anksto nežinomas. Jei duomenys yra vienalyčiai ir gauti dvinario skirstinio, tai vienas parametras nežinomas: užkrėstų sėklų dalis p. Atkreipkite dėmesį, kad originalioje lentelėje iš tikrųjų yra ne 10, o 20 dažnių, kurie tenkina 10 jungčių: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Sujungę terminus poromis (kaip pavyzdyje su moneta), gauname Pirsono kriterijaus rašymo formą, kuri paprastai rašoma iš karto:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Dabar, jei kaip p įvertinimo metodas naudojamas minimalus Pirsono atstumas, reikia rasti p, kuriam X 2 =min. (Jei įmanoma, modelis bando „prisiderinti“ prie eksperimentinių duomenų.)

Pearsono kriterijus yra universaliausias iš visų statistikoje naudojamų. Jis gali būti taikomas vienmačiams ir daugiamatiams duomenims, kiekybinėms ir kokybinėms savybėms. Tačiau būtent dėl ​​jo universalumo reikėtų būti atsargiems ir nepadaryti klaidų.

Svarbūs punktai

1.Kategorijų pasirinkimas.

  • Jei paskirstymas yra diskretiškas, skaitmenų pasirinkimas paprastai nėra savavališkas.
  • Jei paskirstymas yra nuolatinis, savivalė yra neišvengiama. Galima naudoti statistiškai lygiaverčius blokus (visi O yra vienodi, pvz. =10). Tačiau intervalų ilgiai skiriasi. Atlikdami rankinius skaičiavimus, jie stengėsi, kad intervalai būtų vienodi. Ar intervalai tiriant vienanario požymio pasiskirstymą turi būti lygūs? Nr.
  • Skaičiai turi būti sujungti taip, kad numatomi (nepastebimi!) dažniai nebūtų per maži (≥5). Prisiminkime, kad būtent jie (E i) yra vardikliuose skaičiuojant X 2! Analizuojant vienmates charakteristikas, šią taisyklę leidžiama pažeisti dviem kraštutiniais skaitmenimis E 1 =E max =1. Jei skaitmenų skaičius yra didelis, o numatomi dažniai artimi, tai X 2 yra geras χ 2 aproksimacija net ir esant E i =2.

Parametrų įvertinimas. Naudojant „naminius“, neveiksmingus įvertinimo metodus, gali padidėti Pirsono atstumo vertės.

Tinkamo laisvės laipsnių skaičiaus pasirinkimas. Jei parametrų įverčiai daromi ne iš dažnių, o tiesiogiai iš duomenų (pavyzdžiui, aritmetinis vidurkis imamas kaip vidurkio įvertis), tai tikslus laisvės laipsnių skaičius n nežinomas. Mes tik žinome, kad tai patenkina nelygybę:

(skaitmenų skaičius – 1 – vertinamų parametrų skaičius)< n < (число разрядов – 1)

Todėl būtina palyginti X 2 su kritinėmis χ 2 crit reikšmėmis, apskaičiuotomis visame šiame n diapazone.

Kaip interpretuoti neįtikėtinai mažas chi kvadrato reikšmes? Ar moneta turėtų būti laikoma simetriška, jei po 10 000 metimų ji ant herbo patenka 5 000 kartų? Anksčiau daugelis statistikų manė, kad H 0 taip pat turėtų būti atmestas. Dabar siūlomas kitas būdas: priimti H 0, bet papildomai patikrinti duomenis ir jų analizės metodiką. Yra dvi galimybės: arba per mažas Pirsono atstumas reiškia, kad modelio parametrų skaičiaus padidėjimas nebuvo lydimas tinkamo laisvės laipsnių skaičiaus sumažėjimo, arba patys duomenys buvo suklastoti (galbūt netyčia pakoreguoti pagal tikėtiną). rezultatas).

Pavyzdys. Du tyrinėtojai A ir B apskaičiavo recesyvinių homozigotų aa proporciją antroje AA * aa monohibridinio kryžiaus kartoje. Pagal Mendelio dėsnius ši trupmena yra 0,25. Kiekvienas tyrėjas atliko 5 eksperimentus, kiekviename eksperimente buvo ištirta 100 organizmų.

Rezultatai A: 25, 24, 26, 25, 24. Tyrėjo išvada: Mendelio dėsnis teisingas(?).

Rezultatai B: 29, 21, 23, 30, 19. Tyrėjo išvada: Mendelio dėsnis nėra teisingas(?).

Tačiau Mendelio dėsnis yra statistinio pobūdžio, o kiekybinė rezultatų analizė apverčia išvadas! Sujungę penkis eksperimentus į vieną, gauname chi kvadrato skirstinį su 5 laisvės laipsniais (tikrinama paprasta hipotezė):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75) = 0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75) = 5,17

Vidutinė reikšmė m [χ 2 n =5 ]=5, standartinis nuokrypis σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Todėl be nuorodos į lenteles aišku, kad X 2 B reikšmė yra tipiška, o X 2 A reikšmė yra neįtikėtinai maža. Pagal lenteles P (χ 2 n =5<0.16)<0.0001.

Šis pavyzdys yra tikro atvejo, įvykusio 1930-aisiais, adaptacija (žr. Kolmogorovo veikalą „Apie kitą Mendelio dėsnių įrodymą“). Įdomu tai, kad tyrėjas A buvo genetikos šalininkas, o tyrėjas B priešinosi.

Sumišimas žymėjime. Pirsono atstumą, kurio skaičiavimui reikia papildomų susitarimų, būtina atskirti nuo chi kvadrato atsitiktinio dydžio matematinės sampratos. Pirsono atstumas tam tikromis sąlygomis pasiskirsto artimas chi kvadratui su n laisvės laipsnių. Todėl patartina NE Pirsono atstumą žymėti simboliu χ 2 n, o naudoti panašų, bet skirtingą žymėjimą X 2. .

Pearsono kriterijus nėra visagalis. Yra begalė H 0 alternatyvų, į kurias jis negali atsižvelgti. Tarkime, kad tikrinate hipotezę, kad požymis buvo tolygiai pasiskirstęs, turite 10 skaitmenų ir stebimų dažnių vektorius yra lygus (130,125,121,118,116,115,114,113,111,110). Pearsono kriterijus negali „pastebėti“, kad dažniai monotoniškai mažėja ir H 0 nebus atmestas. Jei jis būtų papildytas serijos kriterijumi, tada taip!



Ar jums patiko straipsnis? Pasidalinkite su draugais!