Naudojant chi kvadrato testą. Klasikiniai statistikos metodai: chi kvadrato testas

χ 2 kriterijaus paskirtis – Pirsono kriterijus χ 2 kriterijus naudojamas dviem tikslais: 1) palyginti empirinį charakteristikos pasiskirstymą su teoriniu – vienodu, normaliu ar kokiu nors kitu; 2) palyginti du, tris ar daugiau tos pačios charakteristikos empirinių skirstinių. Kriterijaus aprašymas χ 2 kriterijus atsako į klausimą, ar jie atsiranda vienodai dažnai skirtingos reikšmės pasirašyti empirinį ir teoriniai skirstiniai arba dviem ar daugiau empirinių skirstinių. Metodo privalumas yra tas, kad jis leidžia palyginti bet kokio masto požymių pasiskirstymą, pradedant nuo pavadinimų skalės. Pačioje paprastas atvejis alternatyvus skirstymas „taip - ne“, „leido defektuoti - neleido defektuoti“, „išsprendė problemą - neišsprendė problemos“ ir tt jau galime taikyti χ 2 kriterijų. Kuo didesnis neatitikimas tarp dviejų lyginamų paskirstymų, tuo didesnis empirinė reikšmėχ 2. Automatinis χ 2 – Pirsono kriterijaus apskaičiavimas Norėdami atlikti automatinį χ 2 – Pirsono kriterijaus skaičiavimą, turite atlikti du veiksmus: 1 veiksmas

. Nurodykite empirinių skirstinių skaičių (nuo 1 iki 10); 2 veiksmas. Įveskite empirinius dažnius į lentelę;

3 veiksmas

. Gaukite atsakymą. Pearsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apieįvairių įstatymų paskirstymus. 1. Normaliojo skirstinio hipotezės tikrinimas. Tegul gaunamas pakankamai didelis mėginys n Su

didelis skaičius skirtingos reikšmės 1 skirtingos reikšmės 2 … variantas. Apdorojimo patogumui intervalą nuo mažiausios iki didžiausios pasirinkimo reikšmės padalijame į

s Pearsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apie 1 Pearsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apie 2 … lygiomis dalimis ir darysime prielaidą, kad parinkčių, patenkančių į kiekvieną intervalą, reikšmės yra maždaug lygios skaičiui, kuris nurodo intervalo vidurį. Suskaičiavę parinkčių, patenkančių į kiekvieną intervalą, skaičių, sukursime taip vadinamą sugrupuotą pavyzdį: ,

variantai……….. X x s dažniai…………. n s Kur x i



yra intervalų vidurio taškų reikšmės ir n i – įtrauktų variantų skaičius i gyventojų paskirstytas normalus įstatymas su parametrais M(X) = , D(X) = . Tada iš imties dydžio galite rasti skaičių skaičių Pearsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apie, kuris turėtų atsirasti kiekviename intervale pagal šią prielaidą (ty teorinius dažnius). Norėdami tai padaryti, naudodamiesi Laplaso funkcijos verčių lentele, randame tikimybę patekti Kur intervalas:

,

variantai……….. ir aš Ir b i- ribos i-asis intervalas. Gautas tikimybes padauginę iš imties dydžio n, gauname teorinius dažnius: p i =n·p i.Mūsų tikslas – palyginti empirinius ir teorinius dažnius, kurie, žinoma, skiriasi vienas nuo kito, ir išsiaiškinti, ar šie skirtumai yra nereikšmingi ir nepaneigia hipotezės apie normalų tiriamųjų pasiskirstymą. atsitiktinis kintamasis, arba jie yra tokie dideli, kad prieštarauja šiai hipotezei. Šiuo tikslu naudojamas atsitiktinio dydžio kriterijus

. (20.1)

Jo reikšmė akivaizdi: dalys, kurios yra nuokrypių kvadratai, yra sumuojamos empiriniai dažniai iš teorinių susidaro iš atitinkamų teorinių dažnių. Galima įrodyti, kad, nepaisant realaus visumos pasiskirstymo dėsnio, atsitiktinio dydžio (20.1) pasiskirstymo dėsnis krypsta į pasiskirstymo dėsnį (žr. 12 paskaitą) su laisvės laipsnių skaičiumi. k = s – 1 – r, Kur r– numatomo skirstinio parametrų skaičius, įvertintas pagal imties duomenis. Todėl normalusis skirstinys apibūdinamas dviem parametrais k = s – 3. Pasirinktam kriterijui sukonstruojama dešinioji kritinė sritis, nustatoma pagal sąlygą

(20.2)

variantai……….. α – reikšmingumo lygis. Vadinasi, kritinę sritį suteikia nelygybė o hipotezės priėmimo sritis yra .

Taigi, norėdami patikrinti nulinę hipotezę N 0: populiacija pasiskirsto normaliai – iš imties reikia apskaičiuoti pastebėtą kriterijaus reikšmę:

, (20.1`)

o iš skirstinio χ 2 kritinių taškų lentelės raskite kritinis taškas naudojant žinomos vertėsα ir k = s – 3. Jei - nulinė hipotezė priimta, jei atmetama.

2. Tolygaus pasiskirstymo hipotezės tikrinimas.

Naudojant Pearsono testą hipotezei patikrinti, kad populiacija pasiskirsto tolygiai su apskaičiuotu tikimybės tankiu

Būtina, apskaičiavus reikšmę iš turimos imties, įvertinti parametrus A Ir b pagal formules:

variantai……….. A* Ir b*- vertinimai A Ir b. Tikrai, už vienodas paskirstymas M(X) = , , kur galite gauti nustatymo sistemą A* Ir b*: , kurios sprendimas yra išraiškos (20.3).

Tada, darant prielaidą, kad , teorinius dažnius galite rasti naudodami formules

Čia n– intervalų, į kuriuos padalyta imtis, skaičius.

Pastebėta Pirsono kriterijaus reikšmė apskaičiuojama pagal formulę (20,1`), o kritinė vertė apskaičiuojama pagal lentelę, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s – 3. Po to kritinės srities ribos nustatomos taip pat, kaip ir tikrinant normaliojo skirstinio hipotezę.

3. Hipotezės apie eksponentinį skirstinį tikrinimas.

Šiuo atveju, padaliję esamą pavyzdį į vienodo ilgio intervalus, laikome parinkčių seką vienodu atstumu viena nuo kitos (manome, kad visi variantai patenka į Kur- asis intervalas, paimkite reikšmę, sutampančią su jos viduriu), ir atitinkamus jų dažnius n i(įtrauktų pavyzdžių skaičius Kur– intervalas). Apskaičiuokime pagal šiuos duomenis ir įvertinkime parametrą λ dydis. Tada pagal formulę apskaičiuojami teoriniai dažniai

Tada stebimas ir kritinė vertė Pearsono kriterijus, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s – 2.

1. Palyginamieji rodikliai turi būti matuojami vardinė skalė(pavyzdžiui, paciento lytis yra vyras arba moteris) arba in eilinis(pavyzdžiui, arterinės hipertenzijos laipsnis, imant reikšmes nuo 0 iki 3).

2. Šis metodas leidžia analizuoti ne tik keturių laukų lenteles, kai ir faktorius, ir rezultatas yra dvejetainiai kintamieji, tai yra, jie turi tik du galimas vertes(pvz., vyriška ar moteriška lytis, tam tikros ligos buvimas ar nebuvimas anamnezėje...). Pirsono chi kvadrato testas taip pat gali būti naudojamas analizuojant kelių laukų lenteles, kai veiksnys ir (arba) rezultatas turi tris ar daugiau reikšmių.

3. Lyginamos grupės turi būti nepriklausomos, tai yra, chi kvadrato testas neturėtų būti naudojamas lyginant stebėjimus „prieš-po“. McNemar testas(lyginant dvi susijusias populiacijas) arba apskaičiuotas Cochrano Q testas(jei lyginamos trys ar daugiau grupių).

4. Analizuojant keturių laukų lenteles numatomos vertės kiekvienoje ląstelėje turi būti ne mažiau kaip 10. Jei bent vienoje langelyje laukiamas reiškinys įgyja reikšmę nuo 5 iki 9, reikia apskaičiuoti chi kvadrato testą su Yateso pataisa. Jei bent vienoje ląstelėje numatomas reiškinys yra mažesnis nei 5, tada analizė turėtų būti naudojama Tikslus Fisherio testas.

5. Analizuojant daugialaukes lenteles, numatomas stebėjimų skaičius turi būti ne mažesnis kaip 5 daugiau nei 20 % langelių.

Norėdami apskaičiuoti chi kvadrato testą, jums reikia:

1. Apskaičiuokite numatomą stebėjimų skaičių kiekvienai nenumatytų atvejų lentelės langeliui (atsižvelgiant į nulinės hipotezės, kad nėra ryšio), padauginus eilučių ir stulpelių sumas ir gautą sandaugą padalijus iš bendras skaičius pastebėjimai. Bendras vaizdas Numatomų verčių lentelė pateikiama žemiau:

Yra rezultatas (1) Nėra rezultato (0) Iš viso
Yra rizikos veiksnys (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Nėra rizikos faktoriaus (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Iš viso A+C B+D A+B+C+D

2. χ 2 kriterijaus reikšmės radimas Autorius tokią formulę:

variantai……….. Kur– eilutės numeris (nuo 1 iki r), j– stulpelio numeris (nuo 1 iki c), O ij– faktinis stebėjimų skaičius langelyje ij, E ij– numatomas stebėjimų skaičius langelyje ij.

Tuo atveju, jei tikėtino reiškinio skaičius yra mažesnis nei 10 bent vienoje langelyje, analizuojant keturių laukų lenteles, jis turėtų būti skaičiuojamas chi kvadrato testas su Yates korekcija. Šis pakeitimas sumažina 1 tipo klaidos tikimybę, t. y. aptikti skirtumus ten, kur jų nėra. Yates pataisa yra atimti 0,5 iš absoliuti vertė skirtumas tarp faktinio ir tikėtino stebėjimų skaičiaus kiekvienoje ląstelėje, dėl ko mažėja chi kvadrato testo reikšmė.

χ 2 kriterijaus apskaičiavimo formulė su Yates korekcija yra tokia:

3. Laisvės laipsnių skaičiaus nustatymas pagal formulę: f = (r – 1) × (c – 1). Atitinkamai, keturių laukų lentelės su 2 eilutėmis (r = 2) ir 2 stulpeliais (c = 2) laisvės laipsnių skaičius yra f 2x2 = (2 - 1)*(2 - 1) = 1.

4. χ 2 kriterijaus reikšmę lyginame su kritine reikšme esant laisvės laipsnių skaičiui f (pagal lentelę).

Šis algoritmas tinka tiek keturių laukų, tiek kelių laukų lentelėms.

Kaip interpretuoti Pirsono chi kvadrato testo vertę?

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Apibrėžkime statistinis reikšmingumas rūkymo faktoriaus įtaka sergamumui arterine hipertenzija pagal aukščiau aptartą lentelę:

1. Apskaičiuokite numatomas kiekvieno langelio vertes:

2. Raskite Pirsono chi kvadrato testo reikšmę:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Naudodami lentelę randame Pirsono chi kvadrato testo kritinę reikšmę, kuri esant reikšmingumo lygiui p=0,05 ir laisvės laipsnių skaičius 1 yra 3,841.

4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.

Laisvės laipsnių skaičius, f χ 2 esant p=0,05 χ 2 esant p=0,01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Šioje pastaboje χ 2 skirstinys naudojamas duomenų rinkinio su fiksuotu tikimybių skirstiniu nuoseklumui patikrinti. Susitarimo kriterijus dažnai O Jūs, priklausantis tam tikrai kategorijai, lyginamas su dažniais, kurių teoriškai tikimasi, jei duomenys iš tikrųjų turėjo nurodytą pasiskirstymą.

Testavimas, naudojant χ 2 tinkamumo kriterijų, atliekamas keliais etapais. Pirmiausia nustatomas konkretus tikimybių skirstinys ir lyginamas su pirminiais duomenimis. Antra, iškeliama hipotezė apie pasirinkto tikimybių skirstinio parametrus (pavyzdžiui, jo matematinį lūkestį) arba atliekamas jų įvertinimas. Trečia, remiantis teoriniu skirstiniu, nustatoma teorinė tikimybė, atitinkanti kiekvieną kategoriją. Galiausiai χ2 testo statistika naudojama duomenų nuoseklumui ir paskirstymui patikrinti:

variantai……….. f 0- stebimas dažnis, f e- teorinis arba numatomas dažnis, k- po sujungimo likusių kategorijų skaičius, r- įvertintinų parametrų skaičius.

Atsisiųskite pastabą formatu arba formatu, pavyzdžius formatu

Naudojant χ 2 tinkamumo testą Puasono skirstiniui

Norint apskaičiuoti naudojant šią formulę programoje Excel, patogu naudoti =SUMPRODUCT() funkciją (1 pav.).

Norėdami įvertinti parametrą λ galite naudoti sąmatą . Teorinis dažnis X sėkmės (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ir daugiau), atitinkančios parametrą λ = 2,9 galima nustatyti naudojant funkciją =POISSON.DIST(X;;FALSE). Padauginus Puasono tikimybę iš imties dydžio n, gauname teorinį dažnį f e(2 pav.).

Ryžiai. 2. Faktiniai ir teoriniai atvykimo rodikliai per minutę

Kaip matyti iš fig. 2, teorinis devynių ar daugiau atvykimų dažnis neviršija 1,0. Siekiant užtikrinti, kad kiekvienos kategorijos dažnis būtų 1,0 ar didesnis, kategorija „9 ar daugiau“ turėtų būti derinama su kategorija „8“. Tai reiškia, kad liko devynios kategorijos (0, 1, 2, 3, 4, 5, 6, 7, 8 ir daugiau). Kadangi Puasono skirstinio matematinis lūkestis nustatomas remiantis imties duomenimis, laisvės laipsnių skaičius lygus k – p – 1 = 9 – 1 – 1 = 7. Naudodami 0,05 reikšmingumo lygį, randame χ 2 statistikos kritinė reikšmė, kuri pagal formulę =CHI2.OBR(1-0.05;7) = 14.067 turi 7 laisvės laipsnius. Sprendimo taisyklė formuluojama taip: hipotezė H 0 atmetamas, jei χ 2 > 14,067, kitu atveju hipotezė H 0 nenukrypsta.

Norėdami apskaičiuoti χ 2, naudojame formulę (1) (3 pav.).

Ryžiai. 3. χ 2 apskaičiavimas – Puasono skirstinio tinkamumo kriterijus

Kadangi χ 2 = 2,277< 14,067, следует, что гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo teigti, kad klientų atėjimas į banką nepaklūsta Puasono paskirstymui.

χ 2 -tinkamumo testo taikymas normaliajam pasiskirstymui

Ankstesnėse pastabose, tikrindami hipotezes apie skaitinius kintamuosius, manėme, kad tiriama populiacija buvo normaliai pasiskirstyta. Norėdami patikrinti šią prielaidą, galite naudoti grafinius įrankius, pavyzdžiui, langelio diagramą arba normalaus pasiskirstymo grafiką (daugiau informacijos žr.). At dideli kiekiai pavyzdžius, norėdami patikrinti šias prielaidas, galite naudoti normaliojo pasiskirstymo χ 2 tinkamumo testą.

Kaip pavyzdį panagrinėkime 158 investicinių fondų 5 metų grąžos duomenis (4 pav.). Tarkime, kad norite patikėti, ar duomenys paskirstyti įprastai. Nulinės ir alternatyvios hipotezės formuluojamos taip: H 0: 5 metų derlius yra normalus, H 1: 5 metų derlius nesilaiko normalaus pasiskirstymo. Normalus skirstinys turi du parametrus – matematinį lūkestį μ ir standartinis nuokrypisσ, kurią galima įvertinti remiantis imties duomenimis. IN šiuo atveju = 10,149 ir S = 4,773.

Ryžiai. 4. Sutvarkytas masyvas, kuriame yra duomenys apie 158 fondų penkerių metų vidutinę metinę grąžą

Duomenys apie fondų grąžą gali būti grupuojami, pavyzdžiui, į klases (intervalus), kurių plotis yra 5% (5 pav.).

Ryžiai. 5. 158 fondų penkerių metų vidutinės metinės grąžos dažnumo pasiskirstymas

Kadangi normalusis pasiskirstymas yra ištisinis, būtina nustatyti figūrų plotą, kurį riboja normaliojo pasiskirstymo kreivė, ir kiekvieno intervalo ribas. Be to, kadangi normalusis pasiskirstymas teoriškai svyruoja nuo –∞ iki +∞, būtina atsižvelgti į formų, kurios nepatenka į klasės ribas, plotą. Taigi plotas po normaliąja kreive į kairę nuo taško –10 yra lygus figūros, esančios po standartizuota normaliąja kreive į kairę nuo Z reikšmės, plotui, lygiam

Z = (–10 – 10,149) / 4,773 = –4,22

Figūros plotas, esantis po standartizuota normaliosios kreivės kairėje nuo reikšmės Z = –4,22, nustatomas pagal formulę =NORM.DIST(-10;10,149;4,773;TRUE) ir yra maždaug lygus 0,00001. Norint apskaičiuoti figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotą, pirmiausia reikia apskaičiuoti figūros, esančios į kairę nuo –5, plotą: =NORM.DIST( -5,10.149,4.773,TRUE) = 0,00075 . Taigi figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotas yra 0,00075 – 0,00001 = 0,00074. Panašiai galite apskaičiuoti figūros plotą, kurį riboja kiekvienos klasės ribos (6 pav.).

Ryžiai. 6. Sritys ir numatomi dažniai kiekvienai 5 metų grąžos klasei

Matyti, kad teoriniai dažniai keturiose kraštutinėse klasėse (dvi minimalios ir dvi didžiausios) yra mažesni už 1, todėl klases sujungsime, kaip parodyta 7 pav.

Ryžiai. 7. Skaičiavimai, susiję su χ 2 tinkamumo testu normaliajam pasiskirstymui

Mes naudojame χ 2 kriterijų duomenų sutarimui su normalusis pasiskirstymas naudojant (1) formulę. Mūsų pavyzdyje po sujungimo lieka šešios klasės. Kadangi numatoma vertė ir standartinis nuokrypis apskaičiuojami pagal imties duomenis, laisvės laipsnių skaičius yra kp – 1 = 6 – 2 – 1 = 3. Naudodami 0,05 reikšmingumo lygį, nustatome, kad kritinė χ 2 statistikos reikšmė, kuri turi tris laisvės laipsnius = CI2.OBR(1-0,05;F3) = 7,815. Skaičiavimai, susiję su χ 2 tinkamumo kriterijaus naudojimu, parodyti Fig. 7.

Matyti, kad χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo manyti, kad sparčiai augančių investicinių fondų 5 metų grąža nėra įprastai paskirstoma.

Keliuose naujausios pastabos svarstė skirtingi požiūriaiį kategoriškų duomenų analizę. Aprašomi hipotezių apie kategoriškus duomenis, gautus analizuojant dvi ar daugiau nepriklausomų imčių, tikrinimo metodai. Be chi kvadrato testų, atsižvelgiama į neparametrines procedūras. Aprašytas Wilcoxon rango testas, kuris naudojamas situacijose, kai netenkinamos taikymo sąlygos t-lygybės hipotezės tikrinimo kriterijai matematiniai lūkesčiai dvi nepriklausomos grupės, taip pat Kruskal-Wallis testas, kuris yra vieno faktoriaus alternatyva dispersijos analizė(8 pav.).

Ryžiai. 8. Blokinė schema hipotezių apie kategoriškus duomenis tikrinimo metodai

Naudojama medžiaga iš knygos Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 763–769

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Rūkymo faktoriaus įtakos arterine hipertenzija sergamumui statistinę reikšmę nustatykime pagal aukščiau aptartą lentelę:

1. Apskaičiuokite numatomas kiekvieno langelio vertes:

2. Raskite Pirsono chi kvadrato testo reikšmę:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Naudodami lentelę randame Pirsono chi kvadrato testo kritinę reikšmę, kuri esant reikšmingumo lygiui p=0,05 ir laisvės laipsnių skaičius 1 yra 3,841.

4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.

Be to, Pirsono chi kvadrato testas apskaičiuojamas pagal formulę

Tačiau 2x2 lentelėse tikslesni rezultatai gaunami pagal Yates pataisos kriterijų

Jeigu Tai N(0) priimtas,

Tuo atveju priimtas H(1)

Kai stebėjimų skaičius mažas, o lentelės langelių dažnis mažesnis nei 5, chi kvadrato testas netaikomas ir naudojamas hipotezėms tikrinti. Tikslus Fisherio testas . Šio kriterijaus skaičiavimo procedūra yra gana daug darbo reikalaujanti, todėl šiuo atveju geriau naudoti kompiuterines statistinės analizės programas.

Naudodamiesi nenumatytų atvejų lentele, galite apskaičiuoti dviejų kokybinių charakteristikų ryšio matą - tai yra Yule asociacijos koeficientas K (analogiškai koreliacijos koeficientui)

K yra intervale nuo 0 iki 1. Koeficientas artimas vienetui rodo stiprų ryšį tarp charakteristikų. Jei jis lygus nuliui, ryšio nėra .

Panašiai naudojamas phi kvadrato koeficientas (φ 2).

LYGINIMO UŽDUOTIS

Lentelėje aprašomas ryšys tarp mutacijų dažnio Drosophila grupėse maitinant ir be maitinimo



Nenumatytų atvejų lentelės analizė

Nenumatytų atvejų lentelės analizei iškeliama H 0 hipotezė, ty tiriamos charakteristikos įtakos tyrimo rezultatui nebuvimas. Tam apskaičiuojamas numatomas dažnis ir sudaroma lūkesčių lentelė.

Laukimo stalas

grupės Chilo pasėliai Iš viso
Suteikė mutacijas Nedavė mutacijų
Faktinis dažnis Numatomas dažnis Faktinis dažnis Numatomas dažnis
Su maitinimu
Be maitinimo
viso

1 būdas

Nustatykite laukimo dažnumą:

2756 – X ;

2. 3561 – 3124

Jei stebėjimų skaičius grupėse yra mažas, naudojant X 2, lyginant faktinį ir numatomą dažnį su diskretiniais skirstiniais, tam tikras netikslumas yra susijęs su Yates korekcija.

Šiame įraše neatsakoma, kaip iš principo apskaičiuoti Chi kvadrato kriterijų, jo tikslas – parodyti kaip automatizuoti Chi kvadrato skaičiavimas excel, kokios yra Chi kvadrato kriterijaus skaičiavimo funkcijos. Nes ne visada po ranka turite SPSS ar R programą.
Tam tikra prasme tai priminimas ir užuomina seminaro „Analytics for HR“ dalyviams, tikiuosi šiuos metodus naudosite savo darbe, šis įrašas bus dar viena užuomina.
Aš nepateikiu failo su atsisiuntimo nuoroda, bet galite lengvai nukopijuoti mano pateiktas lenteles ir vadovautis pateiktais duomenimis bei formulėmis

Įžanginis

Pavyzdžiui, norime patikrinti įmonių apklausos rezultatų paskirstymo nepriklausomumą (atsitiktinumą / neatsitiktiškumą), kur eilutėse yra atsakymai į bet kurį anketos klausimą, o stulpeliuose - pasiskirstymas pagal ilgį. paslauga.

Skaičiuoti Chi kvadratą einate per suvestinę lentelę, kai jūsų duomenys apibendrinami konjugacijos lentelėje, pavyzdžiui, šioje formoje
Lentelė Nr.1

mažiau nei 1 metai

Suma eilutėmis

Suma pagal stulpelius

Norėdami apskaičiuoti Chi kvadratą programoje "Excel", yra šios formulės

CHI2.TESTAS

Formulė CH2.TEST apskaičiuoja skirstinio nepriklausomumo (atsitiktinumo / neatsitiktiškumo) tikimybę

Sintaksė yra tokia

CHI2.TESTAS(faktinis_intervalas, numatomas_intervalas)

Mūsų atveju tikrasis intervalas yra lentelės turinys, t.y.

Tie. Gavę dvi lenteles - empirinę ir tikėtiną (arba teorinius dažnius) - iš tikrųjų atleidžiame nuo skirtumo gavimo, kvadratūros ir kitų skaičiavimų, taip pat tikrinimo su kritinių verčių lentele.

Mūsų atveju CHI2.DIST.PH = 0,000466219908895455, kaip pavyzdyje su CHI2.TEST

Pastaba

Ši Chi kvadrato skaičiavimo formulė „Excel“ tiks jums skaičiuojant 2X2 matmenų lenteles, nes jūs pats laikote Chi kvadratą empiriniu ir į skaičiavimus galite įvesti tęstinumo pataisą.

2 pastaba

Taip pat yra formulė CHI2.DIST (neišvengiamai pamatysite ją Excel) - ji apskaičiuoja kairiosios pusės tikimybę (paprasčiau tariant, kairioji laikoma 1 - dešinioji, t.y. mes tiesiog pasukame formulė baigėsi, todėl skaičiuodamas Chi kvadratą jos nepateikiu, mūsų pavyzdyje CHI2.DIST = 0.999533780091105.
Iš viso CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Grąžina atvirkštinę chi kvadrato skirstinio į dešinę pusę tikimybės vertę (arba tiesiog chi kvadrato reikšmę nurodytam tikimybės lygiui ir laisvės laipsnių skaičiui)

Sinaksija

CH2.OBR.PH(tikimybė;laisvės_laipsniai)

Išvada

Tiesą sakant, aš neturiu tikslios informacijos apie tai, kokiu mastu buvo gauti rezultatai Chi kvadrato skaičiavimai excel skiriasi nuo Chi kvadrato rezultatų SPSS. Suprantu tiksliai. kad jie skiriasi, jei tik todėl, kad savarankiškai skaičiuojant Chi kvadratą, reikšmės suapvalinamos ir prarandamas tam tikras skaičius po kablelio. Bet nemanau, kad tai yra kritiška. Rekomenduoju apsidrausti tik tuo atveju, kai Chi kvadrato pasiskirstymo tikimybė yra artima 0,05 slenksčiui (p-reikšmei).

Nelabai šaunu, kad neatsižvelgiama į tęstinumo pataisą - daug skaičiuojame 2X2 lentelėse. Todėl skaičiuodami 2X2 lenteles optimizavimo beveik nepasiekiame

Na, vis dėlto manau, kad duotų žinių pakanka, kad Chi kvadrato skaičiavimas Excelyje būtų šiek tiek greitesnis, kad sutaupytumėte laiko svarbesniems dalykams



Ar jums patiko straipsnis? Pasidalinkite su draugais!