Pomocou testu chi square. Klasické metódy štatistiky: chí-kvadrát test

Účel kritéria χ 2 - Pearsonovo kritérium Kritérium χ 2 sa používa na dva účely: 1) na porovnanie empirického rozdelenia charakteristiky s teoretickým – rovnomerné, normálne alebo iné; 2) na porovnanie dvoch, troch alebo viacerých empirických rozdelení tej istej charakteristiky. Opis kritéria Kritérium χ 2 odpovedá na otázku, či rôzne významy prihlásiť sa empirický a teoretické distribúcie alebo v dvoch alebo viacerých empirických rozdeleniach. Výhodou tejto metódy je, že umožňuje porovnávať distribúcie prezentovaných vlastností na ľubovoľnej škále, počnúc od škály mien. Vo veľmi jednoduchý prípad pri alternatívnom rozdelení „áno – nie“, „povolil chybu – nepovolil chybu“, „vyriešil problém – nevyriešil problém“ atď. už môžeme použiť kritérium χ 2. Čím väčší je rozdiel medzi dvoma porovnávanými distribúciami, tým väčší empirický významχ 2. Automatický výpočet χ 2 - Pearsonovo kritérium Ak chcete vykonať automatický výpočet χ 2 - Pearsonovo kritérium, musíte vykonať dva kroky: Krok 1. Uveďte počet empirických rozdelení (od 1 do 10); Krok 2. Zadajte empirické frekvencie do tabuľky; Krok 3. Získajte odpoveď.

Výhodou Pearsonovho kritéria je jeho univerzálnosť: možno ho použiť na testovanie hypotéz o rôzne zákony distribúcie.

1. Testovanie hypotézy normálneho rozdelenia.

Nechajte získať dostatočne veľkú vzorku P S veľké množstvo rôzne významy možnosť. Pre uľahčenie spracovania delíme interval od najmenšej po najväčšiu hodnotu opcie na s rovnaké časti a budeme predpokladať, že hodnoty možností, ktoré spadajú do každého intervalu, sa približne rovnajú číslu, ktoré určuje stred intervalu. Spočítaním počtu možností, ktoré spadajú do každého intervalu, vytvoríme takzvanú zoskupenú vzorku:

možnosti……….. X 1 X 2 … x s

frekvencie …………. P 1 P 2 … n s ,

Kde x i sú hodnoty stredných bodov intervalov a n i- počet zahrnutých možností i-interval (empirické frekvencie).



Zo získaných údajov môžete vypočítať priemer vzorky a priemer vzorky smerodajná odchýlka σ B. Overme si predpoklad, že populácia distribuované naprieč normálny zákon s parametrami M(X) = , D(X) = . Potom môžete zistiť počet čísel z veľkosti vzorky P, ktoré by sa za tohto predpokladu mali objaviť v každom intervale (čiže teoretické početnosti). Aby sme to dosiahli, pomocou tabuľky hodnôt Laplaceovej funkcie nájdeme pravdepodobnosť vstupu i interval:

,

Kde a ja A b i- hranice i-tý interval. Vynásobením získaných pravdepodobností veľkosťou vzorky n nájdeme teoretické frekvencie: p i = n·p i.Naším cieľom je porovnať empirické a teoretické početnosti, ktoré sa, samozrejme, navzájom líšia a zistiť, či sú tieto rozdiely nevýznamné a nevyvracajú hypotézu o normálnom rozdelení študovaných náhodná premenná alebo sú také veľké, že odporujú tejto hypotéze. Na tento účel sa používa kritérium vo forme náhodnej premennej

. (20.1)

Jeho význam je zrejmý: časti, ktoré sú druhými mocninami odchýlok, sa spočítajú empirické frekvencie z teoretických tvoria zo zodpovedajúcich teoretických frekvencií. Dá sa dokázať, že bez ohľadu na skutočný distribučný zákon populácie, distribučný zákon náhodnej premennej (20.1) inklinuje k distribučnému zákonu (pozri prednášku 12) s počtom stupňov voľnosti. k = s – 1 – r, Kde r– počet parametrov očakávaného rozdelenia odhadnutý z údajov vzorky. Normálne rozdelenie je teda charakterizované dvoma parametrami k = s – 3. Pre zvolené kritérium sa zostrojí pravostranná kritická oblasť určená podmienkou

(20.2)

Kde α - hladina významnosti. V dôsledku toho je kritická oblasť daná nerovnosťou a oblasťou prijatia hypotézy je .

Takže, aby som otestoval nulovú hypotézu N 0: populácia je normálne rozložená - musíte vypočítať pozorovanú hodnotu kritéria zo vzorky:

, (20.1`)

a z tabuľky kritických bodov rozloženia χ 2 nájdite kritický bod použitím známe hodnotyα a k = s – 3. Ak - je akceptovaná nulová hypotéza, ak je zamietnutá.

2. Testovanie hypotézy rovnomerného rozdelenia.

Pri použití Pearsonovho testu na testovanie hypotézy, že populácia je rovnomerne rozložená s odhadovanou hustotou pravdepodobnosti

Po vypočítaní hodnoty z dostupnej vzorky je potrebné odhadnúť parametre A A b podľa vzorcov:

Kde A* A b*- hodnotenia A A b. Naozaj, pre Rovnomerné rozdelenie M(X) = , , kde môžete získať systém na určovanie A* A b*: , ktorého riešením sú výrazy (20.3).

Potom, za predpokladu, že , môžete nájsť teoretické frekvencie pomocou vzorcov

Tu s– počet intervalov, do ktorých je vzorka rozdelená.

Pozorovaná hodnota Pearsonovho kritéria sa vypočíta pomocou vzorca (20,1`) a kritická hodnota sa vypočíta pomocou tabuľky, pričom sa zohľadní skutočnosť, že počet stupňov voľnosti k = s – 3. Potom sa určia hranice kritickej oblasti rovnakým spôsobom ako pri testovaní hypotézy normálneho rozdelenia.

3. Testovanie hypotézy o exponenciálnom rozdelení.

V tomto prípade, po rozdelení existujúcej vzorky na intervaly rovnakej dĺžky, zvážime postupnosť možností, ktoré sú od seba rovnako vzdialené (predpokladáme, že všetky možnosti, ktoré spadajú do i- tý interval, majú hodnotu zhodnú s jeho stredom) a ich zodpovedajúce frekvencie n i(počet vzorových možností zahrnutých v i– tý interval). Vypočítajme z týchto údajov a berme ako odhad parametra λ veľkosť. Potom sa pomocou vzorca vypočítajú teoretické frekvencie

Potom pozorované a kritická hodnota Pearsonovo kritérium berie do úvahy počet stupňov voľnosti k = s – 2.

1. Porovnateľné ukazovatele sa musia merať v nominálna stupnica(napríklad pohlavie pacienta je muž alebo žena) alebo v radový(napríklad stupeň arteriálnej hypertenzie s hodnotami od 0 do 3).

2. Táto metóda umožňuje analyzovať nielen štvorpolové tabuľky, keď faktor aj výsledok sú binárne premenné, to znamená, že majú iba dve možné hodnoty(napríklad mužské alebo ženské pohlavie, prítomnosť alebo absencia určitého ochorenia v anamnéze...). Pearsonov chí-kvadrát test možno použiť aj v prípade analýzy tabuliek s viacerými poľami, keď faktor a (alebo) výsledok nadobúdajú tri alebo viac hodnôt.

3. Porovnávané skupiny musia byť nezávislé, to znamená, že chí-kvadrát test by sa nemal používať pri porovnávaní pozorovaní „pred-po“. McNemarov test(pri porovnaní dvoch súvisiacich populácií) alebo vypočítané Cochranov Q test(v prípade porovnania troch a viacerých skupín).

4. Pri analýze štvorpolových tabuliek očakávané hodnoty v každej bunke ich musí byť aspoň 10. Ak aspoň v jednej bunke očakávaný jav nadobudne hodnotu od 5 do 9, musí sa vypočítať chí-kvadrát test s Yatesovým dodatkom. Ak je aspoň v jednej bunke očakávaný jav menší ako 5, potom by sa mala použiť analýza Fisherov presný test.

5. Pri analýze tabuliek s viacerými poľami by očakávaný počet pozorovaní nemal byť menší ako 5 vo viac ako 20 % buniek.

Na výpočet chí-kvadrát testu potrebujete:

1. Vypočítajte očakávaný počet pozorovaní pre každú bunku kontingenčnej tabuľky (za predpokladu platnosti nulovej hypotézy bez vzťahu) vynásobením súčtu riadkov a stĺpcov a následným vydelením výsledného produktu celkový počet pozorovania. Všeobecná forma Tabuľka očakávaných hodnôt je uvedená nižšie:

Existuje výsledok (1) Žiadny výsledok (0) Celkom
Existuje rizikový faktor (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Žiadny rizikový faktor (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Celkom A+C B+D A+B+C+D

2. Nájdite hodnotu kritéria χ 2 Autor: nasledujúci vzorec:

Kde i– číslo riadku (od 1 do r), j– číslo stĺpca (od 1 do c), O ij– skutočný počet pozorovaní v bunke ij, E ij– očakávaný počet pozorovaní v bunke ij.

V prípade, že počet očakávaných javov je menší ako 10 aspoň v jednej bunke, pri analýze štvorpolových tabuliek treba vypočítať chí-kvadrát test s Yatesovou korekciou. Tento pozmeňujúci a doplňujúci návrh znižuje pravdepodobnosť chyby typu 1, t. j. odhalenie rozdielov tam, kde žiadne nie sú. Yatesova korekcia má odpočítať 0,5 absolútna hodnota rozdiel medzi skutočným a očakávaným počtom pozorovaní v každej bunke, čo vedie k zníženiu hodnoty chí-kvadrát testu.

Vzorec na výpočet kritéria χ 2 s Yatesovou korekciou je nasledujúci:

3. Určenie počtu stupňov voľnosti podľa vzorca: f = (r – 1) × (c – 1). V súlade s tým je pre tabuľku so štyrmi poliami s 2 riadkami (r = 2) a 2 stĺpcami (c = 2) počet stupňov voľnosti f 2x2 = (2 - 1)*(2 - 1) = 1.

4. Hodnotu χ 2 kritéria porovnávame s kritickou hodnotou pri počte stupňov voľnosti f (podľa tabuľky).

Tento algoritmus použiteľné pre štvorpoľové aj viacpoľové tabuľky.

Ako interpretovať hodnotu Pearsonovho chí-kvadrát testu?

Ak je získaná hodnota kritéria χ 2 väčšia ako kritická hodnota, dospejeme k záveru, že existuje štatistický vzťah medzi študovaným rizikovým faktorom a výsledkom na príslušnej hladine významnosti.

Príklad výpočtu Pearsonovho chí-kvadrát testu

Poďme definovať štatistická významnosť vplyv faktora fajčenia na výskyt arteriálnej hypertenzie podľa tabuľky uvedenej vyššie:

1. Vypočítajte očakávané hodnoty pre každú bunku:

2. Nájdite hodnotu Pearsonovho chí-kvadrát testu:

χ2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Počet stupňov voľnosti f = (2-1)*(2-1) = 1. Pomocou tabuľky zistíme kritickú hodnotu Pearsonovho chí-kvadrát testu, ktorá na hladine významnosti p=0,05 a počet stupňov voľnosti 1 je 3,841.

4. Získanú hodnotu chí-kvadrát testu porovnávame s kritickou: 4,396 > 3,841, preto je závislosť výskytu artériovej hypertenzie od prítomnosti fajčenia štatisticky významná. Hladina významnosti tohto vzťahu zodpovedá p<0.05.

Počet stupňov voľnosti, f x2 pri p=0,05 x2 pri p=0,01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

V tejto poznámke sa rozdelenie χ 2 používa na testovanie konzistencie súboru údajov s pevným rozdelením pravdepodobnosti. Kritérium dohody často O Vy patriaci do konkrétnej kategórie sa porovnávajú s frekvenciami, ktoré by sa teoreticky očakávali, ak by údaje skutočne mali zadané rozdelenie.

Testovanie pomocou kritéria zhody χ 2 sa vykonáva v niekoľkých etapách. Najprv sa určí špecifické rozdelenie pravdepodobnosti a porovná sa s pôvodnými údajmi. Po druhé, predloží sa hypotéza o parametroch zvoleného rozdelenia pravdepodobnosti (napríklad jeho matematické očakávanie) alebo sa vykoná ich vyhodnotenie. Po tretie, na základe teoretického rozdelenia sa určí teoretická pravdepodobnosť zodpovedajúca každej kategórii. Nakoniec sa štatistika testu χ2 používa na kontrolu konzistencie údajov a distribúcie:

Kde f 0- pozorovaná frekvencia, f e- teoretická alebo očakávaná frekvencia, k- počet zostávajúcich kategórií po zlúčení, R- počet parametrov, ktoré sa majú odhadnúť.

Stiahnite si poznámku vo formáte alebo formáte, príklady vo formáte

Použitie χ 2 testu zhody pre Poissonovo rozdelenie

Na výpočet pomocou tohto vzorca v Exceli je vhodné použiť funkciu =SUMPRODUCT() (obr. 1).

Na odhad parametra λ môžete použiť odhad . Teoretická frekvencia Xúspechy (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 a ďalšie) zodpovedajúce parametru λ = 2,9 možno určiť pomocou funkcie =POISSON.DIST(X;;FALSE). Vynásobením Poissonovej pravdepodobnosti veľkosťou vzorky n, dostaneme teoretickú frekvenciu f e(obr. 2).

Ryža. 2. Skutočné a teoretické rýchlosti príletov za minútu

Ako vyplýva z obr. 2, teoretická frekvencia deviatich a viacerých príchodov nepresahuje 1,0. Aby sa zabezpečilo, že každá kategória bude obsahovať frekvenciu 1,0 alebo vyššiu, kategória „9 alebo viac“ by sa mala skombinovať s kategóriou „8“. To znamená, že zostáva deväť kategórií (0, 1, 2, 3, 4, 5, 6, 7, 8 a ďalšie). Keďže matematické očakávanie Poissonovho rozdelenia je určené na základe údajov vzorky, počet stupňov voľnosti sa rovná k – p – 1 = 9 – 1 – 1 = 7. Pomocou hladiny významnosti 0,05 zistíme, kritická hodnota štatistiky χ 2, ktorá má 7 stupňov voľnosti podľa vzorca =CHI2.OBR(1-0,05;7) = 14,067. Rozhodovacie pravidlo je formulované takto: hypotéza H 0 sa zamietne, ak χ 2 > 14,067, inak hypotéza H 0 nevybočuje.

Na výpočet χ 2 použijeme vzorec (1) (obr. 3).

Ryža. 3. Výpočet χ 2 - kritéria zhody pre Poissonovo rozdelenie

Pretože χ 2 = 2,277< 14,067, следует, что гипотезу H 0 nemožno odmietnuť. Inými slovami, nemáme dôvod tvrdiť, že príchod klientov do banky nie je v súlade s Poissonovou distribúciou.

Aplikácia χ 2 -testu zhody pre normálne rozdelenie

V predchádzajúcich poznámkach sme pri testovaní hypotéz o numerických premenných predpokladali, že skúmaná populácia bola normálne rozložená. Na kontrolu tohto predpokladu môžete použiť grafické nástroje, napríklad krabicový graf alebo graf normálneho rozdelenia (podrobnejšie pozri). o veľké objemy vzorky, na otestovanie týchto predpokladov môžete použiť test zhody χ 2 pre normálne rozdelenie.

Uveďme si ako príklad údaje o 5-ročných výnosoch 158 investičných fondov (obr. 4). Predpokladajme, že chcete veriť, či sú údaje normálne distribuované. Nulová a alternatívna hypotéza sú formulované takto: H 0: 5-ročný výnos sa riadi normálnym rozdelením, H 1: 5-ročný výnos nesleduje normálne rozdelenie. Normálne rozdelenie má dva parametre - matematické očakávanie μ a smerodajná odchýlkaσ, ktoré možno odhadnúť na základe vzorových údajov. IN v tomto prípade = 10,149 a S = 4,773.

Ryža. 4. Usporiadané pole obsahujúce údaje o päťročnom priemernom ročnom výnose 158 fondov

Údaje o výnosoch fondov možno zoskupiť napríklad do tried (intervalov) so šírkou 5 % (obr. 5).

Ryža. 5. Rozdelenie frekvencie pre päťročné priemerné ročné výnosy 158 fondov

Pretože normálne rozdelenie je spojité, je potrebné určiť oblasť číslic ohraničenú krivkou normálneho rozdelenia a hranicami každého intervalu. Navyše, keďže normálne rozdelenie sa teoreticky pohybuje od –∞ do +∞, je potrebné vziať do úvahy oblasť tvarov, ktoré spadajú mimo hranice triedy. Takže plocha pod normálnou krivkou naľavo od bodu –10 sa rovná ploche obrázku ležiaceho pod štandardizovanou normálnou krivkou naľavo od hodnoty Z rovnajúcej sa

Z = (–10 – 10,149) / 4,773 = –4,22

Oblasť obrázku ležiaceho pod štandardizovanou normálnou krivkou naľavo od hodnoty Z = –4,22 je určená vzorcom =NORM.DIST(-10;10,149;4,773;TRUE) a je približne rovná 0,00001. Aby ste mohli vypočítať plochu obrazca ležiaceho pod normálnou krivkou medzi bodmi –10 a –5, musíte najskôr vypočítať plochu obrazca ležiaceho naľavo od bodu –5: =NORM.DIST( -5,10,149,4,773, TRUE) = 0,00075. Takže plocha obrázku ležiaceho pod normálnou krivkou medzi bodmi –10 a –5 je 0,00075 – 0,00001 = 0,00074. Podobne môžete vypočítať plochu obrázku obmedzenú hranicami každej triedy (obr. 6).

Ryža. 6. Plochy a očakávané frekvencie pre každú triedu 5-ročných výnosov

Je vidieť, že teoretické frekvencie v štyroch extrémnych triedach (dve minimálne a dve maximálne) sú menšie ako 1, preto budeme triedy kombinovať, ako je znázornené na obr.

Ryža. 7. Výpočty spojené s použitím χ 2 testu zhody pre normálne rozdelenie

Na zhodu údajov používame kritérium χ 2 normálne rozdelenie pomocou vzorca (1). V našom príklade po zlúčení zostáva šesť tried. Keďže očakávaná hodnota a smerodajná odchýlka sú odhadované zo vzorových údajov, počet stupňov voľnosti je kp – 1 = 6 – 2 – 1 = 3. Pomocou hladiny významnosti 0,05 zistíme, že kritická hodnota štatistiky χ 2, ktorá má tri stupne voľnosti = CI2.OBR(1-0,05;F3) = 7,815. Výpočty spojené s použitím χ 2 kritéria dobrej zhody sú znázornené na obr. 7.

Je možné vidieť, že χ 2 -štatistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 nemožno odmietnuť. Inými slovami, nemáme dôvod tvrdiť, že 5-ročné výnosy investičných fondov zameraných na vysoký rast nepodliehajú normálnemu rozdeleniu.

Vo viacerých najnovšie poznámky zvážiť rôzne prístupy na analýzu kategorických údajov. Sú opísané metódy na testovanie hypotéz o kategorických údajoch získaných analýzou dvoch alebo viacerých nezávislých vzoriek. Okrem chí-kvadrát testov sa berú do úvahy aj neparametrické postupy. Je opísaný Wilcoxonov rank test, ktorý sa používa v situáciách, keď nie sú splnené podmienky aplikácie t-kritériá na testovanie hypotézy rovnosti matematické očakávania dve nezávislé skupiny, ako aj Kruskal-Wallisov test, ktorý je alternatívou k jednofaktorovému analýza rozptylu(obr. 8).

Ryža. 8. Štrukturálna schéma metódy na testovanie hypotéz o kategorických údajoch

Používajú sa materiály z knihy Levin et al. – M.: Williams, 2004. – s. 763–769

Ak je získaná hodnota kritéria χ 2 väčšia ako kritická hodnota, dospejeme k záveru, že existuje štatistický vzťah medzi študovaným rizikovým faktorom a výsledkom na príslušnej hladine významnosti.

Príklad výpočtu Pearsonovho chí-kvadrát testu

Stanovme štatistickú významnosť vplyvu faktora fajčenia na výskyt arteriálnej hypertenzie pomocou tabuľky uvedenej vyššie:

1. Vypočítajte očakávané hodnoty pre každú bunku:

2. Nájdite hodnotu Pearsonovho chí-kvadrát testu:

χ2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Počet stupňov voľnosti f = (2-1)*(2-1) = 1. Pomocou tabuľky zistíme kritickú hodnotu Pearsonovho chí-kvadrát testu, ktorá na hladine významnosti p=0,05 a počet stupňov voľnosti 1 je 3,841.

4. Získanú hodnotu chí-kvadrát testu porovnávame s kritickou: 4,396 > 3,841, preto je závislosť výskytu artériovej hypertenzie od prítomnosti fajčenia štatisticky významná. Hladina významnosti tohto vzťahu zodpovedá p<0.05.

Pomocou vzorca sa vypočíta aj Pearsonov chí-kvadrát test

Ale pre tabuľku 2x2 sa presnejšie výsledky získajú pomocou Yatesovho korekčného kritéria

Ak To N(0) prijatý,

Kedy prijatý H(1)

Keď je počet pozorovaní malý a bunky tabuľky obsahujú frekvenciu menšiu ako 5, test chí-kvadrát nie je použiteľný a používa sa na testovanie hypotéz. Fisherov presný test . Postup výpočtu tohto kritéria je pomerne náročný na prácu av tomto prípade je lepšie použiť programy počítačovej štatistickej analýzy.

Pomocou kontingenčnej tabuľky môžete vypočítať mieru spojenia medzi dvoma kvalitatívnymi charakteristikami - toto je Yule asociačný koeficient Q (analogicky ako korelačný koeficient)

Q leží v rozmedzí od 0 do 1. Koeficient blízky jednej naznačuje silné spojenie medzi charakteristikami. Ak sa rovná nule, nie je spojenie .

Podobne sa používa koeficient phi-square (φ 2).

BENCHMARK ÚLOHA

Tabuľka popisuje vzťah medzi frekvenciou mutácií v skupinách Drosophila s kŕmením a bez kŕmenia



Analýza kontingenčnej tabuľky

Na analýzu kontingenčnej tabuľky sa predkladá hypotéza H0, t.j. absencia vplyvu sledovanej charakteristiky na výsledok štúdie. Na tento účel sa vypočíta očakávaná frekvencia a zostaví sa tabuľka očakávaní.

Čakací stôl

skupiny Chilo plodiny Celkom
Dal mutácie Nedali mutácie
Skutočná frekvencia Očakávaná frekvencia Skutočná frekvencia Očakávaná frekvencia
S kŕmením
Bez kŕmenia
Celkom

Metóda č.1

Určite frekvenciu čakania:

2756 – X ;

2. 3561 – 3124

Ak je počet pozorovaní v skupinách malý, pri použití X 2 sa v prípade porovnávania skutočných a očakávaných frekvencií s diskrétnymi rozdeleniami spája určitá nepresnosť Na zníženie nepresnosti sa používa Yatesova korekcia.

Tento príspevok v zásade neodpovedá na výpočet kritéria Chi kvadrát, jeho účelom je ukázať, ako sa dá automatizovať Výpočet chí kvadrátu v exceli aké funkcie na výpočet kritéria Chi kvadrát existujú. Pretože nie vždy máte po ruke program SPSS alebo R.
V istom zmysle ide o pripomenutie a tip pre účastníkov seminára Analytics for HR, dúfam, že tieto metódy využívate vo svojej práci, tento príspevok bude ďalším tipom.
Neposkytujem súbor s odkazom na stiahnutie, ale môžete jednoducho skopírovať príklady tabuliek, ktoré som uviedol, a postupovať podľa údajov a vzorcov, ktoré som uviedol

Úvodná

Chceme napríklad skontrolovať nezávislosť (náhodnosť / nenáhodnosť) rozdelenia výsledkov podnikového prieskumu, kde v riadkoch sú odpovede na ľubovoľnú otázku v dotazníku a v stĺpcoch je rozdelenie podľa dĺžky služby.

Ak sú vaše údaje zhrnuté v konjugačnej tabuľke, napríklad v tomto formulári, prejdete na výpočet chi kvadrátu prostredníctvom kontingenčnej tabuľky
Tabuľka č.1

menej ako 1 rok

Suma po riadkoch

Súčet podľa stĺpcov

Na výpočet Chi kvadrátu v Exceli existujú nasledujúce vzorce

CHI2.TEST

Vzorec CH2.TEST vypočíta pravdepodobnosť nezávislosti (náhodnosti / nenáhodnosti) rozdelenia

Syntax je takáto

CHI2.TEST(skutočný_interval, očakávaný_interval)

V našom prípade je skutočným intervalom obsah tabuľky, t.j.

Tie. Po získaní dvoch tabuliek - empirickej a očakávanej (alebo teoretickej frekvencie) - sa v skutočnosti oslobodíme od práce so získavaním rozdielu, kvadratúrou a inými výpočtami, ako aj s kontrolou s tabuľkou kritických hodnôt.

V našom prípade CHI2.DIST.PH = 0,000466219908895455, ako v príklade s CHI2.TEST

Poznámka

Tento vzorec na výpočet chí kvadrátu v Exceli vám bude vyhovovať na výpočet tabuliek s rozmermi 2x2, pretože vy sami považujete chí kvadrát za empirický a môžete do výpočtov zaviesť korekciu kontinuity

Poznámka 2

Existuje aj vzorec CHI2.DIST (v Exceli ho nevyhnutne uvidíte) - vypočíta ľavostrannú pravdepodobnosť (zjednodušene povedané, ľavostranná sa považuje za 1 - pravotočivá, t.j. jednoducho otočíme vzorec cez, preto ho vo výpočtoch neuvádzam Chi kvadrát, v našom príklade CHI2.DIST = 0,999533780091105.
Celkom CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Vráti inverznú hodnotu pravdepodobnosti rozdelenia chí-kvadrát (alebo jednoducho hodnotu chí-kvadrát pre zadanú úroveň pravdepodobnosti a počet stupňov voľnosti)

Synaxis

CH2.OBR.PH(pravdepodobnosť;stupne_voľnosti)

Záver

Úprimne povedané, nemám presné informácie o tom, do akej miery boli dosiahnuté výsledky Výpočty chí kvadrát v exceli sa líšia od výsledkov chí kvadrátu v SPSS. presne rozumiem. že sa líšia, už len preto, že pri samostatnom výpočte Chi kvadrát sú hodnoty zaokrúhlené a stratí sa určitý počet desatinných miest. Ale nemyslím si, že je to kritické. Poistiť sa odporúčam len v prípade, keď sa pravdepodobnosť rozdelenia chí kvadrátu blíži k prahu (p-hodnote) 0,05.

Nie je skvelé, že sa neberie do úvahy korekcia kontinuity - veľa počítame v tabuľkách 2X2. Preto v prípade výpočtu tabuliek 2X2 nedosahujeme takmer žiadnu optimalizáciu

Napriek tomu si myslím, že vyššie uvedené znalosti stačia na to, aby sa výpočet Chi kvadrátu v Exceli trochu zrýchlil, aby sa ušetril čas na dôležitejšie veci



Páčil sa vám článok? Zdieľajte so svojimi priateľmi!