Duke përdorur testin chi katror. Metodat klasike të statistikës: testi chi-square

Qëllimi i kriterit χ 2 - kriteri Pearson Kriteri χ 2 përdoret për dy qëllime: 1) për të krahasuar shpërndarjen empirike të një karakteristike me atë teorike - uniforme, normale ose ndonjë tjetër; 2) për të krahasuar dy, tre ose më shumë shpërndarje empirike të së njëjtës karakteristikë. Përshkrimi i kriterit Kriteri χ 2 i përgjigjet pyetjes nëse ato ndodhin me frekuencë të barabartë kuptime të ndryshme shenjë në empirike dhe shpërndarjet teorike ose në dy ose më shumë shpërndarje empirike. Avantazhi i metodës është se ajo lejon të krahasohen shpërndarjet e veçorive të paraqitura në çdo shkallë, duke filluar nga shkalla e emrave. Në shumë rast i thjeshtë Shpërndarja alternative "po - jo", "lejuar një defekt - nuk lejoi një defekt", "zgjidh një problem - nuk zgjidh një problem", etj. tashmë mund të zbatojmë kriterin χ 2. Sa më e madhe të jetë mospërputhja midis dy shpërndarjeve të krahasuara, aq më e madhe rëndësi empirikeχ 2. Llogaritja automatike e χ 2 - Kriteri Pearson Për të kryer llogaritjen automatike të kriterit χ 2 - Pearson, duhet të kryeni dy hapa: Hapi 1

. Specifikoni numrin e shpërndarjeve empirike (nga 1 në 10); Hapi 2. Futni frekuencat empirike në tabelë;

Hapi 3

. Merrni një përgjigje. Avantazhi i kriterit Pearson është universaliteti i tij: ai mund të përdoret për të testuar hipotezat rreth ligje të ndryshme shpërndarjet. 1. Testimi i hipotezës së shpërndarjes normale. Le të merret një mostër mjaft e madhe n Me

një numër i madh kuptime të ndryshme 1 kuptime të ndryshme 2 … opsion. Për lehtësinë e përpunimit të tij, ne e ndajmë intervalin nga vlera më e vogël në vlerën më të madhe të opsionit në

s Avantazhi i kriterit Pearson është universaliteti i tij: ai mund të përdoret për të testuar hipotezat rreth 1 Avantazhi i kriterit Pearson është universaliteti i tij: ai mund të përdoret për të testuar hipotezat rreth 2 … pjesë të barabarta dhe do të supozojmë se vlerat e opsioneve që bien në çdo interval janë afërsisht të barabarta me numrin që përcakton mesin e intervalit. Duke numëruar numrin e opsioneve që bien në çdo interval, ne do të krijojmë një mostër të ashtuquajtur të grupuar: ,

opsionet……….. X x s frekuencat…………. n s Ku x i



janë vlerat e pikave të mesit të intervaleve, dhe n i – numri i opsioneve të përfshira në i popullsia shpërndarë nëpër ligj normal me parametra M(X) = , D(X) = . Pastaj mund të gjeni numrin e numrave nga madhësia e mostrës Avantazhi i kriterit Pearson është universaliteti i tij: ai mund të përdoret për të testuar hipotezat rreth, e cila duhet të shfaqet në çdo interval sipas këtij supozimi (domethënë frekuencat teorike). Për ta bërë këtë, duke përdorur tabelën e vlerave të funksionit Laplace, gjejmë probabilitetin e hyrjes Ku intervali i th:

,

opsionet……….. dhe i Dhe b i- kufijtë i-intervali. Duke shumëzuar probabilitetet e marra me madhësinë e kampionit n, gjejmë frekuencat teorike: p i =n·p i.Qëllimi ynë është të krahasojmë frekuencat empirike dhe teorike, të cilat, natyrisht, ndryshojnë nga njëra-tjetra, dhe të zbulojmë nëse këto dallime janë të parëndësishme dhe nuk hedhin poshtë hipotezën e një shpërndarjeje normale të studimit. ndryshore e rastësishme, ose janë aq të mëdha saqë kundërshtojnë këtë hipotezë. Për këtë qëllim, përdoret një kriter në formën e një ndryshoreje të rastësishme

. (20.1)

Kuptimi i tij është i qartë: pjesët që janë katrorët e devijimeve janë përmbledhur frekuencat empirike nga teorike bëhen nga frekuencat teorike përkatëse. Mund të vërtetohet se, pavarësisht nga ligji real i shpërndarjes së popullatës, ligji i shpërndarjes së ndryshores së rastësishme (20.1) priret në ligjin e shpërndarjes (shih leksionin 12) me numrin e shkallëve të lirisë. k = s - 1 – r, Ku r– numri i parametrave të shpërndarjes së pritshme të vlerësuar nga të dhënat e mostrës. Prandaj, shpërndarja normale karakterizohet nga dy parametra k = s - 3. Për kriterin e përzgjedhur, ndërtohet një rajon kritik i djathtë, i përcaktuar nga kushti

(20.2)

opsionet……….. α – niveli i rëndësisë. Rrjedhimisht, rajoni kritik jepet nga pabarazia dhe zona e pranimit të hipotezës është .

Pra, për të testuar hipotezën zero N 0: popullsia shpërndahet normalisht - duhet të llogaritni vlerën e vëzhguar të kriterit nga kampioni:

, (20.1`)

dhe nga tabela e pikave kritike të shpërndarjes χ 2 gjeni pikë kritike duke përdorur vlerat e njohuraα dhe k = s - 3. Nëse - hipoteza zero pranohet, nëse refuzohet.

2. Testimi i hipotezës së shpërndarjes uniforme.

Kur përdorni testin Pearson për të testuar hipotezën se popullsia është e shpërndarë në mënyrë uniforme me densitetin e vlerësuar të probabilitetit

Është e nevojshme, pasi të keni llogaritur vlerën nga kampioni i disponueshëm, të vlerësohen parametrat A Dhe b sipas formulave:

opsionet……….. A* Dhe b*- vlerësimet A Dhe b. Në të vërtetë, për shpërndarje uniforme M(X) = , , ku mund të merrni një sistem për përcaktimin A* Dhe b*: , zgjidhja e të cilave janë shprehjet (20.3).

Pastaj, duke supozuar se , ju mund të gjeni frekuencat teorike duke përdorur formulat

Këtu n– numri i intervaleve në të cilat ndahet kampioni.

Vlera e vëzhguar e kriterit Pearson llogaritet duke përdorur formulën (20.1`), dhe vlera kritike llogaritet duke përdorur tabelën, duke marrë parasysh faktin se numri i shkallëve të lirisë k = s - 3. Pas kësaj, kufijtë e rajonit kritik përcaktohen në të njëjtën mënyrë si për testimin e hipotezës së një shpërndarje normale.

3. Testimi i hipotezës për shpërndarjen eksponenciale.

Në këtë rast, duke e ndarë kampionin ekzistues në intervale me gjatësi të barabartë, ne konsiderojmë një sekuencë opsionesh të ndara në mënyrë të barabartë nga njëra-tjetra (supozojmë se të gjitha opsionet që bien në Ku- intervali i th, merrni një vlerë që përkon me mesin e tij) dhe frekuencat e tyre përkatëse n i(numri i opsioneve të mostrës të përfshira në Ku– intervali i th). Le të llogarisim nga këto të dhëna dhe të marrim si një vlerësim të parametrit λ madhësia. Pastaj frekuencat teorike llogariten duke përdorur formulën

Pastaj të vëzhguarit dhe vlerë kritike Kriteri Pearson duke marrë parasysh faktin se numri i shkallëve të lirisë k = s - 2.

1. Treguesit e krahasueshëm duhet të maten në shkallë nominale(për shembull, gjinia e pacientit është mashkull ose femër) ose në rendore(për shembull, shkalla e hipertensionit arterial, duke marrë vlera nga 0 në 3).

2. Kjo metodë ju lejon të analizoni jo vetëm tabelat me katër fusha, kur si faktori ashtu edhe rezultati janë variabla binare, domethënë ato kanë vetëm dy vlerat e mundshme(për shembull, gjinia mashkullore ose femërore, prania ose mungesa e një sëmundjeje të caktuar në anamnezë...). Testi chi-square Pearson mund të përdoret gjithashtu në rastin e analizimit të tabelave me shumë fusha, kur një faktor dhe (ose) rezultat merr tre ose më shumë vlera.

3. Grupet e krahasuara duhet të jenë të pavarura, domethënë testi chi-square nuk duhet të përdoret kur krahasohen vëzhgimet “para-pas”. Testi i McNemar(kur krahasohen dy popullata të lidhura) ose të llogaritura Testi Q i Cochran(në rast krahasimi të tre ose më shumë grupeve).

4. Kur analizohen tabelat me katër fusha vlerat e pritura në çdo qelizë duhet të ketë të paktën 10. Nëse në të paktën një qelizë fenomeni i pritshëm merr një vlerë nga 5 në 9, testi chi-square duhet të llogaritet. me amendamentin e Yates. Nëse në të paktën një qelizë fenomeni i pritur është më pak se 5, atëherë analiza duhet të përdoret Testi i saktë i Fisher.

5. Gjatë analizimit të tabelave me shumë fusha, numri i pritshëm i vëzhgimeve nuk duhet të jetë më i vogël se 5 në më shumë se 20% të qelizave.

Për të llogaritur testin chi-square ju nevojiten:

1. Llogaritni numrin e pritur të vëzhgimeve për secilën qelizë të tabelës së kontigjencës (në varësi të vlefshmërisë së hipotezës zero të mungesës së marrëdhënies) duke shumëzuar shumat e rreshtave dhe kolonave dhe më pas duke e pjesëtuar produktin që rezulton me numri total vëzhgimet. Pamje e përgjithshme Tabela e vlerave të pritura është paraqitur më poshtë:

Ka një rezultat (1) Asnjë rezultat (0) Gjithsej
Ekziston një faktor rreziku (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Asnjë faktor rreziku (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Gjithsej A+C B+D A+B+C+D

2. Gjeni vlerën e kriterit χ 2 Nga formulën e mëposhtme:

opsionet……….. Ku- numri i rreshtit (nga 1 në r), j- numri i kolonës (nga 1 në c), O ij- numri aktual i vëzhgimeve në qelizën ij, E ij– numri i pritur i vëzhgimeve në qelizën ij.

Në rast se numri i fenomenit të pritshëm është më i vogël se 10 në të paktën një qelizë, kur analizohen tabelat me katër fusha, duhet të llogaritet test chi-square me korrigjim Yates. Ky ndryshim zvogëlon mundësinë e një gabimi të tipit 1, d.m.th., zbulimin e dallimeve aty ku nuk ka. Korrigjimi i Yates është të zbresë 0,5 nga vlerë absolute diferenca midis numrit aktual dhe atij të pritshëm të vëzhgimeve në çdo qelizë, e cila çon në një ulje të vlerës së testit chi-square.

Formula për llogaritjen e kriterit χ 2 me korrigjimin e Yates është si më poshtë:

3. Përcaktimi i numrit të shkallëve të lirisë sipas formulës: f = (r – 1) × (c – 1). Prandaj, për një tabelë me katër fusha me 2 rreshta (r = 2) dhe 2 kolona (c = 2), numri i shkallëve të lirisë është f 2x2 = (2 - 1)*(2 - 1) = 1.

4. Krahasojmë vlerën e kriterit χ 2 me vlerën kritike në numrin e shkallëve të lirisë f (sipas tabelës).

Ky algoritëm i zbatueshëm si për tabelat me katër fusha ashtu edhe për tabelat me shumë fusha.

Si të interpretohet vlera e testit chi-square Pearson?

Nëse vlera e fituar e kriterit χ 2 është më e madhe se vlera kritike, konkludojmë se ekziston një lidhje statistikore midis faktorit të rrezikut të studiuar dhe rezultatit në nivelin e duhur të rëndësisë.

Shembull i llogaritjes së testit chi-square Pearson

Le të përcaktojmë rëndësi statistikore ndikimi i faktorit të duhanit në incidencën e hipertensionit arterial sipas tabelës së diskutuar më sipër:

1. Llogaritni vlerat e pritura për secilën qelizë:

2. Gjeni vlerën e testit chi-square Pearson:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Numri i shkallëve të lirisë f = (2-1)*(2-1) = 1. Duke përdorur tabelën gjejmë vlerën kritike të testit chi-square Pearson, i cili në nivelin e rëndësisë p=0.05 dhe numri i shkallëve të lirisë 1 është 3.841.

4. Krahasojmë vlerën e përftuar të testit chi-square me atë kritike: 4,396 > 3,841, pra, varësia e incidencës së hipertensionit arterial nga prania e duhanpirjes është statistikisht e rëndësishme. Niveli i rëndësisë së kësaj marrëdhënieje korrespondon me p<0.05.

Numri i shkallëve të lirisë, f χ 2 në p=0.05 χ 2 në p=0.01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Në këtë shënim, shpërndarja χ 2 përdoret për të testuar konsistencën e një grupi të dhënash me një shpërndarje probabiliteti fiks. Kriteri i marrëveshjes shpesh O Ju që i përkisni një kategorie të caktuar krahasoheni me frekuencat që priten teorikisht nëse të dhënat në të vërtetë kishin shpërndarjen e specifikuar.

Testimi duke përdorur kriterin e përshtatshmërisë χ 2 kryhet në disa faza. Së pari, përcaktohet një shpërndarje specifike probabiliteti dhe krahasohet me të dhënat origjinale. Së dyti, parashtrohet një hipotezë në lidhje me parametrat e shpërndarjes së probabilitetit të zgjedhur (për shembull, pritshmëria e saj matematikore) ose kryhet vlerësimi i tyre. Së treti, në bazë të shpërndarjes teorike, përcaktohet probabiliteti teorik që i përgjigjet çdo kategorie. Së fundi, statistika e testit χ2 përdoret për të kontrolluar konsistencën e të dhënave dhe shpërndarjes:

opsionet……….. f 0- frekuenca e vëzhguar, f e- frekuenca teorike ose e pritshme, k- numri i kategorive të mbetura pas bashkimit, r- numri i parametrave që do të vlerësohen.

Shkarkoni shënimin në ose format, shembuj në format

Përdorimi i testit χ2 të mirësisë së përshtatjes për shpërndarjen Poisson

Për të llogaritur duke përdorur këtë formulë në Excel, është e përshtatshme të përdorni funksionin =SUMPRODUCT() (Fig. 1).

Për të vlerësuar parametrin λ ju mund të përdorni vlerësimin . Frekuenca teorike X suksese (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 dhe më shumë) që korrespondojnë me parametrin λ = 2.9 mund të përcaktohet duke përdorur funksionin =POISSON.DIST(X;;FALSE). Duke shumëzuar probabilitetin Poisson me madhësinë e kampionit n, marrim frekuencën teorike f e(Fig. 2).

Oriz. 2. Normat aktuale dhe teorike të mbërritjes për minutë

Siç vijon nga Fig. 2, frekuenca teorike e nëntë ose më shumë mbërritjeve nuk kalon 1.0. Për të siguruar që secila kategori përmban një frekuencë prej 1.0 ose më shumë, kategoria "9 ose më shumë" duhet të kombinohet me kategorinë "8". Kjo do të thotë, mbeten nëntë kategori (0, 1, 2, 3, 4, 5, 6, 7, 8 dhe më shumë). Meqenëse pritshmëria matematikore e shpërndarjes Poisson përcaktohet në bazë të të dhënave të mostrës, numri i shkallëve të lirisë është i barabartë me k – p – 1 = 9 – 1 – 1 = 7. Duke përdorur një nivel të rëndësisë prej 0,05, gjejmë vlera kritike e statistikës χ 2, e cila ka 7 gradë lirie sipas formulës =CHI2.OBR(1-0.05;7) = 14.067. Rregulli i vendimit formulohet si më poshtë: hipoteza H 0 refuzohet nëse χ 2 > 14.067, përndryshe hipoteza H 0 nuk devijon.

Për të llogaritur χ 2 përdorim formulën (1) (Fig. 3).

Oriz. 3. Llogaritja e kriterit χ 2 -mirësia e përshtatjes për shpërndarjen Poisson

Meqenëse χ 2 = 2,277< 14,067, следует, что гипотезу H 0 nuk mund të refuzohet. Me fjalë të tjera, nuk kemi arsye të pohojmë se ardhja e klientëve në bankë nuk i bindet shpërndarjes Poisson.

Zbatimi i testit χ2 -mirësisë së përshtatjes për shpërndarje normale

Në shënimet e mëparshme, gjatë testimit të hipotezave rreth variablave numerikë, ne supozuam se popullsia në studim ishte e shpërndarë normalisht. Për të kontrolluar këtë supozim, mund të përdorni mjete grafike, për shembull, një grafik kutie ose një grafik të shpërndarjes normale (për më shumë detaje, shihni). Në vëllime të mëdha mostra, për të testuar këto supozime, ju mund të përdorni testin e mirësisë së përshtatjes χ 2 për shpërndarje normale.

Le të shqyrtojmë, si shembull, të dhënat për kthimet 5-vjeçare të 158 fondeve investuese (Fig. 4). Supozoni se doni të besoni nëse të dhënat shpërndahen normalisht. Hipotezat zero dhe alternative janë formuluar si më poshtë: H 0: Rendimenti 5-vjeçar ndjek një shpërndarje normale, H 1: Rendimenti 5-vjeçar nuk ndjek një shpërndarje normale. Shpërndarja normale ka dy parametra - pritshmërinë matematikore μ dhe devijimi standardσ, e cila mund të vlerësohet bazuar në të dhënat e mostrës. NË në këtë rast = 10,149 dhe S = 4,773.

Oriz. 4. Një grup i porositur që përmban të dhëna për kthimin mesatar vjetor pesëvjeçar prej 158 fondesh

Të dhënat mbi kthimet e fondeve mund të grupohen, për shembull, në klasa (intervale) me gjerësi prej 5% (Fig. 5).

Oriz. 5. Shpërndarja e frekuencës për kthimet mesatare vjetore pesëvjeçare prej 158 fondesh

Meqenëse shpërndarja normale është e vazhdueshme, është e nevojshme të përcaktohet zona e shifrave të kufizuara nga kurba e shpërndarjes normale dhe kufijtë e secilit interval. Për më tepër, duke qenë se shpërndarja normale teorikisht varion nga –∞ në +∞, është e nevojshme të merret parasysh zona e formave jashtë kufijve të klasës. Pra, zona nën lakoren normale në të majtë të pikës –10 është e barabartë me sipërfaqen e figurës që shtrihet nën kurbën normale të standardizuar në të majtë të vlerës Z e barabartë me

Z = (–10 – 10,149) / 4,773 = –4,22

Zona e figurës që shtrihet nën lakoren normale të standardizuar në të majtë të vlerës Z = –4.22 përcaktohet me formulën =NORM.DIST(-10;10.149;4.773; E VËRTETË) dhe është afërsisht e barabartë me 0.00001. Për të llogaritur sipërfaqen e figurës që shtrihet nën kurbën normale midis pikave –10 dhe –5, së pari duhet të llogaritni sipërfaqen e figurës që shtrihet në të majtë të pikës –5: =NORM.DIST( -5,10,149,4,773, E VËRTETË) = 0,00075. Pra, zona e figurës që shtrihet nën lakoren normale midis pikave –10 dhe –5 është 0,00075 – 0,00001 = 0,00074. Në mënyrë të ngjashme, ju mund të llogarisni sipërfaqen e figurës të kufizuar nga kufijtë e secilës klasë (Fig. 6).

Oriz. 6. Zonat dhe frekuencat e pritura për çdo klasë të kthimeve 5-vjeçare

Mund të shihet se frekuencat teorike në katër klasat ekstreme (dy minimale dhe dy maksimale) janë më të vogla se 1, kështu që ne do t'i kombinojmë klasat, siç tregohet në figurën 7.

Oriz. 7. Llogaritjet e lidhura me përdorimin e testit të mirësisë χ 2 për shpërndarjen normale

Ne përdorim kriterin χ 2 për marrëveshjen e të dhënave me shpërndarje normale duke përdorur formulën (1). Në shembullin tonë, pas bashkimit, mbeten gjashtë klasa. Meqenëse vlera e pritur dhe devijimi standard vlerësohen nga të dhënat e mostrës, numri i shkallëve të lirisë është kfq – 1 = 6 – 2 – 1 = 3. Duke përdorur një nivel të rëndësisë prej 0,05, gjejmë se vlera kritike e statistikave χ 2, e cila ka tre shkallë lirie = CI2.OBR(1-0,05;F3) = 7,815. Llogaritjet e lidhura me përdorimin e kriterit χ 2 të përshtatshmërisë janë paraqitur në Fig. 7.

Mund të shihet se χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 nuk mund të refuzohet. Me fjalë të tjera, nuk kemi asnjë bazë për të pohuar se kthimet 5-vjeçare të fondeve të investimeve të fokusuara në rritje të lartë nuk i nënshtrohen një shpërndarjeje normale.

Në disa shënimet e fundit konsiderohen qasje të ndryshme për analizën e të dhënave kategorike. Përshkruhen metodat për testimin e hipotezave rreth të dhënave kategorike të marra nga analiza e dy ose më shumë mostrave të pavarura. Përveç testeve chi-square, merren parasysh procedurat joparametrike. Përshkruhet testi i gradës Wilcoxon, i cili përdoret në situatat kur nuk plotësohen kushtet e aplikimit t-kriteret për testimin e hipotezës së barazisë pritjet matematikore dy grupe të pavarura, si dhe testi Kruskal-Wallis, i cili është një alternativë ndaj një faktori analiza e variancës(Fig. 8).

Oriz. 8. Diagrami i bllokut metodat për testimin e hipotezave rreth të dhënave kategorike

Përdoren materiale nga libri Levin et al. – M.: Williams, 2004. – f. 763–769

Nëse vlera e fituar e kriterit χ 2 është më e madhe se vlera kritike, konkludojmë se ekziston një lidhje statistikore midis faktorit të rrezikut të studiuar dhe rezultatit në nivelin e duhur të rëndësisë.

Shembull i llogaritjes së testit chi-square Pearson

Le të përcaktojmë rëndësinë statistikore të ndikimit të faktorit të duhanit në incidencën e hipertensionit arterial duke përdorur tabelën e diskutuar më sipër:

1. Llogaritni vlerat e pritura për secilën qelizë:

2. Gjeni vlerën e testit chi-square Pearson:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Numri i shkallëve të lirisë f = (2-1)*(2-1) = 1. Duke përdorur tabelën gjejmë vlerën kritike të testit chi-square Pearson, i cili në nivelin e rëndësisë p=0.05 dhe numri i shkallëve të lirisë 1 është 3.841.

4. Krahasojmë vlerën e përftuar të testit chi-square me atë kritike: 4,396 > 3,841, pra, varësia e incidencës së hipertensionit arterial nga prania e duhanpirjes është statistikisht e rëndësishme. Niveli i rëndësisë së kësaj marrëdhënieje korrespondon me p<0.05.

Gjithashtu, testi Pearson chi-square llogaritet duke përdorur formulën

Por për një tabelë 2x2, rezultate më të sakta merren nga kriteri i korrigjimit të Yates

Nëse Se N(0) pranuar,

Në rast pranuar H(1)

Kur numri i vëzhgimeve është i vogël dhe qelizat e tabelës përmbajnë një frekuencë më të vogël se 5, testi chi-square nuk është i zbatueshëm dhe përdoret për të testuar hipotezat Testi i saktë i Fisher . Procedura për llogaritjen e këtij kriteri është mjaft punë intensive dhe në këtë rast është më mirë të përdoren programe kompjuterike të analizës statistikore.

Duke përdorur tabelën e emergjencës, mund të llogarisni masën e lidhjes midis dy karakteristikave cilësore - ky është koeficienti i lidhjes Yule P (analog me koeficientin e korrelacionit)

P shtrihet në intervalin nga 0 në 1. Një koeficient afër një tregon një lidhje të fortë midis karakteristikave. Nëse është e barabartë me zero, nuk ka lidhje .

Koeficienti ph katror (φ 2) përdoret në mënyrë të ngjashme

DETYRË E REPER

Tabela përshkruan lidhjen midis frekuencës së mutacioneve në grupet e Drosophila me dhe pa ushqyerje



Analiza e tabelës së kontigjencës

Për të analizuar tabelën e kontigjencës, parashtrohet një hipotezë H 0, d.m.th., mungesa e ndikimit të karakteristikës që studiohet në rezultatin e studimit. Për këtë, llogaritet frekuenca e pritur dhe ndërtohet një tabelë e pritjeve.

Tavolina e pritjes

grupe Të lashtat çilo Gjithsej
Ka dhënë mutacione Nuk dha mutacione
Frekuenca aktuale Frekuenca e pritshme Frekuenca aktuale Frekuenca e pritshme
Me të ushqyerit
Pa ushqyer
total

Metoda nr. 1

Përcaktoni frekuencën e pritjes:

2756 - X ;

2. 3561 – 3124

Nëse numri i vëzhgimeve në grupe është i vogël, kur përdoret X 2, në rastin e krahasimit të frekuencave aktuale dhe të pritshme për shpërndarje diskrete, shoqërohet disa pasaktësi për të zvogëluar pasaktësinë, përdoret korrigjimi Yates.

Ky postim nuk përgjigjet se si të llogaritet kriteri i katrorit Chi në parim, qëllimi i tij është të tregojë se si të automatizohet Llogaritja e katrorit Chi në excel, cilat funksione për llogaritjen e kriterit të katrorit Chi janë atje. Sepse nuk keni gjithmonë në dorë SPSS ose programin R.
Në një farë kuptimi, ky është një kujtesë dhe një aluzion për pjesëmarrësit e seminarit Analytics për HR, shpresoj që t'i përdorni këto metoda në punën tuaj, ky postim do të jetë një tjetër sugjerim.
Unë nuk e ofroj skedarin me një lidhje shkarkimi, por thjesht mund të kopjoni tabelat e shembujve që kam dhënë dhe të ndiqni të dhënat dhe formulat që kam dhënë

hyrëse

Për shembull, ne duam të kontrollojmë pavarësinë (rastësinë / jo rastësinë) e shpërndarjes së rezultateve të një sondazhi të korporatës, ku në rreshta janë përgjigjet për çdo pyetje në pyetësor, dhe në kolonat është shpërndarja sipas gjatësisë së shërbimi.

Ju shkoni për të llogaritur katrorin Chi përmes një tabele kryesore kur të dhënat tuaja përmblidhen në një tabelë konjugimi, për shembull në këtë formë
Tabela nr. 1

më pak se 1 vit

Shuma sipas rreshtave

Shuma sipas kolonave

Për të llogaritur katrorin Chi në Excel, ekzistojnë formulat e mëposhtme

CHI2.TESTI

Formula CH2.TEST llogarit probabilitetin e pavarësisë (rastësisë / jo rastësisë) të shpërndarjes

Sintaksa është si kjo

CHI2.TEST(intervali_aktual, intervali_i pritur)

Në rastin tonë, intervali aktual është përmbajtja e tabelës, d.m.th.

ato. Pasi kemi marrë dy tabela - empirike dhe të pritshme (ose frekuenca teorike) - ne në fakt e çlirojmë veten nga puna për të marrë diferencën, katrorin dhe llogaritjet e tjera, si dhe kontrollimin me tabelën e vlerave kritike.

Në rastin tonë, CHI2.DIST.PH = 0.000466219908895455, si në shembullin me CHI2.TEST

Shënim

Kjo formulë për llogaritjen e katrorit Chi në Excel do t'ju përshtatet për llogaritjen e tabelave me dimensione 2X2, pasi ju vetë e konsideroni katrorin Chi empirik dhe mund të futni një korrigjim të vazhdimësisë në llogaritjet

Shënim 2

Ekziston edhe një formulë CHI2.DIST (do ta shihni në mënyrë të pashmangshme në Excel) - llogarit probabilitetin e majtë (me fjalë të thjeshta, e majta konsiderohet si 1 - e djathta, d.m.th. ne thjesht kthehemi formula mbaroi, prandaj nuk e jap në llogaritjet Chi Square, në shembullin tonë CHI2.DIST = 0.999533780091105.
Gjithsej CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Rikthen inversin e probabilitetit djathtas të një shpërndarjeje chi-katrore (ose thjesht vlerën chi-katrore për një nivel të caktuar probabiliteti dhe numrin e shkallëve të lirisë)

Sinaksia

CH2.OBR.PH (probabilitet; shkallë_lirie)

konkluzioni

Për të qenë i sinqertë, nuk kam informacion të saktë për masën në të cilën janë marrë rezultatet Llogaritjet e katrorit Chi në Excel ndryshojnë nga rezultatet e katrorit Chi në SPSS. Unë e kuptoj saktësisht. se ato ndryshojnë, nëse vetëm sepse kur llogaritet në mënyrë të pavarur katrori Chi, vlerat rrumbullakohen dhe një numër i caktuar i numrave dhjetorë humbet. Por unë nuk mendoj se kjo është kritike. Unë rekomandoj të siguroheni vetëm në rastin kur probabiliteti i shpërndarjes së katrorit Chi është afër pragut (p-vlera) prej 0.05.

Nuk është shumë interesante që korrigjimi i vazhdimësisë të mos merret parasysh - ne llogarisim shumë në tabelat 2X2. Prandaj, nuk arrijmë pothuajse asnjë optimizim në rastin e llogaritjes së tabelave 2X2

Epo, megjithatë, unë mendoj se njohuritë e dhëna janë të mjaftueshme për të bërë llogaritjen e katrorit Chi në Excel pak më shpejt në mënyrë që të kurseni kohë për gjëra më të rëndësishme.



Ju pëlqeu artikulli? Ndani me miqtë tuaj!