Formula popolne verjetnosti: teorija in primeri reševanja problemov. Določanje verjetnosti dogodka in statistične porazdelitve

Uporaba tega kriterija temelji na uporabi takšne mere (statistike) neskladja med teoretičnim F(x) in empirična porazdelitev F* p (x) , ki približno upošteva zakon distribucije χ 2 . Hipoteza n 0 Konsistentnost distribucij se preveri z analizo distribucije teh statistik. Uporaba merila zahteva izdelavo statistične serije.

Torej naj bo vzorec predstavljen statistično poleg števila števk M. Opazovana stopnja zadetkov jaz- mesto n jaz. V skladu s teoretičnim distribucijskim zakonom je pričakovana frekvenca zadetkov v jaz-ta kategorija je F jaz. Razlika med opazovano in pričakovano frekvenco bo ( n jazF jaz). Najti splošne stopnje neskladja med F(x) In F* p (x) je treba izračunati tehtano vsoto kvadratov razlik med vsemi števkami statističnega niza

Vrednost χ 2 z neomejeno povečavo n ima porazdelitev χ 2 (asimptotično porazdeljeno kot χ 2). Ta porazdelitev je odvisna od števila svobodnih stopenj k, tj. število neodvisnih vrednosti členov v izrazu (3.7). Število prostostnih stopinj je enako številu l minus število linearne povezave, naložen na vzorec. Ena povezava obstaja zaradi dejstva, da je katero koli frekvenco mogoče izračunati iz celotne frekvence v preostalih M–1 števke. Poleg tega, če parametri porazdelitve niso znani vnaprej, obstaja še ena omejitev zaradi prilagajanja porazdelitve vzorcu. Če vzorec določi S parametrov porazdelitve, potem bo število prostostnih stopinj k= MS–1.

Območje sprejemljivosti hipotez n 0 je določen s pogojem χ 2 < χ 2 (k; a) , kjer je χ 2 (k; a) – kritična točka porazdelitve χ2 s stopnjo pomembnosti a. Verjetnost napake tipa I je a, verjetnosti napake tipa II ni mogoče jasno definirati, ker obstaja neskončno veliko različnih načinov, na katere se distribucije morda ne ujemajo. Moč testa je odvisna od števila števk in velikosti vzorca. Merilo je priporočljivo uporabiti, ko n>200, uporaba je dovoljena, ko n>40, je pod takšnimi pogoji kriterij veljaven (praviloma zavrača nepravilno ničelno hipotezo).

Algoritem za preverjanje po kriteriju

1. Izdelajte histogram z uporabo metode enake verjetnosti.

2. Na podlagi videza histograma postavite hipotezo

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

Kje f 0 (x) - gostota verjetnosti hipotetičnega zakona porazdelitve (na primer enakomerna, eksponentna, normalna).

Komentiraj. Hipotezo o eksponentnem zakonu porazdelitve je mogoče postaviti, če so vsa števila v vzorcu pozitivna.

3. Izračunajte vrednost kriterija po formuli

,

Kje
stopnja zadetkov jaz-th interval;

str jaz- teoretična verjetnost padca naključne spremenljivke jaz- th interval pod pogojem, da je hipoteza H 0 je pravilno.

Formule za izračun str jaz v primeru eksponentnega, enotnega in normalni zakoni oziroma enako.

eksponentni zakon

. (3.8)

pri čemer A 1 = 0, B m = +¥.

Enotno pravo

Normalno pravo

. (3.10)

pri čemer A 1 = -¥, B M = +¥.

Opombe. Po izračunu vseh verjetnosti str jaz preverite, ali je referenčna relacija izpolnjena

Funkcija Ф( X) - Čuden. Ф(+¥) = 1.

4. V tabeli hi-kvadrat v dodatku izberite vrednost
, kjer je a določena stopnja pomembnosti (a = 0,05 ali a = 0,01) in k- število prostostnih stopinj, določeno s formulo

k = M - 1 - S.

Tukaj S- število parametrov, od katerih je odvisna izbrana hipoteza H 0 distribucijski zakon. Vrednote S Za enotno pravo je enako 2, za eksponentno - 1, za normalno - 2.

5. Če
, potem hipoteza H 0 je zavrnjen. V nasprotnem primeru ni razloga, da bi ga zavrnili: z verjetnostjo 1 - b je res, z verjetnostjo - b pa je nepravilen, vendar vrednost b ni znana.

Primer3 . 1. Z uporabo kriterija c 2 postavite in preizkusite hipotezo o distribucijskem zakonu naključne spremenljivke X, katerih variacijske serije, intervalne tabele in porazdelitveni histogrami so podani v primeru 1.2. Raven pomembnosti a je 0,05.

rešitev . Na podlagi videza histogramov smo postavili hipotezo, da naključna vrednost X porazdeljeno po običajnem zakonu:

H 0: f(x) = n(m, s);

H 1: f(x) ¹ n(m, s).

Vrednost merila se izračuna po formuli:

(3.11)

Kot je navedeno zgoraj, je pri testiranju hipoteze bolje uporabiti histogram enake verjetnosti. V tem primeru

Teoretične verjetnosti str jaz Računamo po formuli (3.10). Hkrati verjamemo, da

str 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

str 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

str 3 = 0,094; str 4 = 0,135; str 5 = 0,118; str 6 = 0,097; str 7 = 0,073; str 8 = 0,059; str 9 = 0,174;

str 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Po tem preverimo izpolnjevanje kontrolnega razmerja

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Po tem iz tabele "hi-kvadrat" izberemo kritična vrednost

.

Ker
potem pa hipoteza H 0 je sprejet (ni razloga za zavrnitev).

Pearsonov χ 2 test je neparametrična metoda, ki omogoča oceno pomembnosti razlik med dejanskim (razkritim kot rezultat študije) številom izidov oz. kakovostne lastnosti vzorcev, ki spadajo v vsako kategorijo, in teoretično število, ki bi ga pričakovali v preučevanih skupinah, če bi bila ničelna hipoteza resnična. Preprosto povedano, metoda vam omogoča oceno statistična pomembnost razlike med dvema ali več relativni indikatorji(frekvence, deleži).

1. Zgodovina razvoja kriterija χ 2

Hi-kvadrat test za analizo kontingenčnih tabel je leta 1900 razvil in predlagal angleški matematik, statistik, biolog in filozof, ustanovitelj matematična statistika in eden od utemeljiteljev biometrije Karl Pearson(1857-1936).

2. Zakaj se uporablja Pearsonov test χ 2?

Pri analizi se lahko uporabi test hi-kvadrat kontingenčne tabele ki vsebuje podatke o pogostosti izidov glede na prisotnost dejavnika tveganja. na primer štiripoljska kontingenčna tabela kot sledi:

Obstaja izid (1) Brez izida (0) Skupaj
Obstaja dejavnik tveganja (1) A B A+B
Ni dejavnika tveganja (0) C D C+D
Skupaj A+C B+D A+B+C+D

Kako izpolniti takšno tabelo nepredvidljivih dogodkov? Poglejmo majhen primer.

Poteka študija o vplivu kajenja na tveganje za razvoj arterijske hipertenzije. V ta namen sta bili izbrani dve skupini preiskovancev - v prvi je bilo 70 ljudi, ki pokadijo vsaj 1 škatlico cigaret dnevno, v drugi pa 80 nekadilcev iste starosti. V prvi skupini je imelo visok krvni tlak 40 ljudi. V drugi pa so arterijsko hipertenzijo opazili pri 32 ljudeh. V skladu s tem je bil normalen krvni tlak v skupini kadilcev pri 30 osebah (70 - 40 = 30), v skupini nekadilcev pa pri 48 (80 - 32 = 48).

Izpolnimo kontingenčno tabelo štirih polj z začetnimi podatki:

V kontingenčni tabeli vsaka vrstica ustreza določeni skupini predmetov. Stolpci - prikazujejo število ljudi z arterijsko hipertenzijo ali normalno krvni pritisk.

Naloga, ki je zastavljena raziskovalcu, je: Ali obstajajo statistično značilne razlike med pogostostjo ljudi s krvnim tlakom med kadilci in nekadilci? Na to vprašanje je mogoče odgovoriti z izračunom Pearsonovega testa hi-kvadrat in primerjavo dobljene vrednosti s kritično.

3. Pogoji in omejitve za uporabo Pearsonovega hi-kvadrat testa

  1. Primerljive kazalnike je treba meriti v nazivna lestvica(na primer, pacientov spol je moški ali ženska) ali v vrstni red(na primer stopnja arterijske hipertenzije z vrednostmi od 0 do 3).
  2. Ta metoda vam omogoča analizo ne samo tabel s štirimi polji, ko sta faktor in rezultat binarni spremenljivki, to pomeni, da imata samo dve možne vrednosti(na primer moški ali ženski spol, prisotnost ali odsotnost določene bolezni v anamnezi ...). Pearsonov hi-kvadrat test se lahko uporablja tudi v primeru analize tabel z več področji, ko ima faktor in (ali) rezultat tri ali več vrednosti.
  3. Skupine, ki jih primerjamo, morajo biti neodvisne, kar pomeni, da se test hi-kvadrat ne sme uporabljati pri primerjavi opazovanj prej in potem. McNemarjev test(pri primerjavi dveh povezanih populacij) ali izračunano Cochranov Q test(v primeru primerjave treh ali več skupin).
  4. Pri analizi štiripoljskih tabel pričakovane vrednosti v vsaki celici jih mora biti vsaj 10. Če vsaj v eni celici pričakovani pojav dobi vrednost od 5 do 9, je treba izračunati test hi-kvadrat z Yatesovim amandmajem. Če je vsaj v eni celici pričakovani pojav manjši od 5, je treba analizo uporabiti Fisherjev natančen test.
  5. Pri analizi večpoljskih tabel pričakovano število opazovanj ne sme biti manjše od 5 v več kot 20 % celic.

4. Kako izračunati Pearsonov test hi-kvadrat?

Za izračun testa hi-kvadrat morate:

Ta algoritem je uporaben za tabele s štirimi polji in za tabele z več polji.

5. Kako razlagati vrednost Pearsonovega hi-kvadrat testa?

Če je dobljena vrednost kriterija χ 2 večja od kritične vrednosti, sklepamo, da obstaja statistična povezava med proučevanim dejavnikom tveganja in izidom na ustrezni stopnji pomembnosti.

6. Primer izračuna Pearsonovega hi-kvadrat testa

Določimo statistično pomembnost vpliva dejavnika kajenja na pojavnost arterijske hipertenzije s pomočjo zgoraj obravnavane tabele:

  1. Izračunamo pričakovane vrednosti za vsako celico:
  2. Poiščite vrednost Pearsonovega hi-kvadrat testa:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Število prostostnih stopinj f = (2-1)*(2-1) = 1. S pomočjo tabele poiščemo kritično vrednost Pearsonovega hi-kvadrat testa, ki pri stopnji pomembnosti p=0,05 in številu prostostnih stopenj 1 je 3,841.
  4. Dobljeno vrednost hi-kvadrat testa primerjamo s kritično: 4,396 > 3,841, zato je odvisnost pojavnosti arterijske hipertenzije od prisotnosti kajenja statistično značilna. Stopnja pomembnosti tega odnosa ustreza str<0.05.

Ta objava ne odgovarja, kako načeloma izračunati kriterij hi kvadrat, njen namen je pokazati, kako avtomatizirati Izračun hi kvadrat v excelu, katere funkcije za izračun kriterija hi kvadrat obstajajo. Ker nimate vedno pri roki SPSS ali programa R.
V nekem smislu je to opomnik in namig udeležencem seminarja Analitika za HR, upam, da te metode uporabljate pri svojem delu, ta objava bo še en namig.
Datoteki ne nudim povezave za prenos, lahko pa preprosto kopirate vzorčne tabele, ki sem jih navedel, in sledite podatkom in formulam, ki sem jih navedel

Uvodna

Želimo na primer preveriti neodvisnost (naključnost/nenaključnost) porazdelitve rezultatov korporativne raziskave, kjer so v vrsticah odgovori na poljubno vprašanje v vprašalniku, v stolpcih pa porazdelitev po dolžini storitev.

Hi kvadrat izračunate prek vrtilne tabele, ko so vaši podatki povzeti v konjugacijski tabeli, na primer v tej obliki
Tabela št. 1

manj kot 1 leto

Seštej po vrsticah

Seštej po stolpcih

Za izračun hi kvadrata v Excelu obstajajo naslednje formule

CHI2.TEST

Formula CH2.TEST izračuna verjetnost neodvisnosti (naključnost/nenaključnost) porazdelitve

Sintaksa je takšna

CHI2.TEST(dejanski_interval, pričakovan_interval)

V našem primeru je dejanski interval vsebina tabele, tj.

Tisti. Ko prejmemo dve tabeli - empirično in pričakovano (ali teoretično frekvenco) - se dejansko razbremenimo dela pridobivanja razlike, kvadriranja in drugih izračunov ter preverjanja s tabelo kritičnih vrednosti.

V našem primeru je CHI2.DIST.PH = 0,000466219908895455, kot v primeru s CHI2.TEST

Opomba

Ta formula za izračun hi kvadrata v Excelu vam bo ustrezala za izračun tabel dimenzij 2X2, saj sami menite, da je hi kvadrat empiričen in lahko v izračune vnesete popravek kontinuitete

Opomba 2

Obstaja tudi formula CHI2.DIST (neizogibno jo boste videli v Excelu) - izračuna levostransko verjetnost (preprosto povedano, levo stran šteje za 1 - desnostransko, tj. preprosto obrnemo formule konec, zato je ne dajem v izračunih hi kvadrat, v našem primeru CHI2.DIST = 0,999533780091105.
Skupaj CH2.DIST + CH2.DIST.PH = 1.

CH2.OBR.PH

Vrne obratno vrednost desnorepe verjetnosti porazdelitve hi-kvadrat (ali preprosto vrednost hi-kvadrat za določeno raven verjetnosti in število prostostnih stopinj)

Sinaksija

CH2.OBR.PH(verjetnost;stopinje_svobode)

Zaključek

Iskreno povedano, nimam natančnih informacij o tem, v kolikšni meri so rezultati doseženi Izračun hi kvadrat v excelu razlikujejo od rezultatov hi kvadrata v SPSS. Točno razumem. da se razlikujejo že zato, ker se pri samostojnem izračunu hi kvadrata vrednosti zaokrožijo in izgubi določeno število decimalnih mest. Ampak mislim, da to ni kritično. Zavarovanje priporočam le v primeru, ko je verjetnost porazdelitve hi kvadrat blizu praga (p-vrednosti) 0,05.

Ni zelo kul, da se popravek kontinuitete ne upošteva - veliko izračunamo v tabelah 2X2. Zato v primeru izračuna tabel 2X2 ne dosežemo skoraj nobene optimizacije

No, kljub temu menim, da je zgornje znanje dovolj, da je izračun hi kvadrata v Excelu nekoliko hitrejši in tako prihranimo čas pri pomembnejših stvareh

Če je dobljena vrednost kriterija χ 2 večja od kritične vrednosti, sklepamo, da obstaja statistična povezava med proučevanim dejavnikom tveganja in izidom na ustrezni stopnji pomembnosti.

Primer izračuna Pearsonovega hi-kvadrat testa

Določimo statistično pomembnost vpliva dejavnika kajenja na pojavnost arterijske hipertenzije s pomočjo zgoraj obravnavane tabele:

1. Izračunajte pričakovane vrednosti za vsako celico:

2. Poiščite vrednost Pearsonovega hi-kvadrat testa:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Število prostostnih stopinj f = (2-1)*(2-1) = 1. S pomočjo tabele poiščemo kritično vrednost Pearsonovega hi-kvadrat testa, ki pri stopnji pomembnosti p=0,05 in število prostostnih stopinj 1 je 3,841.

4. Dobljeno vrednost hi-kvadrat testa primerjamo s kritično: 4,396 > 3,841, torej je odvisnost pojavnosti arterijske hipertenzije od prisotnosti kajenja statistično pomembna. Stopnja pomembnosti tega odnosa ustreza str<0.05.

Tudi Pearsonov test hi-kvadrat se izračuna po formuli

Toda za tabelo 2x2 so natančnejši rezultati pridobljeni z Yatesovim korekcijskim kriterijem

če to N(0) sprejeto,

Kdaj sprejeto H(1)

Če je število opazovanj majhno in celice tabele vsebujejo frekvenco, manjšo od 5, test hi-kvadrat ni uporaben in se uporablja za preverjanje hipotez Fisherjev natančen test . Postopek izračuna tega merila je precej delovno intenziven in v tem primeru je bolje uporabiti programe za računalniško statistično analizo.

S pomočjo kontingenčne tabele lahko izračunate mero povezave med dvema kvalitativnima karakteristikama - to je koeficient Yule asociacije Q (analogno korelacijskemu koeficientu)

Q leži v območju od 0 do 1. Koeficient blizu ena kaže na močno povezavo med značilnostmi. Če je enak nič, povezave ni .

Podobno se uporablja koeficient phi-kvadrat (φ 2).

PRIMERJALNA NALOGA

Tabela opisuje razmerje med frekvenco mutacij v skupinah Drosophila s hranjenjem in brez njega



Analiza kontingenčne tabele

Za analizo kontingenčne tabele je postavljena hipoteza H 0, tj. odsotnost vpliva proučevane značilnosti na rezultat študije. Za to se izračuna pričakovana frekvenca in sestavi tabela pričakovanj.

Čakalna miza

skupine Pridelki Chilo Skupaj
Dala mutacije Ni dal mutacij
Dejanska frekvenca Pričakovana frekvenca Dejanska frekvenca Pričakovana frekvenca
S hranjenjem
Brez hranjenja
Skupaj

Metoda št. 1

Določite pogostost čakanja:

2756 – X ;

2. 3561 – 3124

Če je število opazovanj v skupinah majhno, je pri uporabi X 2 v primeru primerjave dejanskih in pričakovanih frekvenc z diskretnimi porazdelitvami povezana določena netočnost, da se zmanjša netočnost, uporabi se Yatesov popravek.

Kvantitativno preučevanje bioloških pojavov nujno zahteva ustvarjanje hipotez, s katerimi bi lahko te pojave pojasnili. Za preverjanje ene ali druge hipoteze se izvede vrsta posebnih poskusov in dejanski pridobljeni podatki se primerjajo s teoretično pričakovanimi v skladu s to hipotezo. Če gre za naključje, je to lahko zadosten razlog za sprejem hipoteze. Če se eksperimentalni podatki ne ujemajo dobro s teoretično pričakovanimi, se pojavi velik dvom o pravilnosti postavljene hipoteze.

Stopnja, do katere dejanski podatki ustrezajo pričakovanim (hipotetičnim), se meri s testom hi-kvadrat:

- dejanska opazovana vrednost karakteristike v jaz- to; teoretično pričakovano število ali znak (indikator) za dano skupino, k-število podatkovnih skupin.

Kriterij je leta 1900 predlagal K. Pearson in se včasih imenuje Pearsonov kriterij.

Naloga. Med 164 otroki, ki so podedovali faktor od enega starša in faktor od drugega, je bilo 46 otrok s faktorjem, 50 s faktorjem, 68 z obema. Izračunajte pričakovane frekvence za razmerje 1:2:1 med skupinami in s Pearsonovim testom določite stopnjo ujemanja empiričnih podatkov.

rešitev: Razmerje opazovanih frekvenc je 46:68:50, teoretično pričakovano 41:82:41.

Nastavimo raven pomembnosti na 0,05. Tabelarna vrednost Pearsonovega kriterija za to stopnjo pomembnosti z enakim številom prostostnih stopenj je bila 5,99. Zato je hipotezo o ujemanju eksperimentalnih podatkov s teoretičnimi podatki mogoče sprejeti, saj .

Upoštevajte, da pri izračunu hi-kvadrat testa ne postavljamo več pogojev za nepogrešljivo normalnost porazdelitve. Preizkus hi-kvadrat lahko uporabimo za vse porazdelitve, ki jih lahko prosto izberemo v svojih predpostavkah. Obstaja nekaj univerzalnosti tega kriterija.

Druga uporaba Pearsonovega testa je primerjava empirične porazdelitve z Gaussovo normalno porazdelitvijo. Poleg tega ga lahko uvrstimo v skupino kriterijev za preverjanje normalnosti porazdelitve. Edina omejitev je dejstvo, da mora biti skupno število vrednosti (opcij) pri uporabi tega kriterija dovolj veliko (vsaj 40), število vrednosti v posameznih razredih (intervalih) pa vsaj 5. V nasprotnem primeru je treba sosednje intervale združiti. Število prostostnih stopinj pri preverjanju normalnosti porazdelitve je treba izračunati kot:.

    1. Fisherjev kriterij.

Ta parametrični test se uporablja za preverjanje ničelne hipoteze, da so variance normalno porazdeljenih populacij enake.

oz.

Pri majhnih vzorcih je lahko uporaba Studentovega testa pravilna le, če so variance enake. Zato je treba pred testiranjem enakosti vzorčnih povprečij zagotoviti veljavnost uporabe Studentovega t testa.

Kje n 1 , n 2 velikosti vzorcev, 1 , 2 število prostostnih stopinj za te vzorce.

Pri uporabi tabel je treba paziti, da je število prostostnih stopinj za vzorec z večjo disperzijo izbrano kot številka stolpca tabele, za manjšo disperzijo pa kot številka vrstice tabele.

Za stopnjo pomembnosti  poiščemo vrednost tabele iz tabel matematične statistike. Če, potem je hipoteza o enakosti varianc za izbrano stopnjo pomembnosti zavrnjena.

Primer. Proučevali so vpliv kobalta na telesno težo kuncev. Poskus smo izvedli na dveh skupinah živali: poskusni in kontrolni. Preiskovanci so prejemali prehransko dopolnilo v obliki vodne raztopine kobaltovega klorida. Med poskusom je bilo povečanje telesne mase v gramih:

Nadzor



Vam je bil članek všeč? Delite s prijatelji!