Spręsti uždavinius apie smūgių tikimybę šūvių metu. Įvykio tikimybės ir statistinio skirstinio nustatymas

Kriterijaus aprašymas

Kriterijaus paskirtis

Pirsono chi kvadrato testas

Paskaitų medžiaga

6 tema. Požymio pasiskirstymo skirtumų nustatymas

Pearsono kriterijus: kriterijaus tikslas, jo aprašymas, taikymo sritis, skaičiavimo algoritmas.

Kolmogorovo-Smirnovo testas rezultatams palyginti kiekybinis matavimas: kriterijaus tikslas, jo aprašymas, apimtis, skaičiavimo algoritmas.

Nagrinėjant šią temą, būtina atsižvelgti į tai, kad abu kriterijai yra neparametriniai, jie veikia su dažniais. Prašome sumokėti ypatingas dėmesys dėl sprendimo taisyklių pagal svarstomus kriterijus: šios taisyklės gali būti priešingos. Atidžiai peržiūrėkite kriterijų taikymo apribojimus.

Išstudijavę paskaitos medžiagą, atsakykite į testo klausimai, užsirašykite atsakymus į pastabas.

Pearsono chi kvadrato testas gali išspręsti keletą problemų, įskaitant paskirstymų palyginimą.

χ 2 testas naudojamas dviem tikslais;

1) palyginimui empirinis charakteristikos pasiskirstymas su teorinis - vienodas, įprastas ar kitoks;

2) palyginimui du, trys ar daugiau empirinių tos pačios charakteristikos skirstiniai, ty patikrinti jų vienalytiškumą;

3) įvertinti stochastinę (tikimybinę) nepriklausomybę sistemoje atsitiktiniai įvykiai ir tt

χ 2 kriterijus atsako į klausimą, ar jie atsiranda vienodai dažnai skirtingos reikšmės pasirašyti empirinį ir teoriniai skirstiniai arba dviem ar daugiau empirinių skirstinių.

Metodo privalumas yra tas, kad jis leidžia palyginti bet kokio masto požymių pasiskirstymą, pradedant nuo pavadinimų skalės. Pačioje paprastas atvejis alternatyvus skirstymas („taip – ​​ne“, „leistas defektas – neleido defektuoti“, „išsprendė problemą – neišsprendė problemos“ ir kt.), jau galime taikyti χ 2 kriterijų.

1. Imties dydis turi būti pakankamai didelis: N>30. Kai N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Teorinis kiekvienos lentelės langelio dažnis turi būti ne mažesnis kaip 5: f ≥ 5 . Tai reiškia, kad jei skaitmenų skaičius yra iš anksto nustatytas ir jo negalima pakeisti, mes negalime taikyti χ 2 metodo , nesukaupus tam tikro minimalaus stebėjimų skaičiaus. Jei, pavyzdžiui, norime patikrinti savo prielaidas, kad skambučių į Trust telefono paslaugą dažnis pasiskirsto netolygiai per 7 savaitės dienas, tuomet mums reikės 5-7 = 35 skambučių. Taigi, jei skaitmenų skaičius (k) pateiktas iš anksto, kaip ir šiuo atveju, minimalus stebėjimų skaičius (N min) nustatomas pagal formulę: .



3. Pasirinktos kategorijos turi „išsemti“ visą pasiskirstymą, tai yra aprėpti visą charakteristikų kintamumo diapazoną. Šiuo atveju grupavimas į kategorijas turi būti vienodas visuose palyginamuose skirstiniuose.

4. Lyginant ypatybių, kurios turi tik 2 reikšmes, skirstinius, būtina atlikti „nepertraukiamumo korekciją“. Atliekant pataisą, χ 2 reikšmė mažėja (žr. pavyzdį su tęstinumo korekcija).

5. Kategorijos turi būti nepersidengusios: jei stebėjimas priskiriamas vienai kategorijai, tai jis nebegali būti priskirtas jokiai kitai kategorijai. Stebėjimų suma pagal rangą visada turi būti lygi bendram stebėjimų skaičiui.

χ 2 kriterijaus apskaičiavimo algoritmas

1. Sukurkite tokio tipo požymių reikšmių abipusio konjugavimo lentelę (iš esmės tai yra dvimatė variacijų serija, kurioje nurodomi jungtinių požymių reikšmių atsiradimo dažniai) – 19 lentelė. sąlyginius dažnius, kuriuos bendra forma žymėsime f ij. Pavyzdžiui, charakteristikos gradacijų skaičius X lygus 3 (k=3), charakteristikos gradacijų skaičiui adresu lygus 4 (m=4); Tada i svyruoja nuo 1 iki k ir j svyruoja nuo 1 iki m.

19 lentelė

x i y j x 1 x 2 x 3
1 val f 11 f 21 f 31 f –1
2 val f 12 f 22 f 32 f –2
3 val f 13 f 23 f 33 f –3
4 val f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Toliau, skaičiavimų patogumui, originalią abipusio atsitiktinumo lentelę paverčiame tokios formos lentele (20 lentelė), stulpelius su sąlyginiais dažniais išdėstydami vieną po kito: Įveskite į lentelę kategorijų pavadinimus (1 ir 2 stulpeliai) ir atitinkamus empirinius dažnius (3 stulpelis).

20 lentelė

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 1 val f 11 f 11*
x 1 2 val f 12 f 12*
x 1 3 val f 13 f 13*
x 1 4 val f 14 f 14*
x 2 1 val f 21 f 21*
x 2 2 val f 22 f 22*
x 2 3 val f 23 f 23*
x 2 4 val f 24 f 24 *
x 3 1 val f 31 f 31*
x 3 2 val f 32 f 32*
x 3 3 val f 33 f 33*
x 3 4 val f 34 f 34*
∑=………….

3. Šalia kiekvieno empirinio dažnio užrašykite teorinį dažnį (4 stulpelis), kuris apskaičiuojamas pagal šią formulę (bendrieji dažniai atitinkamoje eilutėje dauginami iš bendro dažnio atitinkamame stulpelyje ir padalyti iš viso pastebėjimai):

5. Nustatykite laisvės laipsnių skaičių pagal formulę: ν=(k-1)(m-1) , Kur k- atributo skaitmenų skaičius X, m - ženklo skaitmenų skaičius adresu.

Jei ν=1, pataisykite „tęstinumą“ ir parašykite jį 5a stulpelyje.

Tęstinumo korekcija susideda iš dar 0,5 atėmimo iš skirtumo tarp sąlyginio ir teorinio dažnio. Tada mūsų lentelės stulpelių antraštės atrodys taip (21 lentelė):

21 lentelė

X adresu f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. Palyginkite gautus skirtumus kvadratu ir įveskite juos 6 stulpelyje.

7. Gautus skirtumus kvadratu padalykite iš teorinio dažnio ir rezultatus surašykite 7 stulpelyje.

8. Sumuokite 7 stulpelio reikšmes. Gauta suma žymima χ 2 em.

9. Sprendimo taisyklė:

Apskaičiuota kriterijaus reikšmė turi būti lyginama su kritine (arba lentelėje pateikta) verte. Kritinė vertė priklauso nuo laisvės laipsnių skaičiaus pagal Pearson χ 2 kriterijaus kritinių verčių lentelę (žr. 1.6 priedą).

Jei χ 2 apskaičiuota ≥ χ 2 lentelė, tai skirtumai tarp skirstinių yra statistiškai reikšmingi arba charakteristikos kinta nuosekliai, arba ryšys tarp charakteristikų yra statistiškai reikšmingas.

Jei χ 2 apskaičiuojamas< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

23. Chi kvadrato ir Studento skirstinio samprata ir grafinis vaizdas

1) Skirstinys (chi kvadratas), turintis n laisvės laipsnių, yra n nepriklausomų standartinių normaliųjų atsitiktinių dydžių kvadratų sumos skirstinys.

Pasiskirstymas (chi kvadratas)– paskirstymas atsitiktinis kintamasis(ir kiekvieno iš jų matematinis lūkestis yra 0, o standartinis nuokrypis yra 1)

kur yra atsitiktiniai dydžiai nepriklausomi ir turi tą patį pasiskirstymą. Šiuo atveju terminų skaičius, t.y., vadinamas chi kvadrato skirstinio „laisvės laipsnių skaičiumi“. Chi kvadrato skaičius nustatomas pagal vieną parametrą – laisvės laipsnių skaičių. Didėjant laisvės laipsnių skaičiui, pasiskirstymas pamažu artėja prie normalaus.

Tada jų kvadratų suma

yra atsitiktinis dydis, paskirstytas pagal vadinamąjį chi kvadrato dėsnį su k = n laisvės laipsnių; jei terminai yra susiję kokiu nors ryšiu (pavyzdžiui, ), tai laisvės laipsnių skaičius k = n – 1.

Šio skirstinio tankis

Čia - gama funkcija; konkrečiai, Г(n + 1) = n! .

Todėl chi kvadrato skirstinį lemia vienas parametras – laisvės laipsnių skaičius k.

Pastaba 1. Didėjant laisvės laipsnių skaičiui, chi kvadrato skirstinys palaipsniui artėja prie normalaus.

Pastaba 2. Naudojant chi kvadrato skirstinį, nustatoma daug kitų praktikoje sutinkamų skirstinių, pavyzdžiui, atsitiktinio dydžio skirstinys - atsitiktinio vektoriaus ilgis (X1, X2,..., Xn), koordinatės kurios yra nepriklausomos ir paskirstytos pagal įprastą dėsnį.

Pirmieji χ2 pasiskirstymą nagrinėjo R. Helmertas (1876) ir K. Pearsonas (1900).

Math.expect.=n; D = 2n

2) Studentų paskirstymas

Apsvarstykite du nepriklausomus atsitiktinius dydžius: Z, kuris turi normalųjį pasiskirstymą ir yra normalizuotas (ty M(Z) = 0, σ(Z) = 1), ir V, kuris paskirstytas pagal chi kvadrato dėsnį su k laisvės laipsnių. Tada vertė

turi skirstinį, vadinamą t skirstiniu arba Stjudento skirstiniu su k laisvės laipsniais. Šiuo atveju k vadinamas Studento skirstinio „laisvės laipsnių skaičiumi“.

Didėjant laisvės laipsnių skaičiui, Studento pasiskirstymas greitai artėja prie normalaus.

Tokį skirstymą 1908 metais įvedė anglų statistikas W. Gossetas, dirbęs alaus fabrike. Šioje gamykloje ekonominiams ir techniniams sprendimams priimti buvo taikomi tikimybiniai ir statistiniai metodai, todėl jos vadovybė uždraudė V. Gossetui savo vardu publikuoti mokslinius straipsnius. Tokiu būdu buvo apsaugotos komercinės paslaptys ir „know-how“ V. Gosseto sukurtais tikimybiniais ir statistiniais metodais. Tačiau jis turėjo galimybę publikuotis slapyvardžiu „Studentas“. Gosset-Student istorija rodo, kad net prieš šimtą metų JK vadovai žinojo apie didesnį tikimybinių-statistinių sprendimų priėmimo metodų ekonominį efektyvumą.

Chi kvadratas Pearsonas yra paprasčiausias testas, skirtas dviejų į kategorijas suskirstytų kintamųjų ryšio reikšmingumui patikrinti. Pearsono kriterijus pagrįstas tuo, kad dviejų įėjimų lentelėje tikimasi dažnius pagal hipotezę „tarp kintamųjų nėra priklausomybės“ galima apskaičiuoti tiesiogiai. Įsivaizduokite, kad 20 vyrų ir 20 moterų klausiama apie jų pasirinkimą gazuoto vandens (prekės ženklo A arba prekės ženklas B). Jei nėra ryšio tarp pirmenybės ir lyties, tai natūralu tikėtis vienodas prekės ženklo pasirinkimas A ir prekės ženklai B kiekvienai lyčiai.

Statistikos reikšmė chi kvadratas o jo reikšmingumo lygis priklauso nuo bendro stebėjimų skaičiaus ir langelių skaičiaus lentelėje. Pagal skyriuje aptartus principus , santykinai nedideli stebimų dažnių nuokrypiai nuo tikėtinų bus reikšmingi, jei stebėjimų skaičius bus didelis.

Yra tik vienas reikšmingas kriterijaus naudojimo apribojimas chi kvadratas(neskaitant akivaizdžios atsitiktinės stebėjimų atrankos prielaidos), ty tikėtini dažniai neturėtų būti labai maži. Taip yra dėl to, kad kriterijus chi kvadratas pagal prigimtį patikrina tikimybės kiekvienoje ląstelėje; ir jei tikėtini dažniai ląstelėse tampa maži, pavyzdžiui, mažesni nei 5, tada šių tikimybių negalima pakankamai tiksliai įvertinti naudojant turimus dažnius. Daugiau diskusijų rasite Everitt (1977), Hays (1988) arba Kendall ir Stuart (1979).

Chi kvadrato testas (didžiausios tikimybės metodas).Didžiausios tikimybės chi kvadratas skirtas patikrinti tą pačią hipotezę dėl santykių nenumatytų atvejų lentelėse kaip ir kriterijus chi kvadratas Pearsonas. Tačiau jo apskaičiavimas pagrįstas didžiausios tikimybės metodu. Praktikoje MP statistika chi kvadratas labai artimas įprastai Pearsono statistikai chi kvadratas. Daugiau informacijos apie šią statistiką galima rasti Bishop, Fienberg ir Holland (1975) arba Fienberg (1977). Skyriuje Logtiesinė analizėši statistika aptariama plačiau.

Yateso pataisa. Statistikos aproksimavimas chi kvadratas 2x2 lenteles su nedideliu stebėjimų skaičiumi langeliuose galima patobulinti sumažinus skirtumų tarp laukiamo ir stebimo dažnio absoliučią reikšmę 0,5 prieš kvadratuojant (vadinamoji. Yates pataisa). Yates korekcija, dėl kurios įvertinimas tampa nuosaikesnis, paprastai taikoma tais atvejais, kai lentelėse yra tik nedideli dažniai, pavyzdžiui, kai kai kurie tikėtini dažniai tampa mažesni nei 10 (toliau žr. Conover, 1974; Everitt, 1977; Hays). , 1988; Kendall ir Stuart, 1979 ir Mantel, 1974).

Tikslus Fisherio testas.Šis kriterijus taikomas tik 2x2 stalams. Kriterijus grindžiamas tokiais motyvais. Atsižvelgiant į lentelės ribinius dažnius, tarkime, kad abu lentelėse pateikti kintamieji yra nepriklausomi. Užduokime sau klausimą: kokia tikimybė gauti lentelėje stebimus dažnius, remiantis duotais ribiniais? Pasirodo, ši tikimybė yra apskaičiuota tiksliai skaičiuojant visas lenteles, kurias galima pastatyti remiantis ribinėmis. Taigi Fišerio kriterijus apskaičiuoja tikslūs stebimų dažnių atsiradimo tikimybė pagal nulinę hipotezę (nėra ryšio tarp lentelėse pateiktų kintamųjų). Rezultatų lentelėje rodomi ir vienpusiai, ir dvipusiai lygiai.

McNemaro chi kvadratas.Šis kriterijus taikomas, kai 2x2 lentelėje pateikti dažniai priklausomas pavyzdžių. Pavyzdžiui, tų pačių asmenų stebėjimai prieš ir po eksperimento. Visų pirma galite suskaičiuoti studentų, turinčių minimalius matematikos pasiekimus semestro pradžioje ir pabaigoje, skaičių arba tų pačių respondentų pageidavimus prieš ir po skelbimo. Apskaičiuojamos dvi vertės chi kvadratas: A/D Ir B/C. A/D chi kvadratas tikrina hipotezę, kad dažniai ląstelėse A Ir D(viršuje kairėje, apačioje dešinėje) yra vienodi. B/C chi kvadratas tikrina hipotezę apie dažnių lygybę ląstelėse B Ir C(viršuje dešinėje, apačioje kairėje).

Phi koeficientas.Phi aikštė reiškia santykio tarp dviejų kintamųjų 2x2 lentelėje matą. Jo vertės skiriasi nuo 0 (nėra priklausomybės tarp kintamųjų; chi kvadratas = 0.0 ) į 1 (absoliutus ryšys tarp dviejų veiksnių lentelėje). Daugiau informacijos rasite Castellan ir Siegel (1988, p. 232).

Tetrachorinė koreliacija.Ši statistika apskaičiuojama (ir taikoma) tik 2x2 kryžminių lentelių lentelėms. Jei 2x2 lentelę galima vertinti kaip dviejų nuolatinių kintamųjų reikšmių (dirbtinį) padalijimą į dvi klases, tada tetrachorinės koreliacijos koeficientas leidžia įvertinti ryšį tarp šių dviejų kintamųjų.

Konjugacijos koeficientas. Nenumatytų atvejų koeficientas yra pagrįstas statistiškai chi kvadratas nenumatytų atvejų lentelės požymių santykio matas (pasiūlytas Pearsonas). Šio koeficiento pranašumas prieš įprastinę statistiką chi kvadratas yra tai, kad jį lengviau interpretuoti, nes jo kitimo diapazonas yra diapazone nuo 0 į 1 (Kur 0 atitinka lentelėje pateiktų charakteristikų nepriklausomumo atvejį, o koeficiento padidėjimas rodo ryšio laipsnio padidėjimą). Nenumatytų atvejų koeficiento trūkumas yra tas, kad jo didžiausia vertė „priklauso“ nuo lentelės dydžio. Šis koeficientas gali pasiekti 1 reikšmę tik tuo atveju, jei klasių skaičius nėra ribojamas (žr. Siegel, 1956, p. 201).

Komunikacijos priemonių aiškinimas. Reikšmingas asociacijos matų trūkumas (aptartas aukščiau) yra sunkumas juos interpretuoti įprastomis tikimybės arba „paaiškintos dispersijos proporcijos“ terminais, kaip koreliacijos koeficiento atveju. r Pearsonas (žr. Koreliacijas). Todėl nėra vieno visuotinai priimto mato ar asociacijos koeficiento.

Statistika pagal rangus. Daugelyje praktikoje kylančių problemų matavimus atliekame tik eilinis skalė (žr Pagrindinės statistikos sąvokos). Tai ypač pasakytina apie matavimus psichologijos, sociologijos ir kitų disciplinų, susijusių su žmogaus tyrinėjimu, srityse. Tarkime, kad apklausėte keletą respondentų, kad išsiaiškintumėte jų požiūrį į tam tikras sporto šakas. Išmatavimus pateikiate skalėje su šiomis pozicijomis: (1) Visada, (2) paprastai, (3) Kartais ir (4) niekada. Aišku atsakymas kartais susimąstau parodo mažesnį respondento susidomėjimą nei atsakymas Man dažniausiai įdomu ir tt Taigi galima rūšiuoti (ranguoti) respondentų susidomėjimo laipsnį. Tai tipiškas eilės skalės pavyzdys. Eilės skalėje matuojami kintamieji turi savo koreliacijų tipus, leidžiančius įvertinti ryšius.

R Spearmanas. Statistika R Spearman gali būti aiškinamas taip pat kaip Pearsono koreliacija ( r Pearsonas) pagal paaiškintą dispersijos proporciją (tačiau turint omenyje, kad Spearmano statistika apskaičiuojama pagal rangus). Daroma prielaida, kad kintamieji matuojami bent eilinis mastelis. Išsamių diskusijų apie Spearmano rangų koreliaciją, jos galią ir efektyvumą galima rasti, pavyzdžiui, Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel ir Castellan (1988), Kendall (1948). , Olds (1949) ir Hotelling and Pabst (1936).

Tau Kendall. Statistika tau Kendall atitikmuo R Spearmanas pagal kai kurias pagrindines prielaidas. Jų galios taip pat lygiavertės. Tačiau dažniausiai vertybės R Spearman ir tau Kendall's skiriasi tuo, kad skiriasi tiek savo vidine logika, tiek skaičiavimo būdu. Siegel ir Castellan (1988) autoriai išreiškė ryšį tarp šių dviejų statistinių duomenų taip:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Dar svarbiau, Kendall statistika tau ir Spearmanas R turi skirtingas interpretacijas: o statistika R Spearmaną galima vertinti kaip tiesioginį statistikos analogą r Pearsonas, apskaičiuotas pagal rangus, Kendall statistika tau veikiau remiantis tikimybės. Tiksliau, patikrinama, ar yra skirtumas tarp tikimybės, kad stebimi duomenys yra ta pačia tvarka dviem dydžiams, ir tikimybės, kad jie yra skirtinga tvarka. Kendall (1948, 1975), Everitt (1977) ir Siegel ir Castellan (1988) išsamiai aptaria tau Kendall. Paprastai apskaičiuojami du statistiniai duomenys tau Kendall: tau b Ir tau c. Šios priemonės skiriasi tik tuo, kaip jos tvarko atitikimo rangus. Daugeliu atvejų jų reikšmės yra gana panašios. Jei atsiranda skirtumų, atrodo, kad saugiausias būdas yra atsižvelgti į mažesnę iš dviejų verčių.

Sommerio d koeficientas: d(X|Y), d(Y|X). Statistika d Sommerio matas yra nesimetrinis dviejų kintamųjų ryšio matas. Ši statistika yra artima tau b(žr. Siegel ir Castellan, 1988, p. 303-310).

Gama statistika. Jei duomenyse yra daug atitinkančių reikšmių, statistiniai duomenys gama pageidautina R Spearman arba tau Kendall. Kalbant apie pagrindines prielaidas, statistiką gama prilygsta statistikai R Spearman arba Kendall tau. Jos aiškinimas ir skaičiavimai labiau panašūs į Kendall Tau statistiką nei į Spearmano R statistiką. Trumpai tariant, gama taip pat atstovauja tikimybė; tiksliau, skirtumas tarp tikimybės, kad dviejų kintamųjų rangų tvarka sutaps, atėmus tikimybę, kad nesutampa, padalijus iš vieneto atėmus atitikties tikimybę. Taigi statistika gama iš esmės lygiavertis tau Kendall, išskyrus tai, kad normalizuojant aiškiai atsižvelgiama į atitikmenis. Išsamus statistikos aptarimas gama galima rasti Goodman ir Kruskal (1954, 1959, 1963, 1972), Siegel (1956) ir Siegel and Castellan (1988).

Neapibrėžtumo koeficientai.Šie koeficientai matuoja informacinis bendravimas tarp veiksnių (lentelės eilučių ir stulpelių). Koncepcija priklausomybė nuo informacijos kilęs iš informacinio teorinio požiūrio į dažnių lentelių analizę, šiai problemai paaiškinti galima pasiskaityti atitinkamuose vadovuose (žr. Kullback, 1959; Ku ir Kullback, 1968; Ku, Varner ir Kullback, 1971; taip pat žr. Bishop, Fienberg ir Olandija, 1975, p. 344-348). Statistika S(Y, X) yra simetriškas ir matuoja informacijos kiekį kintamajame Y palyginti su kintamuoju X arba kintamuoju X palyginti su kintamuoju Y. Statistika S(X|Y) Ir S(Y|X) išreikšti krypties priklausomybę.

Daugiamačiai atsakymai ir dichotomijos. Tokie kintamieji kaip daugiamatis atsakas ir daugiamatės dichotomijos atsiranda situacijose, kai tyrėją domina ne tik „paprasti“ įvykių dažniai, bet ir kai kurios (dažnai nestruktūruotos) šių įvykių kokybinės savybės. Daugiamačių kintamųjų (veiksnių) prigimtis geriausiai suprantama pasitelkus pavyzdžius.

  • · Daugiamačiai atsakymai
  • · Daugiamatės dichotomijos
  • · Daugiamatių atsakymų ir dichotomijų kryžminė lentelė
  • Porinis kintamųjų su daugiamatiais atsakais kryžminimas
  • · Galutinis komentaras

Daugiamačiai atsakymai.Įsivaizduokite, kad atlikdami didelį rinkodaros tyrimą paprašėte klientų įvardyti 3 geriausius gaiviuosius gėrimus jų požiūriu. Įprastas klausimas gali atrodyti taip.

Apsvarstykite paraiškąMSEXCELPirsono chi kvadrato testas paprastoms hipotezėms patikrinti.

Gavus eksperimentinius duomenis (t.y. kai yra keletas mėginys) dažniausiai pasirenkamas skirstymo dėsnis, geriausiai apibūdinantis atsitiktinį kintamąjį, kurį reprezentuoja duotybė mėginių ėmimas. Patikrinimas, kaip eksperimentiniai duomenys aprašyti pasirinktu teorinio pasiskirstymo dėsniu, atliekamas naudojant susitarimo kriterijai. Nulinė hipotezė, dažniausiai yra hipotezė apie atsitiktinio dydžio pasiskirstymo lygybę kokiam nors teoriniam dėsniui.

Pirmiausia pažiūrėkime į programą Pirsono tinkamumo testas X 2 (chi kvadratas) paprastų hipotezių atžvilgiu (teorinio skirstinio parametrai laikomi žinomais). Tada - , kai nurodyta tik skirstinio forma, ir šio skirstinio parametrai bei reikšmė statistika X 2 yra vertinami/apskaičiuojami remiantis tuo pačiu pavyzdžių.

Pastaba: Literatūroje anglų kalba, paraiškos pateikimo tvarka Pearsono tinkamumo testas X 2 turi vardą Chi kvadrato tinkamumo testas.

Prisiminkime hipotezių tikrinimo procedūrą:

  • remiantis pavyzdžių apskaičiuojama vertė statistika, kuris atitinka tikrinamos hipotezės tipą. Pavyzdžiui, naudotam t- statistika(jei nežinoma);
  • pavaldūs tiesai nulinė hipotezė, šio paskirstymas statistika yra žinomas ir gali būti naudojamas tikimybei apskaičiuoti (pavyzdžiui, už t- statistika Tai );
  • apskaičiuojamas remiantis pavyzdžių prasmė statistika palyginti su tam tikros vertės kritine verte ();
  • nulinė hipotezė atmesti, jei vertė statistika didesnė nei kritinė (arba jei tikimybė gauti šią vertę statistika() mažiau reikšmingumo lygis, kuris yra lygiavertis metodas).

Vykdykime hipotezių tikrinimasįvairiems platinimams.

Diskretus atvejis

Tarkime, kad du žmonės žaidžia kauliukais. Kiekvienas žaidėjas turi savo kauliukų rinkinį. Žaidėjai paeiliui meta 3 kauliukus iš karto. Kiekvieną raundą laimi tas, kuris vienu metu išmetė daugiausiai šešių. Rezultatai registruojami. Vienam žaidėjui po 100 raundų kilo įtarimas, kad jo varžovo kauliukai yra asimetriški, nes jis dažnai laimi (dažnai meta šešetukus). Jis nusprendė išanalizuoti, kokia yra tokia priešo pasekmių tikimybė.

Pastaba: Nes Yra 3 kubeliai, tada vienu metu galima ridenti 0; 1; 2 ar 3 šešetai, t.y. atsitiktinis dydis gali turėti 4 reikšmes.

Iš tikimybių teorijos žinome, kad jei kauliukai yra simetriški, tada tikimybė gauti šešetukus paklūsta. Todėl po 100 raundų šešių dažnius galima apskaičiuoti pagal formulę
=BINOM.DIST(A7;3;1/6,FALSE)*100

Formulė daro prielaidą, kad ląstelėje A7 yra atitinkamas šešetų skaičius, susuktas per vieną raundą.

Pastaba: Skaičiavimai pateikti pavyzdinis failas diskrečiame lape.

Palyginimui pastebėta(Stebėtas) ir teoriniai dažniai(Tikimasi) patogus naudoti.

Jei stebimi dažniai labai skiriasi nuo teorinio pasiskirstymo, nulinė hipotezė apie atsitiktinio dydžio skirstinį pagal teorinį dėsnį turėtų būti atmestas. Tai yra, jei priešininko kauliukai yra asimetriški, stebimi dažniai „labai skirsis“ nuo binominis skirstinys.

Mūsų atveju, iš pirmo žvilgsnio, dažniai yra gana artimi ir be skaičiavimų sunku padaryti vienareikšmę išvadą. Taikoma Pearsono tinkamumo testas X 2, kad vietoj subjektyvaus teiginio „iš esmės skiriasi“, kurį galima padaryti remiantis palyginimu histogramos, naudokite matematiškai teisingą teiginį.

Mes naudojame tai, kad dėl didelių skaičių dėsnis stebimas dažnis (Stebimas) didėjant garsui pavyzdžių n linkusi į tikimybę, atitinkančią teorinį dėsnį (mūsų atveju, dvinario dėsnis). Mūsų atveju imties dydis n yra 100.

Supažindinkime bandymas statistika, kurį žymime X 2:

čia O l yra stebimas įvykių dažnis, kai atsitiktinis dydis įgavo tam tikras priimtinas reikšmes, E l yra atitinkamas teorinis dažnis (tikėtinas). L yra reikšmių, kurias gali gauti atsitiktinis kintamasis, skaičius (mūsų atveju tai yra 4).

Kaip matyti iš formulės, tai statistika yra stebimų dažnių artumo teoriniams matas, t.y. jis gali būti naudojamas „atstumams“ tarp šių dažnių įvertinti. Jei šių „atstumų“ suma yra „per didelė“, šie dažniai „labai skiriasi“. Akivaizdu, kad jei mūsų kubas yra simetriškas (t. y. taikomas dvinario dėsnis), tada tikimybė, kad „atstumų“ suma bus „per didelė“, bus maža. Norėdami apskaičiuoti šią tikimybę, turime žinoti pasiskirstymą statistika X 2 ( statistika X 2 apskaičiuotas atsitiktine tvarka pavyzdžių, todėl tai yra atsitiktinis kintamasis ir todėl turi savo tikimybių skirstinys).

Iš daugiamačio analogo Moivre-Laplace integralų teoremažinoma, kad n->∞ mūsų atsitiktinis dydis X 2 yra asimptotiškai su L - 1 laisvės laipsniais.

Taigi, jei apskaičiuota vertė statistika X 2 („atstumų“ tarp dažnių suma) bus didesnė už tam tikrą ribinę vertę, tada turėsime pagrindo atmesti nulinė hipotezė. Tas pats kaip tikrinti parametrinės hipotezės, ribinė vertė nustatoma per reikšmingumo lygis. Jei tikimybė, kad X 2 statistika įgis reikšmę, mažesnę arba lygią apskaičiuotajai ( p-prasmė), bus mažiau reikšmingumo lygis, Tai nulinė hipotezė gali būti atmestas.

Mūsų atveju statistinė reikšmė yra 22,757. Tikimybė, kad X2 statistika įgis reikšmę, didesnę arba lygi 22,757, yra labai maža (0,000045) ir gali būti apskaičiuota naudojant formules
=CHI2.DIST.PH(22.757,4-1) arba
=CHI2.TESTAS (stebėtas; tikimasi)

Pastaba: Funkcija CHI2.TEST() yra specialiai sukurta patikrinti ryšį tarp dviejų kategorinių kintamųjų (žr.).

Tikimybė 0,000045 yra žymiai mažesnė nei įprasta reikšmingumo lygis 0,05. Taigi žaidėjas turi visas priežastis įtarti savo priešininką nesąžiningumu ( nulinė hipotezė paneigiamas jo sąžiningumas).

Naudojant kriterijus X 2 būtina užtikrinti, kad tūris pavyzdžių n buvo pakankamai didelis, kitaip pasiskirstymo aproksimacija negaliotų statistika X 2. Paprastai manoma, kad tam pakanka, kad Stebimi dažniai būtų didesni už 5. Jei taip nėra, mažieji dažniai sujungiami į vieną arba pridedami prie kitų dažnių ir priskiriama kombinuota reikšmė. bendra tikimybė ir atitinkamai mažėja laisvės laipsnių skaičius X 2 paskirstymai.

Siekiant pagerinti taikymo kokybę kriterijus X 2(), būtina sumažinti skaidinių intervalus (padidinti L ir atitinkamai padidinti skaičių laisvės laipsnių), tačiau tai užkerta kelią stebėjimų, įtrauktų į kiekvieną intervalą, skaičiaus apribojimas (db>5).

Nuolatinis atvejis

Pearsono tinkamumo testas X 2 taip pat gali būti taikomas esant .

Panagrinėkime tam tikrą mėginys, susidedantis iš 200 reikšmių. Nulinė hipotezė teigia, kad mėginys pagamintas iš.

Pastaba: Atsitiktiniai kintamieji pavyzdinis failas ištisiniame lape sugeneruotas naudojant formulę =NORM.ST.INV(RAND()). Todėl naujos vertybės pavyzdžių generuojami kiekvieną kartą, kai lapas perskaičiuojamas.

Ar esamas duomenų rinkinys yra tinkamas, galima įvertinti vizualiai.

Kaip matyti iš diagramos, pavyzdinės vertės gana gerai dera išilgai tiesios linijos. Tačiau, kaip ir dėl hipotezių tikrinimas taikomi „Pearson X 2“ tinkamumo testas.

Norėdami tai padaryti, atsitiktinio dydžio kitimo diapazoną padalijame į intervalus, kurių žingsnis yra 0,5. Apskaičiuokime pastebėtą ir teoriniai dažniai. Stebėtus dažnius apskaičiuojame naudodami FREQUENCY() funkciją, o teorinius – NORM.ST.DIST() funkciją.

Pastaba: Tas pats kaip ir diskretiškas atvejis, būtina tai užtikrinti mėginys buvo gana didelis, o intervalas apėmė >5 reikšmes.

Apskaičiuokime X2 statistiką ir palyginkime ją su duoto kritine verte reikšmingumo lygis(0,05). Nes atsitiktinio dydžio kitimo diapazoną padalinome į 10 intervalų, tada laisvės laipsnių skaičius yra 9. Kritinę reikšmę galima apskaičiuoti naudojant formulę
=CHI2.OBR.PH(0,05;9) arba
=CHI2.OBR(1-0,05;9)

Aukščiau pateikta diagrama rodo, kad statistinė reikšmė yra 8,19, o tai yra žymiai didesnė kritinė vertė nulinė hipotezė nėra atmestas.

Žemiau yra kur mėginysįgavo mažai tikėtiną reikšmę ir remiantis kriterijus Pearsono sutikimas X 2 nulinė hipotezė buvo atmesta (nors atsitiktinės reikšmės buvo sugeneruoti naudojant formulę =NORM.ST.INV(RAND()), teikiant mėginysstandartinis normalusis skirstinys).

Nulinė hipotezė atmestas, nors vizualiai duomenys yra gana arti tiesės.

Paimkime ir kaip pavyzdį mėginys iš U(-3; 3). Šiuo atveju net iš grafiko akivaizdu, kad nulinė hipotezė turėtų būti atmestas.

Kriterijus Pearsono sutikimas X 2 taip pat tai patvirtina nulinė hipotezė turėtų būti atmestas.



Ar jums patiko straipsnis? Pasidalinkite su draugais!