Chi kvadrato skaičiavimas. Savikontrolės klausimai studentams

). Konkreti tikrinamos hipotezės formuluotė kiekvienu atveju skirsis.

Šiame įraše aprašysiu, kaip veikia \(\chi^2\) kriterijus, naudodamas (hipotetinį) pavyzdį iš imunologijos. Įsivaizduokime, kad atlikome eksperimentą, siekdami nustatyti mikrobinės ligos vystymosi slopinimo efektyvumą, kai į organizmą patenka atitinkami antikūnai. Iš viso eksperimente dalyvavo 111 pelių, kurias suskirstėme į dvi grupes, įskaitant atitinkamai 57 ir 54 gyvūnus. Pirmajai pelių grupei buvo sušvirkštos patogeninės bakterijos, o po to buvo įvestas kraujo serumas, kuriame yra antikūnų prieš šias bakterijas. Antrosios grupės gyvūnai buvo kontroliniai – jie gavo tik bakterijų injekcijas. Po kurio laiko inkubacijos paaiškėjo, kad 38 pelės mirė ir 73 išgyveno. Iš mirusiųjų 13 priklausė pirmajai grupei, 25 – antrajai (kontrolinei). Nulinė hipotezė, patikrinta šiame eksperimente, gali būti suformuluota taip: serumo su antikūnais skyrimas neturi įtakos pelių išgyvenimui. Kitaip tariant, mes teigiame, kad pastebėti pelių išgyvenamumo skirtumai (77,2 % pirmoje grupėje ir 53,7 % antroje grupėje) yra visiškai atsitiktiniai ir nesusiję su antikūnų poveikiu.

Eksperimento metu gautus duomenis galima pateikti lentelės pavidalu:

Iš viso

Bakterijos + serumas

Tik bakterijos

Iš viso

Tokios lentelės, kaip parodyta, vadinamos nenumatytų atvejų lentelėmis. Nagrinėjamame pavyzdyje lentelės matmuo yra 2x2: yra dvi objektų klasės („Bakterijos + serumas“ ir „Tik bakterijos“), kurios tiriamos pagal du kriterijus („Negyvas“ ir „Išgyvenęs“). Tai paprasčiausias nenumatytų atvejų lentelės atvejis: žinoma, tiek tiriamų klasių, tiek savybių skaičius gali būti didesnis.

Norėdami patikrinti pirmiau nurodytą nulinę hipotezę, turime žinoti, kokia būtų situacija, jei antikūnai iš tikrųjų neturėtų jokios įtakos pelių išgyvenimui. Kitaip tariant, reikia skaičiuoti numatomi dažniai atitinkamiems nenumatytų atvejų lentelės langeliams. Kaip tai padaryti? Eksperimente iš viso nugaišo 38 pelės, o tai sudaro 34,2% viso dalyvaujančių gyvūnų skaičiaus. Jei antikūnų skyrimas neturi įtakos pelių išgyvenimui, abiejose eksperimentinėse grupėse turėtų būti stebimas vienodas mirtingumo procentas, ty 34,2%. Apskaičiavę, kiek yra 34,2% iš 57 ir 54, gauname 19,5 ir 18,5. Tai yra tikėtini mirtingumo rodikliai mūsų eksperimentinėse grupėse. Tikėtini išgyvenamumo rodikliai apskaičiuojami panašiai: kadangi iš viso išgyveno 73 pelės arba 65,8% viso skaičiaus, numatomi išgyvenamumo rodikliai bus 37,5 ir 35,5. Sukurkime naują nenumatytų atvejų lentelę su numatomais dažniais:

Negyvas

Išgyvenusieji

Iš viso

Bakterijos + serumas

Tik bakterijos

Iš viso

Kaip matome, numatomi dažniai gerokai skiriasi nuo stebimųjų, t.y. atrodo, kad antikūnų skyrimas turi įtakos patogenu užkrėstų pelių išgyvenimui. Šį įspūdį galime kiekybiškai įvertinti naudodami Pearsono tinkamumo testą \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


kur \(f_o\) ir \(f_e\) yra atitinkamai stebimi ir laukiami dažniai. Sumavimas atliekamas visuose lentelės langeliuose. Taigi, pateikiame nagrinėjamą pavyzdį

\[\chi^2 = (13–19,5)^2/19,5 + (44–37,5)^2/37,5 + (25–18,5)^2/18,5 + (29–35,5)^2/35,5 = \]

Ar gauta \(\chi^2\) reikšmė yra pakankamai didelė, kad būtų atmesta nulinė hipotezė? Norint atsakyti į šį klausimą, būtina rasti atitinkamą kriterijaus reikšmę. \(\chi^2\) laisvės laipsnių skaičius apskaičiuojamas kaip \(df = (R - 1)(C - 1)\), kur \(R\) ir \(C\) yra skaičius lentelės konjugacijos eilučių ir stulpelių. Mūsų atveju \(df = (2 -1)(2 - 1) = 1\). Žinodami laisvės laipsnių skaičių, dabar galime lengvai sužinoti kritinę reikšmę \(\chi^2\) naudodami standartinę R funkciją qchisq() :


Taigi, esant vienam laisvės laipsniui, tik 5% atvejų kriterijaus \(\chi^2\) reikšmė viršija 3,841. Mūsų gauta vertė 6,79 žymiai viršija šią kritinę vertę, o tai suteikia mums teisę atmesti nulinę hipotezę, kad nėra ryšio tarp antikūnų skyrimo ir užkrėstų pelių išgyvenimo. Atmesdami šią hipotezę rizikuojame klysti su mažesne nei 5% tikimybe.

Reikėtų pažymėti, kad aukščiau pateikta kriterijaus \(\chi^2\) formulė suteikia šiek tiek padidintas vertes dirbant su 2x2 dydžio nenumatytų atvejų lentelėmis. Priežastis ta, kad paties kriterijaus \(\chi^2\) pasiskirstymas yra tęstinis, o dvejetainių savybių ("mirusių" / "išgyveno") dažniai pagal apibrėžimą yra diskretūs. Šiuo atžvilgiu, skaičiuojant kriterijų, įprasta įvesti vadinamąjį tęstinumo korekcija, arba Yates pataisa :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

„s Chi kvadrato testas su Yates“ tęstinumo korekcijos duomenys: pelių X kvadratas = 5,7923, df = 1, p reikšmė = 0,0161


Kaip matome, R automatiškai taiko Yates tęstinumo pataisą ( Pirsono chi kvadrato testas su Yates“ tęstinumo korekcija). Programos apskaičiuota \(\chi^2\) reikšmė buvo 5,79213. Galime atmesti nulinę hipotezę, kad nėra antikūnų poveikio, rizikuodami klysti su tikimybe, kuri yra šiek tiek daugiau nei 1% (p vertė = 0,0161).

Nepriklausomybės chi kvadrato testas naudojamas dviejų kategorinių kintamųjų ryšiui nustatyti. Kategorinių kintamųjų porų pavyzdžiai: šeimyninė padėtis vs. Respondento užimtumo lygis; Šunų veislė vs. Savininko profesija, atlyginimo lygis vs. Inžinieriaus specializacija ir kt. Skaičiuojant nepriklausomumo kriterijų, tikrinama hipotezė, kad tarp kintamųjų nėra ryšio. Atliksime skaičiavimus naudodami MS EXCEL 2010 CHI2.TEST() funkciją ir sutartines formules.

Tarkime, kad turime mėginys duomenys, atspindintys 500 žmonių apklausos rezultatą. Žmonėms buvo pateikti 2 klausimai: apie jų šeimyninę padėtį (santuokoje, civilinėje partnerystėje, nesant santykių) ir užimtumo lygį (visą darbo dieną, ne visą darbo dieną, laikinai nedirba, namuose, pensininkas, studijuoja). Visi atsakymai buvo sudėti į lentelę:

Ši lentelė vadinama charakteristikų nenumatytų atvejų lentelė(arba faktorių lentelė, angl. Contingency table). Elementai, esantys lentelės eilučių ir stulpelių sankirtoje, paprastai žymimi O ij (iš anglų kalbos Observed, t. y. stebimi, faktiniai dažniai).

Mus domina klausimas „Ar šeiminė padėtis turi įtakos užimtumui?“, t.y. ar yra priklausomybė tarp dviejų klasifikavimo metodų pavyzdžiai?

At Hipotezės bandymas tokios formos paprastai pripažįstama, kad nulinė hipotezė teigia, kad nėra klasifikavimo metodų priklausomybės.

Panagrinėkime ribojančius atvejus. Dviejų kategorinių kintamųjų visiškos priklausomybės pavyzdys yra toks tyrimo rezultatas:

Šiuo atveju šeimyninė padėtis aiškiai lemia užimtumą (žr. pavyzdinis failo lapas Paaiškinimas). Ir atvirkščiai, visiškos nepriklausomybės pavyzdys yra kitas tyrimo rezultatas:

Atkreipkite dėmesį, kad užimtumo lygis šiuo atveju nepriklauso nuo šeimyninės padėties (tas pats ir susituokusiems, ir nesusituokusiems). Tai visiškai atitinka formuluotę nulinė hipotezė. Jeigu nulinė hipotezė yra teisinga, tuomet apklausos rezultatai turėtų būti paskirstyti taip, kad dirbančių žmonių procentas būtų vienodas nepriklausomai nuo šeiminės padėties. Pagal tai apskaičiuojame atitinkančius apklausos rezultatus nulinė hipotezė(cm. pavyzdys lapo failas Pavyzdys).

Pirmiausia apskaičiuojame elemento tikimybės įvertinimą pavyzdžiai bus tam tikras užimtumas (žr. u i stulpelį):

Kur Su– stulpelių (stulpelių) skaičius, lygus kintamojo „Šeimyninė padėtis“ lygių skaičiui.

Tada apskaičiuojame tikimybę, kad elementas pavyzdžiai turės tam tikrą šeimyninę padėtį (žr. v j eilutę).

Kur r– eilučių skaičius, lygus kintamojo „Užimtumas“ lygių skaičiui.

Teorinis kiekvieno langelio E ij dažnis (iš anglų kalbos Expected, t. y. numatomas dažnis) kintamųjų nepriklausomumo atveju apskaičiuojamas pagal formulę:
E ij =n* u i * v j

Yra žinoma, kad statistiniai duomenys X 2 0 dideliems n turi apytiksliai (r-1)(c-1) laisvės laipsnius (df – laisvės laipsniai):

Jei skaičiuojama remiantis pavyzdžiai tada šios statistikos reikšmė yra „per didelė“ (didesnė už slenkstį). nulinė hipotezė Atstumtas. Slenkstinė reikšmė apskaičiuojama remiantis , pavyzdžiui, naudojant formulę =HI2.OBR.PH(0,05; df) .

Pastaba: Reikšmingumo lygis paprastai imamas lygus 0,1; 0,05; 0,01.

At Hipotezės bandymas taip pat patogu skaičiuoti , su kuriuo lyginame reikšmingumo lygis. p-prasmė apskaičiuojamas naudojant (r-1)*(c-1)=df laisvės laipsnius.

Jei tikimybė, kad atsitiktinis dydis, turintis c (r-1) (c-1) laisvės laipsniai ims didesnę reikšmę nei apskaičiuota statistika X 2 0, t.y. P(Х 2 (r-1)*(c-1) >Х 2 0 ), mažiau reikšmingumo lygis, Tai nulinė hipotezė Atstumtas.

Programoje MS EXCEL p-reikšmė galima apskaičiuoti naudojant formulę =HI2.DIST.PH(X 2 0 ;df), žinoma, prieš pat tai apskaičiavus statistikos reikšmę X 2 0 (tai daroma pavyzdiniame faile). Tačiau patogiausia naudoti CH2.TEST() funkciją. Kaip šios funkcijos argumentai, nurodomos nuorodos į diapazonus, kuriuose yra faktiniai (stebimi) ir apskaičiuoti teoriniai dažniai (tikėtinas).

Jeigu reikšmingumo lygis > p- vertybes, tai reiškia faktinius ir teorinius dažnius, apskaičiuotus remiantis teisingumo prielaida nulinė hipotezė, labai skiriasi. Štai kodėl, nulinė hipotezė turi būti atmestas.

Funkcijos CH2.TEST() naudojimas leidžia pagreitinti procedūrą Hipotezės bandymas, nes nereikia skaičiuoti vertės statistika. Dabar užtenka funkcijos CH2.TEST() rezultatą palyginti su duotuoju reikšmingumo lygis.

Pastaba: Funkcija CHISQ.TEST(), angliškas pavadinimas CHISQ.TEST, pasirodė MS EXCEL 2010. Ankstesnė versija CHISQEST(), pasiekiama MS EXCEL 2007, turi tokias pačias funkcijas. Bet kaip ir CH2.TEST(), teorinius dažnius reikia apskaičiuoti patiems.

Šio kriterijaus naudojimas grindžiamas tokio masto (statistikos) naudojimu, nurodant neatitikimą tarp teorinių F(x) ir empirinis pasiskirstymas F* P (x) , kuris maždaug paklūsta pasiskirstymo dėsniui χ 2 . Hipotezė N 0 Paskirstymų nuoseklumas tikrinamas analizuojant šios statistikos pasiskirstymą. Norint taikyti šį kriterijų, reikia sudaryti statistinę eilutę.

Taigi, imtį tegul pateikia statistiškai šalia skaitmenų skaičiaus M. Stebėtas pataikymo rodiklis i- th rangas n i. Pagal teorinį paskirstymo dėsnį numatomas įvykių dažnis i- yra kategorija F i. Skirtumas tarp stebimo ir numatomo dažnio bus ( n iF i). Norėdami rasti bendrą neatitikimo laipsnį tarp F(x) Ir F* P (x) būtina apskaičiuoti visų statistinės eilutės skaitmenų kvadratinių skirtumų svertinę sumą

Vertė χ 2 su neribotu padidinimu n turi χ 2 pasiskirstymą (asimptotiškai pasiskirstęs kaip χ 2). Šis pasiskirstymas priklauso nuo laisvės laipsnių skaičiaus k, t.y. nepriklausomų terminų reikšmių skaičius išraiškoje (3.7). Laisvės laipsnių skaičius lygus skaičiui y atėmus imties tiesinių ryšių skaičių. Vienas ryšys egzistuoja dėl to, kad bet kurį dažnį galima apskaičiuoti iš likusių dažnių visumos M– 1 skaitmuo. Be to, jei pasiskirstymo parametrai nėra žinomi iš anksto, yra dar vienas apribojimas dėl paskirstymo pritaikymo imčiai. Jei mėginys nustato S pasiskirstymo parametrus, tada laisvės laipsnių skaičius bus k= MS–1.

Hipotezės priėmimo sritis N 0 nustatoma sąlyga χ 2 < χ 2 (k; a) , kur χ 2 (k; a) – kritinis χ2 skirstinio taškas su reikšmingumo lygiu a. I tipo klaidos tikimybė yra a, II tipo klaidos tikimybė negali būti aiškiai apibrėžta, nes yra be galo daug skirtingų būdų, kaip skirstiniai gali nesutapti. Testo galia priklauso nuo skaitmenų skaičiaus ir imties dydžio. Kriterijus rekomenduojama taikyti tada, kai n>200, naudoti leidžiama, kai n>40, būtent tokiomis sąlygomis kriterijus galioja (paprastai jis atmeta neteisingą nulinę hipotezę).

Patikros pagal kriterijų algoritmas

1. Sukurkite histogramą lygių tikimybių metodu.

2. Remdamiesi histogramos išvaizda, iškelkite hipotezę

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

Kur f 0 (x) - hipotetinio skirstinio dėsnio (pavyzdžiui, vienodo, eksponentinės, normalaus) tikimybių tankis.

komentuoti. Hipotezė apie eksponentinį pasiskirstymo dėsnį gali būti iškelta, jei visi imties skaičiai yra teigiami.

3. Pagal formulę apskaičiuokite kriterijaus reikšmę

,

Kur
pataikymo rodiklis i-asis intervalas;

p i- teorinė tikimybė, kad atsitiktinis dydis pateks į i- asis intervalas su sąlyga, kad hipotezė H 0 yra teisinga.

Skaičiavimo formulės p i eksponentinių, vienodų ir normaliųjų dėsnių atveju jie yra atitinkamai lygūs.

eksponentinė teisė

. (3.8)

Kuriame A 1 = 0, B m = +¥.

Vienodas įstatymas

Normalus įstatymas

. (3.10)

Kuriame A 1 = -¥, B M = +¥.

Pastabos. Apskaičiavus visas tikimybes p i patikrinkite, ar tenkinamas atskaitos santykis

Funkcija Ф( X) – nelyginis. Ф(+¥) = 1.

4. Priede esančioje Chi kvadrato lentelėje pasirinkite reikšmę
, kur a yra nurodytas reikšmingumo lygis (a = 0,05 arba a = 0,01), ir k- laisvės laipsnių skaičius, nustatytas pagal formulę

k = M - 1 - S.

Čia S- parametrų, nuo kurių priklauso pasirinkta hipotezė, skaičius H 0 platinimo įstatymas. Vertybės S vienodam dėsniui tai yra 2, eksponentams dėsniui - 1, normaliam dėsniui - 2.

5. Jeigu
, tada hipotezė H 0 atmesta. Priešingu atveju nėra pagrindo jį atmesti: su tikimybe 1 - b tai tiesa, o su tikimybe - b tai neteisinga, bet b reikšmė nežinoma.

3 pavyzdys . 1. Naudodamiesi c 2 kriterijumi, iškelkite ir patikrinkite hipotezę apie atsitiktinio dydžio pasiskirstymo dėsnį. X, kurios variacijų eilutės, intervalų lentelės ir pasiskirstymo histogramos pateiktos 1.2 pavyzdyje. Reikšmingumo lygis a yra 0,05.

Sprendimas . Remdamiesi histogramų išvaizda, iškeliame hipotezę, kad atsitiktinis kintamasis X paskirstoma pagal įprastą dėsnį:

H 0: f(x) = N(m, s);

H 1: f(x) ¹ N(m, s).

Kriterijaus vertė apskaičiuojama pagal formulę:

(3.11)

Kaip minėta aukščiau, tikrinant hipotezę, geriau naudoti vienodos tikimybės histogramą. Tokiu atveju

Teorinės tikimybės p i Skaičiuojame pagal (3.10) formulę. Tuo pačiu mes tuo tikime

p 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

p 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Po to mes patikriname, ar laikomasi valdymo koeficiento

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Po to iš „Chi kvadrato“ lentelės pasirinkite kritinę reikšmę

.

Nes
tada hipotezė H 0 priimtas (nėra pagrindo jį atmesti).

Chi kvadrato testas yra universalus metodas, leidžiantis patikrinti eksperimento rezultatų ir naudojamo statistinio modelio sutapimą.

Pearsono atstumas X 2

Pyatnitsky A.M.

Rusijos valstybinis medicinos universitetas

1900 m. Karlas Pearsonas pasiūlė paprastą, universalų ir veiksmingą būdą patikrinti modelio prognozių ir eksperimentinių duomenų suderinamumą. Jo pasiūlytas „chi kvadrato testas“ yra svarbiausias ir dažniausiai naudojamas statistinis testas. Jos pagalba galima išspręsti daugumą problemų, susijusių su nežinomų modelio parametrų įvertinimu ir modelio bei eksperimentinių duomenų sutapimo patikrinimu.

Tebūnie apriorinis („ikieksperimentinis“) tiriamo objekto ar proceso modelis (statistikoje kalbama apie „nuline hipotezę“ H 0), ir eksperimento su šiuo objektu rezultatai. Reikia nuspręsti, ar modelis yra adekvatus (ar atitinka tikrovę)? Ar eksperimentiniai rezultatai prieštarauja mūsų idėjoms apie tai, kaip veikia tikrovė, ar, kitaip tariant, H0 reikia atmesti? Dažnai šią užduotį galima susiaurinti iki stebimų (O i = Stebėtas) ir numatomų pagal modelį (E i = Tikėtinas) tam tikrų įvykių vidutinių dažnių palyginimo. Manoma, kad stebimi dažniai buvo gauti per N nepriklausomų (!) stebėjimų seriją, atliktą pastoviomis (!) sąlygomis. Po kiekvieno stebėjimo užregistruojamas vienas iš M įvykių. Šie įvykiai negali vykti vienu metu (jie nesuderinami poromis) ir būtinai įvyksta vienas iš jų (jų derinys sudaro patikimą įvykį). Visų stebėjimų visuma sumažinama iki dažnių lentelės (vektoriaus) (O i )=(O 1 ,… O M ), kuri visiškai apibūdina eksperimento rezultatus. Reikšmė O 2 =4 reiškia, kad įvykis numeris 2 įvyko 4 kartus. Dažnių suma O 1 +… O M =N. Svarbu atskirti du atvejus: N – fiksuotas, neatsitiktinis, N – atsitiktinis kintamasis. Fiksuoto bendro eksperimentų skaičiaus N dažniai turi polinominį pasiskirstymą. Iliustruojame šią bendrą schemą paprastu pavyzdžiu.

Chi kvadrato testo naudojimas paprastoms hipotezėms patikrinti.

Tegul modelis (nulinė hipotezė H 0) yra toks, kad kauliukas yra teisingas – visi veidai pasirodo vienodai dažnai su tikimybe p i =1/6, i =, M=6. Buvo atliktas eksperimentas, kurio metu kauliukas buvo išmestas 60 kartų (atlikta N = 60 nepriklausomų bandymų). Pagal modelį tikimės, kad visi stebimi O i pasireiškimo 1,2,...6 taškai dažniai turėtų būti artimi jų vidutinėms reikšmėms E i =Np i =60∙(1/6)=10. Pagal H 0 vidutinių dažnių vektorius (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Hipotezės, kuriose vidutiniai dažniai yra visiškai žinomi prieš pradedant eksperimentą, vadinamos paprastomis.) Jei stebimas vektorius (O i ) būtų lygus (34,0,0,0,0,26), tai iš karto aišku, kad modelis neteisingas – kaulas negali būti teisingas, nes tik 1 ir 6 buvo išmesti 60 kartų. Tikimybė, kad įvyks teisingas kauliukas, yra nereikšminga: P = (2/6) 60 =2,4*10 -29. Tačiau tokių akivaizdžių modelio ir patirties neatitikimų atsiradimas yra išimtis. Tegu stebimų dažnių vektorius (O i ) lygus (5, 15, 6, 14, 4, 16). Ar tai atitinka H0? Taigi, turime palyginti du dažnio vektorius (E i) ir (O ​​i). Šiuo atveju laukiamų dažnių (Ei) vektorius nėra atsitiktinis, o stebimų dažnių (Oi) vektorius yra atsitiktinis – kito eksperimento metu (naujoje 60 metimų serijoje) jis pasirodys kitoks. Naudinga pateikti geometrinę problemos interpretaciją ir daryti prielaidą, kad dažnių erdvėje (šiuo atveju 6 dimensijoje) yra pateikti du taškai su koordinatėmis (5, 15, 6, 14, 4, 16) ir (10, 10, 10, 10, 10, 10). Ar jie yra pakankamai toli vienas nuo kito, kad tai būtų nesuderinama su H 0? Kitaip tariant, mums reikia:

  1. išmokti matuoti atstumus tarp dažnių (taškų dažnių erdvėje),
  2. turi kriterijų, koks atstumas turėtų būti laikomas pernelyg („neįtikėtinai“) dideliu, tai yra, nesuderinamu su H 0 .

Įprasto Euklido atstumo kvadratas būtų lygus:

X 2 Euklidas = S(O i -E i) 2 = (5-10) 2 + (15-10) 2 + (6-10) 2 + (14-10) 2 + (4-10) 2 + (16-10) 2

Šiuo atveju paviršiai X 2 Euclid = const visada yra sferos, jei fiksuojame E i reikšmes ir keičiame O i . Karlas Pearsonas pažymėjo, kad Euklido atstumas dažnių erdvėje neturėtų būti naudojamas. Taigi neteisinga manyti, kad taškai (O = 1030 ir E = 1000) ir (O ​​= 40 ir E = 10) yra vienodu atstumu vienas nuo kito, nors abiem atvejais skirtumas yra O -E = 30. Juk kuo didesnis numatomas dažnis, tuo didesni nukrypimai nuo jo turėtų būti laikomi galimais. Todėl taškai (O =1030 ir E =1000) turi būti laikomi „arti“, o taškai (O =40 ir E =10) „toli“ vienas nuo kito. Galima parodyti, kad jei hipotezė H 0 yra teisinga, tai dažnio svyravimai O i E i atžvilgiu yra E i kvadratinės šaknies(!) dydžio. Todėl Pearsonas pasiūlė, skaičiuojant atstumą, kvadratuoti ne skirtumus (O i -E i), o normalizuotus skirtumus (O i -E i)/E i 1/2. Taigi čia yra Pirsono atstumo apskaičiavimo formulė (iš tikrųjų tai atstumo kvadratas):

X 2 Pearsonas = S((O i -E i )/E i 1/2) 2 = S(O i -E i ) 2 /E i

Mūsų pavyzdyje:

X 2 Pearsonas = (5-10) 2 /10+(15-10) 2/10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15,4

Įprasto kabliuko atveju visi numatomi dažniai E i yra vienodi, bet dažniausiai jie yra skirtingi, todėl paviršiai, ant kurių Pirsono atstumas yra pastovus (X 2 Pearsonas =const), pasirodo esąs elipsoidai, o ne sferos.

Dabar, kai pasirinkta atstumų skaičiavimo formulė, reikia išsiaiškinti, kurie atstumai turėtų būti laikomi „ne per dideliais“ (atitinka H 0 Taigi, pavyzdžiui, ką galime pasakyti apie mūsų apskaičiuotą atstumą 15.4). ? Kiek procentų atvejų (arba su kokia tikimybe) gautume didesnį nei 15,4 atstumą, atlikdami eksperimentus su įprastu matrica? Jei šis procentas mažas (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Paaiškinimas. Matavimų skaičius O i, patenkantis į lentelės langelį su skaičiumi i, turi dvinarį skirstinį su parametrais: m =Np i =E i,σ =(Np i (1-p i)) 1/2, kur N yra skaičius matavimų (N " 1), p i yra tikimybė, kad vienas matavimas pateks į tam tikrą langelį (priminkite, kad matavimai yra nepriklausomi ir atliekami pastoviomis sąlygomis). Jei p i mažas, tai: σ≈(Np i ) 1/2 =E i ir dvinario skirstinys artimas Puasono, kuriame vidutinis stebėjimų skaičius E i =λ, o standartinis nuokrypis σ=λ 1/2 = E i 1/2. Jei λ≥5, Puasono skirstinys yra artimas normaliajam N (m =E i =λ, σ=E i 1/2 =λ 1/2), o normalizuotai reikšmei (O i - E i )/E i 1 /2 ≈ N (0 ,1).

Pearsonas apibrėžė atsitiktinį dydį χ 2 n – „chi kvadratą su n laisvės laipsnių“ kaip n nepriklausomų standartinių normaliųjų atsitiktinių dydžių kvadratų sumą:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , kur visi T i = N(0,1) – n. O. R. Su. V.

Pabandykime aiškiai suprasti šio svarbiausio statistikos atsitiktinio dydžio reikšmę. Norėdami tai padaryti, plokštumoje (kai n = 2) arba erdvėje (kai n = 3) pateikiame debesį taškų, kurių koordinatės yra nepriklausomos ir turi standartinį normalųjį skirstinįf T (x) ~exp (-x 2 /2 ). Plokštumoje pagal „dviejų sigmų“ taisyklę, kuri nepriklausomai taikoma abiem koordinatėms, 90 % (0,95*0,95≈0,90) taškų yra kvadrate (-2).

f χ 2 2 (a) = Сexp(-a/2) = 0,5exp(-a/2).

Esant pakankamai dideliam laisvės laipsnių n skaičiui (n > 30), chi kvadrato skirstinys artėja prie normalaus: N (m = n; σ = (2n) ½). Tai yra „centrinės ribos teoremos“ pasekmė: identiškai paskirstytų dydžių su baigtine dispersija suma artėja prie normalaus dėsnio, kai narių skaičius didėja.

Praktiškai reikia atsiminti, kad vidutinis atstumo kvadratas yra lygus m (χ 2 n) = n, o jo dispersija yra σ 2 (χ 2 n) = 2n. Iš čia nesunku nuspręsti, kurios chi kvadrato reikšmės turėtų būti laikomos per mažomis ir per didelėmis: didžioji skirstinio dalis yra diapazone nuo n -2∙(2n) ½ iki n +2∙(2n) ½.

Taigi, Pirsono atstumai, gerokai viršijantys n +2∙ (2n) ½, turėtų būti laikomi neįtikėtinai dideliais (nesuderinami su H 0). Jei rezultatas yra artimas n +2∙(2n) ½, tuomet turėtumėte naudoti lenteles, kuriose galite tiksliai sužinoti, kokiais atvejais gali atsirasti tokios ir didelės chi kvadrato reikšmės.

Svarbu žinoti, kaip pasirinkti tinkamą laisvės laipsnių skaičiaus reikšmę (sutrumpintai n.d.f.). Atrodė natūralu manyti, kad n yra tiesiog lygus skaitmenų skaičiui: n =M. Savo straipsnyje Pearsonas pasiūlė tiek daug. Kauliuko pavyzdyje tai reikštų, kad n = 6. Tačiau po kelerių metų buvo įrodyta, kad Pearsonas klydo. Laisvės laipsnių skaičius visada yra mažesnis už skaitmenų skaičių, jei tarp atsitiktinių dydžių O i yra jungčių. Kauliuko pavyzdyje suma O i yra 60 ir atskirai galima keisti tik 5 dažnius, todėl teisinga reikšmė yra n = 6-1 = 5. Šiai n reikšmei gauname n +2∙(2n) ½ =5+2∙(10) ½ =11,3. Kadangi 15.4>11.3, tai hipotezė H 0 – kauliukas teisingas, atmesti.

Išsiaiškinus klaidą, reikėjo papildyti esamas χ 2 lenteles, nes iš pradžių jose nebuvo atvejo n = 1, nes mažiausias skaitmenų skaičius = 2. Dabar paaiškėja, kad gali būti atvejų, kai Pirsono atstumas turi skirstinį χ 2 n =1.

Pavyzdys. Išmetus 100 monetų, galvučių skaičius yra O 1 = 65, o uodegos O 2 = 35. Skaičių skaičius yra M = 2. Jeigu moneta simetriška, tai laukiami dažniai E 1 =50, E 2 =50.

X 2 Pearsonas = S(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2 * 225/50 = 9.

Gautą reikšmę reikia palyginti su tomis, kurias gali gauti atsitiktinis dydis χ 2 n =1, apibrėžiamas kaip standartinės normaliosios vertės χ 2 n =1 =T 1 2 ≥ 9 kvadratas. ó T 1 ≥3 arba T 1 ≤-3. Tokio įvykio tikimybė labai maža P (χ 2 n =1 ≥9) = 0,006. Todėl moneta negali būti laikoma simetriška: H 0 reikia atmesti. Tai, kad laisvės laipsnių skaičius negali būti lygus skaitmenų skaičiui, matyti iš to, kad stebimų dažnių suma visada lygi laukiamų, pavyzdžiui, O 1 +O 2 =65+ 35 = E 1 + E 2 = 50 + 50 = 100. Todėl atsitiktiniai taškai su koordinatėmis O 1 ir O 2 yra tiesioje linijoje: O 1 +O 2 =E 1 +E 2 =100 ir atstumas iki centro pasirodo mažesnis nei tuo atveju, jei šio apribojimo nebūtų ir jie buvo išdėstyti visame lėktuve. Iš tiesų, dviejų nepriklausomų atsitiktinių dydžių, kurių matematiniai lūkesčiai E 1 = 50, E 2 = 50, jų realizacijų suma ne visada turėtų būti lygi 100 - pavyzdžiui, reikšmės O 1 = 60, O 2 = 55 būti priimtina.

Paaiškinimas. Palyginkime Pearsono kriterijaus rezultatą esant M = 2 su tuo, ką duoda Moivre-Laplace formulė, įvertinant atsitiktinius įvykio ν =K /N, turinčio tikimybę p, pasireiškimo dažnio svyravimus N nepriklausomų Bernoulli testų serijoje ( K yra sėkmės skaičius):

χ 2 n =1 = S(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 / (Np) + (N ( 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Reikšmė T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0,1), kai σ(K)=(Npq) ½ ≥3. Matome, kad šiuo atveju Pearsono rezultatas tiksliai sutampa su tuo, kas gaunama naudojant įprastą binominio skirstinio aproksimaciją.

Iki šiol svarstėme paprastas hipotezes, kurių numatomi vidutiniai dažniai E i yra visiškai žinomi iš anksto. Informacijos apie tai, kaip pasirinkti teisingą laisvės laipsnių skaičių sudėtingoms hipotezėms, rasite toliau.

Chi kvadrato testo naudojimas sudėtingoms hipotezėms patikrinti

Pavyzdžiuose su įprastu kauliuku ir moneta numatomi dažniai gali būti nustatyti prieš (!) eksperimentą. Tokios hipotezės vadinamos „paprastomis“. Praktikoje „sudėtingos hipotezės“ yra labiau paplitusios. Be to, norint rasti numatomus dažnius E i, pirmiausia reikia įvertinti vieną ar kelis dydžius (modelio parametrus), o tai galima padaryti tik naudojant eksperimentinius duomenis. Dėl to „sudėtingoms hipotezėms“ numatomi dažniai E i priklauso nuo stebimų dažnių O i ir todėl patys tampa atsitiktiniais dydžiais, kintančiais priklausomai nuo eksperimento rezultatų. Parametrų pasirinkimo procese Pirsono atstumas mažėja – parametrai parenkami taip, kad būtų pagerintas modelio ir eksperimento sutapimas. Todėl laisvės laipsnių skaičius turėtų mažėti.

Kaip įvertinti modelio parametrus? Yra daug skirtingų įvertinimo metodų – „didžiausios tikimybės metodas“, „momentų metodas“, „pakeitimo metodas“. Tačiau jūs negalite naudoti jokių papildomų lėšų ir rasti parametrų įvertinimus sumažinę Pearsono atstumą. Ikikompiuterinėje eroje šis metodas buvo naudojamas retai: jis yra nepatogus atliekant rankinius skaičiavimus ir, kaip taisyklė, negali būti išspręstas analitiškai. Skaičiuojant kompiuteriu, skaitmeninį sumažinimą paprastai lengva atlikti, o šio metodo pranašumas yra jo universalumas. Taigi, pagal „chi kvadrato sumažinimo metodą“ pasirenkame nežinomų parametrų reikšmes taip, kad Pirsono atstumas būtų mažiausias. (Beje, tiriant šio atstumo pokyčius esant nedideliems poslinkiams, palyginti su rastu minimumu, galima įvertinti įverčio tikslumo matą: sudaryti pasikliautinuosius intervalus.) Suradus parametrus ir patį šį minimalų atstumą, yra vėl reikia atsakyti į klausimą, ar jis pakankamai mažas.

Bendra veiksmų seka yra tokia:

  1. Modelio parinkimas (H 0 hipotezė).
  2. Skaitmenų parinkimas ir stebimų dažnių vektoriaus O i nustatymas.
  3. Nežinomų modelio parametrų įvertinimas ir jų pasikliautinųjų intervalų konstravimas (pavyzdžiui, ieškant minimalaus Pirsono atstumo).
  4. Tikėtinų dažnių E i skaičiavimas.
  5. Rastos Pirsono atstumo X 2 vertės palyginimas su chi kvadrato χ 2 kritine verte - didžiausia, kuri vis dar laikoma tikėtina, suderinama su H 0. Išspręsdami lygtį iš lentelių randame reikšmę χ 2 crit

P (χ 2 n > χ 2 krit) = 1-α,

kur α yra „reikšmingumo lygis“ arba „kriterijaus dydis“ arba „pirmojo tipo klaidos dydis“ (tipinė vertė α = 0,05).

Paprastai laisvės laipsnių skaičius n apskaičiuojamas pagal formulę

n = (skaitmenų skaičius) – 1 – (įskaičiuotinų parametrų skaičius)

Jei X 2 > χ 2 krit, tai hipotezė H 0 atmetama, kitu atveju ji priimama. α∙100% atvejų (ty gana retai) šis H 0 tikrinimo būdas sukels „pirmojo pobūdžio klaidą“: hipotezė H 0 bus atmesta klaidingai.

Pavyzdys. Tiriant 10 serijų po 100 sėklų, buvo suskaičiuota, kiek buvo užsikrėtusių žaliaakėmis musėmis. Gauti duomenys: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Čia laukiamų dažnių vektorius iš anksto nežinomas. Jei duomenys yra vienalyčiai ir gauti dvinario skirstinio, tai vienas parametras nežinomas: užkrėstų sėklų dalis p. Atkreipkite dėmesį, kad originalioje lentelėje iš tikrųjų yra ne 10, o 20 dažnių, kurie tenkina 10 jungčių: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Sujungę terminus poromis (kaip pavyzdyje su moneta), gauname Pirsono kriterijaus rašymo formą, kuri paprastai rašoma iš karto:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Dabar, jei kaip p įvertinimo metodas naudojamas minimalus Pirsono atstumas, reikia rasti p, kuriam X 2 =min. (Jei įmanoma, modelis bando „prisiderinti“ prie eksperimentinių duomenų.)

Pearsono kriterijus yra universaliausias iš visų statistikoje naudojamų. Jis gali būti taikomas vienmačiams ir daugiamatiams duomenims, kiekybinėms ir kokybinėms savybėms. Tačiau būtent dėl ​​jo universalumo reikėtų būti atsargiems ir nepadaryti klaidų.

Svarbūs punktai

1.Kategorijų pasirinkimas.

  • Jei paskirstymas yra diskretus, tada paprastai nėra jokios savivalės pasirenkant skaitmenis.
  • Jei paskirstymas yra nuolatinis, savivalė yra neišvengiama. Galima naudoti statistiškai lygiaverčius blokus (visi O yra vienodi, pvz. =10). Tačiau intervalų ilgiai skiriasi. Atlikdami rankinius skaičiavimus, jie stengėsi, kad intervalai būtų vienodi. Ar intervalai tiriant vienmačio požymio pasiskirstymą turi būti lygūs? Nr.
  • Skaičiai turi būti sujungti taip, kad numatomi (ir nepastebimi!) dažniai nebūtų per maži (≥5). Prisiminkime, kad būtent jie (E i) yra vardikliuose skaičiuojant X 2! Analizuojant vienmates charakteristikas, šią taisyklę leidžiama pažeisti dviem kraštutiniais skaitmenimis E 1 =E max =1. Jei skaitmenų skaičius yra didelis, o numatomi dažniai artimi, tai X 2 yra geras χ 2 aproksimacija net ir esant E i =2.

Parametrų įvertinimas. Naudojant „naminius“, neefektyvius vertinimo metodus, gali padidėti Pirsono atstumo vertės.

Tinkamo laisvės laipsnių skaičiaus pasirinkimas. Jei parametrų įverčiai daromi ne iš dažnių, o tiesiogiai iš duomenų (pavyzdžiui, aritmetinis vidurkis imamas kaip vidurkio įvertis), tai tikslus laisvės laipsnių skaičius n nežinomas. Mes tik žinome, kad tai patenkina nelygybę:

(skaitmenų skaičius – 1 – vertinamų parametrų skaičius)< n < (число разрядов – 1)

Todėl būtina palyginti X 2 su kritinėmis χ 2 crit reikšmėmis, apskaičiuotomis visame šiame n diapazone.

Kaip interpretuoti neįtikėtinai mažas chi kvadrato reikšmes? Ar moneta turėtų būti laikoma simetriška, jei po 10 000 metimų ji ant herbo patenka 5 000 kartų? Anksčiau daugelis statistikų manė, kad H 0 taip pat turėtų būti atmestas. Dabar siūlomas kitas būdas: priimti H 0, bet papildomai patikrinti duomenis ir jų analizės metodiką. Galimos dvi galimybės: arba per mažas Pearsono atstumas reiškia, kad padidinus modelio parametrų skaičių nebuvo tinkamai sumažėjęs laisvės laipsnių skaičius, arba patys duomenys buvo suklastoti (galbūt netyčia pakoreguoti prie laukiamo rezultato).

Pavyzdys. Du tyrinėtojai A ir B apskaičiavo recesyvinių homozigotų aa proporciją antroje AA * aa monohibridinio kryžiaus kartoje. Pagal Mendelio dėsnius ši trupmena yra 0,25. Kiekvienas tyrėjas atliko 5 eksperimentus, kiekviename eksperimente buvo ištirta 100 organizmų.

Rezultatai A: 25, 24, 26, 25, 24. Tyrėjo išvada: Mendelio dėsnis teisingas(?).

Rezultatai B: 29, 21, 23, 30, 19. Tyrėjo išvada: Mendelio dėsnis nėra teisingas(?).

Tačiau Mendelio dėsnis yra statistinio pobūdžio, o kiekybinė rezultatų analizė apverčia išvadas! Sujungę penkis eksperimentus į vieną, gauname chi kvadrato skirstinį su 5 laisvės laipsniais (tikrinama paprasta hipotezė):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0,25∙0,75) = 0,16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0,25∙0,75) = 5,17

Vidutinė reikšmė m [χ 2 n =5 ]=5, standartinis nuokrypis σ[χ 2 n =5 ]=(2∙5) 1/2 =3,2.

Todėl be nuorodos į lenteles aišku, kad X 2 B reikšmė yra tipiška, o X 2 A reikšmė yra neįtikėtinai maža. Pagal lenteles P (χ 2 n =5<0.16)<0.0001.

Šis pavyzdys yra tikro atvejo, įvykusio 1930-aisiais, adaptacija (žr. Kolmogorovo veikalą „Apie kitą Mendelio dėsnių įrodymą“). Įdomu tai, kad tyrėjas A buvo genetikos šalininkas, o tyrėjas B priešinosi.

Sumišimas žymėjime. Pirsono atstumą, kurio skaičiavimui reikia papildomų susitarimų, būtina atskirti nuo chi kvadrato atsitiktinio dydžio matematinės sampratos. Pirsono atstumas tam tikromis sąlygomis pasiskirsto artimas chi kvadratui su n laisvės laipsnių. Todėl patartina NE Pirsono atstumą žymėti simboliu χ 2 n, o naudoti panašų, bet skirtingą žymėjimą X 2. .

Pearsono kriterijus nėra visagalis. Yra begalė H 0 alternatyvų, į kurias jis negali atsižvelgti. Tarkime, kad tikrinate hipotezę, kad požymis buvo tolygiai pasiskirstęs, turite 10 skaitmenų ir stebimų dažnių vektorius yra lygus (130,125,121,118,116,115,114,113,111,110). Pearsono kriterijus negali „pastebėti“, kad dažniai monotoniškai mažėja ir H 0 nebus atmestas. Jei jis būtų papildytas serijos kriterijumi, tada taip!

23. Chi kvadrato ir Studento skirstinio samprata ir grafinis vaizdas

1) Skirstinys (chi kvadratas), turintis n laisvės laipsnių, yra n nepriklausomų standartinių normaliųjų atsitiktinių dydžių kvadratų sumos skirstinys.

Pasiskirstymas (chi kvadratas)– atsitiktinio dydžio pasiskirstymas (ir kiekvieno iš jų matematinis lūkestis lygus 0, o standartinis nuokrypis – 1)

kur yra atsitiktiniai dydžiai nepriklausomi ir turi tą patį pasiskirstymą. Šiuo atveju terminų skaičius, t.y., vadinamas chi kvadrato skirstinio „laisvės laipsnių skaičiumi“. Chi kvadrato skaičius nustatomas pagal vieną parametrą – laisvės laipsnių skaičių. Didėjant laisvės laipsnių skaičiui, pasiskirstymas pamažu artėja prie normalaus.

Tada jų kvadratų suma

yra atsitiktinis dydis, paskirstytas pagal vadinamąjį chi kvadrato dėsnį su k = n laisvės laipsnių; jei terminai yra susiję kokiu nors ryšiu (pavyzdžiui, ), tai laisvės laipsnių skaičius k = n – 1.

Šio skirstinio tankis

Čia - gama funkcija; konkrečiai, Г(n + 1) = n! .

Todėl chi kvadrato skirstinį lemia vienas parametras – laisvės laipsnių skaičius k.

Pastaba 1. Didėjant laisvės laipsnių skaičiui, chi kvadrato skirstinys palaipsniui artėja prie normalaus.

Pastaba 2. Naudojant chi kvadrato skirstinį, nustatoma daug kitų praktikoje sutinkamų skirstinių, pavyzdžiui, atsitiktinio dydžio skirstinys - atsitiktinio vektoriaus ilgis (X1, X2,..., Xn), koordinatės kurios yra nepriklausomos ir paskirstytos pagal įprastą dėsnį.

Pirmieji χ2 pasiskirstymą nagrinėjo R. Helmertas (1876) ir K. Pearsonas (1900).

Math.expect.=n; D = 2n

2) Studentų paskirstymas

Apsvarstykite du nepriklausomus atsitiktinius dydžius: Z, kuris turi normalųjį pasiskirstymą ir yra normalizuotas (ty M(Z) = 0, σ(Z) = 1), ir V, kuris paskirstytas pagal chi kvadrato dėsnį su k laisvės laipsniai. Tada vertė

turi skirstinį, vadinamą t skirstiniu arba Stjudento skirstiniu su k laisvės laipsniais. Šiuo atveju k vadinamas Studento skirstinio „laisvės laipsnių skaičiumi“.

Didėjant laisvės laipsnių skaičiui, Studento pasiskirstymas greitai artėja prie normalaus.

Tokį skirstymą 1908 metais įvedė anglų statistikas W. Gossetas, dirbęs alaus fabrike. Šioje gamykloje ekonominiams ir techniniams sprendimams priimti buvo taikomi tikimybiniai ir statistiniai metodai, todėl jos vadovybė uždraudė V. Gossetui savo vardu publikuoti mokslinius straipsnius. Tokiu būdu buvo apsaugotos komercinės paslaptys ir „know-how“ V. Gosseto sukurtais tikimybiniais ir statistiniais metodais. Tačiau jis turėjo galimybę publikuotis slapyvardžiu „Studentas“. Gosset-Student istorija rodo, kad net prieš šimtą metų JK vadovai žinojo apie didesnį tikimybinių ir statistinių sprendimų priėmimo metodų ekonominį efektyvumą.



Ar jums patiko straipsnis? Pasidalinkite su draugais!