Kaip nustatyti pasitikėjimą. Taškiniai ir intervaliniai specifinio svorio įverčiai

Bet kuri imtis suteikia tik apytikslį bendrosios visumos vaizdą, o visos imties statistinės charakteristikos (vidurkis, režimas, dispersija...) yra tam tikri apytiksliai arba, tarkime, bendrųjų parametrų įvertinimai, kurių daugeliu atvejų neįmanoma apskaičiuoti dėl to. iki bendrosios populiacijos neprieinamumo (20 pav.).

20 pav. Atrankos klaida

Bet jūs galite nurodyti intervalą, kuriame su tam tikra tikimybe yra tikroji (bendra) statistinės charakteristikos reikšmė. Šis intervalas vadinamas d pasikliautinasis intervalas (PI).

Taigi bendra vidutinė vertė su 95% tikimybe yra viduje

nuo iki, (20)

Kur t – Studento testo lentelės reikšmė α =0,05 ir f= n-1

Šiuo atveju taip pat galima rasti 99 % PI t pasirinkta α =0,01.

Kokia praktinė pasikliautinojo intervalo reikšmė?

    Platus pasikliautinasis intervalas rodo, kad imties vidurkis tiksliai neatspindi visumos vidurkio. Dažniausiai taip nutinka dėl nepakankamo imties dydžio, arba dėl jos nevienalytiškumo, t.y. didelė dispersija. Abi suteikia didesnę vidurkio paklaidą ir atitinkamai platesnį CI. Ir tai yra pagrindas grįžti į tyrimų planavimo etapą.

    Viršutinė ir apatinė CI ribos leidžia įvertinti, ar rezultatai bus kliniškai reikšmingi

Išsamiai apsistokime prie grupės savybių tyrimo rezultatų statistinės ir klinikinės reikšmės klausimo. Prisiminkime, kad statistikos uždavinys – remiantis imties duomenimis aptikti bent kai kuriuos bendrųjų populiacijų skirtumus. Gydytojų iššūkis yra aptikti skirtumus (ne bet kokius skirtumus), kurie padės diagnozuoti ar gydyti. O statistinės išvados ne visada yra klinikinių išvadų pagrindas. Taigi statistiškai reikšmingas hemoglobino sumažėjimas 3 g/l nerimauti nekelia. Ir, atvirkščiai, jei kuri nors žmogaus organizmo problema nėra plačiai paplitusi visos populiacijos lygmeniu, tai nėra priežastis nenagrinėti šios problemos.

Pažvelkime į šią situaciją pavyzdys.

Mokslininkai domėjosi, ar berniukai, sirgę kokia nors infekcine liga, augimu atsilieka nuo savo bendraamžių. Tuo tikslu buvo atliktas pavyzdinis tyrimas, kuriame dalyvavo 10 šia liga sirgusių berniukų. Rezultatai pateikti 23 lentelėje.

23 lentelė. Statistinio apdorojimo rezultatai

apatinė riba

viršutinė riba

Standartai (cm)

vidutinis

Iš šių skaičiavimų matyti, kad 10 metų berniukų, sirgusių kokia nors infekcine liga, imties vidutinis ūgis yra artimas normaliam (132,5 cm). Tačiau apatinė pasikliautinojo intervalo riba (126,6 cm) rodo, kad yra 95% tikimybė, kad tikrasis šių vaikų vidutinis ūgis atitinka „mažo ūgio“ sąvoką, t.y. šie vaikai stingsta.

Šiame pavyzdyje pasikliautinojo intervalo skaičiavimų rezultatai yra kliniškai reikšmingi.

Pasitikėjimo intervalas matematiniams lūkesčiams - tai intervalas, apskaičiuotas iš duomenų, kurie su žinoma tikimybe apima bendrosios populiacijos matematinius lūkesčius. Natūralus matematinio lūkesčio įvertis yra jo stebimų verčių aritmetinis vidurkis. Todėl visos pamokos metu vartosime terminus „vidutinė“ ir „vidutinė vertė“. Pasikliautinojo intervalo skaičiavimo uždaviniuose dažniausiai reikalaujamas atsakymas yra kažkas panašaus į „Vidutinio skaičiaus [reikšmė konkrečioje užduotyje] pasikliautinasis intervalas yra nuo [mažesnės reikšmės] iki [didesnės reikšmės]“. Naudodami pasikliautinąjį intervalą galite įvertinti ne tik vidutines reikšmes, bet ir specifinį tam tikros populiacijos charakteristikos svorį. Pamokoje aptariamos vidutinės reikšmės, dispersija, standartinis nuokrypis ir paklaida, per kurias pasieksime naujus apibrėžimus ir formules. Imties ir populiacijos charakteristikos .

Vidurkio taškiniai ir intervaliniai įverčiai

Jei vidutinė visumos reikšmė įvertinama skaičiumi (tašku), tai konkretus vidurkis, kuris apskaičiuojamas iš stebėjimų imties, imamas kaip nežinomos populiacijos vidutinės vertės įvertis. Šiuo atveju imties vidurkio reikšmė – atsitiktinis dydis – nesutampa su vidutine bendrosios visumos reikšme. Todėl, nurodydami imties vidurkį, kartu turite nurodyti atrankos klaidą. Atrankos paklaidos matas yra standartinė paklaida, kuri išreiškiama tais pačiais vienetais kaip ir vidurkis. Todėl dažnai vartojamas toks žymėjimas: .

Jei vidurkio įvertinimą reikia susieti su tam tikra tikimybe, tai populiaciją dominantis parametras turi būti įvertintas ne vienu skaičiumi, o intervalu. Pasitikėjimo intervalas yra intervalas, kuriame su tam tikra tikimybe P randama apskaičiuoto gyventojų skaičiaus rodiklio reikšmė. Pasitikėjimo intervalas, kuriame tai tikėtina P = 1 - α randamas atsitiktinis dydis, apskaičiuojamas taip:

,

α = 1 - P, kurį galima rasti beveik bet kurios statistikos knygos priede.

Praktikoje populiacijos vidurkis ir dispersija nėra žinomi, todėl populiacijos dispersija pakeičiama imties dispersija, o populiacijos vidurkis – imties vidurkiu. Taigi, pasikliautinasis intervalas daugeliu atvejų apskaičiuojamas taip:

.

Pasitikėjimo intervalo formulė gali būti naudojama populiacijos vidurkiui įvertinti, jei

  • žinomas populiacijos standartinis nuokrypis;
  • arba visumos standartinis nuokrypis nežinomas, bet imties dydis yra didesnis nei 30.

Imties vidurkis yra nešališkas populiacijos vidurkio įvertinimas. Savo ruožtu imties dispersija nėra nešališkas populiacijos dispersijos įvertinimas. Norint gauti nešališką populiacijos dispersijos įvertinimą imties dispersijos formulėje, imties dydis n turėtų būti pakeistas n-1.

1 pavyzdys. Iš 100 atsitiktinai atrinktų tam tikro miesto kavinių buvo surinkta informacija, kad vidutinis darbuotojų skaičius jose yra 10,5 su standartiniu nuokrypiu 4,6. Nustatykite kavinės darbuotojų skaičiaus 95% pasikliautinąjį intervalą.

kur yra reikšmingumo lygio standartinio normaliojo skirstinio kritinė vertė α = 0,05 .

Taigi 95% pasikliautinasis intervalas vidutiniam kavinės darbuotojų skaičiui svyravo nuo 9,6 iki 11,4.

2 pavyzdys. Atsitiktinei imčiai iš 64 stebėjimų buvo apskaičiuotos šios bendros vertės:

reikšmių suma stebėjimuose,

reikšmių nuokrypių nuo vidurkio kvadrato suma .

Apskaičiuokite matematinio lūkesčio 95 % pasikliautinąjį intervalą.

Apskaičiuokime standartinį nuokrypį:

,

Apskaičiuokime vidutinę vertę:

.

Mes pakeičiame reikšmes į pasikliautinojo intervalo išraišką:

kur yra reikšmingumo lygio standartinio normaliojo skirstinio kritinė vertė α = 0,05 .

Mes gauname:

Taigi šios imties matematinio lūkesčio 95 % pasikliautinasis intervalas svyravo nuo 7,484 iki 11,266.

3 pavyzdys. Atsitiktinės 100 stebėjimų populiacijos imties apskaičiuotas vidurkis yra 15,2, o standartinis nuokrypis yra 3,2. Apskaičiuokite laukiamos vertės 95 % pasikliautinąjį intervalą, tada 99 % pasikliautinąjį intervalą. Jei imties galia ir jos kitimas nepasikeis, o pasikliovimo koeficientas padidės, pasikliautinasis intervalas susiaurės ar išsiplės?

Mes pakeičiame šias reikšmes į pasikliautinojo intervalo išraišką:

kur yra reikšmingumo lygio standartinio normaliojo skirstinio kritinė vertė α = 0,05 .

Mes gauname:

.

Taigi šios imties vidurkio 95 % pasikliautinasis intervalas svyravo nuo 14,57 iki 15,82.

Mes vėl pakeičiame šias reikšmes į pasikliautinojo intervalo išraišką:

kur yra reikšmingumo lygio standartinio normaliojo skirstinio kritinė vertė α = 0,01 .

Mes gauname:

.

Taigi šios imties vidurkio 99 % pasikliautinasis intervalas svyravo nuo 14,37 iki 16,02.

Kaip matome, didėjant pasitikėjimo koeficientui, didėja ir standartinio normaliojo skirstinio kritinė reikšmė, todėl intervalo pradžios ir pabaigos taškai yra toliau nuo vidurkio, todėl didėja matematinio lūkesčio pasikliautinasis intervalas. .

Taškiniai ir intervaliniai specifinio svorio įverčiai

Kai kurios imties požymio dalis gali būti interpretuojama kaip taškinis dalies įvertinimas p ta pati savybė ir bendroje populiacijoje. Jei šią vertę reikia susieti su tikimybe, tuomet reikia apskaičiuoti savitojo svorio pasikliautinąjį intervalą p būdinga populiacijai su tikimybe P = 1 - α :

.

4 pavyzdys. Kai kuriuose miestuose yra du kandidatai A Ir B kandidatuoja į mero postą. Atsitiktiniu būdu buvo apklausta 200 miesto gyventojų, iš kurių 46% atsakė, kad balsuotų už kandidatą A, 26% – kandidatui B ir 28% nežino, už ką balsuos. Nustatykite kandidatą palaikančių miesto gyventojų dalies 95 % pasikliautinąjį intervalą A.

Sukurkime pasikliautinąjį intervalą programoje MS EXCEL, kad įvertintume vidutinę skirstinio reikšmę žinomos dispersijos vertės atveju.

Žinoma, pasirinkimas pasitikėjimo lygis visiškai priklauso nuo sprendžiamos problemos. Taigi, lėktuvo keleivio pasitikėjimo laipsnis lėktuvo patikimumu neabejotinai turėtų būti didesnis nei pirkėjo pasitikėjimo elektros lemputės patikimumu.

Problemos formulavimas

Tarkime, kad nuo gyventojų paimtas mėginys dydis n. Manoma, kad standartinis nuokrypisšis pasiskirstymas žinomas. Remiantis tuo, būtina pavyzdžiųįvertinti nežinomybę paskirstymo vidurkis(μ, ) ir sukonstruoti atitinkamą dvipusis pasitikėjimo intervalas.

Taško įvertinimas

Kaip žinoma iš statistika(pažymime X vid) yra nešališkas vidurkio įvertinimas tai gyventojų ir turi pasiskirstymą N(μ;σ 2 /n).

Pastaba: Ką daryti, jei reikia statyti pasitikėjimo intervalas paskirstymo atveju tai nėra normalu?Šiuo atveju ateina į pagalbą, kuri teigia, kad su pakankamai dideliu dydžiu pavyzdžių n nuo paskirstymo nebuvimas normalus, imties statistikos pasiskirstymas X vid valios apytiksliai atitinka normalusis pasiskirstymas su parametrais N(μ;σ 2 /n).

Taigi, taško sąmata vidutinis paskirstymo vertės mes turime - tai imties vidurkis, t.y. X vid. Dabar pradėkime pasitikėjimo intervalas.

Pasitikėjimo intervalo sudarymas

Paprastai, žinodami skirstinį ir jo parametrus, galime apskaičiuoti tikimybę, kad atsitiktinis dydis paims reikšmę iš mūsų nurodyto intervalo. Dabar padarykime priešingai: raskite intervalą, kuriame atsitiktinis kintamasis pateks su nurodyta tikimybe. Pavyzdžiui, iš savybių normalusis pasiskirstymasžinoma, kad su 95% tikimybe atsitiktinis kintamasis paskirstytas normalus įstatymas, pateks į maždaug +/- 2 diapazoną nuo vidutinė vertė(žr. straipsnį apie). Šis intervalas mums pasitarnaus kaip prototipas pasitikėjimo intervalas.

Dabar pažiūrėkime, ar žinome paskirstymą , apskaičiuoti šį intervalą? Norėdami atsakyti į klausimą, turime nurodyti skirstinio formą ir jo parametrus.

Mes žinome paskirstymo formą – tai yra normalusis pasiskirstymas(atminkite, kad mes kalbame apie mėginių paskirstymas statistika X vid).

Parametras μ mums nežinomas (tik jį reikia įvertinti naudojant pasitikėjimo intervalas), tačiau turime jo įvertinimą X vid. apskaičiuojamas remiantis pavyzdžiai, kuriuos galima naudoti.

Antrasis parametras - imties vidurkio standartinis nuokrypis laikysime žinomu, jis lygus σ/√n.

Nes mes nežinome μ, tada sudarysime intervalą +/- 2 standartiniai nuokrypiai ne iš vidutinė vertė, ir pagal žinomą įvertinimą X vid. Tie. skaičiuojant pasitikėjimo intervalas mes to negalvosime X vid patenka į +/- 2 diapazoną standartiniai nuokrypiai nuo μ su 95% tikimybe ir manysime, kad intervalas yra +/- 2 standartiniai nuokrypiaiX vid su 95% tikimybe apims μ – visos populiacijos vidurkis, iš kurios paimama mėginys. Šie du teiginiai yra lygiaverčiai, tačiau antrasis teiginys leidžia konstruoti pasitikėjimo intervalas.

Be to, paaiškinkime intervalą: atsitiktinis kintamasis, paskirstytas normalus įstatymas, su 95 % tikimybe patenka į intervalą +/- 1,960 standartiniai nuokrypiai, ne +/- 2 standartiniai nuokrypiai. Tai galima apskaičiuoti naudojant formulę =NORM.ST.REV((1+0.95)/2), cm. pavyzdinis failas Lapo intervalas.

Dabar galime suformuluoti tikimybinį teiginį, kuris mums padės suformuoti pasitikėjimo intervalas:
„Tikimybė, kad gyventojų vidurkis esantis nuo imties vidurkis per 1 960" imties vidurkio standartiniai nuokrypiai", lygus 95 %".

Teiginyje minima tikimybės reikšmė turi specialų pavadinimą , kuri yra susijusi su reikšmingumo lygis α (alfa) paprasta išraiška pasitikėjimo lygis =1 . Mūsų atveju reikšmingumo lygis α =1-0,95=0,05 .

Dabar, remdamiesi šiuo tikimybiniu teiginiu, parašome skaičiavimo išraišką pasitikėjimo intervalas:

kur Z α/2 standartinis normalusis pasiskirstymas(ši atsitiktinio dydžio reikšmė z, P(z>=Z α/2 )=α/2).

Pastaba: Viršutinis α/2-kvantilis apibrėžia plotį pasitikėjimo intervalas V standartiniai nuokrypiai imties vidurkis. Viršutinis α/2-kvantilis standartinis normalusis pasiskirstymas visada didesnis nei 0, o tai labai patogu.

Mūsų atveju, kai α = 0,05, viršutinis α/2-kvantilis lygus 1.960. Kitiems reikšmingumo lygiams α (10 %; 1 %) viršutinis α/2-kvantilis Z α/2 galima apskaičiuoti naudojant formulę =NORM.ST.REV(1-α/2) arba, jei žinoma pasitikėjimo lygis, =NORM.ST.OBR((1+pasitikėjimo lygis)/2).

Paprastai statant pasikliautinieji intervalai, skirti įvertinti vidurkį naudoti tik viršutinė α/2-kvantilis ir nenaudoti mažesnis α/2-kvantilis. Tai įmanoma, nes standartinis normalusis pasiskirstymas simetriškai x ašies atžvilgiu ( jo pasiskirstymo tankis simetriškas apie vidutinis, t.y. 0). Todėl skaičiuoti nereikia apatinis α/2-kvantilis(jis tiesiog vadinamas α /2-kvantilis), nes tai lygu viršutinė α/2-kvantilis su minuso ženklu.

Prisiminkime, kad, nepaisant reikšmės x pasiskirstymo formos, atitinkamas atsitiktinis dydis X vid platinami apytiksliai gerai N(μ;σ 2 /n) (žr. straipsnį apie). Todėl apskritai aukščiau pateikta išraiška pasitikėjimo intervalas yra tik apytikslis. Jei reikšmė x yra paskirstyta normalus įstatymas N(μ;σ 2 /n), tada išraiška už pasitikėjimo intervalas yra tikslus.

Pasitikėjimo intervalo skaičiavimas MS EXCEL

Išspręskime problemą.
Elektroninio komponento reakcijos į įvesties signalą laikas yra svarbi įrenginio charakteristika. Inžinierius nori sukurti vidutinės reakcijos trukmės pasikliautinąjį intervalą, kurio patikimumo lygis yra 95%. Iš ankstesnės patirties inžinierius žino, kad atsako laiko standartinis nuokrypis yra 8 ms. Žinoma, kad reakcijos laikui įvertinti inžinierius atliko 25 matavimus, kurių vidutinė vertė buvo 78 ms.

Sprendimas: Inžinierius nori žinoti elektroninio įrenginio reakcijos laiką, bet supranta, kad atsako laikas yra ne fiksuota reikšmė, o atsitiktinis dydis, turintis savo pasiskirstymą. Taigi, geriausia, ko jis gali tikėtis, yra nustatyti šio skirstinio parametrus ir formą.

Deja, iš problemos sąlygų mes nežinome atsako laiko pasiskirstymo formos (tai nebūtinai turi būti normalus). , šis pasiskirstymas taip pat nežinomas. Žinomas tik jis standartinis nuokrypisσ=8. Todėl mes negalime apskaičiuoti tikimybių ir sudaryti pasitikėjimo intervalas.

Tačiau nepaisant to, kad paskirstymo nežinome laiko atskiras atsakymas, mes žinome, kad pagal CPT, mėginių paskirstymas vidutinis reakcijos laikas yra apytiksliai normalus(Manysime, kad sąlygos CPT atliekami, nes dydis pavyzdžių gana didelis (n=25)) .

Be to, vidutinisšis skirstinys yra lygus vidutinė vertė vieno atsakymo paskirstymas, t.y. μ. A standartinis nuokrypisšio skirstinio (σ/√n) galima apskaičiuoti naudojant formulę =8/ROOT(25) .

Taip pat žinoma, kad inžinierius gavo taško sąmata parametras μ lygus 78 ms (X avg). Todėl dabar galime apskaičiuoti tikimybes, nes mes žinome paskirstymo formą ( normalus) ir jo parametrus (X avg ir σ/√n).

Inžinierius nori žinoti matematinis lūkestisμ atsako laiko skirstiniai. Kaip minėta aukščiau, šis μ yra lygus vidutinės reakcijos trukmės imties pasiskirstymo matematinės lūkesčiai. Jei naudosime normalusis pasiskirstymas N(Х avg; σ/√n), tada norimas μ bus diapazone +/-2*σ/√n su maždaug 95 % tikimybe.

Reikšmingumo lygis lygus 1-0,95=0,05.

Galiausiai suraskime kairę ir dešinę kraštą pasitikėjimo intervalas.
Kairė kraštinė: =78-NORM.ST.REV(1-0.05/2)*8/ROOT(25) = 74,864
Dešinė kraštinė: =78+NORM.ST.INV(1-0.05/2)*8/ROOT(25)=81.136

Kairė kraštinė: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Dešinė kraštinė: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Atsakymas: pasitikėjimo intervalas adresu 95 % patikimumo lygis ir σ=8msek lygus 78+/-3,136 ms.

IN pavyzdinis failas Sigma lapežinoma, sukūrė skaičiavimo ir konstravimo formą dvipusis pasitikėjimo intervalas už savavališką pavyzdžių su duotu σ ir reikšmingumo lygis.

CONFIDENCE.NORM() funkcija

Jei vertybės pavyzdžių yra diapazone B20:B79 , A reikšmingumo lygis lygus 0,05; tada MS EXCEL formulė:
=VIDUTINIS(B20:B79)-PASITIKIMAS.NORM.(0.05;σ; SKAIČIAVIMAS(B20:B79))
grąžins kairę sieną pasitikėjimo intervalas.

Tą pačią ribą galima apskaičiuoti naudojant formulę:
=VIDUTINIS(B20:B79)-NORM.ST.REV(1-0.05/2)*σ/ROOT(SKAIČIUS(B20:B79))

Pastaba: Funkcija CONFIDENCE.NORM() pasirodė MS EXCEL 2010. Ankstesnėse MS EXCEL versijose buvo naudojama funkcija TRUST().

Pasitikėjimo intervalas– ribinės statistinio dydžio vertės, kurios, esant tam tikram pasikliovimo tikimybei γ, bus šiame intervale imant didesnį tūrį. Žymima P(θ - ε. Praktiškai pasitikėjimo tikimybė γ parenkama iš reikšmių, kurios yra gana artimos vienetui: γ = 0,9, γ = 0,95, γ = 0,99.

Paslaugos paskirtis. Naudodamiesi šia paslauga galite nustatyti:

  • Bendrojo vidurkio pasikliautinasis intervalas, dispersijos pasikliautinasis intervalas;
  • pasikliautinasis intervalas standartiniam nuokrypiui, pasikliautinasis intervalas bendrajai akcijai;
Gautas sprendimas išsaugomas Word faile (žr. pavyzdį). Žemiau pateikiama vaizdo įrašo instrukcija, kaip užpildyti pradinius duomenis.

1 pavyzdys. Kolūkyje iš visos 1000 avių bandos 100 avių buvo atliktas atrankinis kontrolinis kirpimas. Dėl to buvo nustatytas vidutinis 4,2 kg vilnos nukirpimas vienai avys. Su 0,99 tikimybe nustatykite mėginio vidutinę kvadratinę paklaidą nustatydami vidutinį vienos avies vilnos kirpimą ir ribas, kuriose yra kirpimo vertė, jei dispersija yra 2,5. Mėginys nesikartojantis.
2 pavyzdys. Iš importuotų produktų partijos Maskvos šiaurinės muitinės poste atsitiktinės kartotinės atrankos būdu paimta 20 prekės „A“ pavyzdžių. Atlikus bandymą, buvo nustatytas vidutinis produkto „A“ drėgmės kiekis mėginyje, kuris buvo lygus 6%, o standartinis nuokrypis yra 1%.
Su 0,683 tikimybe nustatykite produkto vidutinio drėgnumo ribas visoje importuojamų produktų partijoje.
3 pavyzdys. Apklausus 36 studentus paaiškėjo, kad vidutinis jų perskaitytų vadovėlių skaičius per mokslo metus buvo lygus 6. Darant prielaidą, kad studento per semestrą perskaitytų vadovėlių skaičius turi normalųjį paskirstymo dėsnį, kurio standartinis nuokrypis lygus 6, raskite. : A) su 0 ,99 intervalo patikimumu šio atsitiktinio dydžio matematiniam lūkesčiui; B) su kokia tikimybe galime teigti, kad vidutinis studento per semestrą perskaitytų vadovėlių skaičius, skaičiuojamas iš šios imties, nuo matematinio lūkesčio absoliučia verte nukryps ne daugiau kaip 2.

Pasikliautinųjų intervalų klasifikacija

Pagal vertinamo parametro tipą:

Pagal pavyzdžio tipą:

  1. Pasitikėjimo intervalas begaliniam mėginiui;
  2. Pasitikėjimo intervalas galutiniam mėginiui;
Mėginys vadinamas resampling, jei pasirinktas objektas grąžinamas populiacijai prieš pasirenkant kitą. Mėginys vadinamas nesikartojančiu, jei pasirinktas objektas negrąžinamas gyventojams. Praktikoje dažniausiai susiduriame su nesikartojančiais pavyzdžiais.

Atsitiktinės atrankos vidutinės atrankos paklaidos apskaičiavimas

Vadinamas neatitikimas tarp iš imties gautų rodiklių verčių ir atitinkamų bendrosios visumos parametrų reprezentatyvumo klaida.
Pagrindinių bendrosios ir imtinės populiacijų parametrų žymėjimai.
Vidutinės atrankos klaidų formulės
perrinkimaspakartoti pasirinkimą
vidutiniamuž dalįvidutiniamuž dalį
Ryšys tarp atrankos paklaidos ribos (Δ) garantuotas su tam tikra tikimybe Р(t), o vidutinė atrankos paklaida yra tokia: arba Δ = t·μ, kur t– pasikliovimo koeficientas, nustatomas priklausomai nuo tikimybės lygio P(t) pagal Laplaso integralinės funkcijos lentelę.

Imties dydžio apskaičiavimo formulės naudojant grynai atsitiktinės atrankos metodą

DAŽNIŲ IR DAŽNŲ PASITIKĖJIMO INTERVALAI

© 2008 m

Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija

Straipsnyje aprašomas ir aptariamas pasikliautinųjų intervalų dažniams ir proporcijoms apskaičiavimas naudojant Wald, Wilson, Clopper – Pearson metodus, naudojant kampinę transformaciją ir Wald metodą su Agresti – Coull korekcija. Pateiktoje medžiagoje pateikiama bendra informacija apie dažnių ir proporcijų pasikliautinųjų intervalų skaičiavimo metodus ir siekiama sužadinti žurnalo skaitytojų susidomėjimą ne tik pasikliautinaisiais intervalais pristatant savo tyrimų rezultatus, bet ir skaityti specializuotą literatūrą prieš pradedant darbą. apie būsimus leidinius.

Raktažodžiai: pasikliautinasis intervalas, dažnis, proporcija

Vienoje iš ankstesnių publikacijų trumpai buvo paminėtas kokybinių duomenų aprašymas ir teigiama, kad jų intervalo įvertis yra geresnis už taškinį įvertinimą, apibūdinant tiriamos charakteristikos pasireiškimo populiacijoje dažnį. Iš tiesų, kadangi tyrimai atliekami naudojant imties duomenis, rezultatų projekcija į populiaciją turi turėti imties netikslumo elementą. Pasikliautinasis intervalas yra vertinamo parametro tikslumo matas. Įdomu tai, kad kai kurios knygos apie pagrindinę statistiką gydytojams visiškai ignoruoja dažnių pasikliautinųjų intervalų temą. Šiame straipsnyje apžvelgsime kelis būdus, kaip apskaičiuoti dažnių pasikliautinuosius intervalus, o tai reiškia tokias imties charakteristikas kaip nesikartojimas ir reprezentatyvumas, taip pat stebėjimų nepriklausomumas vienas nuo kito. Šiame straipsnyje dažnis suprantamas ne kaip absoliutus skaičius, parodantis, kiek kartų tam tikra reikšmė pasitaiko visumoje, o kaip santykinė reikšmė, kuri lemia tyrimo dalyvių, kuriems pasireiškia tiriamoji charakteristika, dalį.

Biomedicininiuose tyrimuose dažniausiai naudojami 95 % pasikliautinieji intervalai. Šis pasikliautinasis intervalas yra sritis, kurioje tikroji dalis patenka 95 % laiko. Kitaip tariant, 95 % patikimumu galime teigti, kad tikroji požymio pasireiškimo populiacijoje dažnio reikšmė bus 95 % pasikliautinajame intervale.

Daugumoje medicinos mokslininkams skirtų statistikos žinynų rašoma, kad dažnio paklaida apskaičiuojama pagal formulę

čia p – charakteristikos pasireiškimo imtyje dažnis (reikšmė nuo 0 iki 1). Daugumoje vietinių mokslinių straipsnių nurodomas požymio pasireiškimo pavyzdyje dažnis (p), taip pat jo paklaida (-os) forma p ± s. Tačiau tikslingiau pateikti 95 % pasikliautinąjį intervalą požymio pasireiškimo populiacijoje dažnumui, kuris apims reikšmes nuo

į.

Kai kuriuose vadovuose rekomenduojama mažų imčių 1,96 reikšmę pakeisti N – 1 laisvės laipsnių t reikšme, kur N yra stebėjimų skaičius imtyje. T reikšmė randama naudojant t skirstinio lenteles, kurios yra beveik visuose statistikos vadovėliuose. t skirstinio naudojimas Wald metodui nesuteikia matomų pranašumų, palyginti su kitais toliau aptartais metodais, todėl kai kurie autoriai jo nerekomenduoja.

Aukščiau pateiktas dažnių ar proporcijų pasikliautinųjų intervalų skaičiavimo metodas pavadintas Wald Abraomo Waldo (1902–1950) garbei, nes jis buvo plačiai naudojamas po Waldo ir Wolfowitzo publikacijos 1939 m. Tačiau patį metodą dar 1812 m. pasiūlė Pierre'as Simonas Laplasas (1749–1827).

Wald metodas yra labai populiarus, tačiau jo taikymas yra susijęs su didelėmis problemomis. Metodas nerekomenduojamas mažiems imčių dydžiams, taip pat tais atvejais, kai charakteristikos pasireiškimo dažnis linkęs į 0 arba 1 (0 % arba 100 %), o 0 ir 1 dažnių atveju tai tiesiog neįmanoma. normaliojo skirstinio aproksimacija, kuri naudojama skaičiuojant paklaidą , „neveikia“ tais atvejais, kai n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Kadangi naujasis kintamasis yra įprastai pasiskirstęs, kintamojo φ 95 % pasikliautinojo intervalo apatinė ir viršutinė ribos bus φ-1,96 ir φ+1,96 kairėje">

Vietoj 1,96 mažiems mėginiams reikšme t rekomenduojama pakeisti N – 1 laisvės laipsniais. Šis metodas nesukuria neigiamų verčių ir leidžia tiksliau įvertinti dažnių pasikliautinius intervalus nei Wald metodas. Be to, jis aprašytas daugelyje vietinių medicinos statistikos žinynų, tačiau dėl to jis nebuvo plačiai naudojamas medicinos tyrimuose. Pasikliautinųjų intervalų skaičiavimas naudojant kampinę transformaciją nerekomenduojamas, kai dažniai artėja prie 0 arba 1.

Tuo dažniausiai baigiasi pasikliautinųjų intervalų įvertinimo metodų aprašymas daugumoje statistikos pagrindus skirtų knygų medicinos tyrėjams, ir ši problema būdinga ne tik šalies, bet ir užsienio literatūrai. Abu metodai yra pagrįsti centrine ribine teorema, kuri reiškia didelę imtį.

Atsižvelgdami į pasikliautinųjų intervalų įvertinimo taikant minėtus metodus trūkumus, Clopperis ir Pearsonas 1934 metais pasiūlė vadinamojo tikslaus pasikliautinojo intervalo apskaičiavimo metodą, atsižvelgiant į tiriamo požymio binominį pasiskirstymą. Šis metodas yra prieinamas daugelyje internetinių skaičiuoklių, tačiau tokiu būdu gauti pasikliautinieji intervalai daugeliu atvejų yra per platūs. Kartu šį metodą rekomenduojama naudoti tais atvejais, kai būtinas konservatyvus vertinimas. Metodo konservatyvumo laipsnis didėja mažėjant imties dydžiui, ypač kai N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Daugelio statistikų teigimu, optimaliausias dažnių pasikliautinųjų intervalų įvertinimas atliekamas Wilsono metodu, pasiūlytu dar 1927 m., tačiau praktiškai nenaudojamu vidaus biomedicinos tyrimuose. Šis metodas ne tik leidžia įvertinti labai mažų ir labai didelių dažnių pasikliautinuosius intervalus, bet ir taikomas nedideliam stebėjimų skaičiui. Apskritai pasikliautinasis intervalas pagal Wilsono formulę turi formą



kur skaičiuojant 95 % pasikliautinąjį intervalą įgauna reikšmę 1,96, N – stebėjimų skaičius, o p – charakteristikos pasireiškimo imtyje dažnis. Šis metodas yra prieinamas internetinėse skaičiuoklėse, todėl jo naudojimas nesukelia problemų. ir nerekomenduojama naudoti šio metodo n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Manoma, kad be Wilsono metodo, Wald metodas su Agresti–Coll korekcija taip pat suteikia optimalų dažnių pasikliautinojo intervalo įvertinimą. Agresti-Coll pataisa yra charakteristikos pasireiškimo pavyzdyje dažnio (p) pakeitimas Wald formulėje p`, skaičiuojant, kuris 2 pridedamas prie skaitiklio ir 4 pridedamas prie vardiklio, tai yra, p` = (X + 2) / (N + 4), kur X yra tyrimo dalyvių, kuriems būdinga tiriama charakteristika, skaičius, o N yra imties dydis. Ši modifikacija duoda rezultatus, labai panašius į Wilsono formulę, išskyrus atvejus, kai įvykių dažnis artėja prie 0 % arba 100 %, o imtis yra maža. Be aukščiau pateiktų dažnių pasikliautinųjų intervalų skaičiavimo metodų, buvo pasiūlytos ir Wald, ir Wilson metodų tęstinumo pataisos mažoms imtims, tačiau tyrimai parodė, kad jų naudojimas yra netinkamas.

Panagrinėkime aukščiau pateiktų metodų taikymą pasikliautiniesiems intervalams apskaičiuoti naudodami du pavyzdžius. Pirmuoju atveju tiriame didelę 1000 atsitiktinai atrinktų tyrimo dalyvių imtį, iš kurių 450 turi tiriamą požymį (tai gali būti rizikos veiksnys, rezultatas ar bet koks kitas požymis), o dažnis yra 0,45 arba 45 %. Antruoju atveju tyrimas atliekamas naudojant nedidelę imtį, tarkime, tik 20 žmonių, ir tik 1 tyrimo dalyvis (5 proc.) turi tirtą požymį. Pasitikėjimo intervalai buvo apskaičiuoti naudojant Wald metodą, Wald metodą su Agresti–Coll korekcija ir Wilson metodą, naudojant Jeffo Sauro sukurtą internetinį skaičiuotuvą (http://www. /wald. htm). Wilsono tęstinumo patikslinti pasikliautinieji intervalai buvo apskaičiuoti naudojant skaičiuotuvą, kurį pateikė Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Kampinės Fišerio transformacijos skaičiavimai buvo atlikti rankiniu būdu, naudojant kritinę t vertę atitinkamai 19 ir 999 laisvės laipsnių. Abiejų pavyzdžių skaičiavimo rezultatai pateikti lentelėje.

Pasitikėjimo intervalai, apskaičiuoti šešiais skirtingais būdais dviem tekste aprašytiems pavyzdžiams

Pasitikėjimo intervalo skaičiavimo metodas

P = 0,0500 arba 5 %

95 % PI, kai X = 450, N = 1000, P = 0,4500 arba 45 %

–0,0455–0,2541

Wald su Agresti–Coll korekcija

<,0001–0,2541

Wilsonas su tęstinumo korekcija

Clopper-Pearson „tikslus metodas“

Kampinė transformacija

<0,0001–0,1967

Kaip matyti iš lentelės, pirmame pavyzdyje pasikliautinasis intervalas, apskaičiuotas naudojant „bendrai priimtą“ Wald metodą, patenka į neigiamą sritį, o dažnių atveju to negali būti. Deja, tokie incidentai rusų literatūroje nėra neįprasti. Tradicinis duomenų pateikimo būdas pagal dažnumą ir jų paklaidą iš dalies užmaskuoja šią problemą. Pavyzdžiui, jei požymio pasireiškimo dažnis (procentais) yra 2,1 ± 1,4, tai nėra toks „įžeidžiantis akis“ kaip 2,1 % (95 % PI: –0,7; 4,9), nors ir reiškia. tas pats dalykas. Wald metodas su Agresti–Coll korekcija ir skaičiavimas naudojant kampinę transformaciją suteikia apatinę ribą, linkusią į nulį. Wilsono tęstinumo koreguotas metodas ir „tikslus metodas“ sukuria platesnius pasikliautinuosius intervalus nei Wilsono metodas. Antrajame pavyzdyje visi metodai duoda maždaug tuos pačius pasikliautinuosius intervalus (skirtumai atsiranda tik tūkstantosiomis dalimis), o tai nenuostabu, nes įvykio pasireiškimo dažnis šiame pavyzdyje nedaug skiriasi nuo 50%, o imties dydis yra gana didelis.

Skaitytojams, besidomintiems šia problema, galime rekomenduoti R. G. Newcombe ir Brown, Cai ir Dasgupta darbus, kuriuose pateikiami atitinkamai 7 ir 10 skirtingų pasikliautinųjų intervalų skaičiavimo metodų naudojimo privalumai ir trūkumai. Tarp buitinių vadovų rekomenduojame knygą ir kurioje, be išsamaus teorijos aprašymo, pateikiami Waldo ir Wilsono metodai, taip pat patikimumo intervalų skaičiavimo metodas, atsižvelgiant į binominį dažnių pasiskirstymą. Be nemokamų internetinių skaičiuoklių (http://www. /wald. htm ir http://faculty. vassar. edu/lowry/prop1.html), dažnių (ir ne tik!) pasikliautinuosius intervalus galima apskaičiuoti naudojant CŽV programa (angl. Confidence Intervals Analysis), kurią galima atsisiųsti iš http://www. medicinos mokykla. soton. ak. uk/cia/ .

Kitame straipsnyje bus nagrinėjami vienmačiai kokybinių duomenų palyginimo būdai.

Nuorodos

Baneris A. Medicinos statistika aiškia kalba: įvadinis kursas / A. Banerjee. – M.: Praktinė medicina, 2007. – 287 p. Medicinos statistika / . – M.: Medicinos informacijos agentūra, 2007. – 475 p. Glanzas S. Medicinos ir biologijos statistika / S. Glanz. – M.: Praktika, 1998. Duomenų tipai, pasiskirstymo tikrinimas ir aprašomoji statistika // Žmogaus ekologija – 2008. – Nr. 1. – P. 52–58. Žižinas K. S.. Medicinos statistika: vadovėlis / . – Rostovas n/d: Feniksas, 2007. – 160 p. Taikomoji medicinos statistika / , . – Sankt Peterburgas. : Foliot, 2003. – 428 p. Lakinas G. F. Biometriniai duomenys / . – M.: Aukštoji mokykla, 1990. – 350 p. Gydytojas V. A. Matematinė statistika medicinoje / , . – M.: Finansai ir statistika, 2007. – 798 p. Matematinė statistika klinikiniuose tyrimuose / , . – M.: GEOTAR-MED, 2001. – 256 p. Junkerovas V. IR. Medicininis ir statistinis medicininių tyrimų duomenų apdorojimas / , . – Sankt Peterburgas. : VmedA, 2002. – 266 p. Agresti A. Binominių proporcijų intervaliniam įvertinimui apytikslis yra geresnis nei tikslus / A. Agresti, B. Coull // Amerikos statistikas. – 1998. – N 52. – P. 119–126. Altmanas D. Statistika su pasitikėjimu // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londonas: BMJ Books, 2000. – 240 p. Brownas L.D. Interval estimation for a binomial ratio / L. D. Brown, T. T. Cai, A. Dasgupta // Statistikos mokslas. – 2001. – N 2. – P. 101–133. Cloperis C.J. Pasitikėjimo arba atskaitos ribų naudojimas, iliustruotas dvinario atveju / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. Garcia-Perezas M. A. Apie dvinario parametro pasikliautinąjį intervalą / M. A. Garcia-Perez // Kokybė ir kiekybė. – 2005. – N 39. – P. 467–481. Motulskis H. Intuityvi biostatistika // H. Motulsky. – Oksfordas: Oxford University Press, 1995. – 386 p. Newcombe'as R. G. Dvipusiai pasitikėjimo intervalai vienai proporcijai: septynių metodų palyginimas / R. G. Newcombe // Medicinos statistika. – 1998. – N. 17. – P. 857–872. Sauro J. Užbaigimo rodiklių įvertinimas iš mažų imčių naudojant binominius pasikliautinuosius intervalus: palyginimai ir rekomendacijos / J. Sauro, J. R. Lewis // Proceedings of the human factor and ergonomics Society metinis susirinkimas. – Orlandas, Florida, 2005 m. Valdas A. Nepertraukiamo skirstymo funkcijų pasitikėjimo ribos // A. Wald, J. Wolfovitz // Matematinės statistikos metraštis. – 1939. – N 10. – P. 105–118. Wilsonas E.B. Tikėtinos išvados, paveldėjimo dėsnis ir statistinė išvada / E. B. Wilson // Amerikos statistikos asociacijos žurnalas. – 1927. – N 22. – P. 209–212.

PASITIKĖJIMO INTERVALAI PROporcijoms

A. M. Grjibovski

Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija

Straipsnyje pateikiami keli dvinarių proporcijų pasikliautinųjų intervalų skaičiavimo metodai, būtent Wald, Wilson, arcsine, Agresti-Coull ir tikslūs Clopper-Pearson metodai. Straipsnyje pateikiamas tik bendras įvadas į binominės proporcijos pasikliautinojo intervalo įvertinimo problemą ir jo tikslas yra ne tik paskatinti skaitytojus naudoti pasikliautinuosius intervalus pristatant savo empirinių tyrimų rezultatus, bet ir paskatinti juos skaityti statistikos knygas. prieš analizuojant savo duomenis ir ruošiant rankraščius.

Pagrindiniai žodžiai: pasikliautinasis intervalas, proporcija

Kontaktinė informacija:

Vyresnysis patarėjas, Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija



Ar jums patiko straipsnis? Pasidalinkite su draugais!