Tai, kas vadinama pasitikėjimo intervalu. Taškiniai ir intervaliniai specifinio svorio įverčiai

DAŽNIŲ IR DAŽNŲ PASITIKĖJIMO INTERVALAI

© 2008 m

Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija

Straipsnyje aprašomas ir aptariamas pasikliautinųjų intervalų dažniams ir proporcijoms apskaičiavimas naudojant Wald, Wilson, Clopper – Pearson metodus, naudojant kampinę transformaciją ir Wald metodą su Agresti – Coull korekcija. Pateiktoje medžiagoje pateikiama bendra informacija apie dažnių ir proporcijų pasikliautinųjų intervalų skaičiavimo metodus ir siekiama sužadinti žurnalo skaitytojų susidomėjimą ne tik pasikliautinaisiais intervalais pristatant savo tyrimų rezultatus, bet ir skaityti specializuotą literatūrą prieš pradedant darbą. apie būsimus leidinius.

Raktažodžiai: pasikliautinasis intervalas, dažnis, proporcija

Vienoje iš ankstesnių publikacijų trumpai buvo paminėtas kokybinių duomenų aprašymas ir teigiama, kad jų intervalo įvertis yra geresnis už taškinį įvertinimą, apibūdinant tiriamos charakteristikos pasireiškimo populiacijoje dažnį. Iš tiesų, kadangi tyrimai atliekami naudojant imties duomenis, rezultatų projekcija į populiaciją turi turėti imties netikslumo elementą. Pasikliautinasis intervalas yra vertinamo parametro tikslumo matas. Įdomu tai, kad kai kurios knygos apie pagrindinę statistiką gydytojams visiškai ignoruoja dažnių pasikliautinųjų intervalų temą. Šiame straipsnyje apžvelgsime kelis būdus, kaip apskaičiuoti dažnių pasikliautinuosius intervalus, o tai reiškia tokias imties charakteristikas kaip nesikartojimas ir reprezentatyvumas, taip pat stebėjimų nepriklausomumas vienas nuo kito. Šiame straipsnyje dažnis suprantamas ne kaip absoliutus skaičius, parodantis, kiek kartų tam tikra reikšmė pasitaiko visumoje, o kaip santykinė reikšmė, kuri lemia tyrimo dalyvių, kuriems pasireiškia tiriamoji charakteristika, dalį.

Biomedicininiuose tyrimuose dažniausiai naudojami 95 % pasikliautinieji intervalai. Šis pasikliautinasis intervalas yra sritis, kurioje tikroji dalis patenka 95 % laiko. Kitaip tariant, 95 % patikimumu galime teigti, kad tikroji požymio pasireiškimo populiacijoje dažnio reikšmė bus 95 % pasikliautinajame intervale.

Daugumoje medicinos mokslininkams skirtų statistikos žinynų rašoma, kad dažnio paklaida apskaičiuojama pagal formulę

čia p – charakteristikos pasireiškimo imtyje dažnis (reikšmė nuo 0 iki 1). Dauguma vietinių mokslinių straipsnių nurodo bruožo pasireiškimo imtyje dažnio reikšmę (p), taip pat jo paklaidą (-as) forma p ± s. Tačiau tikslingiau pateikti 95 % pasikliautinąjį intervalą požymio pasireiškimo populiacijoje dažnumui, kuris apims reikšmes nuo

į.

Kai kuriuose vadovuose rekomenduojama mažų imčių vertę 1,96 pakeisti t reikšme N – 1 laisvės laipsniui, kur N yra stebėjimų skaičius imtyje. t reikšmė randama iš t skirstinio lentelių, kurias galima rasti beveik visuose statistikos vadovėliuose. t skirstinio naudojimas Wald metodui nesuteikia matomų pranašumų, palyginti su kitais toliau aptartais metodais, todėl kai kurie autoriai jo nerekomenduoja.

Aukščiau pateiktas dažnių ar proporcijų pasikliautinųjų intervalų skaičiavimo metodas pavadintas Wald Abraomo Waldo (1902–1950) garbei, nes jis buvo plačiai naudojamas po Waldo ir Wolfowitzo publikacijos 1939 m. Tačiau patį metodą dar 1812 m. pasiūlė Pierre'as Simonas Laplasas (1749–1827).

Wald metodas yra labai populiarus, tačiau jo taikymas yra susijęs su didelėmis problemomis. Metodas nerekomenduojamas mažiems imčių dydžiams, taip pat tais atvejais, kai charakteristikos pasireiškimo dažnis linkęs į 0 arba 1 (0 % arba 100 %), o 0 ir 1 dažnių atveju tai tiesiog neįmanoma. normaliojo skirstinio aproksimacija, kuri naudojama apskaičiuojant paklaidą , „neveikia“ tais atvejais, kai n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Kadangi naujasis kintamasis yra įprastai pasiskirstęs, kintamojo φ 95 % pasikliautinojo intervalo apatinė ir viršutinė ribos bus φ-1,96 ir φ+1,96 kairėje">

Vietoj 1,96 mažiems mėginiams rekomenduojama t reikšmę pakeisti N – 1 laisvės laipsniais. Šis metodas nesukuria neigiamų verčių ir leidžia tiksliau įvertinti dažnių pasikliautinius intervalus nei Wald metodas. Be to, jis aprašytas daugelyje vietinių medicinos statistikos žinynų, tačiau dėl to jis nebuvo plačiai naudojamas medicinos tyrimuose. Pasikliautinųjų intervalų skaičiavimas naudojant kampinę transformaciją nerekomenduojamas, kai dažniai artėja prie 0 arba 1.

Tuo dažniausiai baigiasi pasikliautinųjų intervalų įvertinimo metodų aprašymas daugumoje statistikos pagrindus skirtų knygų medicinos tyrėjams, ir ši problema būdinga ne tik šalies, bet ir užsienio literatūrai. Abu metodai yra pagrįsti centrine ribine teorema, kuri reiškia didelę imtį.

Atsižvelgdami į pasikliautinųjų intervalų įvertinimo taikant minėtus metodus trūkumus, Clopperis ir Pearsonas 1934 metais pasiūlė vadinamojo tikslaus pasikliautinojo intervalo apskaičiavimo metodą, atsižvelgiant į tiriamo požymio binominį pasiskirstymą. Šis metodas yra prieinamas daugelyje internetinių skaičiuoklių, tačiau tokiu būdu gauti pasikliautinieji intervalai daugeliu atvejų yra per platūs. Kartu šį metodą rekomenduojama naudoti tais atvejais, kai būtinas konservatyvus vertinimas. Metodo konservatyvumo laipsnis didėja mažėjant imties dydžiui, ypač kai N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Daugelio statistikų teigimu, optimaliausias dažnių pasikliautinųjų intervalų įvertinimas atliekamas Wilsono metodu, pasiūlytu dar 1927 m., tačiau praktiškai nenaudojamu vidaus biomedicinos tyrimuose. Šis metodas ne tik leidžia įvertinti labai mažų ir labai didelių dažnių pasikliautinuosius intervalus, bet ir taikomas nedideliam stebėjimų skaičiui. Apskritai pasikliautinasis intervalas pagal Wilsono formulę turi formą



kur skaičiuojant 95 % pasikliautinąjį intervalą įgauna reikšmę 1,96, N – stebėjimų skaičius, o p – charakteristikos pasireiškimo imtyje dažnis. Šis metodas yra prieinamas internetinėse skaičiuoklėse, todėl jo naudojimas nesukelia problemų. ir nerekomenduojama naudoti šio metodo n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Manoma, kad be Wilsono metodo, Wald metodas su Agresti–Coll korekcija taip pat suteikia optimalų dažnių pasikliautinojo intervalo įvertinimą. Agresti-Coll pataisa yra charakteristikos pasireiškimo pavyzdyje dažnio (p) pakeitimas Wald formulėje p`, skaičiuojant, kuris 2 pridedamas prie skaitiklio ir 4 pridedamas prie vardiklio, tai yra, p` = (X + 2) / (N + 4), kur X yra tyrimo dalyvių, kuriems būdinga tiriama charakteristika, skaičius, o N yra imties dydis. Ši modifikacija duoda rezultatus, labai panašius į Wilsono formulę, išskyrus atvejus, kai įvykių dažnis artėja prie 0 % arba 100 %, o imtis yra maža. Be aukščiau pateiktų dažnių pasikliautinųjų intervalų skaičiavimo metodų, buvo pasiūlytos ir Wald, ir Wilson metodų tęstinumo pataisos mažoms imtims, tačiau tyrimai parodė, kad jų naudojimas yra netinkamas.

Panagrinėkime aukščiau pateiktų metodų taikymą pasikliautiniesiems intervalams apskaičiuoti naudodami du pavyzdžius. Pirmuoju atveju tiriame didelę 1000 atsitiktinai atrinktų tyrimo dalyvių imtį, iš kurių 450 turi tiriamą požymį (tai gali būti rizikos veiksnys, rezultatas ar bet koks kitas požymis), o dažnis yra 0,45 arba 45 %. Antruoju atveju tyrimas atliekamas naudojant nedidelę imtį, tarkime, tik 20 žmonių, ir tik 1 tyrimo dalyvis (5 proc.) turi tiriamą savybę. Pasitikėjimo intervalai buvo apskaičiuoti naudojant Wald metodą, Wald metodą su Agresti–Coll korekcija ir Wilson metodą, naudojant Jeffo Sauro sukurtą internetinį skaičiuotuvą (http://www. /wald. htm). Wilsono tęstinumo patikslinti pasikliautinieji intervalai buvo apskaičiuoti naudojant skaičiuotuvą, kurį pateikė Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Kampinės Fišerio transformacijos skaičiavimai buvo atlikti rankiniu būdu, naudojant kritinę t vertę atitinkamai 19 ir 999 laisvės laipsnių. Abiejų pavyzdžių skaičiavimo rezultatai pateikti lentelėje.

Pasitikėjimo intervalai, apskaičiuoti šešiais skirtingais būdais dviem tekste aprašytiems pavyzdžiams

Pasitikėjimo intervalo skaičiavimo metodas

P = 0,0500 arba 5 %

95 % PI, kai X = 450, N = 1000, P = 0,4500 arba 45 %

–0,0455–0,2541

Wald su Agresti–Coll korekcija

<,0001–0,2541

Wilsonas su tęstinumo korekcija

Clopper-Pearson „tikslus metodas“

Kampinė transformacija

<0,0001–0,1967

Kaip matyti iš lentelės, pirmame pavyzdyje pasikliautinasis intervalas, apskaičiuotas naudojant „bendrai priimtą“ Wald metodą, patenka į neigiamą sritį, o dažnių atveju to negali būti. Deja, tokie incidentai rusų literatūroje nėra neįprasti. Tradicinis duomenų pateikimo būdas pagal dažnumą ir jų paklaidą iš dalies užmaskuoja šią problemą. Pavyzdžiui, jei požymio pasireiškimo dažnis (procentais) yra 2,1 ± 1,4, tai nėra toks „įžeidžiantis akis“ kaip 2,1 % (95 % PI: –0,7; 4,9), nors ir reiškia. tas pats dalykas. Wald metodas su Agresti–Coll korekcija ir skaičiavimas naudojant kampinę transformaciją suteikia apatinę ribą, linkusią į nulį. Wilsono tęstinumo koreguotas metodas ir „tikslus metodas“ sukuria platesnius pasikliautinuosius intervalus nei Wilsono metodas. Antrajame pavyzdyje visi metodai duoda maždaug tuos pačius pasikliautinuosius intervalus (skirtumai atsiranda tik tūkstantosiomis dalimis), o tai nenuostabu, nes įvykio pasireiškimo dažnis šiame pavyzdyje nedaug skiriasi nuo 50%, o imties dydis yra gana didelis.

Skaitytojams, besidomintiems šia problema, galime rekomenduoti R. G. Newcombe ir Brown, Cai ir Dasgupta darbus, kuriuose pateikiami atitinkamai 7 ir 10 skirtingų pasikliautinųjų intervalų skaičiavimo metodų naudojimo privalumai ir trūkumai. Tarp buitinių vadovų rekomenduojame knygą ir kurioje, be išsamaus teorijos aprašymo, pateikiami Waldo ir Wilsono metodai, taip pat patikimumo intervalų skaičiavimo metodas, atsižvelgiant į binominį dažnių pasiskirstymą. Be nemokamų internetinių skaičiuoklių (http://www. /wald. htm ir http://faculty. vassar. edu/lowry/prop1.html), dažnių (ir ne tik!) pasikliautinuosius intervalus galima apskaičiuoti naudojant CŽV programa (angl. Confidence Intervals Analysis), kurią galima atsisiųsti iš http://www. medicinos mokykla. soton. ac. uk/cia/ .

Kitame straipsnyje bus nagrinėjami vienmačiai kokybinių duomenų palyginimo būdai.

Nuorodos

Baneris A. Medicinos statistika aiškia kalba: įvadinis kursas / A. Banerjee. – M.: Praktinė medicina, 2007. – 287 p. Medicinos statistika / . – M.: Medicinos informacijos agentūra, 2007. – 475 p. Glanzas S. Medicinos ir biologijos statistika / S. Glanz. – M.: Praktika, 1998. Duomenų tipai, pasiskirstymo tikrinimas ir aprašomoji statistika // Žmogaus ekologija – 2008. – Nr. 1. – P. 52–58. Žižinas K. S.. Medicinos statistika: vadovėlis / . – Rostovas n/d: Feniksas, 2007. – 160 p. Taikomoji medicinos statistika / , . – Sankt Peterburgas. : Foliot, 2003. – 428 p. Lakinas G. F. Biometriniai duomenys / . – M.: Aukštoji mokykla, 1990. – 350 p. Gydytojas V. A. Matematinė statistika medicinoje / , . – M.: Finansai ir statistika, 2007. – 798 p. Matematinė statistika klinikiniuose tyrimuose / , . – M.: GEOTAR-MED, 2001. – 256 p. Junkerovas V. IR. Medicininis ir statistinis medicininių tyrimų duomenų apdorojimas / , . – Sankt Peterburgas. : VmedA, 2002. – 266 p. Agresti A. Binominių proporcijų intervaliniam įvertinimui apytikslis yra geresnis nei tikslus / A. Agresti, B. Coull // Amerikos statistikas. – 1998. – N 52. – P. 119–126. Altmanas D. Statistika su pasitikėjimu // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londonas: BMJ Books, 2000. – 240 p. Brownas L.D. Interval estimation for a binomial ratio / L. D. Brown, T. T. Cai, A. Dasgupta // Statistikos mokslas. – 2001. – N 2. – P. 101–133. Cloperis C. J. Pasitikėjimo arba atskaitos ribų naudojimas, iliustruotas dvinario atveju / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. Garcia-Perezas M. A. Apie dvinario parametro pasikliautinąjį intervalą / M. A. Garcia-Perez // Kokybė ir kiekybė. – 2005. – N 39. – P. 467–481. Motulskis H. Intuityvi biostatistika // H. Motulsky. – Oksfordas: Oxford University Press, 1995. – 386 p. Newcombe'as R. G. Dvipusiai pasitikėjimo intervalai vienai proporcijai: septynių metodų palyginimas / R. G. Newcombe // Medicinos statistika. – 1998. – N. 17. – P. 857–872. Sauro J. Užbaigimo rodiklių įvertinimas iš mažų imčių naudojant binominius pasikliautinuosius intervalus: palyginimai ir rekomendacijos / J. Sauro, J. R. Lewis // Proceedings of the human factor and ergonomics Society metinis susirinkimas. – Orlandas, Florida, 2005 m. Valdas A. Nepertraukiamo skirstymo funkcijų pasitikėjimo ribos // A. Wald, J. Wolfovitz // Matematinės statistikos metraštis. – 1939. – N 10. – P. 105–118. Wilsonas E.B. Tikėtinos išvados, paveldėjimo dėsnis ir statistinė išvada / E. B. Wilson // Amerikos statistikos asociacijos žurnalas. – 1927. – N 22. – P. 209–212.

PASITIKĖJIMO INTERVALAI PROporcijoms

A. M. Grjibovski

Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija

Straipsnyje pateikiami keli dvinarių proporcijų pasikliautinųjų intervalų skaičiavimo metodai, būtent Wald, Wilson, arcsine, Agresti-Coull ir tikslūs Clopper-Pearson metodai. Straipsnyje pateikiamas tik bendras įvadas į binominės proporcijos pasikliautinojo intervalo įvertinimo problemą ir jo tikslas yra ne tik paskatinti skaitytojus naudoti pasikliautinuosius intervalus pristatant savo empirinių tyrimų rezultatus, bet ir paskatinti juos skaityti statistikos knygas. prieš analizuojant savo duomenis ir ruošiant rankraščius.

Pagrindiniai žodžiai: pasikliautinasis intervalas, proporcija

Kontaktinė informacija:

Vyresnysis patarėjas, Nacionalinis visuomenės sveikatos institutas, Oslas, Norvegija

Pasitikėjimo intervalai ( anglų kalba Pasitikėjimo intervalai) vienas iš statistikoje naudojamų intervalų įverčių tipų, kurie skaičiuojami tam tikram reikšmingumo lygiui. Jie leidžia teigti, kad tikroji nežinomo statistinio populiacijos parametro reikšmė yra gautame reikšmių diapazone su tikimybe, kurią nurodo pasirinktas statistinio reikšmingumo lygis.

Normalus pasiskirstymas

Kai žinoma duomenų visumos dispersija (σ 2), z balas gali būti naudojamas patikimumo riboms (pasikliautinojo intervalo galutiniams taškams) apskaičiuoti. Palyginti su t pasiskirstymu, naudojant z balą, galėsite sudaryti ne tik siauresnį pasikliautinąjį intervalą, bet ir patikimesnius numatomos vertės bei standartinio nuokrypio (σ) įverčius, nes z balas pagrįstas normalusis pasiskirstymas.

Formulė

Pasikliautinio intervalo ribiniams taškams nustatyti, jei žinomas duomenų visumos standartinis nuokrypis, naudojama ši formulė

L = X - Z α/2 σ
√n

Pavyzdys

Tarkime, kad imties dydis yra 25 stebėjimai, imties laukiama vertė yra 15, o populiacijos standartinis nuokrypis yra 8. Esant reikšmingumo lygiui α=5%, Z balas yra Z α/2 =1,96. Šiuo atveju apatinė ir viršutinė pasikliautinojo intervalo ribos bus

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Taigi galime teigti, kad su 95% tikimybe gyventojų matematinis lūkestis nukris intervale nuo 11,864 iki 18,136.

Pasitikėjimo intervalo susiaurinimo metodai

Tarkime, kad diapazonas yra per platus mūsų tyrimo tikslams. Yra du būdai, kaip sumažinti pasikliautinojo intervalo diapazoną.

  1. Sumažinti statistinio reikšmingumo lygį α.
  2. Padidinkite imties dydį.

Sumažinus statistinio reikšmingumo lygį iki α=10%, gauname Z balą, lygų Z α/2 =1,64. Tokiu atveju bus apatinė ir viršutinė intervalo ribos

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

Ir pats pasikliautinasis intervalas gali būti parašytas formoje

Šiuo atveju galime daryti prielaidą, kad su 90% tikimybe matematiniai gyventojų lūkesčiai pateks į intervalą .

Jei nenorime sumažinti statistinio reikšmingumo α lygio, vienintelė alternatyva yra padidinti imties dydį. Padidinus jį iki 144 stebėjimų, gauname tokias patikimumo ribų vertes

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

Pats pasitikėjimo intervalas turės tokią formą

Taigi, susiaurinti pasikliautinąjį intervalą nemažinant statistinio reikšmingumo lygio galima tik padidinus imties dydį. Jei imties dydžio padidinti neįmanoma, pasikliautinąjį intervalą galima susiaurinti tik sumažinus statistinio reikšmingumo lygį.

Pasikliautinio intervalo sudarymas kitokiam nei įprastam skirstiniui

Jei visumos standartinis nuokrypis nežinomas arba pasiskirstymas skiriasi nuo normalaus, pasikliautinajam intervalui sudaryti naudojamas t skirstinys. Šis metodas yra konservatyvesnis, o tai atsispindi platesniuose pasikliautinuosiuose intervaluose, palyginti su metodika, pagrįsta Z balu.

Formulė

Norėdami apskaičiuoti apatinę ir viršutinę pasikliautinojo intervalo ribas pagal t pasiskirstymą, naudokite šias formules

L = X - t α σ
√n

Studento skirstinys arba t skirstinys priklauso tik nuo vieno parametro - laisvės laipsnių skaičiaus, kuris yra lygus atskirų požymio reikšmių skaičiui (stebėjimų skaičiui imtyje). Stjudento t-testo reikšmę tam tikram laisvės laipsnių skaičiui (n) ir statistinio reikšmingumo lygį α galima rasti atskaitos lentelėse.

Pavyzdys

Tarkime, kad imties dydis yra 25 atskiros reikšmės, imties laukiama reikšmė yra 50, o imties standartinis nuokrypis yra 28. Būtina sudaryti pasikliautinąjį intervalą statistinio reikšmingumo lygiui α=5%.

Mūsų atveju laisvės laipsnių skaičius yra 24 (25-1), todėl atitinkama Stjudento t-testo lentelė statistinio reikšmingumo lygiui α=5% yra 2,064. Todėl pasikliautinojo intervalo apatinė ir viršutinė ribos bus

L = 50 - 2,064 28 = 38,442
√25
L = 50 + 2,064 28 = 61,558
√25

O patį intervalą galima parašyti formoje

Taigi galime teigti, kad su 95% tikimybe matematiniai gyventojų lūkesčiai bus diapazone .

t pasiskirstymas leidžia susiaurinti pasikliautinąjį intervalą sumažinant statistinį reikšmingumą arba padidinant imties dydį.

Sumažinus statistinį reikšmingumą nuo 95% iki 90% mūsų pavyzdžio sąlygomis, gauname atitinkamą Stjudento t-testo lentelės reikšmę 1,711.

L = 50 - 1,711 28 = 40,418
√25
L = 50 + 1,711 28 = 59,582
√25

Šiuo atveju galime teigti, kad su 90% tikimybe matematiniai gyventojų lūkesčiai bus diapazone .

Jei nenorime sumažinti statistinio reikšmingumo, vienintelė alternatyva yra padidinti imties dydį. Tarkime, tai yra 64 individualūs stebėjimai, o ne 25, kaip buvo pradinėje pavyzdžio sąlygoje. Stjudento t-testo lentelės reikšmė 63 laisvės laipsniams (64-1) ir statistinio reikšmingumo lygiui α=5% yra 1,998.

L = 50 - 1,998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Tai leidžia teigti, kad su 95% tikimybe matematiniai gyventojų lūkesčiai bus diapazone .

Dideli pavyzdžiai

Didelės imtys – tai imtys iš duomenų visumos, kurioje atskirų stebėjimų skaičius viršija 100. Statistiniai tyrimai parodė, kad didesnės imtys paprastai būna pasiskirstę normaliai, net jei populiacijos pasiskirstymas nėra normalus. Be to, tokiems pavyzdžiams naudojant z balą ir t pasiskirstymą, apskaičiuojant pasikliautinuosius intervalus gaunami maždaug tokie patys rezultatai. Taigi didelėms imtims priimtina naudoti z-balą normaliajam pasiskirstymui, o ne t-skirstymui.

Apibendrinkime

Pasitikėjimo intervalai.

Pasikliautinasis intervalas apskaičiuojamas remiantis atitinkamo parametro vidutine paklaida. Pasitikėjimo intervalas parodo, kokiose ribose su tikimybe (1-a) yra tikroji įvertinto parametro reikšmė. Čia a yra reikšmingumo lygis, (1-a) taip pat vadinamas pasitikėjimo tikimybe.

Pirmajame skyriuje parodėme, kad, pavyzdžiui, aritmetinio vidurkio atveju tikrasis populiacijos vidurkis maždaug 95% atvejų yra per 2 standartines vidurkio paklaidas. Taigi vidurkio 95 % pasikliautinojo intervalo ribos nuo imties vidurkio bus atskirtos dvigubai didesne vidurkio paklaida, t.y. vidurkio paklaidą padauginame iš tam tikro koeficiento, priklausomai nuo pasikliovimo lygio. Vidurkių vidurkiui ir skirtumui imamas Stjudento koeficientas (Studento testo kritinė vertė), dalių daliai ir skirtumui – z kriterijaus kritinė reikšmė. Koeficiento ir vidutinės paklaidos sandauga gali būti vadinama maksimalia duoto parametro paklaida, t.y. maksimalus, kurį galime gauti vertindami.

Pasitikėjimo intervalas aritmetinis vidurkis : .

Čia yra pavyzdžio vidurkis;

Vidutinė aritmetinio vidurkio paklaida;

s – imties standartinis nuokrypis;

n

f = n-1 (Studento koeficientas).

Pasitikėjimo intervalas aritmetinių vidurkių skirtumai :

Čia yra skirtumas tarp imties priemonių;

- vidutinė aritmetinių vidurkių skirtumo paklaida;

s 1, s 2 – imties standartiniai nuokrypiai;

n1, n2

Studento testo kritinė reikšmė duotam reikšmingumo lygiui a ir laisvės laipsnių skaičius f = n 1 + n 2-2 (Studento koeficientas).

Pasitikėjimo intervalas akcijų :

.

Čia d yra mėginio dalis;

– vidutinės trupmenos paklaida;

n– imties dydis (grupės dydis);

Pasitikėjimo intervalas akcijų skirtumas :

Čia yra pavyzdinių akcijų skirtumas;

– vidutinė aritmetinių vidurkių skirtumo paklaida;

n1, n2– imties dydžiai (grupių skaičius);

Kritinė z kriterijaus reikšmė tam tikrame reikšmingumo lygyje a ( , , ).

Apskaičiuodami skirtumo tarp rodiklių pasikliautinuosius intervalus, pirmiausia tiesiogiai matome galimas poveikio reikšmes, o ne tik jo taškinį įvertinimą. Antra, galime padaryti išvadą apie nulinės hipotezės priėmimą arba atmetimą ir, trečia, galime padaryti išvadą apie testo galią.

Tikrindami hipotezes naudodami pasikliautinuosius intervalus, turite laikytis šios taisyklės:

Jeigu 100(1-a) procentų vidurkių skirtumo pasikliautinajame intervale nėra nulio, tai skirtumai yra statistiškai reikšmingi reikšmingumo lygyje a; priešingai, jei šiame intervale yra nulis, tai skirtumai nėra statistiškai reikšmingi.

Iš tiesų, jei šiame intervale yra nulis, tai lyginamasis rodiklis vienoje iš grupių gali būti didesnis arba mažesnis, lyginant su kita, t.y. pastebėti skirtumai atsiranda dėl atsitiktinumo.

Testo galią galima spręsti pagal nulio vietą pasikliautinajame intervale. Jei nulis yra arti apatinės arba viršutinės intervalo ribos, tai galbūt lyginant didesnį grupių skaičių skirtumai pasiektų statistinį reikšmingumą. Jei nulis yra arti intervalo vidurio, tai reiškia, kad tiek rodiklio padidėjimas, tiek sumažėjimas eksperimentinėje grupėje yra vienodai tikėtinas ir, ko gero, skirtumų tikrai nėra.

Pavyzdžiai:

Palyginti chirurginį mirtingumą taikant dvi skirtingas anestezijos rūšis: pirmojo tipo anestezija operuotas 61 žmogus, mirė 8, antruoju – 67 žmonės, mirė 10 žmonių.

d 1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

Lyginamų metodų letalumo skirtumas bus intervale (-0,018 - 0,122; -0,018 + 0,122) arba (-0,14; 0,104) su 100(1-a) = 95% tikimybe. Intervale yra nulis, t.y. hipotezės apie vienodą mirtingumą taikant dvi skirtingas anestezijos rūšis negalima atmesti.

Taigi mirtingumas gali ir sumažės iki 14%, o su 95% tikimybe padidės iki 10,4%, t.y. nulis yra maždaug intervalo viduryje, todėl galima teigti, kad greičiausiai šie du metodai mirtingumu tikrai nesiskiria.

Anksčiau aptartame pavyzdyje vidutinis paspaudimo laikas bakstelėjimo testo metu buvo lyginamas keturiose mokinių grupėse, kurios skiriasi egzaminų balais. Apskaičiuokime mokinių, išlaikiusių egzaminą 2 ir 5 pažymiais, vidutinio spaudimo laiko pasikliautinuosius intervalus ir skirtumo tarp šių vidurkių pasikliautinuosius intervalus.

Studento koeficientai randami naudojant Stjudento pasiskirstymo lenteles (žr. priedą): pirmajai grupei: = t(0,05;48) = 2,011; antrajai grupei: = t(0,05;61) = 2,000. Taigi pirmosios grupės pasikliautinieji intervalai: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), antrosios grupės (156,55–2 000*1,88; 156,000*1,88 ; 156,0,8) = 1,2,8 (*1,2,8) 160.3). Taigi, išlaikiusiems egzaminą 2, vidutinis spaudimo laikas svyruoja nuo 157,8 ms iki 166,6 ms su 95% tikimybe, išlaikiusiųjų egzaminą 5 – nuo ​​152,8 ms iki 160,3 ms su 95% tikimybe. .

Nulinę hipotezę taip pat galite patikrinti naudodami vidutinių, o ne tik vidurkių skirtumo pasikliovimo intervalus. Pavyzdžiui, kaip ir mūsų atveju, jei vidurkių pasikliautinieji intervalai sutampa, nulinės hipotezės negalima atmesti. Norint atmesti hipotezę pasirinktu reikšmingumo lygiu, atitinkami pasikliautinieji intervalai neturi sutapti.

Raskime vidutinės spaudimo laiko skirtumo pasikliautinąjį intervalą grupėse, išlaikiusiose egzaminą 2 ir 5 balais. Vidurkių skirtumas: 162,19 – 156,55 = 5,64. Studento koeficientas: = t(0,05;49+62-2) = t(0,05;109) = 1,982. Grupės standartiniai nuokrypiai bus lygūs: ; . Apskaičiuojame vidutinę skirtumo tarp vidurkių paklaidą: . Pasitikėjimo intervalas: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

Taigi, vidutinės spaudimo trukmės skirtumas grupėse, kurios egzaminą išlaikė 2 ir 5, bus nuo -0,044 ms iki 11,33 ms. Į šį intervalą įeina nulis, t.y. Vidutinis spaudimo laikas gerai išlaikiusiųjų egzaminą gali arba padidėti, arba sumažėti, lyginant su nepatenkinamai išlaikiusiaisiais, t.y. nulinės hipotezės negalima atmesti. Tačiau nulis yra labai arti apatinės ribos, o gerai išlaikiusiems spaudimo laikas daug labiau sumažės. Taigi galime daryti išvadą, kad vis dar yra skirtumų tarp tų, kurie išlaikė 2 ir 5, vidutinis spaudimo laikas, tik negalėjome jų aptikti atsižvelgiant į vidutinio laiko pokytį, vidutinio laiko sklaidą ir imties dydžius.



Testo galia – tai tikimybė atmesti neteisingą nulinę hipotezę, t.y. rasti skirtumų ten, kur jie iš tikrųjų egzistuoja.

Testo galia nustatoma pagal reikšmingumo lygį, skirtumų tarp grupių dydį, verčių pasiskirstymą grupėse ir imčių dydį.

Studento t testui ir dispersijos analizei gali būti naudojamos jautrumo diagramos.

Pagal kriterijaus galią galima preliminariai nustatyti reikiamą grupių skaičių.

Pasikliautinasis intervalas parodo, kuriose ribose yra tikroji įvertinto parametro reikšmė su nurodyta tikimybe.

Naudodami pasikliautinuosius intervalus galite patikrinti statistines hipotezes ir padaryti išvadas apie kriterijų jautrumą.

LITERATŪRA.

Glanz S. – 6,7 skyrius.

Rebrova O.Yu. – p.112-114, p.171-173, p.234-238.

Sidorenko E.V. – p.32-33.

Klausimai mokinių savęs patikrinimui.

1. Kokia yra kriterijaus galia?

2. Kokiais atvejais būtina įvertinti kriterijų galią?

3. Galios skaičiavimo metodai.

6. Kaip patikrinti statistinę hipotezę naudojant pasikliautinąjį intervalą?

7. Ką galima pasakyti apie kriterijaus galią skaičiuojant pasikliautinąjį intervalą?

Užduotys.

Dažnai vertintojui tenka analizuoti segmento, kuriame yra vertinamas turtas, nekilnojamojo turto rinką. Jei rinka yra išvystyta, gali būti sunku išanalizuoti visą pateiktų objektų rinkinį, todėl analizei naudojama objektų imtis. Šis pavyzdys ne visada būna vienalytis, kartais reikia išvalyti nuo kraštutinių taškų – per aukštų ar per žemų rinkos pasiūlymų. Šiuo tikslu jis naudojamas pasitikėjimo intervalas. Šio tyrimo tikslas – atlikti dviejų pasikliautinojo intervalo skaičiavimo metodų lyginamąją analizę ir parinkti optimalų skaičiavimo variantą dirbant su skirtingomis imtimis estimatica.pro sistemoje.

Pasitikėjimo intervalas yra atributų reikšmių intervalas, apskaičiuotas remiantis imtimi, kurioje su žinoma tikimybe yra apskaičiuotas bendrosios visumos parametras.

Skaičiuojant pasikliautinąjį intervalą, esmė yra sudaryti tokį intervalą remiantis imties duomenimis, kad būtų galima su nurodyta tikimybe teigti, kad įvertinto parametro reikšmė yra šiame intervale. Kitaip tariant, pasikliautinajame intervale yra nežinoma apskaičiuotos vertės reikšmė su tam tikra tikimybe. Kuo platesnis intervalas, tuo didesnis netikslumas.

Pasikliautinojo intervalo nustatymo metodai yra skirtingi. Šiame straipsnyje apžvelgsime 2 būdus:

  • per medianą ir standartinį nuokrypį;
  • per kritinę t statistikos reikšmę (Studento koeficientas).

Įvairių KI skaičiavimo metodų lyginamosios analizės etapai:

1. suformuoti duomenų pavyzdį;

2. apdorojame statistiniais metodais: apskaičiuojame vidutinę reikšmę, medianą, dispersiją ir kt.;

3. pasikliautinąjį intervalą apskaičiuokite dviem būdais;

4. išanalizuokite išvalytus mėginius ir gautus pasikliautinius intervalus.

1 etapas. Duomenų atranka

Imtis buvo suformuota naudojant estimatica.pro sistemą. Pavyzdyje buvo 91 pasiūlymas parduoti 1 kambario butus 3 kainų zonoje su „Chruščiovo“ tipo išplanavimu.

1 lentelė. Pradinis pavyzdys

Kaina 1 kv.m, vnt

1 pav. Pradinis pavyzdys



2 etapas. Pradinio mėginio apdorojimas

Norint apdoroti mėginį naudojant statistinius metodus, reikia apskaičiuoti šias vertes:

1. Aritmetinis vidurkis

2. Mediana – imtį apibūdinantis skaičius: lygiai pusė imties elementų yra didesni už medianą, kita pusė yra mažesnė už medianą

(pavyzdžiui su nelyginiu reikšmių skaičiumi)

3. Diapazonas – skirtumas tarp didžiausių ir mažiausių verčių imtyje

4. Sklaida – naudojama tiksliau įvertinti duomenų kitimą

5. Imties standartinis nuokrypis (toliau – SD) yra labiausiai paplitęs koregavimo verčių sklaidos apie aritmetinį vidurkį rodiklis.

6. Variacijos koeficientas – atspindi koregavimo reikšmių sklaidos laipsnį

7. svyravimų koeficientas – parodo santykinį ekstremalių kainų verčių svyravimą imtyje apie vidurkį

2 lentelė. Pradinės imties statistiniai rodikliai

Variacijos koeficientas, apibūdinantis duomenų homogeniškumą, yra 12,29%, tačiau svyravimo koeficientas yra per didelis. Taigi galime sakyti, kad pradinė imtis nėra vienalytė, todėl pereikime prie pasikliautinojo intervalo skaičiavimo.

3 etapas. Pasitikėjimo intervalo skaičiavimas

1 metodas. Skaičiavimas naudojant medianą ir standartinį nuokrypį.

Pasikliautinasis intervalas nustatomas taip: minimali reikšmė – standartinis nuokrypis atimamas iš medianos; maksimali reikšmė – prie medianos pridedamas standartinis nuokrypis.

Taigi pasikliautinasis intervalas (47179 CU; 60689 CU)

Ryžiai. 2. Vertės, patenkančios į 1 pasikliautinąjį intervalą.



2 metodas. Pasikliautinojo intervalo sudarymas naudojant kritinę t statistikos reikšmę (studento koeficientą)

S.V. Gribovsky savo knygoje „Matematiniai nuosavybės vertės įvertinimo metodai“ aprašo pasikliautinojo intervalo apskaičiavimo metodą pagal Studento koeficientą. Skaičiuodamas šiuo metodu, vertintojas pats turi nustatyti reikšmingumo lygį ∝, kuris nustato tikimybę, su kuria bus sudarytas pasikliautinasis intervalas. Paprastai naudojami 0,1 reikšmingumo lygiai; 0,05 ir 0,01. Jie atitinka 0,9 pasitikėjimo tikimybes; 0,95 ir 0,99. Taikant šį metodą, daroma prielaida, kad tikrosios matematinių lūkesčių ir dispersijos reikšmės yra praktiškai nežinomos (kas beveik visada teisinga sprendžiant praktines vertinimo problemas).

Pasitikėjimo intervalo formulė:

n - imties dydis;

Kritinė t statistikos reikšmė (Studentų skirstinys), kurios reikšmingumo lygis ∝, laisvės laipsnių skaičius n-1, kuris nustatomas iš specialių statistinių lentelių arba naudojant MS Excel (→"Statistinė"→ STUDISTAS);

∝ - reikšmingumo lygis, imkite ∝=0,01.

Ryžiai. 2. Vertės, patenkančios į 2 pasikliautinąjį intervalą.

4 etapas. Įvairių pasikliautinojo intervalo skaičiavimo metodų analizė

Du pasikliautinojo intervalo apskaičiavimo metodai - per medianą ir Stjudento koeficientą - lėmė skirtingas intervalų reikšmes. Atitinkamai, mes gavome du skirtingus išvalytus pavyzdžius.

3 lentelė. Trijų imčių statistika.

Rodiklis

Pradinis pavyzdys

1 variantas

2 variantas

Vidutinė vertė

Sklaida

Koef. variacijos

Koef. svyravimai

Išnaudotų objektų skaičius, vnt.

Remiantis atliktais skaičiavimais, galime teigti, kad skirtingais metodais gautos pasikliovimo intervalo reikšmės susikerta, todėl vertintojo nuožiūra galite naudoti bet kurį iš skaičiavimo metodų.

Tačiau manome, kad dirbant estimatica.pro sistemoje patartina pasirinkti pasikliautinojo intervalo skaičiavimo metodą, atsižvelgiant į rinkos išsivystymo laipsnį:

  • jei rinka neišsivysčiusi, naudokite skaičiavimo metodą taikant medianą ir standartinį nuokrypį, nes šiuo atveju nebenaudojamų objektų skaičius yra mažas;
  • jei rinka išvystyta, taikykite skaičiavimą per kritinę t statistikos reikšmę (Studento koeficientą), nes galima sudaryti didelę pradinę imtį.

Rengiant straipsnį buvo naudojami šie dalykai:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematiniai turto vertės vertinimo metodai. Maskva, 2014 m

2. Sistemos duomenys estimatica.pro

Pasitikėjimo intervalas ateina pas mus iš statistikos srities. Tai yra tam tikras diapazonas, naudojamas labai patikimai įvertinti nežinomą parametrą. Lengviausias būdas tai paaiškinti pavyzdžiu.

Tarkime, jums reikia ištirti atsitiktinį kintamąjį, pavyzdžiui, serverio atsako greitį į kliento užklausą. Kiekvieną kartą, kai vartotojas įveda konkrečios svetainės adresą, serveris reaguoja skirtingu greičiu. Taigi tiriamas atsako laikas yra atsitiktinis. Taigi, pasikliautinasis intervalas leidžia mums nustatyti šio parametro ribas ir tada galime teigti, kad su 95% tikimybe serveris bus mūsų apskaičiuotame diapazone.

Arba reikia išsiaiškinti, kiek žmonių žino apie įmonės prekės ženklą. Apskaičiavus pasikliautinąjį intervalą, bus galima pasakyti, pavyzdžiui, kad su 95% tikimybe, vartotojų dalis apie tai žino svyruoja nuo 27% iki 34%.

Su šiuo terminu glaudžiai susijusi pasitikėjimo tikimybės reikšmė. Tai rodo tikimybę, kad norimas parametras bus įtrauktas į pasikliautinąjį intervalą. Nuo šios vertės priklauso, koks bus mūsų norimas diapazonas. Kuo didesnė reikšmė, tuo siauresnis pasikliautinasis intervalas, ir atvirkščiai. Paprastai jis nustatomas į 90%, 95% arba 99%. 95% vertė yra pati populiariausia.

Šiam rodikliui įtakos turi ir stebėjimų sklaida, o jo apibrėžimas grindžiamas prielaida, kad tiriama charakteristika paklūsta Šis teiginys taip pat žinomas kaip Gauso dėsnis. Anot jo, normalus yra visų tolydinio atsitiktinio dydžio, kurį galima apibūdinti tikimybių tankiu, tikimybių skirstinys. Jei normaliojo skirstinio prielaida yra neteisinga, įvertinimas gali būti neteisingas.

Pirmiausia išsiaiškinkime, kaip apskaičiuoti pasikliautinąjį intervalą Čia yra du galimi atvejai. Sklaida (atsitiktinio dydžio išplitimo laipsnis) gali būti žinoma arba nežinoma. Jei jis žinomas, mūsų pasikliautinasis intervalas apskaičiuojamas pagal šią formulę:

xsr – t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - ženklas,

t - parametras iš Laplaso paskirstymo lentelės,

σ yra dispersijos kvadratinė šaknis.

Jei dispersija nežinoma, ją galima apskaičiuoti, jei žinome visas norimos savybės reikšmes. Tam naudojama ši formulė:

σ2 = х2ср - (хср)2, kur

х2ср - vidutinė tiriamos charakteristikos kvadratų vertė,

(хср)2 yra šios charakteristikos kvadratas.

Formulė, pagal kurią šiuo atveju apskaičiuojamas pasikliautinasis intervalas, šiek tiek pasikeičia:

xsr – t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr – imties vidurkis,

α - ženklas,

t yra parametras, randamas naudojant Stjudento paskirstymo lentelę t = t(ɣ;n-1),

sqrt(n) – viso imties dydžio kvadratinė šaknis,

s yra dispersijos kvadratinė šaknis.

Apsvarstykite šį pavyzdį. Tarkime, kad remiantis 7 matavimų rezultatais nustatyta, kad tiriamoji charakteristika yra lygi 30, o imties dispersija lygi 36. Reikia su 99% tikimybe rasti pasikliautinąjį intervalą, kuriame būtų tikroji. išmatuoto parametro vertė.

Pirmiausia nustatykime, kam t lygus: t = t (0,99; 7-1) = 3,71. Naudodami aukščiau pateiktą formulę, gauname:

xsr – t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 – 3,71*36 / (kv. (7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Dispersijos pasikliautinasis intervalas skaičiuojamas tiek esant žinomam vidurkiui, tiek tada, kai nėra duomenų apie matematinį lūkestį, o žinoma tik taškinio nešališko dispersijos įverčio reikšmė. Čia nepateiksime jo skaičiavimo formulių, nes jos yra gana sudėtingos ir, jei pageidaujama, visada galima rasti internete.

Tik atkreipkime dėmesį, kad pasitikėjimo intervalą patogu nustatyti naudojant Excel arba tinklo paslaugą, kuri taip vadinama.



Ar jums patiko straipsnis? Pasidalinkite su draugais!