Skaitinių reikšmių statistinė analizė (neparametrinė statistika). Normalus pasiskirstymas

Normalus pasiskirstymas

Mes jau žinome paskirstymo, daugiakampio (arba privataus daugiakampio) ir pasiskirstymo kreivės sąvokas. Ypatingas šių sąvokų atvejis yra „normalus pasiskirstymas“ ir „normali kreivė“. Tačiau ši galimybė yra labai svarbi analizuojant bet kokius mokslinius duomenis, įskaitant psichologinius. Faktas yra tas, kad normalus pasiskirstymas, pavaizduotas grafiškai normali kreivė yra idealus pasiskirstymas, retai sutinkamas objektyvioje realybėje. Tačiau jo naudojimas labai palengvina ir supaprastina natūra gautų duomenų apdorojimą ir paaiškinimą. Be to, tik normaliam pasiskirstymui pateikti koreliacijos koeficientai gali būti interpretuojami kaip ryšio glaudumo matas, kitais atvejais jie tokios funkcijos neatlieka, o jų apskaičiavimas veda prie sunkiai paaiškinamų paradoksų.

IN moksliniai tyrimai paprastai priimama prielaida O realių duomenų pasiskirstymo normalumą ir tuo remiantis jie apdorojami, po to išsiaiškinama ir nurodoma, kiek realusis skirstinys skiriasi nuo įprasto, kuriam yra nemažai specialių statistikos metodų. Paprastai ši prielaida yra gana priimtina, nes dauguma psichiniai reiškiniai o jų charakteristikos pasiskirstymas labai artimas normaliajam.

Taigi koks yra normalusis skirstinys ir kokie jo bruožai traukia mokslininkus? Normalus Dydžio pasiskirstymu vadinamas toks, kad jo atsiradimo ir neįvykimo tikimybė yra vienoda. Klasikinė iliustracija – monetos metimas. Jei moneta yra teisinga ir metimai atliekami taip pat, tada vienodai tikėtina, kad gausite galvą ar uodegą. Tai yra, „galvos“ gali iškristi ir neiškristi su ta pačia tikimybe, ir tas pats pasakytina apie „uodegą“.

Mes pristatėme „tikimybės“ sąvoką. Pasiaiškinkime. Tikimybė– tai numatomas įvykio (įvykio – ne reikšmės atsiradimo) dažnis. Tikimybė išreiškiama trupmena, kurios skaitiklis yra išsipildžiusių įvykių skaičius (dažnis) ir V vardiklis – maksimalus galimas skaičiusšiuos įvykius. Kai mėginys (numeris galimi atvejai) yra ribotas, tada geriau kalbėti ne apie tikimybę, o O dažnis, su kuriuo mes jau pažįstami. Tikimybė rodo demoną galutinis skaičius pavyzdžių Tačiau praktikoje šis subtilumas dažnai ignoruojamas.

Didelis matematikų susidomėjimas tikimybių teorija V apskritai ir ypač normaliam pasiskirstymui V XVII a. dėl dalyvių noro azartinių lošimų Raskite formulę maksimaliam laimėjimui su minimalia rizika. Šių klausimų ėmėsi žymūs matematikai J. Bernoulli (1654-1705) ir P. S. Laplasas (1749-1827). Pirma matematinis aprašymas kreivė, jungianti „galvų“ pasiskirstymo tikimybių, metant monetas kelis kartus, segmentus, davė Abraomas de Moivras(1667-1754). Ši kreivė yra labai arti normali kreivė tikslus aprašymas, kurį jis pateikė puikus matematikas K. F. Gaussas(1777-1855), kurios vardą ji tebeneša ir šiandien. Normalios (Gauso) kreivės grafikas ir formulė yra tokia.

kur P yra tikimybė (tiksliau, tikimybės tankis), t. y. kreivės aukštis aukščiau duota vertė Z; e – bazė natūralusis logaritmas(2,718...); π = 3,142...; M – imties vidurkis; σ – standartinis nuokrypis.

Normalios kreivės savybės

1. Vidurkis (M), režimas (Mo) ir mediana (Me) yra vienodi.

2. Simetrija, palyginti su vidutiniu M.

3. Vienareikšmiškai lemia tik du parametrai – M ir o.

4. Kreivės „šakos“ niekada nekerta abscisės Z, artėja prie jos asimptotiškai.

5. Jei M = 0 ir o = 1, gauname vienetinę normaliąją kreivę, nes plotas po ja lygus 1.

6. Vieneto kreivė: P m = 0,3989, o plotas po kreive yra diapazone:

-σ iki +σ = 68,26 %; nuo -2σ iki + 2σ = 95,46 %; -Зσ iki + Зσ = 99,74%.

7. Nevienetinių normaliųjų kreivių (M ≠0, σ ≠1) modelis srityse išlieka toks pat. Skirtumas yra šimtosiose dalyse.

Normaliojo skirstinio kitimai

Toliau pateikti variantai taikomi ne tik normaliajam pasiskirstymui, bet ir bet kuriam. Tačiau aiškumo dėlei juos pateikiame čia.

1. Asimetrija – netolygus pasiskirstymas centrinės reikšmės atžvilgiu.

4.1. Ar dažnai stebėjimų pasiskirstymas yra normalus?

Ekonometriniuose ir ekonominiuose-matematiniuose modeliuose, ypač naudojamuose tiriant ir optimizuojant rinkodaros ir valdymo procesus, įmonės ir regionų valdymą, technologinių procesų tikslumą ir stabilumą, patikimumo, saugumo užtikrinimo, įskaitant aplinkos saugą, problemas, techninių prietaisų ir objektų veikimui, organizacinių schemų kūrimui dažnai taikomos tikimybių teorijos sąvokos ir rezultatai bei matematinė statistika. Šiuo atveju dažnai naudojama viena ar kita parametrinė tikimybių skirstinių šeima. Populiariausias yra normalus paskirstymas. Taip pat naudojamas lognormalus skirstinys, eksponentinis skirstinys, gama skirstinys, Weibull-Gnedenko skirstinys ir kt.

Akivaizdu, kad visada reikia patikrinti modelių atitikimą tikrovei.

Kyla du klausimai. Ar realūs skirstiniai skiriasi nuo naudojamų modelyje? Kiek šis skirtumas turi įtakos išvadoms?

Žemiau, naudojant normaliojo skirstinio pavyzdį ir juo pagrįstus metodus, skirtus atmesti ryškiai skirtingus stebėjimus (išskirtinius), parodyta, kad realūs skirstiniai beveik visada skiriasi nuo įtrauktų į klasikines parametrines šeimas, o esami nukrypimai nuo pateiktų šeimų daro neteisingas išvadas, nagrinėjamu atveju dėl atmetimo remiantis šių šeimų panaudojimu.

Ar yra pagrindo a priori manyti, kad matavimo rezultatai yra normalūs? Kartais teigiama, kad tuo atveju, kai matavimo paklaida (ar kitas atsitiktinis dydis) nustatoma dėl daugelio smulkių veiksnių bendro veikimo, tai dėl centrinės Ribinė teorema Tikimybių teorijos (CPT), šis dydis yra gerai apytikslis (paskirstymas) pagal įprastą atsitiktinį kintamąjį. Šis teiginys yra teisingas, jei maži veiksniai veikia adityviai ir nepriklausomai vienas nuo kito. Jei jie veikia multiplikatyviai, tai dėl to paties CLT jie turi būti aproksimuoti logaritminiu normaliuoju skirstiniu. IN taikomų problemų Paprastai neįmanoma pateisinti adityvumo, o ne mažų veiksnių multiplikacinio veikimo. Jei priklausomybė turi

bendras charakteris , nėra redukuojamas į adityvinę ar dauginamą formą, taip pat nėra jokios priežasties priimti modelius, kurie pateikia eksponentinį, Weibull-Gnedenko, gama ar kitus skirstinius, tada praktiškai nieko nežinoma apie galutinio atsitiktinio kintamojo pasiskirstymą, išskyrus intra- matematinės savybės, tokios kaip reguliarumas. regresijos, dispersijos, faktorių analizės, metrologiniai modeliai, kurie ir toliau randami tiek vidaus norminėje ir techninėje dokumentacijoje, tiek tarptautiniuose standartuose. Tam tikrų charakteristikų didžiausių pasiekiamų lygių apskaičiavimo modeliai, naudojami projektuojant sistemas, užtikrinančias eksploatavimo saugą, grindžiami ta pačia prielaida. ekonominės struktūros , techniniai prietaisai ir objektai. Tačiau teoriniai pagrindai

tokios prielaidos nėra. Būtina eksperimentiškai ištirti klaidų pasiskirstymą.

Ką rodo eksperimento rezultatai? Monografijoje pateikta santrauka leidžia teigti, kad daugeliu atvejų matavimo paklaidų pasiskirstymas skiriasi nuo įprasto. Taigi Mechanikos ir elektros inžinerijos institute (Varna, Bulgarija) buvo tiriamas kalibravimo paklaidų pasiskirstymas analoginių elektros matavimo prietaisų svarstyklėse. Buvo tiriami įrenginiai, pagaminti Čekoslovakijoje, SSRS ir Bulgarijoje. Klaidų pasiskirstymo dėsnis pasirodė toks pat. Jis turi tankį Išanalizuoti 219 skirtingų autorių tirtų faktinių klaidų pasiskirstymo parametrų duomenys atliekant elektrinius ir neelektrinius matavimus. elektros kiekiai

įvairiausių (elektros) prietaisų. Šio tyrimo rezultate paaiškėjo, kad 111 skirstinių, t.y. maždaug 50 % priklauso skirstinių su tankiu klasei kur yra laipsnio parametras; b

- pamainos parametras; - mastelio parametras; - argumento gama funkcija;

(cm. ); 63 skirstymai, t.y. 30%, turi plokščią viršūnę ir negilius ilgus nuolydžius, todėl jų negalima apibūdinti kaip normalų ar, pavyzdžiui, eksponentinį. Likę 45 paskirstymai pasirodė bimodaliniai. Žymaus metrologo knygoje prof. P. V. Novitsky pateikia įvairių matavimo paklaidų tipų pasiskirstymo dėsnių tyrimo rezultatus. Jis ištyrė elektromechaninių prietaisų klaidų pasiskirstymą šerdies pavyzdžiuose,

Tartu taikomosios matematikos laboratorijoje valstybinis universitetas Ištirta 2500 pavyzdžių iš realių statistinių duomenų archyvo.

92% atvejų normalumo hipotezė turėjo būti atmesta. Pateikti eksperimentinių duomenų aprašymai rodo, kad matavimo paklaidos daugeliu atvejų skiriasi nuo įprastų. Tai visų pirma reiškia, kad dauguma programų Mokinio t testas, klasikinis regresinė analizė ir kiti statistiniais metodais.

, remiantis normaliąja teorija, griežtai kalbant, nėra pateisinamas, nes pagrindinė atitinkamų skirstinių normalumo aksioma

atsitiktiniai dydžiai

Akivaizdu, kad norint pagrįsti ar pateisinti esamos statistinės duomenų analizės praktikos pakeitimą, būtina ištirti duomenų analizės procedūrų ypatybes, kai jos naudojamos „neteisėtai“. Atmetimo procedūrų tyrimas parodė, kad jos yra itin nestabilios nukrypimams nuo normalumo, todėl netikslinga jas naudoti tikriems duomenims apdoroti (žr. toliau); Todėl negalima teigti, kad savavališka procedūra yra atspari nukrypimams nuo normalumo. Kartais siūloma patikrinti normalumą prieš naudojant, pavyzdžiui, Stjudento testą dviejų mėginių homogeniškumui nustatyti. Nors tam yra daug testų, normalumo tikrinimas yra sudėtingesnė ir daug laiko reikalaujanti statistinė procedūra nei homogeniškumo tikrinimas (tiek naudojant Studento tipo statistiką, tiek naudojant neparametrinius testus). Norint patikimai nustatyti normalumą, reikia atlikti labai daug stebėjimų. Taigi, norint garantuoti, kad stebėjimo rezultatų pasiskirstymo funkcija nuo kai kurių normalių skirtųsi ne daugiau kaip 0,01 (bet kuriai argumento reikšmei), reikia apie 2500 stebėjimų. Daugumoje ekonominių, techninių, biomedicininių ir kitų taikomųjų tyrimų stebėjimų skaičius yra žymiai mažesnis. Tai ypač pasakytina apie duomenis, naudojamus nagrinėjant problemas, susijusias su ūkinių struktūrų ir techninių įrenginių saugaus funkcionavimo užtikrinimu. Kartais bandoma naudoti CPT, kad klaidų pasiskirstymas būtų priartintas prie normalaus, matavimo prietaiso technologinėje schemoje įtraukiant specialius sumatorius. Įvertinkime šios priemonės naudingumą. Leiskite Z 1, Z 2,…, Zk

Sumatoriaus pateiktas artumo normalumui indikatorius yra

Paskutinio santykio dešinioji nelygybė išplaukia iš knygoje gautų Berry-Esseen nelygybės konstantos įverčių, o kairioji – iš monografijos pavyzdžio. Už normalus įstatymas=1,6, vienodai = 1,3, dvitaškiams =1 (tai yra apatinė riba). Vadinasi, norint užtikrinti, kad atstumas (Kolmogorovo metrikoje) iki normalaus skirstinio būtų ne didesnis kaip 0,01, „nesėkmingiems“ skirstiniams būtina turėti bent k 0 terminai, kur

Paprastai naudojamuose papildymuose yra žymiai mažiau terminų. Galimų skirstinių klasės susiaurinimas H, galima gauti, kaip parodyta monografijoje, greitesnę konvergenciją, tačiau teorija čia dar nesutampa su praktika. Be to, neaišku, ar skirstinio artumas normaliajam (tam tikroje metrikoje) taip pat užtikrina, kad statistikos, sudarytos iš atsitiktinių dydžių su šiuo skirstiniu, pasiskirstymas yra artimas statistikos pasiskirstymui, atitinkančiam normalius stebėjimo rezultatus.

Matyt, kiekvienai konkrečiai statistikai reikalingos specialios teorinės studijos. Prie tokios išvados prieina monografijos autorius. Išskirtinių verčių atmetimo problemos atsakymas yra „Nepateikiama“ (žr. toliau). Atkreipkite dėmesį, kad bet kokio realaus matavimo rezultatas rašomas naudojant baigtinį skaičių po kablelio, dažniausiai mažą (2–5), todėl patartina bet kokius tikrus duomenis modeliuoti tik naudojant diskrečius atsitiktinius dydžius, kurie įgauna baigtinį skaičių reikšmių. Normalusis skirstinys yra tik apytikslis tikrojo pasiskirstymas. Taigi, pavyzdžiui, duomenys konkrečių tyrimų darbe pateiktos reikšmės yra nuo 1,0 iki 2,2, t.y. iš viso 13 galimas vertes. Iš Dirichlet principo išplaukia, kad tam tikru momentu iš darbo duomenų sukonstruota skirstinio funkcija skiriasi nuo artimiausios normaliojo skirstinio funkcijos mažiausiai 1/26, t.y. iki 0,04. Be to, akivaizdu, kad normaliam atsitiktinių dydžių pasiskirstymui tikimybė būti diskrečioje aibėje dešimtainiai skaičiai Su

Iš to, kas išdėstyta aukščiau, darytina išvada, kad matavimo rezultatai ir apskritai statistiniai duomenys turi savybių, dėl kurių jie turėtų būti modeliuojami atsitiktiniais dydžiais, kurių skirstiniai daugiau ar mažiau skiriasi nuo įprastų. Daugeliu atvejų skirstiniai gerokai skiriasi nuo normalių, kitu atveju normalūs skirstiniai gali būti laikomi kažkokiu aproksimavimu, tačiau visiško atitikimo nėra. Tai reiškia, kad reikia ištirti klasikinių statistinių procedūrų savybes ne klasikinėse tikimybiniai modeliai(panašiai kaip tai buvo daroma toliau atliekant Studento testą), poreikis sukurti stabilias (atsižvelgiant į nukrypimų nuo normalumo buvimą) ir neparametrines, įskaitant neskirstančias procedūras, ir platų jų įgyvendinimą praktikoje. statistinis apdorojimas duomenis.

Čia praleisti svarstymai apie kitas parametrines šeimas leidžia daryti panašias išvadas. Rezultatą galima suformuluoti taip. Tikrų duomenų pasiskirstymas beveik niekada nepriklauso jokiai konkrečiai parametrų šeimai. Tikrieji skirstiniai visada skiriasi nuo įtrauktų į parametrines šeimas. Skirtumai gali būti dideli ar maži, bet jie visada yra. Pabandykime suprasti, kokie svarbūs šie skirtumai ekonometrinei analizei.

Orlovas A.I. Ar dažnai stebėjimų pasiskirstymas yra normalus? – Žurnalas „Gamyklos laboratorija“. 1991 T.57. Nr.7 P.64-66.

Ar dažnai stebėjimų pasiskirstymas yra normalus?

A.I. Orlovas

Matavimo rezultatai ir apskritai statistiniai duomenys turi savybių, kurios lemia tai, kad jie turi būti modeliuojami atsitiktiniais dydžiais, kurių skirstiniai daugiau ar mažiau skiriasi nuo įprastų. Daugeliu atvejų pasiskirstymai labai skiriasi nuo įprastų. Kitais atvejais normalūs skirstiniai gali būti laikomi tam tikra aproksimacija. Tačiau visiško atsitiktinumo niekada nebūna. Tai reiškia ir poreikį ištirti klasikinių statistinių procedūrų savybes ne klasikiniuose tikimybiniuose modeliuose, ir būtinybę sukurti stabilias (atsižvelgiant į nukrypimų nuo normalumo buvimą) ir neparametrines, įskaitant procedūras be pasiskirstymo, ir platų jų įgyvendinimą. statistinių duomenų apdorojimo praktikoje.

Ekonometriniuose ir ekonominiuose-matematiniuose modeliuose, ypač naudojamuose tiriant ir optimizuojant rinkodaros ir valdymo procesus, įmonės ir regionų valdymą, tikslumą ir stabilumą technologiniai procesai, sprendžiant patikimumo, saugos užtikrinimo, įskaitant aplinkos saugą, techninių prietaisų ir objektų funkcionavimo bei organizacinių schemų kūrimo problemas, dažnai naudojamos tikimybių teorijos ir matematinės statistikos koncepcijos ir rezultatai. Šiuo atveju dažnai naudojama viena ar kita parametrinė tikimybių skirstinių šeima. Populiariausias yra normalus paskirstymas. Taip pat naudojamas lognormalus skirstinys, eksponentinis skirstinys, gama skirstinys, Weibull-Gnedenko skirstinys ir kt.

Akivaizdu, kad visada reikia patikrinti modelių atitikimą tikrovei. Kyla du klausimai. Ar realūs skirstiniai skiriasi nuo naudojamų modelyje? Kiek šis skirtumas turi įtakos išvadoms?

Žemiau, naudojant normaliojo skirstinio pavyzdį ir juo pagrįstus metodus, skirtus atmesti ryškiai skirtingus stebėjimus (išskirtinius), parodyta, kad realūs skirstiniai beveik visada skiriasi nuo įtrauktų į klasikines parametrines šeimas, o esami nukrypimai nuo pateiktų šeimų daro neteisingas išvadas, nagrinėjamu atveju dėl atmetimo remiantis šių šeimų panaudojimu.

Ar yra pagrindo a priori manyti, kad matavimo rezultatai yra normalūs?

Kartais teigiama, kad tuo atveju, kai matavimo paklaida (ar kitas atsitiktinis dydis) nustatomas dėl daugelio mažų veiksnių bendro veikimo, tai dėl tikimybių teorijos centrinės ribos teoremos (CLT) ši reikšmė yra gerai aproksimuotas (paskirstymas) normaliu atsitiktiniu dydžiu. Šis teiginys yra teisingas, jei maži veiksniai veikia adityviai ir nepriklausomai vienas nuo kito. Jei jie veikia multiplikatyviai, tai dėl to paties CLT jie turi būti aproksimuoti logaritminiu normaliuoju skirstiniu. Taikomuosiuose uždaviniuose dažniausiai neįmanoma pagrįsti smulkių veiksnių veikimo adityvumo, o ne daugialypiškumo. Jei priklausomybė yra bendro pobūdžio, nėra redukuojama iki adityvinės ar multiplikacinės formos ir nėra pagrindo priimti modelius, kurie pateikia eksponentinį, Weibull-Gnedenko, gama ar kitus skirstinius, tai praktiškai nieko nežinoma apie galutinio pasiskirstymą. atsitiktinis kintamasis, išskyrus vidines matematines savybes, tokias kaip reguliarumas .

Apdorojant konkrečius duomenis kartais daroma prielaida, kad matavimo paklaidos turi normalųjį pasiskirstymą. Remiantis normalumo prielaida, kuriami klasikiniai regresijos, dispersijos, faktorinės analizės ir metrologiniai modeliai, kurie ir toliau randami tiek vidaus norminėje ir techninėje dokumentacijoje, tiek tarptautiniuose standartuose. Ta pačia prielaida remiasi modeliai, skirti apskaičiuoti didžiausius pasiekiamus tam tikrų charakteristikų lygius, naudojamus projektuojant sistemas, užtikrinančias ūkinių struktūrų, techninių įrenginių ir objektų funkcionavimo saugumą. Tačiau tokiai prielaidai nėra jokio teorinio pagrindo. Būtina eksperimentiškai ištirti klaidų pasiskirstymą.

Ką rodo eksperimento rezultatai? Monografijoje pateikta santrauka leidžia teigti, kad daugeliu atvejų matavimo paklaidų pasiskirstymas skiriasi nuo įprasto. Taigi Mechanikos ir elektros inžinerijos institute (Varna, Bulgarija) buvo tiriamas analoginių elektros matavimo prietaisų svarstyklių kalibravimo klaidų pasiskirstymas. Buvo tiriami įrenginiai, pagaminti Čekoslovakijoje, SSRS ir Bulgarijoje. Klaidų pasiskirstymo dėsnis pasirodė toks pat. Jis turi tankį

Įvairių autorių tirtų 219 faktinių klaidų pasiskirstymo parametrų duomenys buvo analizuojami matuojant tiek elektrinius, tiek neelektrinius dydžius įvairiausiais (elektriniais) prietaisais. Šio tyrimo rezultate paaiškėjo, kad 111 skirstinių, t.y. maždaug 50 % priklauso skirstinių su tankiu klasei

kur yra laipsnio parametras; kur yra laipsnio parametras;- pamainos parametras; - mastelio parametras - argumento gama funkcija;

(cm. ); 63 paskirstymai, t.y. 30%, turi plokščią viršūnę ir negilius ilgus nuolydžius, todėl jų negalima apibūdinti kaip normalų ar, pavyzdžiui, eksponentinį. Likę 45 paskirstymai pasirodė bimodaliniai.

Žymaus metrologo knygoje prof. P. V. Novitsky pateikia įvairių matavimo paklaidų tipų pasiskirstymo dėsnių tyrimo rezultatus. Jis tyrė elektromechaninių prietaisų klaidų pasiskirstymą ant šerdies, elektroninių temperatūrų ir jėgų matavimo prietaisų ir skaitmeninių prietaisų su rankiniu balansavimu. Eksperimentinių duomenų mėginių tūris kiekvienam mėginiui buvo 100–400 skaičiavimų. Paaiškėjo, kad 46 iš 47 pasiskirstymai gerokai skyrėsi nuo įprasto. Klaidos pasiskirstymo forma buvo ištirta 25 Shch-1411 skaitmeninių voltmetrų kopijoms 10 diapazono taškų. Rezultatai panašūs. Daugiau informacijos rasite monografijoje.

Tartu valstybinio universiteto Taikomosios matematikos laboratorija išanalizavo 2500 pavyzdžių iš realių statistinių duomenų archyvo. 92% atvejų normalumo hipotezė turėjo būti atmesta.

Pateikti eksperimentinių duomenų aprašymai rodo, kad matavimo paklaidos daugeliu atvejų skiriasi nuo įprastų. Tai visų pirma reiškia, kad dauguma Stjudento testo, klasikinės regresinės analizės ir kitų statistinių metodų, pagrįstų normaliosios teorijos, griežtai kalbant, nėra pagrįsti, nes pagrindinė atitinkamų atsitiktinių dydžių pasiskirstymo normalumo aksioma yra neteisinga.

Akivaizdu, kad norint pagrįsti ar pateisinti esamos statistinės duomenų analizės praktikos pakeitimą, būtina ištirti duomenų analizės procedūrų ypatybes, kai jos naudojamos „neteisėtai“. Atmetimo procedūrų tyrimas parodė, kad jos yra itin nestabilios nukrypimams nuo normalumo, todėl netikslinga jas naudoti tikriems duomenims apdoroti (žr. toliau); todėl negalima teigti, kad savavališkai pasirinkta procedūra yra atspari nukrypimams nuo normalumo.

Kartais siūloma patikrinti normalumą prieš naudojant, pavyzdžiui, Stjudento testą dviejų mėginių homogeniškumui nustatyti. Nors tam yra daug kriterijų, normalumo tikrinimas yra sudėtingesnė ir daug laiko reikalaujanti statistinė procedūra nei homogeniškumo tikrinimas (tiek naudojant Studento tipo statistiką, tiek naudojant neparametrinius testus). Norint patikimai nustatyti normalumą, reikia atlikti labai daug stebėjimų. Taigi, norint garantuoti, kad stebėjimo rezultatų pasiskirstymo funkcija nuo kai kurių normalių skirtųsi ne daugiau kaip 0,01 (bet kuriai argumento reikšmei), reikia apie 2500 stebėjimų. Daugumoje ekonominių, techninių, biomedicinos ir kt taikomieji tyrimai stebėjimų skaičius yra žymiai mažesnis. Tai ypač pasakytina apie duomenis, naudojamus nagrinėjant problemas, susijusias su ūkinių struktūrų ir techninių įrenginių saugaus funkcionavimo užtikrinimu.

Kartais bandoma naudoti CPT, kad klaidų pasiskirstymas būtų priartintas prie normalaus, įtraukiant specialius sumatorius į matavimo prietaiso technologinį projektą. Įvertinkime šios priemonės naudingumą. Leiskite Z 1 , Z 2 ,…, Z k- nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai su pasiskirstymo funkcija H=H(x) toks, kad Apsvarstykite

Sumatoriaus pateiktas artumo normalumui indikatorius yra

Paskutinio santykio dešinioji nelygybė išplaukia iš knygoje gautų Berry-Esseen nelygybės konstantos įverčių, o kairioji – iš monografijos pavyzdžio. Normaliam dėsniui = 1,6, vienodai = 1,3, dvitaškiui = 1 (tai yra apatinė riba). Vadinasi, norint užtikrinti, kad atstumas (Kolmogorovo metrikoje) iki normalaus skirstinio būtų ne didesnis kaip 0,01, „nesėkmingiems“ skirstiniams būtina turėti bent k 0 terminai, kur

Paprastai naudojamuose papildymuose yra žymiai mažiau terminų. Galimų skirstinių klasės susiaurinimas H, galima gauti, kaip parodyta monografijoje, greitesnę konvergenciją, tačiau teorija čia dar nesutampa su praktika. Be to, neaišku, ar skirstinio artumas normaliajam (tam tikroje metrikoje) taip pat užtikrina, kad statistikos, sudarytos iš atsitiktinių dydžių su šiuo skirstiniu, pasiskirstymas yra artimas statistikos pasiskirstymui, atitinkančiam normalius stebėjimo rezultatus. Matyt, kiekvienai konkrečiai statistikai ypatingas teoriniai tyrimai Būtent tokią išvadą daro monografijos autorius. Išskirtinių verčių atmetimo problemos atsakymas yra „Nepateikiama“ (žr. toliau).

Atkreipkite dėmesį, kad bet kokio realaus matavimo rezultatas rašomas naudojant baigtinį skaičių po kablelio, dažniausiai mažą (2–5), todėl patartina bet kokius tikrus duomenis modeliuoti tik naudojant diskrečius atsitiktinius dydžius, kurie įgauna baigtinį skaičių reikšmių. Normalusis skirstinys yra tik apytikslis tikrojo pasiskirstymas. Taigi, pavyzdžiui, darbe pateikti konkretaus tyrimo duomenys yra nuo 1,0 iki 2,2, t.y. Yra tik 13 galimų verčių. Iš Dirichlet principo išplaukia, kad tam tikru momentu iš darbo duomenų sukonstruota skirstinio funkcija skiriasi nuo artimiausios normaliojo skirstinio funkcijos mažiausiai 1/26, t.y. iki 0,04. Be to, akivaizdu, kad esant normaliam atsitiktinio dydžio pasiskirstymui, tikimybė patekti į diskrečią dešimtainių skaičių aibę su tam tikru skaičiumi po kablelio yra 0.

Iš to, kas išdėstyta aukščiau, darytina išvada, kad matavimo rezultatai ir apskritai statistiniai duomenys turi savybių, dėl kurių jie turėtų būti modeliuojami atsitiktiniais dydžiais, kurių skirstiniai daugiau ar mažiau skiriasi nuo įprastų. Daugeliu atvejų skirstiniai gerokai skiriasi nuo normalių, kitu atveju normalūs skirstiniai gali būti laikomi kažkokiu aproksimavimu, tačiau visiško atitikimo nėra. Tai reiškia, kad reikia ištirti klasikinių statistinių procedūrų ypatybes ne klasikiniuose tikimybiniuose modeliuose (panašiai į tai, kas daroma toliau atliekant Studento testą), ir būtinybę sukurti stabilų (atsižvelgiant į nukrypimų nuo normalumo buvimą) ir neparametrines, įskaitant neplatinimo procedūras, platų jų diegimą statistinių duomenų apdorojimo praktikoje.

Literatūra

1. Novitsky P.V., Zograf I.A. Matavimo rezultatų paklaidų įvertinimas. - L.: Energoatomizdat, 1985. - 248 p.

2. Novitsky P.V. Matavimo prietaisų informacijos teorijos pagrindai. -L.: energetika, 1968. - 248 p.

3. Borovkovas A.A. Tikimybių teorija. - M.: Nauka, 1976. - 352 p.

4. Petrovas V.V. Nepriklausomų atsitiktinių dydžių sumos. - M.: Nauka, 1972. - 416 p.

5. Zolotarevas V.M. Šiuolaikinė nepriklausomų atsitiktinių dydžių sumavimo teorija. - M.: Nauka, 1986. - 416 p.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V.//Gamyklos laboratorija. - 1976. T.42. Nr. 10. P. 1237.

    Kaip tinkamai valdyti savo verslo finansus, jei nesate finansinės analizės specialistas - Finansinė analizė

    Finansų valdymas – finansiniai santykiai tarp subjektų, finansų valdymas pas skirtingi lygiai, vertybinių popierių portfelio valdymas, finansinių išteklių judėjimo valdymo technikos – tai toli gražu ne visas sąrašas tema" Finansų valdymas"

    Pakalbėkime apie tai, kas tai yra instruktavimas? Vieni mano, kad tai – buržuazinis prekės ženklas, kiti – kad tai proveržis šiuolaikiniame versle. Koučingas yra taisyklių rinkinys, skirtas sėkmės verslą, taip pat gebėjimą teisingai valdyti šias taisykles

4.1. Ar dažnai stebėjimų pasiskirstymas yra normalus?

Ekonometriniuose ir ekonominiuose-matematiniuose modeliuose, ypač naudojamuose tiriant ir optimizuojant rinkodaros ir valdymo procesus, įmonės ir regionų valdymą, technologinių procesų tikslumą ir stabilumą, patikimumo, saugumo užtikrinimo, įskaitant aplinkos saugą, problemas, techninių prietaisų ir objektų funkcionavimas, organizacinių schemų kūrimas dažnai naudoja tikimybių teorijos ir matematinės statistikos sąvokas ir rezultatus. Šiuo atveju dažnai naudojama viena ar kita parametrinė tikimybių skirstinių šeima. Populiariausias yra normalus paskirstymas. Taip pat naudojamas lognormalus skirstinys, eksponentinis skirstinys, gama skirstinys, Weibull-Gnedenko skirstinys ir kt.

Akivaizdu, kad visada reikia patikrinti modelių atitikimą tikrovei. Kyla du klausimai. Ar realūs skirstiniai skiriasi nuo naudojamų modelyje? Kiek šis skirtumas turi įtakos išvadoms?

Žemiau, naudojant normaliojo skirstinio pavyzdį ir juo pagrįstus metodus, skirtus atmesti ryškiai skirtingus stebėjimus (išskirtinius), parodyta, kad realūs skirstiniai beveik visada skiriasi nuo įtrauktų į klasikines parametrines šeimas, o esami nukrypimai nuo pateiktų šeimų daro neteisingas išvadas, nagrinėjamu atveju dėl atmetimo remiantis šių šeimų panaudojimu.

Ar yra pagrindo a priori manyti, kad matavimo rezultatai yra normalūs?

Kartais teigiama, kad tuo atveju, kai matavimo paklaida (ar kitas atsitiktinis dydis) nustatomas dėl daugelio mažų veiksnių bendro veikimo, tai dėl tikimybių teorijos centrinės ribos teoremos (CLT) ši reikšmė yra gerai aproksimuotas (paskirstymas) normaliu atsitiktiniu dydžiu. Šis teiginys yra teisingas, jei maži veiksniai veikia adityviai ir nepriklausomai vienas nuo kito. Jei jie veikia multiplikatyviai, tai dėl to paties CLT jie turi būti aproksimuoti logaritminiu normaliuoju skirstiniu. Taikomuosiuose uždaviniuose dažniausiai neįmanoma pagrįsti smulkių veiksnių veikimo adityvumo, o ne daugialypiškumo. Jei priklausomybė yra bendro pobūdžio, nėra redukuojama iki adityvinės ar multiplikacinės formos ir nėra pagrindo priimti modelius, kurie pateikia eksponentinį, Weibull-Gnedenko, gama ar kitus skirstinius, tai praktiškai nieko nežinoma apie galutinio pasiskirstymą. atsitiktinis kintamasis, išskyrus vidines matematines savybes, tokias kaip reguliarumas .

Apdorojant konkrečius duomenis kartais daroma prielaida, kad matavimo paklaidos turi normalųjį pasiskirstymą. Remiantis normalumo prielaida, kuriami klasikiniai regresijos, dispersijos, faktorinės analizės ir metrologiniai modeliai, kurie ir toliau randami tiek vidaus norminėje ir techninėje dokumentacijoje, tiek tarptautiniuose standartuose. Ta pačia prielaida remiasi modeliai, skirti apskaičiuoti didžiausius pasiekiamus tam tikrų charakteristikų lygius, naudojamus projektuojant sistemas, užtikrinančias ūkinių struktūrų, techninių įrenginių ir objektų funkcionavimo saugumą. Tačiau tokiai prielaidai nėra jokio teorinio pagrindo. Būtina eksperimentiškai ištirti klaidų pasiskirstymą.

Ką rodo eksperimento rezultatai? Monografijoje pateikta santrauka leidžia teigti, kad daugeliu atvejų matavimo paklaidų pasiskirstymas skiriasi nuo įprasto. Taigi Mechanikos ir elektros inžinerijos institute (Varna, Bulgarija) buvo tiriamas analoginių elektros matavimo prietaisų svarstyklių kalibravimo klaidų pasiskirstymas. Buvo tiriami įrenginiai, pagaminti Čekoslovakijoje, SSRS ir Bulgarijoje. Klaidų pasiskirstymo dėsnis pasirodė toks pat. Jis turi tankį

Įvairių autorių tirtų 219 faktinių klaidų pasiskirstymo parametrų duomenys buvo analizuojami matuojant tiek elektrinius, tiek neelektrinius dydžius įvairiausiais (elektriniais) prietaisais. Šio tyrimo rezultate paaiškėjo, kad 111 skirstinių, t.y. maždaug 50 % priklauso skirstinių su tankiu klasei

kur yra laipsnio parametras; b - poslinkio parametras; - mastelio parametras; - argumento gama funkcija;

(cm. ); 63 paskirstymai, t.y. 30%, turi plokščią viršūnę ir negilius ilgus nuolydžius, todėl jų negalima apibūdinti kaip normalų ar, pavyzdžiui, eksponentinį. Likę 45 paskirstymai pasirodė bimodaliniai.

Žymaus metrologo knygoje prof. P. V. Novitsky pateikia įvairių matavimo paklaidų tipų pasiskirstymo dėsnių tyrimo rezultatus. Jis tyrė elektromechaninių prietaisų klaidų pasiskirstymą ant šerdies, elektroninių temperatūrų ir jėgų matavimo prietaisų ir skaitmeninių prietaisų su rankiniu balansavimu. Eksperimentinių duomenų mėginių tūris kiekvienam mėginiui buvo 100–400 skaičiavimų. Paaiškėjo, kad 46 iš 47 pasiskirstymai gerokai skyrėsi nuo įprasto. Klaidos pasiskirstymo forma buvo ištirta 25 Shch-1411 skaitmeninių voltmetrų kopijoms 10 diapazono taškų. Rezultatai panašūs. Daugiau informacijos rasite monografijoje.

Tartu valstybinio universiteto Taikomosios matematikos laboratorija išanalizavo 2500 pavyzdžių iš realių statistinių duomenų archyvo. 92% atvejų normalumo hipotezė turėjo būti atmesta.

Pateikti eksperimentinių duomenų aprašymai rodo, kad matavimo paklaidos daugeliu atvejų skiriasi nuo įprastų. Tai visų pirma reiškia, kad dauguma Stjudento testo, klasikinės regresinės analizės ir kitų statistinių metodų, pagrįstų normaliosios teorijos, griežtai kalbant, nėra pagrįsti, nes pagrindinė atitinkamų atsitiktinių dydžių normaliojo pasiskirstymo aksioma yra neteisinga.

Akivaizdu, kad norint pagrįsti ar pateisinti esamos statistinės duomenų analizės praktikos pakeitimą, būtina ištirti duomenų analizės procedūrų ypatybes, kai jos naudojamos „neteisėtai“. Atmetimo procedūrų tyrimas parodė, kad jos yra itin nestabilios nukrypimams nuo normalumo, todėl netikslinga jas naudoti tikriems duomenims apdoroti (žr. toliau); todėl negalima teigti, kad savavališkai pasirinkta procedūra yra atspari nukrypimams nuo normalumo.

Kartais siūloma patikrinti normalumą prieš naudojant, pavyzdžiui, Stjudento testą dviejų mėginių homogeniškumui nustatyti. Nors tam yra daug kriterijų, normalumo tikrinimas yra sudėtingesnė ir daug laiko reikalaujanti statistinė procedūra nei homogeniškumo tikrinimas (tiek naudojant Studento tipo statistiką, tiek naudojant neparametrinius testus). Norint patikimai nustatyti normalumą, reikia atlikti labai daug stebėjimų. Taigi, norint garantuoti, kad stebėjimo rezultatų pasiskirstymo funkcija nuo kai kurių normalių skirtųsi ne daugiau kaip 0,01 (bet kuriai argumento reikšmei), reikia apie 2500 stebėjimų. Daugumoje ekonominių, techninių, biomedicininių ir kitų taikomųjų tyrimų stebėjimų skaičius yra žymiai mažesnis. Tai ypač pasakytina apie duomenis, naudojamus nagrinėjant problemas, susijusias su ūkinių struktūrų ir techninių įrenginių saugaus funkcionavimo užtikrinimu.

Kartais bandoma naudoti CPT, kad klaidų pasiskirstymas būtų priartintas prie normalaus, įtraukiant specialius sumatorius į matavimo prietaiso technologinį projektą. Įvertinkime šios priemonės naudingumą. Tegul Z1 , Z2 ,…, Zk yra nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai, kurių pasiskirstymo funkcija H = H(x) taip, kad

Sumatoriaus pateiktas artumo normalumui indikatorius yra

Paskutinio santykio dešinioji nelygybė išplaukia iš knygoje gautų Berry-Esseen nelygybės konstantos įverčių, o kairioji – iš monografijos pavyzdžio. Normaliam dėsniui = 1,6, vienodam dėsniui = 1,3, dviejų taškų dėsniui = 1 (tai yra apatinė riba). Vadinasi, norint užtikrinti, kad atstumas (Kolmogorovo metrikoje) iki normalaus skirstinio būtų ne didesnis kaip 0,01 „nesėkmingiems“ skirstiniams, reikia bent k0 terminų, kur

Paprastai naudojamuose papildymuose yra žymiai mažiau terminų. Susiaurinus galimų skirstinių H klasę, galima gauti, kaip parodyta monografijoje, greitesnę konvergenciją, tačiau teorija čia dar nesutampa su praktika. Be to, neaišku, ar skirstinio artumas normaliajam (tam tikroje metrikoje) taip pat užtikrina, kad statistikos, sudarytos iš atsitiktinių dydžių su šiuo skirstiniu, pasiskirstymas yra artimas statistikos pasiskirstymui, atitinkančiam normalius stebėjimo rezultatus. Matyt, kiekvienai konkrečiai statistikai reikalingos specialios teorinės studijos. Prie tokios išvados prieina monografijos autorius. Išskirtinių verčių atmetimo problemos atsakymas yra „Nepateikiama“ (žr. toliau).

Atkreipkite dėmesį, kad bet kokio realaus matavimo rezultatas rašomas naudojant baigtinį skaičių po kablelio, dažniausiai mažą (2–5), todėl patartina bet kokius tikrus duomenis modeliuoti tik naudojant diskrečius atsitiktinius dydžius, kurie įgauna baigtinį skaičių reikšmių. Normalusis skirstinys yra tik apytikslis tikrojo pasiskirstymas. Taigi, pavyzdžiui, darbe pateikti konkretaus tyrimo duomenys yra nuo 1,0 iki 2,2, t.y. Yra tik 13 galimų verčių. Iš Dirichlet principo išplaukia, kad tam tikru momentu iš darbo duomenų sukonstruota skirstinio funkcija skiriasi nuo artimiausios normaliojo skirstinio funkcijos mažiausiai 1/26, t.y. iki 0,04. Be to, akivaizdu, kad esant normaliam atsitiktinio dydžio pasiskirstymui, tikimybė patekti į diskrečią dešimtainių skaičių aibę su tam tikru skaičiumi po kablelio yra 0.

Iš to, kas išdėstyta aukščiau, darytina išvada, kad matavimo rezultatai ir apskritai statistiniai duomenys turi savybių, dėl kurių jie turėtų būti modeliuojami atsitiktiniais dydžiais, kurių skirstiniai daugiau ar mažiau skiriasi nuo įprastų. Daugeliu atvejų skirstiniai gerokai skiriasi nuo normalių, kitu atveju normalūs skirstiniai gali būti laikomi kažkokiu aproksimavimu, tačiau visiško atitikimo nėra. Tai reiškia, kad reikia ištirti klasikinių statistinių procedūrų ypatybes ne klasikiniuose tikimybiniuose modeliuose (panašiai į tai, kas daroma toliau atliekant Studento testą), ir būtinybę sukurti stabilų (atsižvelgiant į nukrypimų nuo normalumo buvimą) ir neparametrines, įskaitant neplatinimo procedūras, platų jų diegimą statistinių duomenų apdorojimo praktikoje.

Čia praleisti svarstymai apie kitas parametrines šeimas leidžia daryti panašias išvadas. Rezultatą galima suformuluoti taip. Tikrų duomenų pasiskirstymas beveik niekada nepriklauso jokiai konkrečiai parametrų šeimai. Tikrieji skirstiniai visada skiriasi nuo įtrauktų į parametrines šeimas. Skirtumai gali būti dideli ar maži, bet jie visada yra. Pabandykime suprasti, kokie svarbūs šie skirtumai ekonometrinei analizei.

Visos teisės saugomos. Šios svetainės medžiaga gali būti naudojama tik su nuoroda į šią svetainę.

Panagrinėkime du nepriklausomus atsitiktinius dydžius ir , atsižvelgiant į normalius dėsnius:

, (12.6.1)

. (12.6.2)

Būtina sudaryti šių dėsnių sudėtį, tai yra, rasti kiekio pasiskirstymo dėsnį:

Pasiskirstymo dėsnių sudarymui pritaikykime bendrąją formulę (12.5.3):

. (12.6.3)

Jei integrando eksponente atversime skliaustus ir atnešame panašių narių, gauname:

,

;

;

.

Pakeitę šias išraiškas į formulę (9.1.3), mes jau susidūrėme:

, (12.6.4)

po transformacijų gauname:

, (12.6.5)

ir tai yra ne kas kita, kaip normalus dėsnis su sklaidos centru

ir standartinis nuokrypis

. (12.6.7)

Tą pačią išvadą galima padaryti daug lengviau, naudojant šiuos kokybinius samprotavimus.

Neatverdami skliaustų ir neatlikdami jokių transformacijų integrande (12.6.3), iš karto darome išvadą, kad eksponentas yra kvadratinis trinaris dėl tipo

,

kur dydis į koeficientą visai neįtraukiamas, koeficientas įskaitomas į pirmą laipsnį, o koeficientas pakeliamas kvadratu. Turėdami tai omenyje ir pritaikę (12.6.4) formulę, darome išvadą, kad yra eksponentinė funkcija, kurios rodiklis yra kvadratinis trinaris , o šio tipo pasiskirstymo tankis atitinka normalųjį dėsnį. Taigi darome grynai kokybinę išvadą: kiekio pasiskirstymo dėsnis turi būti normalus.

Norėdami rasti šio dėsnio parametrus - ir - naudosime matematinių lūkesčių sudėjimo ir dispersijų sudėjimo teoremą. Pagal matematinių lūkesčių sudėjimo teoremą

Pagal dispersijų pridėjimo teoremą

iš kur seka formulė (12.6.7).

Judėjimas nuo vidurkio kvadratiniai nuokrypiaiį tikėtinus jiems proporcingus nuokrypius, gauname:

Taigi priėjome prie tokios taisyklės: derindami normalius dėsnius vėl gauname normalų dėsnį, ir matematiniai lūkesčiai ir dispersijos (arba tikėtini nukrypimai kvadratu) sumuojami.

Įprastų įstatymų sudarymo taisyklę galima apibendrinti šiuo atveju bet koks skaičius nepriklausomi atsitiktiniai dydžiai.

Jei yra nepriklausomų atsitiktinių dydžių:

kuriems galioja įprasti dėsniai su sklaidos centrais

ir standartiniai nuokrypiai

,

tada vertė

taip pat galioja normalus dėsnis su parametrais

Vietoj formulės (12.6.12) galite naudoti lygiavertę formulę:

Jei atsitiktinių dydžių sistema yra paskirstyta pagal normalų dėsnį, bet reikšmės yra priklausomos, tada nesunku įrodyti, kaip ir anksčiau, remiantis bendroji formulė(12.5.1) kad kiekio pasiskirstymo dėsnis

Yra ir normalus įstatymas. Sklaidos centrai vis dar pridedami algebriškai, tačiau standartiniams nuokrypiams taisyklė tampa sudėtingesnė:

, (12.6.14)

kur yra dydžių koreliacijos koeficientas ir .

Sudėjus kelis priklausomus atsitiktinius dydžius, kuriems galioja normalusis dėsnis, sumos pasiskirstymo dėsnis taip pat pasirodo esantis normalus su parametrais

, (12.6.16)

arba esant galimiems nukrypimams

, (12.6.17)

kur yra dydžių koreliacijos koeficientas, o sumavimas apima visus skirtingus dydžių porinius derinius.

Įsitikinome labai svarbia normaliojo dėsnio savybe: normalių dėsnių sudėtimi vėl gaunamas normalus dėsnis. Tai vadinamoji „stabilumo savybė“. Pasiskirstymo dėsnis vadinamas stabiliu, jei dviejų tokio tipo dėsnių sudėtis vėl lemia to paties tipo dėsnį. Aukščiau parodėme, kad įprastas įstatymas yra stabilus. Labai nedaug paskirstymo dėsnių turi stabilumo savybę. Ankstesniame (2 pavyzdys) buvome įsitikinę, kad, pavyzdžiui, vienodo tankio dėsnis yra nestabilus: sudarydami du vienodo tankio dėsnius skyriuose nuo 0 iki 1, gavome Simpsono dėsnį.

Normalios dėsnio stabilumas yra viena iš esminių sąlygų plačiam jo naudojimui praktikoje. Tačiau, be įprasto, stabilumo savybę turi ir kai kurie kiti skirstymo dėsniai. Įprasto dėsnio ypatybė yra ta, kad pakanka sudėties didelis skaičius praktiškai savavališki įstatymai pasiskirstymas, suminis dėsnis pasirodo esantis tiek arti normalios, kiek norima, nepaisant to, kokie buvo terminų pasiskirstymo dėsniai. Tai galima iliustruoti, pavyzdžiui, sudarant tris vienodo tankio dėsnius srityse nuo 0 iki 1. Gautas pasiskirstymo dėsnis parodytas Fig. 12.6.1. Kaip matyti iš brėžinio, funkcijos grafikas labai panašus į normalaus dėsnio grafiką.



Ar jums patiko straipsnis? Pasidalinkite su draugais!