Statistična analiza numeričnih vrednosti (neparametrična statistika). Normalna porazdelitev

Normalna porazdelitev

Poznamo že pojme porazdelitev, poligon (ali zasebni poligon) in porazdelitvena krivulja. Poseben primer teh pojmov sta "normalna porazdelitev" in "normalna krivulja". Toda ta posebna možnost je zelo pomembna pri analizi kakršnih koli znanstvenih podatkov, vključno s psihološkimi. Dejstvo je, da je normalna porazdelitev, prikazana grafično normalna krivulja obstaja idealna porazdelitev, ki jo redko najdemo v objektivni realnosti. Toda njegova uporaba močno olajša in poenostavi obdelavo in razlago podatkov, pridobljenih v naravi. Še več, samo za normalno porazdelitev lahko dane korelacijske koeficiente interpretiramo kot merilo tesnosti povezave, v drugih primerih pa ne služijo tej funkciji, njihov izračun pa vodi do težko razložljivih paradoksov.

IN znanstvena raziskava predpostavka je običajno sprejeta O normalnost porazdelitve realnih podatkov in se na tej podlagi obdelajo, nakar se razjasni in nakaže, koliko se realna porazdelitev razlikuje od normalne, za kar obstaja vrsta posebnih statističnih tehnik. Praviloma je ta predpostavka povsem sprejemljiva, saj večina psihični pojavi njihove značilnosti pa imajo porazdelitve zelo blizu normalnim.

Kaj je torej normalna porazdelitev in katere so njene značilnosti, ki pritegnejo znanstvenike? normalno Porazdelitev količine se imenuje taka, da je verjetnost, da se pojavi in ​​ne pojavi, enaka. Klasična ilustracija je met kovanca. Če je kovanec pravičen in se meti izvajajo na enak način, je enako verjetno, da boste dobili glave ali repe. To pomeni, da lahko "glave" izpadejo in ne izpadejo z enako verjetnostjo, enako velja za "repe".

Predstavili smo pojem "verjetnost". Naj razjasnimo. Verjetnost– to je pričakovana pogostost pojavljanja dogodka (pojavljanje - ne pojavljanje vrednosti). Verjetnost je izražena z ulomkom, katerega števec je število uresničenih dogodkov (frekvenca) in V imenovalec - največ možno število teh dogodkov. Ko je vzorec (številka možni primeri) je omejena, potem je bolje govoriti ne o verjetnosti, ampak O frekvenco, ki jo že poznamo. Verjetnost kaže na demona končna številka vzorcev Toda v praksi je ta subtilnost pogosto zanemarjena.

Veliko zanimanje matematikov za teorijo verjetnosti V na splošno in še posebej za normalno porazdelitev V XVII stoletja zaradi želje udeležencev igre na srečo poiščite formulo za največje dobitke z minimalnim tveganjem. S temi vprašanji sta se ukvarjala slavna matematika J. Bernoulli (1654-1705) in P. S. Laplace (1749-1827). najprej matematični opis krivulja, ki povezuje segmente porazdelitvenega diagrama verjetnosti, da dobite "glave" pri večkratnem metanju kovancev, je dala Abraham de Moivre(1667-1754). Ta krivulja je zelo blizu normalna krivulja natančen opis, ki ga je podal velik matematik K. F. Gaussa(1777-1855), katerega ime nosi še danes. Graf in formula normalne (Gaussove) krivulje sta naslednja.

kjer je P verjetnost (natančneje, gostota verjetnosti), tj. višina krivulje nad dano vrednost Z; e – osnova naravni logaritem(2.718 ...); π= 3,142...; M – povprečje vzorca; σ – standardni odklon.

Lastnosti normalne krivulje

1. Povprečna (M), način (Mo) in mediana (Me) so enaki.

2. Simetrija glede na povprečno M.

3. Nedvoumno določeno samo z dvema parametroma - M in o.

4. "Veje" krivulje nikoli ne prečkajo abscise Z in se ji približujejo asimptotično.

5. Pri M = 0 in o = 1 dobimo enotsko normalno krivuljo, saj je ploščina pod njo enaka 1.

6. Za enotsko krivuljo: P m = 0,3989, površina pod krivuljo pa je v območju:

-σ do +σ = 68,26 %; -2σ do + 2σ = 95,46 %; -Zσ do + Zσ = 99,74 %.

7. Pri neenotskih normalnih krivuljah (M ≠0, σ ≠1) se vzorec v območjih ohrani. Razlika je v stotinkah.

Različice normalne porazdelitve

Spodaj predstavljene različice ne veljajo samo za normalno porazdelitev, ampak za katero koli. Vendar jih zaradi jasnosti predstavljamo tukaj.

1. Asimetrija – neenakomerna porazdelitev glede na osrednjo vrednost.

4.1. Ali je porazdelitev opazovanj pogosto normalna?

V ekonometričnih in ekonomsko-matematičnih modelih, ki se uporabljajo zlasti pri preučevanju in optimizaciji procesov trženja in upravljanja, upravljanja podjetij in regij, natančnosti in stabilnosti tehnoloških procesov, pri problemih zanesljivosti, zagotavljanja varnosti, vključno z okoljsko varnostjo, delovanja tehnične naprave in predmeti , razvoj organizacijskih shem pogosto uporablja koncepte in rezultate teorije verjetnosti in matematična statistika. V tem primeru se pogosto uporablja ena ali druga parametrična družina verjetnostnih porazdelitev. Najbolj priljubljena je normalna porazdelitev. Uporabljajo se tudi lognormalna porazdelitev, eksponentna porazdelitev, gama porazdelitev, Weibull-Gnedenkova porazdelitev itd.

Očitno je vedno treba preveriti skladnost modelov z realnostjo. Postavljata se dve vprašanji. Ali se dejanske porazdelitve razlikujejo od tistih, uporabljenih v modelu? Koliko ta razlika vpliva na sklepe?

Spodaj je na primeru normalne porazdelitve in na njej temelječih metod za zavrnitev močno različnih opazovanj (outliers) prikazano, da se realne porazdelitve skoraj vedno razlikujejo od tistih, vključenih v klasične parametrične družine, obstoječa odstopanja od danih družin pa dajejo napačne zaključke, v obravnavanem primeru o zavrnitvi na podlagi uporabe teh družin.

Ali obstajajo kakršni koli razlogi za a priori predpostavko o normalnosti merilnih rezultatov?

Včasih se trdi, da je v primeru, ko je merilna napaka (ali druga naključna spremenljivka) določena kot posledica skupnega delovanja številnih majhnih dejavnikov, potem zaradi osrednje Mejni izrek(CPT) teorije verjetnosti je ta količina dobro aproksimirana (v porazdelitvi) z normalno naključno spremenljivko. Ta trditev drži, če majhni dejavniki delujejo aditivno in neodvisno drug od drugega. Če delujejo multiplikativno, jih je treba zaradi enakega CLT aproksimirati z logaritemsko normalno porazdelitvijo. IN uporabni problemi Običajno ni mogoče utemeljiti aditivnosti namesto multiplikativnosti delovanja majhnih faktorjev. Če ima odvisnost splošni značaj, ni reduciran na aditivno ali multiplikativno obliko in tudi ni razloga, da bi sprejeli modele, ki podajajo eksponentne, Weibull-Gnedenkove, gama ali druge porazdelitve, potem o porazdelitvi končne naključne spremenljivke ni praktično nič znanega, razen znotraj matematične lastnosti, kot je pravilnost.

Pri obdelavi določenih podatkov se včasih predpostavlja, da imajo merilne napake normalno porazdelitev. Zgrajeno na predpostavki normalnosti klasični modeli regresije, variance, faktorskih analiz, meroslovnih modelov, ki jih še vedno najdemo tako v domači regulativni in tehnični dokumentaciji kot v mednarodnih standardih. Na isti predpostavki temeljijo modeli za izračun najvišjih dosegljivih ravni določenih karakteristik, ki se uporabljajo pri načrtovanju sistemov za zagotavljanje obratovalne varnosti. gospodarske strukture, tehnične naprave in predmeti. Vendar teoretične osnove te predpostavke ni. Eksperimentalno je treba preučiti porazdelitve napak.

Kaj kažejo rezultati eksperimentov? Iz povzetka v monografiji je razvidno, da se porazdelitev merilnih napak v večini primerov razlikuje od običajne. Tako so na Inštitutu za strojništvo in elektrotehniko (Varna, Bolgarija) proučevali porazdelitev kalibracijskih napak na lestvicah analognih električnih merilnih instrumentov. Preučevali so naprave, izdelane v Češkoslovaški, ZSSR in Bolgariji. Izkazalo se je, da je zakon porazdelitve napak enak. Ima gostoto

Podatki o parametrih 219 dejanskih porazdelitev napak, ki so jih preučevali različni avtorji, so bili analizirani pri merjenju električnih in neelektričnih električne količine najrazličnejše (električne) naprave. Kot rezultat te študije se je izkazalo, da je 111 distribucij, tj. približno 50 % pripada razredu porazdelitev z gostoto

kje je parameter stopnje; b- parameter premika; - parameter lestvice; - gama funkcija argumenta;

(cm.); 63 distribucij, tj. 30 % imajo gostoto z ravnim vrhom in plitvimi dolgimi pobočji in je ni mogoče opisati kot normalno ali na primer eksponentno. Izkazalo se je, da je preostalih 45 distribucij bimodalnih.

V knjigi znanega metrologa prof. P. V. Novitsky predstavlja rezultate študije zakonov porazdelitve različnih vrst merilnih napak. Preučeval je porazdelitve napak elektromehanskih naprav na jedrnih vzorcih, elektronske naprave za merjenje temperatur in sil, digitalni instrumenti z ročnim balansiranjem. Obseg vzorcev eksperimentalnih podatkov za vsak primerek je bil 100-400 štetij. Izkazalo se je, da je 46 od 47 distribucij bistveno drugačnih od običajnih. Obliko porazdelitve napak smo preučevali za 25 kopij digitalnih voltmetrov Shch-1411 na 10 točkah območja. Rezultati so podobni. Dodatne informacije so v monografiji.

V Laboratoriju za uporabno matematiko v Tartuju državna univerza Analiziranih je bilo 2500 vzorcev iz arhiva realnih statističnih podatkov. V 92 % je bilo treba hipotezo o normalnosti zavrniti.

Podani opisi eksperimentalnih podatkov kažejo, da imajo merilne napake v večini primerov porazdelitve, ki se razlikujejo od normalnih. To zlasti pomeni, da večina aplikacij Študentov t test, klasična regresijska analiza in drugi statistične metode ki temelji na normalni teoriji, strogo gledano, ni upravičeno, saj je temeljni aksiom normalnosti porazdelitev ustreznih naključne spremenljivke.

Očitno je, da bi upravičili ali upravičili spremembo trenutne prakse statistične analize podatkov, treba preučiti lastnosti postopkov analize podatkov, kadar se uporabljajo »nezakonito«. Študija zavrnitvenih postopkov je pokazala, da so izjemno nestabilni na odstopanja od normalnosti, zato jih ni primerno uporabljati za obdelavo realnih podatkov (glej spodaj); zato ni mogoče trditi, da je poljubno izbran postopek odporen na odstopanja od normalnosti.

Včasih se predlaga preverjanje normalnosti pred uporabo, na primer, Studentovega testa za homogenost dveh vzorcev. Čeprav je za to veliko meril, je testiranje normalnosti bolj zapleten in dolgotrajen statistični postopek kot testiranje homogenosti (tako z uporabo Studentove statistike kot z uporabo neparametričnih testov). Za zanesljivo določitev normalnosti je potrebno zelo veliko opazovanj. Da bi torej zagotovili, da se distribucijska funkcija rezultatov opazovanja razlikuje od neke normalne za največ 0,01 (za katero koli vrednost argumenta), je potrebnih približno 2500 opazovanj. V večini ekonomskih, tehničnih, biomedicinskih in drugih aplikativnih raziskav je število opazovanj bistveno manjše. To še posebej velja za podatke, ki se uporabljajo pri preučevanju problemov, povezanih z zagotavljanjem varnega delovanja gospodarskih struktur in tehničnih objektov.

Včasih poskušajo uporabiti CPT, da porazdelitev napak približajo normalni, tako da v tehnološko zasnovo merilne naprave vključijo posebne seštevalnike. Ocenimo uporabnost tega ukrepa. Pustiti Z 1, Z 2, …, Zk- neodvisne enako porazdeljene naključne spremenljivke s porazdelitveno funkcijo H = H(x) tako, da Razmislite

Indikator bližine normalnosti, ki ga zagotavlja seštevalnik, je

Desna neenakost v zadnji relaciji izhaja iz ocen konstante v Berry-Esseenovi neenakosti, pridobljenih v knjigi, leva pa iz primera v monografiji. Za normalno pravo=1,6, za enotno = 1,3, za dvotočkovno =1 (to je spodnja meja za ). Posledično, da zagotovimo, da razdalja (v Kolmogorovi metriki) do normalne porazdelitve ni večja od 0,01, je za "neuspešne" porazdelitve potrebno imeti vsaj k 0 pogoji, kje

V pogosto uporabljenih seštevalnikih je izrazov bistveno manj. Zoženje razreda možnih porazdelitev H, je mogoče doseči, kot je prikazano v monografiji, hitrejšo konvergenco, vendar se teorija tu še ne zbližuje s prakso. Poleg tega ni jasno, ali bližina porazdelitve normalni (v določeni metriki) zagotavlja tudi, da je porazdelitev statistike, sestavljene iz naključnih spremenljivk s to porazdelitvijo, blizu porazdelitve statistike, ki ustreza normalnim rezultatom opazovanja. Očitno so za vsako posamezno statistiko potrebne posebne teoretične študije, do katere pride avtor monografije. Pri težavah z zavrnitvijo izstopajočih vrednosti je odgovor »Ne zagotavlja« (glejte spodaj).

Upoštevajte, da je rezultat vsake dejanske meritve zapisan s končnim številom decimalnih mest, običajno majhnih (2-5), zato je priporočljivo modelirati vse dejanske podatke samo z diskretnimi naključnimi spremenljivkami, ki imajo končno število vrednosti. Normalna porazdelitev je le približek dejanske porazdelitve. Torej, na primer, podatki posebne raziskave podani v delu imajo vrednosti od 1,0 do 2,2, tj. skupaj 13 možne vrednosti. Iz Dirichletovega načela sledi, da se na neki točki porazdelitvena funkcija, zgrajena iz delovnih podatkov, razlikuje od najbližje normalne porazdelitvene funkcije vsaj za 1/26, tj. za 0,04. Poleg tega je očitno, da je za normalno porazdelitev naključne spremenljivke verjetnost, da je v diskretnem nizu decimalna števila z dano številko decimalna mesta so enaka 0.

Iz navedenega sledi, da imajo merilni rezultati in statistični podatki nasploh lastnosti, ki vodijo v to, da jih je treba modelirati s slučajnimi spremenljivkami s porazdelitvami, ki se bolj ali manj razlikujejo od normalnih. V večini primerov se porazdelitve bistveno razlikujejo od običajnih, v drugih se normalne porazdelitve očitno lahko obravnavajo kot nekakšen približek, vendar popolnega ujemanja nikoli ni. To implicira potrebo po proučevanju lastnosti klasičnih statističnih postopkov v neklasičnih verjetnostni modeli(podobno, kot je bilo to storjeno spodaj za študentov test), in potrebo po razvoju stabilnih (ob upoštevanju prisotnosti odstopanj od normalnosti) in neparametričnih postopkov, vključno s postopki brez distribucije, in njihovo široko uporabo v praksi statistične obdelave podatke.

Premisleki, ki so tukaj izpuščeni za druge parametrične družine, vodijo do podobnih zaključkov. Rezultat je mogoče formulirati na naslednji način. Porazdelitve realnih podatkov skoraj nikoli ne pripadajo nobeni določeni parametrični družini. Realne porazdelitve se vedno razlikujejo od tistih, vključenih v parametrične družine. Razlike so lahko velike ali majhne, ​​a vedno so. Poskusimo razumeti, kako pomembne so te razlike za ekonometrično analizo.

Orlov A.I. Ali je porazdelitev opazovanj pogosto normalna? – Revija “Tovarniški laboratorij”. 1991 T.57. št.7 str.64-66.

Ali je porazdelitev opazovanj pogosto normalna?

A.I.Orlov

Rezultati meritev in statistični podatki nasploh imajo lastnosti, ki vodijo v dejstvo, da jih je treba modelirati z naključnimi spremenljivkami s porazdelitvami, ki se bolj ali manj razlikujejo od normalnih. V večini primerov se porazdelitve bistveno razlikujejo od normalnih. V drugih se normalne porazdelitve očitno lahko obravnavajo kot nekakšen približek. Toda nikoli ni popolnega naključja. To vključuje tako potrebo po preučevanju lastnosti klasičnih statističnih postopkov v neklasičnih verjetnostnih modelih kot tudi potrebo po razvoju stabilnih (ob upoštevanju prisotnosti odstopanj od normalnosti) in neparametričnih postopkov, vključno s postopki brez distribucije, in njihovo široko uporabo. v praksi statistične obdelave podatkov.

V ekonometričnih in ekonomsko-matematičnih modelih, ki se uporabljajo predvsem pri preučevanju in optimizaciji procesov trženja in upravljanja, podjetniškega in regionalnega upravljanja, natančnosti in stabilnosti tehnološki procesi, pri problemih zanesljivosti, zagotavljanja varnosti, vključno z okoljsko varnostjo, delovanja tehničnih naprav in predmetov ter razvoja organizacijskih shem se pogosto uporabljajo koncepti in rezultati teorije verjetnosti in matematične statistike. V tem primeru se pogosto uporablja ena ali druga parametrična družina verjetnostnih porazdelitev. Najbolj priljubljena je normalna porazdelitev. Uporabljajo se tudi lognormalna porazdelitev, eksponentna porazdelitev, gama porazdelitev, Weibull-Gnedenkova porazdelitev itd.

Očitno je vedno treba preveriti skladnost modelov z realnostjo. Postavljata se dve vprašanji. Ali se dejanske porazdelitve razlikujejo od tistih, uporabljenih v modelu? Koliko ta razlika vpliva na zaključke?

Spodaj je na primeru normalne porazdelitve in na njej temelječih metod za zavrnitev močno različnih opazovanj (outliers) prikazano, da se realne porazdelitve skoraj vedno razlikujejo od tistih, vključenih v klasične parametrične družine, obstoječa odstopanja od danih družin pa dajejo napačne zaključke, v obravnavanem primeru o zavrnitvi na podlagi uporabe teh družin.

Ali obstajajo kakršni koli razlogi za a priori predpostavko o normalnosti merilnih rezultatov?

Včasih se trdi, da je v primeru, ko je merilna napaka (ali druga naključna spremenljivka) določena kot posledica kombiniranega delovanja številnih majhnih dejavnikov, potem zaradi Centralnega mejnega izreka (CLT) teorije verjetnosti ta vrednost enaka dobro aproksimirana (v porazdelitvi) z normalno naključno spremenljivko. Ta trditev drži, če majhni dejavniki delujejo aditivno in neodvisno drug od drugega. Če delujejo multiplikativno, jih je treba zaradi enakega CLT aproksimirati z logaritemsko normalno porazdelitvijo. Pri aplikativnih problemih običajno ni mogoče utemeljiti aditivnosti namesto multiplikativnosti delovanja majhnih faktorjev. Če je odvisnost splošne narave, ni reducirana na aditivno ali multiplikativno obliko in ni razloga, da bi sprejeli modele, ki dajejo eksponentne, Weibull-Gnedenkove, gama ali druge porazdelitve, potem o porazdelitvi končne porazdelitve ni praktično nič znanega. naključna spremenljivka, razen za znotrajmatematične lastnosti, kot je pravilnost.

Pri obdelavi določenih podatkov se včasih predpostavlja, da imajo merilne napake normalno porazdelitev. Na predpostavki normalnosti so zgrajeni klasični modeli regresije, variance, faktorske analize in meroslovni modeli, ki jih še naprej najdemo tako v domači regulativni in tehnični dokumentaciji kot v mednarodnih standardih. Na enaki predpostavki temeljijo modeli za izračun najvišjih dosegljivih ravni določenih značilnosti, ki se uporabljajo pri načrtovanju sistemov za zagotavljanje varnosti delovanja gospodarskih struktur, tehničnih naprav in objektov. Vendar pa za takšno predpostavko ni teoretične podlage. Eksperimentalno je treba preučiti porazdelitve napak.

Kaj kažejo rezultati eksperimentov? Iz povzetka v monografiji je razvidno, da se porazdelitev merilnih napak v večini primerov razlikuje od običajne. Tako so na Inštitutu za strojništvo in elektrotehniko (Varna, Bolgarija) proučevali porazdelitev kalibracijskih napak na lestvicah analognih električnih merilnih instrumentov. Preučevali so naprave, izdelane v Češkoslovaški, ZSSR in Bolgariji. Izkazalo se je, da je zakon porazdelitve napak enak. Ima gostoto

Analizirani so bili podatki o parametrih 219 porazdelitev dejanskih napak, ki so jih preučevali različni avtorji, pri merjenju tako električnih kot neelektričnih veličin z najrazličnejšimi (električnimi) instrumenti. Kot rezultat te študije se je izkazalo, da je 111 distribucij, tj. približno 50 % pripada razredu porazdelitev z gostoto

kje je parameter stopnje; b- parameter premika; - parameter gama argumenta;

(cm.); 63 distribucij, tj. 30 % imajo gostoto z ravnim vrhom in plitvimi dolgimi pobočji in je ni mogoče opisati kot normalno ali na primer eksponentno. Izkazalo se je, da je preostalih 45 distribucij bimodalnih.

V knjigi znanega metrologa prof. P. V. Novitsky predstavlja rezultate študije zakonov porazdelitve različnih vrst merilnih napak. Preučeval je porazdelitve napak elektromehanskih instrumentov na jedrih, elektronskih instrumentov za merjenje temperatur in sil ter digitalnih instrumentov z ročnim uravnoteženjem. Obseg vzorcev eksperimentalnih podatkov za vsak primerek je bil 100-400 štetij. Izkazalo se je, da je 46 od 47 distribucij bistveno drugačnih od običajnih. Obliko porazdelitve napak smo preučevali za 25 kopij digitalnih voltmetrov Shch-1411 na 10 točkah območja. Rezultati so podobni. Dodatne informacije so v monografiji.

Laboratorij za uporabno matematiko na državni univerzi v Tartuju je analiziral 2500 vzorcev iz arhiva resničnih statističnih podatkov. V 92 % je bilo treba hipotezo o normalnosti zavrniti.

Podani opisi eksperimentalnih podatkov kažejo, da imajo merilne napake v večini primerov porazdelitve, ki se razlikujejo od normalnih. To zlasti pomeni, da večina uporab Studentovega testa, klasične regresijske analize in drugih statističnih metod, ki temeljijo na normalni teoriji, strogo gledano, ni upravičenih, saj osnovni aksiom normalne porazdelitve ustreznih naključnih spremenljivk ni pravilen.

Očitno je, da bi upravičili ali upravičili spremembo trenutne prakse statistične analize podatkov, treba preučiti lastnosti postopkov analize podatkov, kadar se uporabljajo »nezakonito«. Študija zavrnitvenih postopkov je pokazala, da so izjemno nestabilni na odstopanja od normalnosti, zato jih ni primerno uporabljati za obdelavo realnih podatkov (glej spodaj); zato ni mogoče trditi, da je poljubno izbran postopek odporen na odstopanja od normalnosti.

Včasih se predlaga preverjanje normalnosti pred uporabo, na primer, Studentovega testa za homogenost dveh vzorcev. Čeprav je za to veliko meril, je testiranje normalnosti bolj zapleten in dolgotrajen statistični postopek kot testiranje homogenosti (tako z uporabo Studentove statistike kot z uporabo neparametričnih testov). Za zanesljivo določitev normalnosti je potrebno zelo veliko opazovanj. Da bi torej zagotovili, da se distribucijska funkcija rezultatov opazovanja razlikuje od neke normalne za največ 0,01 (za katero koli vrednost argumenta), je potrebnih približno 2500 opazovanj. V večini gospodarskih, tehničnih, biomedicinskih in drugih uporabne raziskaveštevilo opazovanj je bistveno manjše. To še posebej velja za podatke, ki se uporabljajo pri preučevanju problemov, povezanih z zagotavljanjem varnega delovanja gospodarskih struktur in tehničnih objektov.

Včasih poskušajo uporabiti CPT, da porazdelitev napak približajo normalni, tako da v tehnološko zasnovo merilne naprave vključijo posebne seštevalnike. Ocenimo uporabnost tega ukrepa. Pustiti Z 1 , Z 2 ,…, Z k- neodvisne enako porazdeljene naključne spremenljivke s porazdelitveno funkcijo H=H(x) tako, da Razmislite

Indikator bližine normalnosti, ki ga zagotavlja seštevalnik, je

Desna neenakost v zadnji relaciji izhaja iz ocen konstante v Berry-Esseenovi neenakosti, pridobljenih v knjigi, leva pa iz primera v monografiji. Za normalni zakon = 1,6, za enotni = 1,3, za dvotočkovni = 1 (to je spodnja meja za). Posledično, da zagotovimo, da razdalja (v Kolmogorovi metriki) do normalne porazdelitve ni večja od 0,01, je za "neuspešne" porazdelitve potrebno imeti vsaj k 0 pogoji, kje

V pogosto uporabljenih seštevalnikih je izrazov bistveno manj. Zoženje razreda možnih porazdelitev H, je mogoče doseči, kot je prikazano v monografiji, hitrejšo konvergenco, vendar se teorija tu še ne zbližuje s prakso. Poleg tega ni jasno, ali bližina porazdelitve normalni (v določeni metriki) zagotavlja tudi, da je porazdelitev statistike, sestavljene iz naključnih spremenljivk s to porazdelitvijo, blizu porazdelitve statistike, ki ustreza normalnim rezultatom opazovanja. Očitno je za vsako specifično statistiko posebno teoretično raziskovanje Prav do te ugotovitve prihaja avtor monografije. Pri težavah z zavrnitvijo izstopajočih vrednosti je odgovor »Ne zagotavlja« (glejte spodaj).

Upoštevajte, da je rezultat vsake dejanske meritve zapisan s končnim številom decimalnih mest, običajno majhnih (2-5), zato je priporočljivo modelirati vse dejanske podatke samo z diskretnimi naključnimi spremenljivkami, ki imajo končno število vrednosti. Normalna porazdelitev je le približek dejanske porazdelitve. Torej, na primer, podatki iz določene študije, navedeni v delu, imajo vrednosti od 1,0 do 2,2, tj. Obstaja samo 13 možnih vrednosti. Iz Dirichletovega načela sledi, da se na neki točki porazdelitvena funkcija, zgrajena iz delovnih podatkov, razlikuje od najbližje normalne porazdelitvene funkcije vsaj za 1/26, tj. za 0,04. Poleg tega je očitno, da je za normalno porazdelitev naključne spremenljivke verjetnost padca v diskretni niz decimalnih števil z danim številom decimalnih mest enaka 0.

Iz navedenega sledi, da imajo merilni rezultati in statistični podatki nasploh lastnosti, ki vodijo v to, da jih je treba modelirati s slučajnimi spremenljivkami s porazdelitvami, ki se bolj ali manj razlikujejo od normalnih. V večini primerov se porazdelitve bistveno razlikujejo od običajnih, v drugih se normalne porazdelitve očitno lahko obravnavajo kot nekakšen približek, vendar popolnega ujemanja nikoli ni. To vključuje tako potrebo po proučevanju lastnosti klasičnih statističnih postopkov v neklasičnih verjetnostnih modelih (podobno, kot je storjeno spodaj za Studentov test), kot tudi potrebo po razvoju stabilnih (ob upoštevanju prisotnosti odstopanj od normalnosti) in neparametrični, vključno s postopki brez distribucije, njihovo široko uporabo v praksi statistične obdelave podatkov.

Literatura

1. Novitsky P.V., Zograf I.A. Ocena napak merilnih rezultatov. - L.: Energoatomizdat, 1985. - 248 str.

2. Novitsky P.V. Osnove informacijske teorije merilnih naprav. -L .: energija, 1968. - 248 str.

3. Borovkov A.A. Teorija verjetnosti. - M.: Nauka, 1976. - 352 str.

4. Petrov V.V. Vsote neodvisnih naključnih spremenljivk. - M.: Nauka, 1972. - 416 str.

5. Zolotarev V.M. Sodobna teorija seštevanja neodvisnih slučajnih spremenljivk. - M.: Nauka, 1986. - 416 str.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V.//Tovarniški laboratorij. - 1976. T.42. št. 10. Str. 1237.

    Kako pravilno upravljati finance svojega podjetja, če niste strokovnjak za finančno analizo - Finančna analiza

    Finančno upravljanje - finančni odnosi med subjekti, finančno upravljanje pri različne ravni, upravljanje portfelja vrednostnih papirjev, tehnike za upravljanje pretoka finančnih sredstev – to še zdaleč ni celoten seznam predmet" Finančno upravljanje"

    Pogovorimo se o tem, kaj je coaching? Nekateri menijo, da je to meščanska znamka, drugi, da gre za preboj v sodobnem poslovanju. Coaching je niz pravil za vso srečo poslovanje, kot tudi sposobnost pravilnega upravljanja teh pravil

4.1. Ali je porazdelitev opazovanj pogosto normalna?

V ekonometričnih in ekonomsko-matematičnih modelih, ki se uporabljajo zlasti pri preučevanju in optimizaciji procesov trženja in upravljanja, podjetniškega in regionalnega upravljanja, natančnosti in stabilnosti tehnoloških procesov, pri problemih zanesljivosti, zagotavljanja varnosti, vključno z okoljsko varnostjo, delovanja tehničnih naprav in predmetov, razvoj organizacijskih shem pogosto uporablja koncepte in rezultate teorije verjetnosti in matematične statistike. V tem primeru se pogosto uporablja ena ali druga parametrična družina verjetnostnih porazdelitev. Najbolj priljubljena je normalna porazdelitev. Uporabljajo se tudi lognormalna porazdelitev, eksponentna porazdelitev, gama porazdelitev, Weibull-Gnedenkova porazdelitev itd.

Očitno je vedno treba preveriti skladnost modelov z realnostjo. Postavljata se dve vprašanji. Ali se dejanske porazdelitve razlikujejo od tistih, uporabljenih v modelu? Koliko ta razlika vpliva na zaključke?

Spodaj je na primeru normalne porazdelitve in na njej temelječih metod za zavrnitev močno različnih opazovanj (outliers) prikazano, da se realne porazdelitve skoraj vedno razlikujejo od tistih, vključenih v klasične parametrične družine, obstoječa odstopanja od danih družin pa dajejo napačne zaključke, v obravnavanem primeru o zavrnitvi na podlagi uporabe teh družin.

Ali obstajajo kakršni koli razlogi za a priori predpostavko o normalnosti merilnih rezultatov?

Včasih se trdi, da je v primeru, ko je merilna napaka (ali druga naključna spremenljivka) določena kot posledica kombiniranega delovanja številnih majhnih dejavnikov, potem zaradi Centralnega mejnega izreka (CLT) teorije verjetnosti ta vrednost enaka dobro aproksimirana (v porazdelitvi) z normalno naključno spremenljivko. Ta trditev drži, če majhni dejavniki delujejo aditivno in neodvisno drug od drugega. Če delujejo multiplikativno, jih je treba zaradi enakega CLT aproksimirati z logaritemsko normalno porazdelitvijo. Pri aplikativnih problemih običajno ni mogoče utemeljiti aditivnosti namesto multiplikativnosti delovanja majhnih faktorjev. Če je odvisnost splošne narave, ni reducirana na aditivno ali multiplikativno obliko in ni razloga, da bi sprejeli modele, ki dajejo eksponentne, Weibull-Gnedenkove, gama ali druge porazdelitve, potem o porazdelitvi končne porazdelitve ni praktično nič znanega. naključna spremenljivka, razen za znotrajmatematične lastnosti, kot je pravilnost.

Pri obdelavi določenih podatkov se včasih predpostavlja, da imajo merilne napake normalno porazdelitev. Na predpostavki normalnosti so zgrajeni klasični modeli regresije, variance, faktorske analize in meroslovni modeli, ki jih še naprej najdemo tako v domači regulativni in tehnični dokumentaciji kot v mednarodnih standardih. Na enaki predpostavki temeljijo modeli za izračun najvišjih dosegljivih ravni določenih značilnosti, ki se uporabljajo pri načrtovanju sistemov za zagotavljanje varnosti delovanja gospodarskih struktur, tehničnih naprav in objektov. Vendar pa za takšno predpostavko ni teoretične podlage. Eksperimentalno je treba preučiti porazdelitve napak.

Kaj kažejo rezultati eksperimentov? Iz povzetka v monografiji je razvidno, da se porazdelitev merilnih napak v večini primerov razlikuje od običajne. Tako so na Inštitutu za strojništvo in elektrotehniko (Varna, Bolgarija) proučevali porazdelitev kalibracijskih napak na lestvicah analognih električnih merilnih instrumentov. Preučevali so naprave, izdelane v Češkoslovaški, ZSSR in Bolgariji. Izkazalo se je, da je zakon porazdelitve napak enak. Ima gostoto

Analizirani so bili podatki o parametrih 219 porazdelitev dejanskih napak, ki so jih preučevali različni avtorji, pri merjenju tako električnih kot neelektričnih veličin z najrazličnejšimi (električnimi) instrumenti. Kot rezultat te študije se je izkazalo, da je 111 distribucij, tj. približno 50 % pripada razredu porazdelitev z gostoto

kje je parameter stopnje; b - parameter premika; - parameter lestvice; - gama funkcija argumenta;

(cm.); 63 distribucij, tj. 30 % imajo gostoto z ravnim vrhom in plitvimi dolgimi pobočji in je ni mogoče opisati kot normalno ali na primer eksponentno. Izkazalo se je, da je preostalih 45 distribucij bimodalnih.

V knjigi znanega metrologa prof. P. V. Novitsky predstavlja rezultate študije zakonov porazdelitve različnih vrst merilnih napak. Preučeval je porazdelitve napak elektromehanskih instrumentov na jedrih, elektronskih instrumentov za merjenje temperatur in sil ter digitalnih instrumentov z ročnim uravnoteženjem. Obseg vzorcev eksperimentalnih podatkov za vsak primerek je bil 100-400 štetij. Izkazalo se je, da je 46 od 47 distribucij bistveno drugačnih od običajnih. Obliko porazdelitve napak smo preučevali za 25 kopij digitalnih voltmetrov Shch-1411 na 10 točkah območja. Rezultati so podobni. Dodatne informacije so v monografiji.

Laboratorij za uporabno matematiko na državni univerzi v Tartuju je analiziral 2500 vzorcev iz arhiva resničnih statističnih podatkov. V 92 % je bilo treba hipotezo o normalnosti zavrniti.

Podani opisi eksperimentalnih podatkov kažejo, da imajo merilne napake v večini primerov porazdelitve, ki se razlikujejo od normalnih. To zlasti pomeni, da večina uporab Studentovega testa, klasične regresijske analize in drugih statističnih metod, ki temeljijo na normalni teoriji, strogo gledano, ni upravičenih, saj osnovni aksiom normalne porazdelitve ustreznih naključnih spremenljivk ni pravilen.

Očitno je, da bi upravičili ali upravičili spremembo trenutne prakse statistične analize podatkov, treba preučiti lastnosti postopkov analize podatkov, kadar se uporabljajo »nezakonito«. Študija zavrnitvenih postopkov je pokazala, da so izjemno nestabilni na odstopanja od normalnosti, zato jih ni primerno uporabljati za obdelavo realnih podatkov (glej spodaj); zato ni mogoče trditi, da je poljubno izbran postopek odporen na odstopanja od normalnosti.

Včasih se predlaga preverjanje normalnosti pred uporabo, na primer, Studentovega testa za homogenost dveh vzorcev. Čeprav je za to veliko meril, je testiranje normalnosti bolj zapleten in dolgotrajen statistični postopek kot testiranje homogenosti (tako z uporabo Studentove statistike kot z uporabo neparametričnih testov). Za zanesljivo določitev normalnosti je potrebno zelo veliko opazovanj. Da bi torej zagotovili, da se distribucijska funkcija rezultatov opazovanja razlikuje od neke normalne za največ 0,01 (za katero koli vrednost argumenta), je potrebnih približno 2500 opazovanj. V večini ekonomskih, tehničnih, biomedicinskih in drugih aplikativnih raziskav je število opazovanj bistveno manjše. To še posebej velja za podatke, ki se uporabljajo pri preučevanju problemov, povezanih z zagotavljanjem varnega delovanja gospodarskih struktur in tehničnih objektov.

Včasih poskušajo uporabiti CPT, da porazdelitev napak približajo normalni, tako da v tehnološko zasnovo merilne naprave vključijo posebne seštevalnike. Ocenimo uporabnost tega ukrepa. Naj bodo Z1 , Z2 ,…, Zk neodvisne enako porazdeljene naključne spremenljivke s porazdelitveno funkcijo H = H(x), tako da Upoštevajte

Indikator bližine normalnosti, ki ga zagotavlja seštevalnik, je

Desna neenakost v zadnji relaciji izhaja iz ocen konstante v Berry-Esseenovi neenakosti, pridobljenih v knjigi, leva pa iz primera v monografiji. Za normalni zakon = 1,6, za enotni zakon = 1,3, za dvotočkovni zakon = 1 (to je spodnja meja za ). Posledično je za zagotovitev, da razdalja (v Kolmogorovi metriki) do normalne porazdelitve ni večja od 0,01 za "neuspešne" porazdelitve, potrebnih vsaj k0 členov, kjer

V pogosto uporabljenih seštevalnikih je izrazov bistveno manj. Z zožitvijo razreda možnih porazdelitev H lahko dosežemo, kot je prikazano v monografiji, hitrejšo konvergenco, vendar teorija tu še ne konvergira s prakso. Poleg tega ni jasno, ali bližina porazdelitve normalni (v določeni metriki) zagotavlja tudi, da je porazdelitev statistike, sestavljene iz naključnih spremenljivk s to porazdelitvijo, blizu porazdelitve statistike, ki ustreza normalnim rezultatom opazovanja. Očitno so za vsako posamezno statistiko potrebne posebne teoretične študije, do katere pride avtor monografije. Pri težavah z zavrnitvijo izstopajočih vrednosti je odgovor »Ne zagotavlja« (glejte spodaj).

Upoštevajte, da je rezultat vsake dejanske meritve zapisan s končnim številom decimalnih mest, običajno majhnih (2-5), zato je priporočljivo modelirati vse dejanske podatke samo z diskretnimi naključnimi spremenljivkami, ki imajo končno število vrednosti. Normalna porazdelitev je le približek dejanske porazdelitve. Torej, na primer, podatki iz določene študije, navedeni v delu, imajo vrednosti od 1,0 do 2,2, tj. Obstaja samo 13 možnih vrednosti. Iz Dirichletovega načela sledi, da se na neki točki porazdelitvena funkcija, zgrajena iz delovnih podatkov, razlikuje od najbližje normalne porazdelitvene funkcije vsaj za 1/26, tj. za 0,04. Poleg tega je očitno, da je za normalno porazdelitev naključne spremenljivke verjetnost padca v diskretni niz decimalnih števil z danim številom decimalnih mest enaka 0.

Iz navedenega sledi, da imajo merilni rezultati in statistični podatki nasploh lastnosti, ki vodijo v to, da jih je treba modelirati s slučajnimi spremenljivkami s porazdelitvami, ki se bolj ali manj razlikujejo od normalnih. V večini primerov se porazdelitve bistveno razlikujejo od običajnih, v drugih se normalne porazdelitve očitno lahko obravnavajo kot nekakšen približek, vendar popolnega ujemanja nikoli ni. To vključuje tako potrebo po proučevanju lastnosti klasičnih statističnih postopkov v neklasičnih verjetnostnih modelih (podobno, kot je storjeno spodaj za Studentov test), kot tudi potrebo po razvoju stabilnih (ob upoštevanju prisotnosti odstopanj od normalnosti) in neparametrični, vključno s postopki brez distribucije, njihovo široko uporabo v praksi statistične obdelave podatkov.

Premisleki, ki so tukaj izpuščeni za druge parametrične družine, vodijo do podobnih zaključkov. Rezultat je mogoče formulirati na naslednji način. Porazdelitve realnih podatkov skoraj nikoli ne pripadajo nobeni določeni parametrični družini. Realne porazdelitve se vedno razlikujejo od tistih, vključenih v parametrične družine. Razlike so lahko velike ali majhne, ​​a vedno so. Poskusimo razumeti, kako pomembne so te razlike za ekonometrično analizo.

Vse pravice pridržane. Materiali s tega mesta se lahko uporabljajo samo s sklicevanjem na to spletno mesto.

Oglejmo si dve neodvisni naključni spremenljivki in , ob upoštevanju običajnih zakonov:

, (12.6.1)

. (12.6.2)

Potrebno je izdelati sestavo teh zakonov, to je najti zakon porazdelitve količine:

Uporabimo splošno formulo (12.5.3) za sestavo distribucijskih zakonov:

. (12.6.3)

Če pri eksponentu integranda odpremo oklepaje in prinesemo podobni člani, dobimo:

,

;

;

.

Zamenjavo teh izrazov v formulo (9.1.3) smo že srečali:

, (12.6.4)

po transformacijah dobimo:

, (12.6.5)

in to ni nič drugega kot normalen zakon s središčem disperzije

in standardni odklon

. (12.6.7)

Do istega sklepa je veliko lažje priti z uporabo naslednjega kvalitativnega sklepanja.

Brez odpiranja oklepajev in brez kakršnih koli transformacij v integrandu (12.6.3) takoj pridemo do zaključka, da je eksponent kvadratni trinom glede vrste

,

kjer količina sploh ni vključena v koeficient, je koeficient vključen v prvo potenco, koeficient pa je na kvadrat. Ob upoštevanju tega in uporabi formule (12.6.4) pridemo do zaključka, da obstaja eksponentna funkcija, katere eksponent je kvadratni trinom glede na , gostota porazdelitve te vrste pa ustreza normalnemu zakonu. Tako pridemo do povsem kvalitativnega zaključka: zakon porazdelitve količine mora biti normalen.

Za iskanje parametrov tega zakona - in - bomo uporabili izrek seštevanja matematičnih pričakovanj in izrek seštevanja varianc. Po izreku seštevanja matematičnih pričakovanj

Po izreku seštevanja varianc

od koder sledi formula (12.6.7).

Premikanje iz povprečja kvadratna odstopanja z njimi sorazmernimi verjetnimi odstopanji dobimo:

Tako smo prišli do naslednjega pravila: pri kombiniranju normalnih zakonov spet dobimo normalni zakon in matematična pričakovanja in variance (ali kvadrat verjetnih odstopanj) se seštejejo.

Pravilo za sestavo normalnih zakonov lahko posplošimo na primer poljubno število neodvisne naključne spremenljivke.

Če obstajajo neodvisne naključne spremenljivke:

podvrženi običajnim zakonom s središči disperzije

in standardne deviacije

,

potem vrednost

je prav tako predmet običajnega zakona s parametri

Namesto formule (12.6.12) lahko uporabite enakovredno formulo:

Če je sistem naključnih spremenljivk porazdeljen po običajnem zakonu, vendar so vrednosti odvisne, potem ni težko dokazati, tako kot prej, na podlagi splošna formula(12.5.1) da je porazdelitveni zakon količine

Obstaja tudi normalen zakon. Sipalna središča se še vedno dodajajo algebraično, vendar za standardne odklone pravilo postane bolj zapleteno:

, (12.6.14)

kjer je korelacijski koeficient količin in .

Pri seštevanju več odvisnih naključnih spremenljivk, za katere v celoti velja normalni zakon, se izkaže za normalnega tudi porazdelitveni zakon vsote s parametri

, (12.6.16)

ali v verjetnih odstopanjih

, (12.6.17)

kjer je korelacijski koeficient količin, seštevek pa se razširi na vse različne parne kombinacije količin.

Prepričali smo se o zelo pomembni lastnosti normalnega zakona: s sestavo normalnih zakonov ponovno dobimo normalni zakon. To je tako imenovana "lastnost stabilnosti". Distribucijski zakon se imenuje stabilen, če sestava dveh zakonov te vrste ponovno povzroči zakon istega tipa. Zgoraj smo pokazali, da je normalni zakon stabilen. Zelo malo distribucijskih zakonov ima lastnost stabilnosti. V prejšnjem (primer 2) smo se prepričali, da je na primer zakon enakomerne gostote nestabilen: s sestavo dveh zakonov enakomerne gostote v odsekih od 0 do 1 smo dobili Simpsonov zakon.

Stabilnost normalnega zakona je eden od bistvenih pogojev za njegovo široko uporabo v praksi. Vendar pa imajo lastnost stabilnosti poleg normalnega tudi nekateri drugi distribucijski zakoni. Značilnost normalnega zakona je, da s sestavo zadostuje veliko število praktično samovoljni zakoni porazdelitev, se izkaže, da je skupni zakon čim bližje normalni, kot želimo, ne glede na to, kakšni so bili zakoni porazdelitve členov. To lahko na primer ponazorimo s sestavljanjem treh zakonov enakomerne gostote v območjih od 0 do 1. Dobljeni porazdelitveni zakon je prikazan na sl. 12.6.1. Kot je razvidno iz risbe, je graf funkcije zelo podoben grafu normalnega zakona.



Vam je bil članek všeč? Delite s prijatelji!