Statistična zanesljivost. Ocenjevanje zanesljivosti rezultatov statistične študije

Hipoteze se preverjajo s statistično analizo. Statistično pomembnost se ugotovi z uporabo P-vrednosti, ki ustreza verjetnosti danega dogodka ob predpostavki, da je neka izjava (ničelna hipoteza) resnična. Če je P-vrednost nižja od določene ravni statistične pomembnosti (običajno 0,05), lahko eksperimentator varno sklepa, da je ničelna hipoteza napačna, in nadaljuje z obravnavo alternativne hipoteze. Z uporabo Studentovega t testa lahko izračunate P-vrednost in določite pomembnost za dva niza podatkov.

Koraki

1. del

Postavitev poskusa

    Določite svojo hipotezo. Prvi korak pri ocenjevanju statistične pomembnosti je izbira vprašanja, na katerega želite odgovoriti, in oblikovanje hipoteze. Hipoteza je izjava o eksperimentalnih podatkih, njihovi porazdelitvi in ​​lastnostih. Za vsak poskus obstaja tako nična kot alternativna hipoteza. Na splošno boste morali primerjati dva niza podatkov, da ugotovite, ali sta podobna ali različna.

    • Ničelna hipoteza (H 0) običajno navaja, da med dvema nizoma podatkov ni razlike. Na primer: tisti učenci, ki preberejo snov pred poukom, ne dobijo višjih ocen.
    • Alternativna hipoteza (H a) je nasprotje ničelne hipoteze in je izjava, ki jo je treba podpreti z eksperimentalnimi podatki. Na primer: tisti učenci, ki preberejo snov pred poukom, dobijo višje ocene.
  1. Nastavite raven pomembnosti, da ugotovite, koliko se mora porazdelitev podatkov razlikovati od običajne, preden se lahko šteje za pomemben rezultat. Stopnja pomembnosti (imenovana tudi α (\displaystyle \alpha )-raven) je prag, ki ga določite za statistično pomembnost. Če je P-vrednost manjša ali enaka stopnji pomembnosti, se podatki štejejo za statistično pomembne.

    • Praviloma je stopnja pomembnosti (vrednost α (\displaystyle \alpha )) velja za 0,05, v tem primeru je verjetnost zaznavanja naključne razlike med različnimi nizi podatkov le 5 %.
    • Višja kot je stopnja pomembnosti (in s tem nižja P-vrednost), zanesljivejši so rezultati.
    • Če želite bolj zanesljive rezultate, znižajte P-vrednost na 0,01. Običajno se nižje vrednosti P uporabljajo v proizvodnji, ko je treba ugotoviti napake v izdelkih. V tem primeru je potrebna visoka zanesljivost, da se zagotovi, da vsi deli delujejo po pričakovanjih.
    • Za večino poskusov s hipotezo zadostuje stopnja pomembnosti 0,05.
  2. Odločite se, katero merilo boste uporabili: enostranski ali dvostranski. Ena od predpostavk v Studentovem t testu je, da so podatki normalno porazdeljeni. Normalna porazdelitev je zvonasta krivulja z največjim številom rezultatov na sredini krivulje. Studentov t-test je matematična metoda testiranja podatkov, ki vam omogoča, da ugotovite, ali so podatki izven normalne porazdelitve (več, manj ali na "repu" krivulje).

    • Če niste prepričani, ali so podatki nad ali pod vrednostmi kontrolne skupine, uporabite dvostranski test. Tako boste lahko določili pomembnost v obe smeri.
    • Če veste, v katero smer bi lahko podatki padli izven običajne porazdelitve, uporabite enostranski test. V zgornjem primeru pričakujemo, da se bodo ocene učencev povečale, zato je mogoče uporabiti enostranski test.
  3. Določite velikost vzorca s statistično močjo. Statistična moč študije je verjetnost, da bo glede na dano velikost vzorca dosežen pričakovan rezultat. Običajni prag moči (ali β) je 80 %. Analiza statistične moči brez kakršnih koli predhodnih podatkov je lahko zahtevna, saj zahteva nekaj informacij o pričakovanih povprečjih v vsaki skupini podatkov in njihovih standardnih odstopanjih. Uporabite spletni kalkulator za analizo moči, da določite optimalno velikost vzorca za svoje podatke.

    • Običajno raziskovalci izvedejo majhno pilotno študijo, ki zagotovi podatke za analizo statistične moči in določi velikost vzorca, potrebno za večjo, popolnejšo študijo.
    • Če ne morete izvesti pilotne študije, poskusite oceniti možna povprečja na podlagi literature in rezultatov drugih ljudi. To vam lahko pomaga določiti optimalno velikost vzorca.

    2. del

    Izračunajte standardno odstopanje
    1. Zapišite formulo za standardni odklon. Standardni odklon kaže, kolikšen razpon je v podatkih. Omogoča sklepanje, kako blizu so si podatki, pridobljeni iz določenega vzorca. Na prvi pogled se formula zdi precej zapletena, vendar vam jo bodo spodnja pojasnila pomagala razumeti. Formula je naslednja: s = √∑((x i – µ) 2 /(N – 1)).

      • s - standardni odklon;
      • znak ∑ pomeni, da je treba prišteti vse podatke, pridobljene iz vzorca;
      • x i ustreza i-ti vrednosti, to je dobljenemu ločenemu rezultatu;
      • µ je povprečna vrednost za dano skupino;
      • N je skupno število podatkov v vzorcu.
    2. Poiščite povprečje v vsaki skupini. Za izračun standardnega odklona morate najprej najti povprečje za vsako študijsko skupino. Srednja vrednost je označena z grško črko µ (mu). Če želite najti povprečje, preprosto seštejte vse dobljene vrednosti in jih delite s količino podatkov (velikost vzorca).

      • Če želite na primer najti povprečno oceno za skupino študentov, ki se učijo pred poukom, razmislite o majhnem naboru podatkov. Zaradi poenostavitve uporabljamo niz petih točk: 90, 91, 85, 83 in 94.
      • Seštejmo vse vrednosti skupaj: 90 + 91 + 85 + 83 + 94 = 443.
      • Vsoto delimo s številom vrednosti, N = 5: 443/5 = 88,6.
      • Tako je povprečje te skupine 88,6.
    3. Vsako dobljeno vrednost odštejte od povprečja. Naslednji korak je izračun razlike (x i – µ). Če želite to narediti, odštejte vsako pridobljeno vrednost od ugotovljene povprečne vrednosti. V našem primeru moramo najti pet razlik:

      • (90 – 88,6), (91 – 88,6), (85 – 88,6), (83 – 88,6) in (94 – 88,6).
      • Kot rezultat dobimo naslednje vrednosti: 1,4, 2,4, -3,6, -5,6 in 5,4.
    4. Vsako dobljeno vrednost kvadrirajte in ju seštejte. Vsako od pravkar najdenih količin je treba kvadrirati. Ta korak bo odstranil vse negativne vrednosti. Če imate po tem koraku še vedno negativna števila, ste jih pozabili kvadrirati.

      • Za naš primer dobimo 1,96, 5,76, 12,96, 31,36 in 29,16.
      • Dobljene vrednosti seštejemo: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Razdelite z velikostjo vzorca minus 1. V formuli se vsota deli z N – 1, ker ne upoštevamo generalne populacije, ampak za ocenjevanje vzamemo vzorec vseh študentov.

      • Odštej: N – 1 = 5 – 1 = 4
      • Razdelite: 81,2/4 = 20,3
    6. Izvlecite kvadratni koren. Ko vsoto delite z velikostjo vzorca minus ena, izvlecite kvadratni koren najdene vrednosti. To je zadnji korak pri izračunu standardnega odklona. Obstajajo statistični programi, ki po vnosu začetnih podatkov izvedejo vse potrebne izračune.

      • V našem primeru je standardna deviacija ocen tistih učencev, ki so gradivo prebrali pred poukom, s =√20,3 = 4,51.

      3. del

      Določite pomen
      1. Izračunajte varianco med obema skupinama podatkov. Pred tem korakom smo si ogledali primer samo za eno skupino podatkov. Če želite primerjati dve skupini, morate seveda vzeti podatke iz obeh skupin. Izračunajte standardni odklon za drugo skupino podatkov in nato poiščite varianco med obema poskusnima skupinama. Varianca se izračuna po naslednji formuli: s d = √((s 1 /N 1) + (s 2 /N 2)).

Kaj misliš, da je tvoja »druga polovica« posebna in pomembna? Je to povezano z njeno/njegovo osebnostjo ali z vašimi občutki, ki jih imate do te osebe? Ali morda s preprostim dejstvom, da ima hipoteza o naključnosti vaše simpatije, kot kažejo študije, manj kot 5-odstotno verjetnost? Če menimo, da je zadnja izjava zanesljiva, potem uspešna spletna mesta za zmenke načeloma ne bi obstajala:

Ko izvajate deljeno testiranje ali katero koli drugo analizo vašega spletnega mesta, lahko napačno razumevanje "statistične pomembnosti" povzroči napačno interpretacijo rezultatov in s tem nepravilna dejanja v procesu optimizacije konverzije. To velja za tisoče drugih statističnih testov, ki se izvajajo vsak dan v vseh obstoječih panogah.

Da bi razumeli, kaj je »statistična pomembnost«, se morate potopiti v zgodovino izraza, spoznati njegov pravi pomen in razumeti, kako vam bo to »novo« staro razumevanje pomagalo pravilno interpretirati rezultate vaše raziskave.

Malo zgodovine

Čeprav človeštvo statistiko uporablja za reševanje različnih problemov že dolga stoletja, se je sodobno razumevanje statistične pomembnosti, preverjanja hipotez, randomizacije in celo načrtovanja eksperimentov (DOE) začelo oblikovati šele v začetku 20. stoletja in je neločljivo povezano z ime Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher je bil evolucijski biolog in statistik, ki je imel posebno strast do proučevanja evolucije in naravne selekcije v živalskem in rastlinskem kraljestvu. V svoji veličastni karieri je razvil in populariziral številna uporabna statistična orodja, ki jih uporabljamo še danes.

Fisher je s tehnikami, ki jih je razvil, razložil procese v biologiji, kot so dominanca, mutacije in genetska odstopanja. Ista orodja lahko danes uporabljamo za optimizacijo in izboljšavo vsebine spletnih virov. Dejstvo, da se ta orodja za analizo lahko uporabljajo za delo s predmeti, ki v času njihovega nastanka sploh niso obstajali, se zdi precej presenetljivo. Enako presenetljivo je, da so ljudje včasih izvajali zapletene izračune brez kalkulatorjev ali računalnikov.

Da bi rezultate statističnega poskusa opisal kot tiste, ki imajo veliko verjetnost, da so resnični, je Fisher uporabil besedo "pomen".

Poleg tega lahko enega najbolj zanimivih Fisherjevih dosežkov imenujemo hipoteza o "seksi sinu". Po tej teoriji imajo ženske raje spolno promiskuitetne moške (promiskuitetne), ker bodo tako sinovi, rojeni od teh moških, imeli enako nagnjenost in ustvarili več potomcev (upoštevajte, da je to le teorija).

Toda nihče, niti briljantni znanstveniki, ni imun na napake. Fisherjeve napake še danes pestijo strokovnjake. Toda spomnite se besed Alberta Einsteina: "Kdor ni nikoli naredil napake, ni nikoli ustvaril ničesar novega."

Preden preidete na naslednjo točko, si zapomnite: statistična pomembnost je, ko je razlika v rezultatih testa tako velika, da je ni mogoče razložiti z naključnimi dejavniki.

Kakšna je vaša hipoteza?

Da bi razumeli, kaj pomeni "statistična pomembnost", morate najprej razumeti, kaj je "testiranje hipotez", saj sta izraza tesno prepletena.
Hipoteza je le teorija. Ko boste razvili teorijo, boste morali vzpostaviti postopek za zbiranje dovolj dokazov in dejansko zbiranje teh dokazov. Obstajata dve vrsti hipotez.

Jabolka ali pomaranče - kaj je bolje?

Ničelna hipoteza

Tu se praviloma veliko ljudi srečuje s težavami. Upoštevati je treba, da ničelne hipoteze ni nekaj, kar je treba dokazati, kot če dokažete, da bo določena sprememba na spletnem mestu povzročila povečanje konverzij, ampak obratno. Ničelna hipoteza je teorija, ki pravi, da se ne bo zgodilo nič, če naredite kakršne koli spremembe na spletnem mestu. In cilj raziskovalca je ovreči to teorijo, ne pa dokazati.

Če pogledamo izkušnje pri reševanju kaznivih dejanj, kjer si preiskovalci postavljajo tudi hipoteze o tem, kdo je zločinec, dobi nična hipoteza obliko tako imenovane domneve nedolžnosti, koncepta, po katerem obtoženec velja za nedolžnega, dokler mu krivda ni dokazana. na sodišču.

Če je ničelna hipoteza, da sta dva predmeta enaka v svojih lastnostih, in poskušate dokazati, da je eden boljši (na primer, A je boljši od B), morate zavrniti ničelno hipotezo v korist alternative. Na primer, primerjate eno ali drugo orodje za optimizacijo konverzij. V ničelni hipotezi imata oba enak učinek (ali nobenega učinka) na tarčo. Druga možnost je, da je učinek enega od njih boljši.

Vaša alternativna hipoteza lahko vsebuje številčno vrednost, kot je B - A > 20 %. V tem primeru imata lahko ničelna hipoteza in alternativa naslednjo obliko:

Drugo ime za alternativno hipotezo je raziskovalna hipoteza, ker je raziskovalec vedno zainteresiran za dokazovanje te določene hipoteze.

Statistična značilnost in vrednost p

Vrnimo se spet k Ronaldu Fisherju in njegovemu konceptu statistične pomembnosti.

Zdaj, ko imate ničelno hipotezo in alternativo, kako lahko dokažete eno in ovržete drugo?

Ker statistika po svoji naravi vključuje preučevanje določene populacije (vzorca), nikoli ne morete biti 100% prepričani o dobljenih rezultatih. Dober primer: rezultati volitev se pogosto razlikujejo od rezultatov predhodnih anket in celo izhodnih skupin.

Dr. Fisher je želel ustvariti ločnico, ki bi vam povedala, ali je bil vaš poskus uspešen ali ne. Tako se je pojavil indeks zanesljivosti. Verodostojnost je raven, na kateri povemo, kaj se nam zdi "pomembno" in kaj ne. Če je "p", indeks pomembnosti, 0,05 ali manj, so rezultati zanesljivi.

Ne skrbite, pravzaprav ni tako zmedeno, kot se zdi.

Gaussova verjetnostna porazdelitev. Ob robovih so manj verjetne vrednosti spremenljivke, v sredini so najbolj verjetne. P-rezultat (zeleno osenčeno območje) je verjetnost, da se opazovani izid zgodi po naključju.

Normalna verjetnostna porazdelitev (Gaussova porazdelitev) je predstavitev vseh možnih vrednosti določene spremenljivke na grafu (na zgornji sliki) in njihovih frekvenc. Če svojo raziskavo izvedete pravilno in nato vse svoje odgovore narišete na graf, boste dobili točno to porazdelitev. Glede na normalno porazdelitev boste prejeli velik odstotek podobnih odgovorov, preostale možnosti pa se bodo nahajale na robovih grafa (tako imenovani "repi"). To porazdelitev vrednosti pogosto najdemo v naravi, zato jo imenujemo "normalna".

Z uporabo enačbe, ki temelji na vašem vzorcu in rezultatih testa, lahko izračunate tako imenovano "testno statistiko", ki bo pokazala, koliko vaši rezultati odstopajo. Povedalo vam bo tudi, kako blizu ste temu, da je ničelna hipoteza resnična.

Da bi se lažje razumeli, uporabite spletne kalkulatorje za izračun statistične pomembnosti:

En primer takih kalkulatorjev

Črka "p" predstavlja verjetnost, da je ničelna hipoteza resnična. Če je število majhno, bo kazalo na razliko med testnimi skupinami, medtem ko bi bila ničelna hipoteza, da sta enaki. Grafično bo videti, kot da bo vaša testna statistika bližje enemu od repov vaše zvončaste porazdelitve.

Dr. Fisher se je odločil, da bo prag pomembnosti postavil na p ≤ 0,05. Vendar je ta izjava sporna, saj vodi do dveh težav:

1. Prvič, dejstvo, da ste dokazali napačno ničelno hipotezo, ne pomeni, da ste dokazali alternativno hipotezo. Ves ta pomen samo pomeni, da ne morete dokazati ne A ne B.

2. Drugič, če je p-rezultat 0,049, bo to pomenilo, da bo verjetnost ničelne hipoteze 4,9 %. To lahko pomeni, da so rezultati vašega testa lahko hkrati resnični in napačni.

P-rezultat lahko uporabite ali pa tudi ne, vendar boste morali izračunati verjetnost ničelne hipoteze za vsak primer posebej in se odločiti, ali je dovolj velika, da vam prepreči spremembe, ki ste jih načrtovali in testirali. .

Najpogostejši scenarij za izvedbo statističnega testa danes je nastavitev praga pomembnosti p ≤ 0,05 pred izvajanjem samega testa. Pri preverjanju rezultatov natančno preglejte vrednost p.

Napaki 1 in 2

Minilo je že toliko časa, da so napake, ki se lahko pojavijo pri uporabi metrike statistične pomembnosti, dobile celo svoja imena.

Napake tipa 1

Kot je navedeno zgoraj, p-vrednost 0,05 pomeni, da obstaja 5 % verjetnost, da je ničelna hipoteza resnična. Če tega ne storite, boste naredili napako številka 1. Rezultati pravijo, da je vaše novo spletno mesto povečalo vaše stopnje konverzije, vendar obstaja 5-odstotna verjetnost, da ni.

Napake tipa 2

Ta napaka je nasprotje napake 1: sprejmete ničelno hipotezo, ko je napačna. Rezultati testa vam na primer povedo, da spremembe spletnega mesta niso prinesle nobenih izboljšav, spremembe pa so bile. Posledično zamujate priložnost za izboljšanje svoje uspešnosti.

Ta napaka je pogosta pri testih z nezadostno velikostjo vzorca, zato si zapomnite: večji kot je vzorec, zanesljivejši je rezultat.

Zaključek

Morda noben izraz med raziskovalci ni tako priljubljen kot statistična pomembnost. Kadar se ugotovi, da rezultati testa niso statistično pomembni, se posledice razlikujejo od povečanja menjalnih razmerij do propada podjetja.

In ker tržniki uporabljajo ta izraz, ko optimizirajo svoje vire, morate vedeti, kaj v resnici pomeni. Pogoji testiranja se lahko razlikujejo, vendar sta velikost vzorca in merila uspeha vedno pomembna. Zapomni si to.

Naloga 3. Pet predšolskih otrok ima test. Zabeležen je čas, porabljen za rešitev posamezne naloge. Ali bodo ugotovljene statistično značilne razlike med časom reševanja prvih treh testnih nalog?

Št. predmetov

Referenčni material

Ta naloga temelji na teoriji analize variance. Na splošno je naloga analize variance identificirati tiste dejavnike, ki pomembno vplivajo na rezultat poskusa. Analiza variance se lahko uporabi za primerjavo srednjih vrednosti več vzorcev, če sta vzorca več kot dva. V ta namen se uporablja enosmerna analiza variance.

Za reševanje zastavljenih nalog je sprejeto naslednje. Če se variance dobljenih vrednosti parametra optimizacije v primeru vpliva dejavnikov razlikujejo od variance rezultatov v odsotnosti vpliva dejavnikov, potem se tak dejavnik šteje za pomembnega.

Kot je razvidno iz formulacije problema, so tu uporabljene metode za preverjanje statističnih hipotez, in sicer naloga testiranja dveh empiričnih varianc. Zato analiza variance temelji na testiranju variance s Fisherjevim testom. Pri tej nalogi je treba preveriti, ali so razlike med časom reševanja prvih treh testnih nalog vsakega od šestih predšolskih otrok statistično značilne.

Ničelna (glavna) hipoteza se imenuje postavljena hipoteza H o. Bistvo e se spušča v predpostavko, da je razlika med primerjanimi parametri nič (od tod tudi ime hipoteze - nič) in da so opazovane razlike naključne.

Konkurenčna (alternativna) hipoteza se imenuje H1, ki je v nasprotju z ničelno hipotezo.

rešitev:

Z metodo analize variance na stopnji pomembnosti α = 0,05 bomo preverili ničelno hipotezo (H o) o obstoju statistično značilnih razlik med časom reševanja prvih treh testnih nalog za šest predšolskih otrok.

Poglejmo tabelo pogojev nalog, v kateri bomo našli povprečni čas reševanja vsake od treh testnih nalog

Št. predmetov

Stopnje faktorjev

Čas za rešitev prve testne naloge (v sekundah).

Čas za rešitev druge testne naloge (v sekundah).

Čas za rešitev tretje testne naloge (v sekundah).

Skupinsko povprečje

Iskanje skupnega povprečja:

Da bi upoštevali pomembnost časovnih razlik v vsakem testu, je skupna varianca vzorca razdeljena na dva dela, od katerih se prvi imenuje faktorialni, drugi pa rezidualni.

S formulo izračunajmo skupno vsoto kvadratov odstopanj od splošnega povprečja

oz , kjer je p število meritev časa za reševanje testnih nalog, q število testirancev. Če želite to narediti, ustvarimo tabelo kvadratov

Št. predmetov

Stopnje faktorjev

Čas za rešitev prve testne naloge (v sekundah).

Čas za rešitev druge testne naloge (v sekundah).

Čas za rešitev tretje testne naloge (v sekundah).

V kateri koli znanstveni in praktični situaciji eksperimenta (ankete) raziskovalci ne morejo preučevati vseh ljudi (splošne populacije, populacije), temveč le določen vzorec. Na primer, tudi če preučujemo razmeroma majhno skupino ljudi, kot so tisti, ki trpijo za določeno boleznijo, je še vedno zelo malo verjetno, da imamo ustrezne vire ali potrebo po testiranju vsakega bolnika. Namesto tega je običajno testirati vzorec populacije, ker je bolj priročno in manj zamudno. Če je tako, kako vemo, da so rezultati, dobljeni iz vzorca, reprezentativni za celotno skupino? Ali če uporabimo strokovno terminologijo, ali smo lahko prepričani, da naša raziskava pravilno opisuje celoto prebivalstvo, vzorec, ki smo ga uporabili?

Za odgovor na to vprašanje je treba določiti statistično pomembnost rezultatov testa. Statistična pomembnost (Pomembna raven, skrajšano Sig.), ali /7-stopnja pomembnosti (p-raven) - je verjetnost, da dani rezultat pravilno predstavlja populacijo, iz katere je bila študija vzorčena. Upoštevajte, da je to samo verjetnost- ni mogoče z absolutno gotovostjo trditi, da določena študija pravilno opisuje celotno populacijo. V najboljšem primeru lahko stopnja pomembnosti le sklepa, da je to zelo verjetno. Tako se neizogibno pojavi naslednje vprašanje: kakšna mora biti stopnja pomembnosti, preden se dani rezultat lahko šteje za pravilno karakterizacijo populacije?

Na primer, pri kakšni vrednosti verjetnosti ste pripravljeni reči, da so takšne možnosti dovolj za tveganje? Kaj pa, če so možnosti 10 od 100 ali 50 od 100? Kaj pa, če je ta verjetnost večja? Kaj pa kvote, kot so 90 od 100, 95 od 100 ali 98 od 100? Za situacijo, ki vključuje tveganje, je ta izbira precej problematična, saj je odvisna od osebnih lastnosti osebe.

V psihologiji tradicionalno velja, da možnost 95 ali več od 100 pomeni, da je verjetnost, da so rezultati pravilni, dovolj visoka, da jih je mogoče posplošiti na celotno populacijo. Ta številka je bila ugotovljena v procesu znanstvene in praktične dejavnosti - ni zakona, po katerem bi ga bilo treba izbrati kot vodilo (in res, v drugih znanostih so včasih izbrane druge vrednosti stopnje pomembnosti).

V psihologiji se ta verjetnost obravnava na nekoliko nenavaden način. Namesto verjetnosti, da vzorec predstavlja populacijo, je verjetnost, da vzorec ne predstavlja prebivalstvo. Z drugimi besedami, to je verjetnost, da so opazovani odnosi ali razlike naključni in niso lastnost populacije. Torej, namesto da bi rekli, da obstaja možnost 95 proti 100, da so rezultati študije pravilni, psihologi pravijo, da obstaja možnost 5 proti 100, da so rezultati napačni (tako kot možnost 40 proti 100, da so rezultati pravilni, pomeni možnost 60 proti 100 v korist njihove nepravilnosti). Vrednost verjetnosti je včasih izražena v odstotkih, pogosteje pa je zapisana kot decimalni ulomek. Na primer, 10 možnosti od 100 je izraženih kot decimalni ulomek 0,1; 5 od 100 je zapisano kot 0,05; 1 od 100 - 0,01. Pri tej obliki evidentiranja je mejna vrednost 0,05. Da se rezultat šteje za pravilnega, mora biti njegova stopnja pomembnosti spodaj to število (ne pozabite, da je to verjetnost, da rezultat narobe opisuje prebivalstvo). Da bi se izognili terminologiji, dodajmo, da je »verjetnost, da je rezultat napačen« (kar je pravilneje imenovano stopnja pomembnosti) običajno označena z latinsko črko R. Opisi eksperimentalnih rezultatov običajno vključujejo povzetek, kot je »rezultati so bili pomembni na ravni zaupanja (R(p) manj kot 0,05 (tj. manj kot 5 %).

Tako je stopnja pomembnosti ( R) označuje verjetnost, da bodo rezultati ne predstavljajo prebivalstvo. Tradicionalno v psihologiji velja, da rezultati zanesljivo odražajo celotno sliko, če je vrednost R manj kot 0,05 (tj. 5%). Vendar je to le verjetnostna izjava in nikakor ne brezpogojno jamstvo. V nekaterih primerih ta sklep morda ni pravilen. Pravzaprav lahko izračunamo, kako pogosto se to lahko zgodi, če pogledamo velikost stopnje pomembnosti. Pri stopnji pomembnosti 0,05 je 5 od 100-krat rezultatov verjetno nepravilnih. 11a na prvi pogled se zdi, da to ni zelo pogosto, a če dobro pomislite, je 5 možnosti od 100 enakih 1 od 20. Z drugimi besedami, v enem od vsakih 20 primerov bo rezultat nepravilno. Takšne možnosti se ne zdijo posebej ugodne in raziskovalci bi se morali paziti zavezanosti napake prve vrste. To je ime za napako, ki se pojavi, ko raziskovalci mislijo, da so našli resnične rezultate, a v resnici niso. Nasprotna napaka, ki je sestavljena iz prepričanja raziskovalcev, da niso našli rezultata, v resnici pa obstaja, se imenuje napake druge vrste.

Te napake nastanejo, ker ni mogoče izključiti možnosti, da izvedena statistična analiza. Verjetnost napake je odvisna od stopnje statistične pomembnosti rezultatov. Omenili smo že, da mora biti za pravilen rezultat stopnja pomembnosti pod 0,05. Seveda so nekateri rezultati nižji od tega in ni neobičajno videti rezultate tako nizke kot 0,001 (vrednost 0,001 pomeni, da obstaja 1 proti 1000 možnosti, da bodo rezultati napačni). Manjša kot je vrednost p, močnejše je naše zaupanje v pravilnost rezultatov.

V tabeli 7.2 prikazuje tradicionalno razlago stopenj pomembnosti o možnosti statističnega sklepanja in utemeljitev odločitve o prisotnosti razmerja (razlik).

Tabela 7.2

Tradicionalna razlaga stopenj pomembnosti, ki se uporablja v psihologiji

Na podlagi izkušenj praktičnih raziskav je priporočljivo: da bi se čim bolj izognili napakam prve in druge vrste, je treba pri sprejemanju pomembnih zaključkov odločati o prisotnosti razlik (povezav) s poudarkom na ravni R n znak.

Statistični test(Statistični test - je orodje za določanje stopnje statistične pomembnosti. To je odločilno pravilo, ki zagotavlja, da je prava hipoteza sprejeta in napačna hipoteza zavrnjena z veliko verjetnostjo.

Statistična merila označujejo tudi način izračuna določenega števila in samo število. Vsi kriteriji se uporabljajo z enim glavnim namenom: določiti stopnja pomembnosti podatke, ki jih analizirajo (tj. verjetnost, da podatki odražajo resničen učinek, ki pravilno predstavlja populacijo, iz katere je vzorec vzet).

Nekatere teste je mogoče uporabiti le za normalno porazdeljene podatke (in če je lastnost merjena na intervalni lestvici) – ti testi se običajno imenujejo parametrični. Z drugimi merili lahko analizirate podatke s skoraj vsakim zakonom distribucije - imenujejo se neparametrični.

Parametrična merila so merila, ki v formuli za izračun vključujejo parametre porazdelitve, tj. srednje vrednosti in variance (Studentov t-test, Fisherjev F-test itd.).

Neparametrična merila so merila, ki ne vključujejo porazdelitvenih parametrov v formuli za izračun porazdelitvenih parametrov in temeljijo na delovanju s frekvencami ali rangi (merilo Q Rosenbaumov kriterij U Manna - Whitney

Ko na primer rečemo, da je bila pomembnost razlik določena s Studentovim t-testom, mislimo, da je bila za izračun empirične vrednosti uporabljena Studentova metoda t-testa, ki se nato primerja s tabelarno (kritično) vrednostjo.

Po razmerju med empirično (mi izračunano) in kritično vrednostjo kriterija (tabelarno) lahko presodimo, ali je naša hipoteza potrjena ali ovržena. V večini primerov je za to, da razlike prepoznamo kot pomembne, nujno, da empirična vrednost kriterija presega kritično vrednost, čeprav obstajajo kriteriji (na primer Mann-Whitneyjev test ali test znakov), pri katerih držati se moramo nasprotnega pravila.

V nekaterih primerih formula za izračun merila vključuje število opazovanj v proučevanem vzorcu, označeno kot p. S posebno tabelo ugotovimo, kateri stopnji statistične pomembnosti razlik ustreza določena empirična vrednost. V večini primerov je lahko ista empirična vrednost merila pomembna ali nepomembna, odvisno od števila opazovanj v proučevanem vzorcu ( p ) ali iz ti število prostostnih stopinj , ki je označen kot v (g>) ali kako df (Včasih d).

Vedeti p ali število stopenj svobode, s pomočjo posebnih tabel (glavne so podane v dodatku 5) lahko določimo kritične vrednosti merila in z njimi primerjamo dobljeno empirično vrednost. To je običajno zapisano takole: »kdaj n = 22 kritičnih vrednosti kriterija je t St = 2,07" ali "pri v (d) = 2 kritični vrednosti študentovega testa sta = 4,30” itd.

Običajno se še vedno daje prednost parametričnim kriterijem in tega stališča se držimo. Veljajo za bolj zanesljive in lahko zagotovijo več informacij in globljo analizo. Kar zadeva kompleksnost matematičnih izračunov, pri uporabi računalniških programov ta kompleksnost izgine (nekatere druge pa se zdijo povsem premagljive).

  • V tem učbeniku problematike statistike ne obravnavamo podrobneje
  • postavljene hipoteze (ničelna - R0 in alternativna - Hj) in statistične odločitve, saj študentje psihologije to obravnavajo ločeno pri disciplini “Matematične metode v psihologiji”. Poleg tega je treba opozoriti, da pri pripravi raziskovalnega poročila (predmetno ali diplomsko delo, publikacija) statistične hipoteze in statistične rešitve praviloma niso podane. Običajno pri opisu rezultatov navedejo kriterij, zagotovijo potrebno deskriptivno statistiko (srednje vrednosti, sigma, korelacijski koeficienti itd.), Empirične vrednosti kriterijev, stopnje svobode in nujno p-nivo pomembnosti. Nato se oblikuje smiseln zaključek v zvezi s hipotezo, ki se testira, in navaja (običajno v obliki neenakosti) doseženo ali nedoseženo raven pomembnosti.

Stopnja pomembnosti v statistiki je pomemben kazalnik, ki odraža stopnjo zaupanja v točnost in resničnost pridobljenih (predvidenih) podatkov. Koncept se pogosto uporablja na različnih področjih: od izvajanja socioloških raziskav do statističnega testiranja znanstvenih hipotez.

Opredelitev

Stopnja statistične pomembnosti (ali statistično značilnega rezultata) kaže verjetnost naključne pojavnosti preučevanih indikatorjev. Celotna statistična pomembnost pojava je izražena s koeficientom p-vrednosti (p-nivo). Pri vsakem poskusu ali opazovanju obstaja možnost, da so bili pridobljeni podatki posledica napak pri vzorčenju. To še posebej velja za sociologijo.

To pomeni, da je statistično značilna vrednost tista vrednost, katere verjetnost naključnega pojava je izredno majhna ali se nagiba k skrajnosti. Ekstrem v tem kontekstu je stopnja, do katere statistika odstopa od ničelne hipoteze (hipoteze, ki se testira glede skladnosti s pridobljenimi vzorčnimi podatki). V znanstveni praksi je stopnja pomembnosti izbrana pred zbiranjem podatkov in je praviloma njen koeficient 0,05 (5%). Za sisteme, kjer so natančne vrednosti izjemno pomembne, je lahko ta številka 0,01 (1%) ali manj.

Ozadje

Koncept stopnje pomembnosti je uvedel britanski statistik in genetik Ronald Fisher leta 1925, ko je razvijal tehniko za testiranje statističnih hipotez. Pri analizi katerega koli procesa obstaja določena verjetnost določenih pojavov. Težave nastanejo pri delu z majhnimi (ali neočitnimi) odstotki verjetnosti, ki spadajo pod koncept "merilne napake".

Pri delu s statističnimi podatki, ki niso dovolj specifični za njihovo testiranje, se znanstveniki soočajo s problemom ničelne hipoteze, ki »preprečuje« operiranje z majhnimi količinami. Fisher je za takšne sisteme predlagal določitev verjetnosti dogodkov pri 5 % (0,05) kot priročen rez vzorčenja, ki omogoča zavrnitev ničelne hipoteze v izračunih.

Uvedba fiksnih kvot

Leta 1933 sta znanstvenika Jerzy Neumann in Egon Pearson v svojih delih priporočila, da se določena stopnja pomembnosti določi vnaprej (pred zbiranjem podatkov). Primeri uporabe teh pravil so jasno vidni med volitvami. Recimo, da sta dva kandidata, od katerih je eden zelo priljubljen, drugi pa malo znan. Očitno je, da bo na volitvah zmagal prvi kandidat, možnosti drugega pa se nagibajo k ničli. Prizadevajo si – a niso enakovredni: vedno obstaja možnost višje sile, senzacionalnih informacij, nepričakovanih odločitev, ki lahko spremenijo napovedane rezultate volitev.

Neyman in Pearson sta se strinjala, da je Fisherjeva stopnja pomembnosti 0,05 (označena z α) najprimernejša. Vendar je Fischer sam leta 1956 nasprotoval določitvi te vrednosti. Menil je, da je treba raven α nastaviti glede na posebne okoliščine. Na primer, v fiziki delcev je 0,01.

vrednost p-ravni

Izraz p-vrednost je prvič uporabil Brownlee leta 1960. P-raven (p-vrednost) je indikator, ki je obratno sorazmeren z resničnostjo rezultatov. Najvišji koeficient p-vrednosti ustreza najnižji stopnji zaupanja v vzorčeno razmerje med spremenljivkami.

Ta vrednost odraža verjetnost napak, povezanih z interpretacijo rezultatov. Predpostavimo, da je p-raven = 0,05 (1/20). Kaže petodstotno verjetnost, da je razmerje med spremenljivkami, najdenimi v vzorcu, le naključna lastnost vzorca. Se pravi, če te odvisnosti ni, potem lahko ob ponavljajočih se podobnih poskusih v povprečju v vsaki dvajseti študiji pričakujemo enako ali večjo odvisnost med spremenljivkami. P-nivo se pogosto obravnava kot "marža" za stopnjo napake.

Mimogrede, p-vrednost morda ne odraža dejanskega razmerja med spremenljivkami, ampak prikazuje le določeno povprečno vrednost v okviru predpostavk. Zlasti končna analiza podatkov bo odvisna tudi od izbranih vrednosti tega koeficienta. Pri p-ravni = 0,05 bo nekaj rezultatov, pri koeficientu 0,01 pa bodo različni rezultati.

Preizkušanje statističnih hipotez

Stopnja statistične pomembnosti je še posebej pomembna pri testiranju hipotez. Na primer, pri izračunu dvostranskega testa se območje zavrnitve enakomerno razdeli na oba konca porazdelitve vzorčenja (glede na ničelno koordinato) in izračuna se resničnost dobljenih podatkov.

Recimo, da se pri spremljanju določenega procesa (pojava) izkaže, da nove statistične informacije kažejo majhne spremembe glede na prejšnje vrednosti. Hkrati so odstopanja v rezultatih majhna, niso očitna, a pomembna za študijo. Specialist se znajde pred dilemo: ali res prihaja do sprememb ali gre za napake pri vzorčenju (netočnost meritev)?

V tem primeru uporabijo ali zavrnejo ničelno hipotezo (vse pripišejo napaki ali pa spremembo sistema prepoznajo kot fait accompli). Postopek reševanja problema temelji na razmerju med splošno statistično značilnostjo (p-vrednost) in stopnjo pomembnosti (α). Če p-ravni< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Uporabljene vrednosti

Stopnja pomembnosti je odvisna od materiala, ki ga analiziramo. V praksi se uporabljajo naslednje fiksne vrednosti:

  • α = 0,1 (ali 10 %);
  • α = 0,05 (ali 5 %);
  • α = 0,01 (ali 1 %);
  • α = 0,001 (ali 0,1 %).

Čim natančnejši so izračuni, tem nižji je koeficient α. Seveda zahtevajo statistične napovedi v fiziki, kemiji, farmaciji in genetiki večjo natančnost kot v politologiji in sociologiji.

Mejne vrednosti pomembnosti na določenih področjih

Na področjih z visoko natančnostjo, kot sta fizika delcev in proizvodnja, je statistična pomembnost pogosto izražena kot razmerje med standardnim odklonom (označenim s koeficientom sigma - σ) glede na normalno porazdelitev verjetnosti (Gaussova porazdelitev). σ je statistični indikator, ki določa disperzijo vrednosti določene količine glede na matematična pričakovanja. Uporablja se za načrtovanje verjetnosti dogodkov.

Glede na področje znanja se koeficient σ zelo razlikuje. Na primer, pri napovedovanju obstoja Higgsovega bozona je parameter σ enak pet (σ = 5), kar ustreza p-vrednosti = 1/3,5 milijona. V študijah genoma je lahko stopnja pomembnosti 5 × 10 -. 8, kar ni redkost za ta območja.

Učinkovitost

Upoštevati je treba, da koeficienta α in p-vrednost nista natančni karakteristiki. Ne glede na stopnjo pomembnosti v statistiki preučevanega pojava ni brezpogojna osnova za sprejetje hipoteze. Na primer, manjša kot je vrednost α, večja je možnost, da je postavljena hipoteza pomembna. Vendar pa obstaja nevarnost napake, ki zmanjša statistično moč (pomembnost) študije.

Raziskovalci, ki se osredotočajo samo na statistično pomembne rezultate, lahko pridejo do napačnih zaključkov. Hkrati pa je njihovo delo težko dvakrat preveriti, saj uporabljajo predpostavke (kar so pravzaprav vrednosti α in p). Zato je vedno priporočljivo poleg izračuna statistične pomembnosti določiti še en indikator - velikost statističnega učinka. Velikost učinka je kvantitativno merilo moči učinka.



Vam je bil članek všeč? Delite s prijatelji!