Koncepti i besueshmërisë statistikore. Konceptet e rëndësisë statistikore dhe kriteri statistikor

Niveli i rëndësisë në statistika është një tregues i rëndësishëm që pasqyron shkallën e besimit në saktësinë dhe vërtetësinë e të dhënave të marra (të parashikuara). Koncepti përdoret gjerësisht në fusha të ndryshme: nga kryerja e kërkimeve sociologjike deri te testimi statistikor i hipotezave shkencore.

Përkufizimi

Niveli i rëndësisë statistikore (ose rezultati statistikisht i rëndësishëm) tregon probabilitetin e shfaqjes së rastësishme të treguesve të studiuar. Rëndësia e përgjithshme statistikore e një dukurie shprehet me koeficientin e vlerave p (niveli p). Në çdo eksperiment apo vëzhgim, ekziston mundësia që të dhënat e marra të jenë për shkak të gabimeve në kampionim. Kjo është veçanërisht e vërtetë për sociologjinë.

Kjo do të thotë, një vlerë statistikisht domethënëse është ajo, probabiliteti i shfaqjes së rastësishme të së cilës është jashtëzakonisht i vogël ose tenton në ekstrem. Ekstremi në këtë kontekst është shkalla në të cilën statistikat devijojnë nga hipoteza zero (hipotezë që testohet për konsistencë me të dhënat e marra të mostrës). Në praktikën shkencore, niveli i rëndësisë zgjidhet para mbledhjes së të dhënave dhe, si rregull, koeficienti i tij është 0.05 (5%). Për sistemet ku vlerat e sakta janë jashtëzakonisht të rëndësishme, kjo shifër mund të jetë 0.01 (1%) ose më pak.

Sfondi

Koncepti i nivelit të rëndësisë u prezantua nga statisticieni dhe gjenetisti britanik Ronald Fisher në vitin 1925, kur ai po zhvillonte një teknikë për testimin e hipotezave statistikore. Kur analizohet çdo proces, ekziston një probabilitet i caktuar për fenomene të caktuara. Vështirësitë lindin kur punoni me përqindje të vogla (ose jo të dukshme) probabiliteti që bien nën konceptin e "gabimit të matjes".

Kur punojnë me të dhëna statistikore që nuk janë mjaft specifike për t'u testuar, shkencëtarët përballen me problemin e hipotezës zero, e cila "parandalon" funksionimin me sasi të vogla. Fisher propozoi që sisteme të tilla të përcaktojnë probabilitetin e ngjarjeve në 5% (0.05) si një prerje e përshtatshme kampionimi që lejon dikë të refuzojë hipotezën zero në llogaritje.

Prezantimi i probabiliteteve fikse

Në vitin 1933, shkencëtarët Jerzy Neumann dhe Egon Pearson rekomanduan në punimet e tyre që një nivel i caktuar rëndësie të vendosej paraprakisht (para mbledhjes së të dhënave). Shembujt e përdorimit të këtyre rregullave janë qartë të dukshme gjatë zgjedhjeve. Le të themi se janë dy kandidatë, njëri prej të cilëve është shumë i njohur dhe tjetri pak i njohur. Është e qartë se kandidati i parë do të fitojë zgjedhjet, dhe shanset për të dytin priren në zero. Ata përpiqen - por nuk janë të barabartë: ekziston gjithmonë mundësia e forcës madhore, informacioneve të bujshme, vendimeve të papritura që mund të ndryshojnë rezultatet e parashikuara të zgjedhjeve.

Neyman dhe Pearson ranë dakord se niveli i rëndësisë së Fisher prej 0.05 (i shënuar me α) ishte më i përshtatshmi. Megjithatë, vetë Fischer në vitin 1956 kundërshtoi rregullimin e kësaj vlere. Ai besonte se niveli i α duhet të vendoset sipas rrethanave specifike. Për shembull, në fizikën e grimcave është 0.01.

vlera e nivelit p

Termi p-value u përdor për herë të parë nga Brownlee në 1960. Niveli P (p-vlera) është një tregues që lidhet në mënyrë të zhdrejtë me vërtetësinë e rezultateve. Koeficienti më i lartë i vlerës p korrespondon me nivelin më të ulët të besimit në marrëdhënien e mostrës midis variablave.

Kjo vlerë pasqyron gjasat e gabimeve që lidhen me interpretimin e rezultateve. Le të supozojmë se niveli p = 0,05 (1/20). Ai tregon një probabilitet prej pesë për qind që marrëdhënia midis variablave të gjetur në kampion është vetëm një veçori e rastësishme e kampionit. Kjo do të thotë, nëse kjo varësi mungon, atëherë me eksperimente të ngjashme të përsëritura, mesatarisht, në çdo studim të njëzetë mund të pritet varësia e njëjtë ose më e madhe midis variablave. Niveli p shpesh shihet si një "diferencë" për shkallën e gabimit.

Nga rruga, vlera p mund të mos pasqyrojë marrëdhënien reale midis variablave, por vetëm tregon një vlerë mesatare të caktuar brenda supozimeve. Në veçanti, analiza përfundimtare e të dhënave do të varet edhe nga vlerat e zgjedhura të këtij koeficienti. Në nivelin p = 0,05 do të ketë disa rezultate, dhe në një koeficient të barabartë me 0,01 do të ketë rezultate të ndryshme.

Testimi i hipotezave statistikore

Niveli i rëndësisë statistikore është veçanërisht i rëndësishëm kur testohen hipotezat. Për shembull, kur llogaritet një test i dyanshëm, rajoni i refuzimit ndahet në mënyrë të barabartë në të dy skajet e shpërndarjes së mostrës (në raport me koordinatën zero) dhe llogaritet e vërteta e të dhënave që rezultojnë.

Supozoni se kur monitorohet një proces (dukuri) i caktuar, rezulton se informacioni i ri statistikor tregon ndryshime të vogla në krahasim me vlerat e mëparshme. Në të njëjtën kohë, mospërputhjet në rezultate janë të vogla, jo të dukshme, por të rëndësishme për studimin. Specialisti është përballur me një dilemë: a po ndodhin vërtet ndryshime apo janë këto gabime në kampionim (pasaktësi e matjes)?

Në këtë rast, ata përdorin ose refuzojnë hipotezën zero (i atribuojnë çdo gjë një gabimi, ose e njohin ndryshimin në sistem si një fakt të kryer). Procesi i zgjidhjes së problemit bazohet në raportin e rëndësisë së përgjithshme statistikore (p-vlera) dhe nivelit të rëndësisë (α). Nëse niveli p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Vlerat e përdorura

Niveli i rëndësisë varet nga materiali që analizohet. Në praktikë, përdoren vlerat e mëposhtme fikse:

α = 0,1 (ose 10%);
α = 0,05 (ose 5%);
α = 0,01 (ose 1%);
α = 0,001 (ose 0,1%).

Sa më të sakta të kërkohen llogaritjet, aq më i ulët përdoret koeficienti α. Natyrisht, parashikimet statistikore në fizikë, kimi, farmaceutikë dhe gjenetikë kërkojnë saktësi më të madhe sesa në shkencën politike dhe sociologjinë.

Pragjet e rëndësisë në fusha specifike

Në fusha me precizion të lartë si fizika e grimcave dhe prodhimi, rëndësia statistikore shpesh shprehet si raport i devijimit standard (të shënuar me koeficientin sigma - σ) në lidhje me një shpërndarje normale probabiliteti (shpërndarja Gaussian). σ është një tregues statistikor që përcakton shpërndarjen e vlerave të një sasie të caktuar në lidhje me pritjet matematikore. Përdoret për të përshkruar probabilitetin e ngjarjeve.

Varësisht nga fusha e njohurive, koeficienti σ ndryshon shumë. Për shembull, kur parashikohet ekzistenca e bozonit Higgs, parametri σ është i barabartë me pesë (σ = 5), që korrespondon me vlerën p = 1/3.5 milion Në studimet e gjenomit, niveli i rëndësisë mund të jetë 5 × 10 -. 8, gjë që nuk është e pazakontë për këto zona.

Efikasiteti

Duhet të merret parasysh se koeficientët α dhe p-vlera nuk janë karakteristika ekzakte. Cilido qoftë niveli i rëndësisë në statistikat e fenomenit në studim, ai nuk është një bazë e pakushtëzuar për të pranuar hipotezën. Për shembull, sa më e vogël të jetë vlera e α, aq më e madhe është mundësia që hipoteza të jetë e rëndësishme. Megjithatë, ekziston rreziku i gabimit, i cili redukton fuqinë (rëndësinë) statistikore të studimit.

Studiuesit që fokusohen vetëm në rezultate statistikisht të rëndësishme mund të arrijnë në përfundime të gabuara. Në të njëjtën kohë, është e vështirë të kontrollohet dyfish puna e tyre, pasi ata aplikojnë supozime (që në fakt janë vlerat α dhe p). Prandaj, rekomandohet gjithmonë, së bashku me llogaritjen e rëndësisë statistikore, të përcaktohet një tregues tjetër - madhësia e efektit statistikor. Madhësia e efektit është një masë sasiore e fuqisë së një efekti.

TIPARI I PAGUAR. Tipari i rëndësisë statistikore është i disponueshëm vetëm në plane të zgjedhura. Kontrolloni nëse është në.

Ju mund të zbuloni nëse ka dallime statistikisht domethënëse në përgjigjet e marra nga grupe të ndryshme të të anketuarve për pyetjet në një anketë. Për të përdorur veçorinë e rëndësisë statistikore në SurveyMonkey, duhet:

Aktivizoni veçorinë e rëndësisë statistikore kur shtoni një rregull krahasimi në një pyetje në anketën tuaj. Zgjidhni grupet e të anketuarve për t'i krahasuar për të renditur rezultatet e anketës në grupe për krahasim vizual.
Ekzaminoni tabelat e të dhënave për pyetjet tuaja të anketës për të identifikuar ndonjë ndryshim statistikisht domethënës në përgjigjet e marra nga grupe të ndryshme të të anketuarve.

Shikoni rëndësinë statistikore

Duke ndjekur hapat e mëposhtëm, mund të krijoni një anketë që shfaq rëndësinë statistikore.

1. Shtoni pyetje të mbyllura në sondazhin tuaj

Për të shfaqur rëndësinë statistikore kur analizoni rezultatet, do t'ju duhet të aplikoni një rregull krahasimi për çdo pyetje në anketën tuaj.

Ju mund të aplikoni rregullin e krahasimit dhe të llogarisni rëndësinë statistikore në përgjigje nëse përdorni një nga llojet e mëposhtme të pyetjeve në hartimin e sondazhit tuaj:

Është e nevojshme të siguroheni që opsionet e propozuara të përgjigjeve mund të ndahen në grupe të plota. Opsionet e përgjigjes që zgjidhni për krahasim kur krijoni një rregull krahasimi do të përdoren për të organizuar të dhënat në skeda të kryqëzuara gjatë anketës.

2. Mblidhni përgjigjet

Pasi të keni përfunduar sondazhin tuaj, krijoni një koleksionist për ta shpërndarë atë. Ka disa mënyra.

Ju duhet të merrni të paktën 30 përgjigje për çdo opsion përgjigjeje që planifikoni të përdorni në rregullin tuaj të krahasimit për të aktivizuar dhe parë rëndësinë statistikore.

Shembull sondazhi

Ju dëshironi të zbuloni nëse burrat janë dukshëm më të kënaqur me produktet tuaja sesa gratë.

Shtoni dy pyetje me shumë zgjedhje në sondazhin tuaj:
Cila është gjinia juaj? (mashkull, femër)
Jeni të kënaqur apo të pakënaqur me produktin tonë? (i kënaqur, i pakënaqur)
Sigurohuni që të paktën 30 të anketuar të zgjedhin "mashkull" për pyetjen gjinore DHE të paktën 30 të anketuar të zgjedhin "femër" si gjini.
Shtoni një rregull krahasimi në pyetjen "Cila është gjinia juaj?" dhe zgjidhni të dyja opsionet e përgjigjes si grupet tuaja.
Përdorni tabelën e të dhënave poshtë grafikut të pyetjeve "A jeni të kënaqur apo të pakënaqur me produktin tonë?" për të parë nëse ndonjë opsion përgjigjeje tregon një ndryshim statistikisht domethënës

Cili është një ndryshim statistikisht i rëndësishëm?

Një ndryshim statistikisht domethënës do të thotë se analiza statistikore ka përcaktuar se ka dallime të rëndësishme midis përgjigjeve të një grupi të anketuarve dhe përgjigjeve të një grupi tjetër. Rëndësia statistikore do të thotë se numrat e përftuar janë dukshëm të ndryshëm. Një njohuri e tillë do t'ju ndihmojë shumë në analizën e të dhënave. Megjithatë, ju përcaktoni rëndësinë e rezultateve të marra. Jeni ju që vendosni se si të interpretoni rezultatet e sondazhit dhe çfarë veprimesh duhet të ndërmerren në bazë të tyre.

Për shembull, ju merrni më shumë ankesa nga klientët femra sesa nga klientët meshkuj. Si mund të përcaktojmë nëse një ndryshim i tillë është real dhe nëse duhet të ndërmerren veprime lidhur me të? Një mënyrë e shkëlqyer për të testuar vëzhgimet tuaja është të kryeni një anketë që do t'ju tregojë nëse klientët meshkuj janë dukshëm më të kënaqur me produktin tuaj. Duke përdorur një formulë statistikore, funksioni ynë i rëndësisë statistikore do t'ju japë mundësinë për të përcaktuar nëse produkti juaj është në të vërtetë shumë më tërheqës për burrat sesa për gratë. Kjo do t'ju lejojë të ndërmerrni veprime bazuar në fakte dhe jo në supozime.

Diferencë statistikisht domethënëse

Nëse rezultatet tuaja janë të theksuara në tabelën e të dhënave, kjo do të thotë se dy grupet e të anketuarve janë dukshëm të ndryshëm nga njëri-tjetri. Termi “i rëndësishëm” nuk do të thotë se numrat e përftuar kanë ndonjë rëndësi apo rëndësi të veçantë, vetëm se ka një ndryshim statistikor ndërmjet tyre.

Asnjë ndryshim statistikisht domethënës

Nëse rezultatet tuaja nuk janë të theksuara në tabelën përkatëse të të dhënave, kjo do të thotë se megjithëse mund të ketë një ndryshim në dy shifrat që krahasohen, nuk ka dallim statistikor midis tyre.

Përgjigjet pa dallime të rëndësishme statistikisht tregojnë se nuk ka ndonjë ndryshim domethënës midis dy artikujve që krahasohen duke pasur parasysh madhësinë e kampionit që përdorni, por kjo nuk do të thotë domosdoshmërisht se ato nuk janë domethënëse. Ndoshta duke rritur madhësinë e kampionit, do të jeni në gjendje të identifikoni një ndryshim statistikisht të rëndësishëm.

Madhësia e mostrës

Nëse keni një madhësi shumë të vogël kampioni, vetëm dallimet shumë të mëdha midis dy grupeve do të jenë të rëndësishme. Nëse keni një madhësi shumë të madhe kampioni, dallimet e vogla dhe të mëdha do të llogariten si të rëndësishme.

Megjithatë, nëse dy numra janë statistikisht të ndryshëm, kjo nuk do të thotë se ndryshimi midis rezultateve ka ndonjë kuptim praktik për ju. Ju do të duhet të vendosni vetë se cilat dallime janë domethënëse për anketën tuaj.

Llogaritja e rëndësisë statistikore

Ne llogarisim rëndësinë statistikore duke përdorur një nivel standard besimi 95%. Nëse një opsion përgjigjeje tregohet si i rëndësishëm statistikisht, kjo do të thotë që vetëm rastësisht ose për shkak të gabimit të kampionimit ka më pak se 5% probabilitet që ndryshimi midis dy grupeve të ndodhë (shpesh tregohet si: p<0,05).

Për të llogaritur dallimet statistikisht të rëndësishme midis grupeve, ne përdorim formulat e mëposhtme:

Parametri	Përshkrimi
a1	Përqindja e pjesëmarrësve nga grupi i parë që iu përgjigjën pyetjes në një mënyrë të caktuar, shumëzuar me madhësinë e kampionit të këtij grupi.
b1	Përqindja e pjesëmarrësve nga grupi i dytë që iu përgjigjën pyetjes në një mënyrë të caktuar, shumëzuar me madhësinë e kampionit të këtij grupi.
Përqindja e mostrës së bashkuar (p)	Kombinimi i dy aksioneve nga të dy grupet.
Gabim standard (SE)	Një tregues se sa ndryshon pjesa juaj nga pjesa aktuale. Një vlerë më e ulët do të thotë se fraksioni është afër fraksionit aktual, një vlerë më e lartë do të thotë se fraksioni është dukshëm i ndryshëm nga fraksioni aktual.
Statistikat e testit (t)	Statistikat e testit. Numri i devijimeve standarde me të cilat një vlerë e caktuar ndryshon nga mesatarja.
Rëndësia statistikore	Nëse vlera absolute e statistikës së testit është më e madhe se 1,96* devijime standarde nga mesatarja, ajo konsiderohet një ndryshim statistikisht i rëndësishëm.

*1.96 është vlera e përdorur për nivelin e besimit 95%, sepse 95% e diapazonit të trajtuar nga funksioni i shpërndarjes t Studentit shtrihet brenda 1.96 devijimeve standarde të mesatares.

Shembull i llogaritjes

Duke vazhduar me shembullin e përdorur më sipër, le të zbulojmë nëse përqindja e meshkujve që thonë se janë të kënaqur me produktin tuaj është dukshëm më e lartë se përqindja e femrave.

Le të themi se 1000 burra dhe 1000 gra morën pjesë në sondazhin tuaj dhe rezultati i anketës ishte se 70% e burrave dhe 65% e grave thonë se janë të kënaqur me produktin tuaj. A është niveli 70% dukshëm më i lartë se niveli 65%?

Zëvendësoni të dhënat e mëposhtme nga sondazhi në formulat e dhëna:

p1 (% e meshkujve të kënaqur me produktin) = 0.7
p2 (% e grave të kënaqura me produktin) = 0.65
n1 (numri i burrave të anketuar) = 1000
n2 (numri i grave të intervistuara) = 1000

Meqenëse vlera absolute e statistikës së testit është më e madhe se 1.96, kjo do të thotë se dallimi midis burrave dhe grave është i rëndësishëm. Krahasuar me femrat, meshkujt kanë më shumë gjasa të jenë të kënaqur me produktin tuaj.

Fshehja e rëndësisë statistikore

Si të fshehni rëndësinë statistikore për të gjitha pyetjet

Klikoni shigjetën poshtë në të djathtë të rregullit të krahasimit në shiritin anësor të majtë.
Zgjidhni një artikull Redakto rregullin.
Çaktivizo veçorinë Tregoni rëndësinë statistikore duke përdorur një ndërprerës.
Klikoni butonin Aplikoni.

Për të fshehur rëndësinë statistikore për një pyetje, duhet të:

Klikoni butonin Akordoni mbi diagramin e kësaj çështjeje.
Hapni skedën Opsionet e shfaqjes.
Hiq zgjedhjen e kutisë pranë Rëndësia statistikore.
Klikoni butonin Ruaj.

Opsioni i shfaqjes aktivizohet automatikisht kur aktivizohet shfaqja e rëndësisë statistikore. Nëse e fshini këtë opsion të shfaqjes, do të çaktivizohet edhe shfaqja e rëndësisë statistikore.

Aktivizoni veçorinë e rëndësisë statistikore kur shtoni një rregull krahasimi në një pyetje në anketën tuaj. Shqyrtoni tabelat e të dhënave për pyetjet tuaja të anketës për të përcaktuar nëse ka dallime statistikisht domethënëse në përgjigjet e marra nga grupe të ndryshme të anketuarish.

Çfarë mendoni se e bën "gjysmën tjetër" tuaj të veçantë dhe kuptimplote? A lidhet me personalitetin e saj/të tij apo me ndjenjat tuaja që keni për këtë person? Apo ndoshta me faktin e thjeshtë se hipoteza për rastësinë e simpatisë suaj, siç tregojnë studimet, ka një probabilitet më të vogël se 5%? Nëse e konsiderojmë deklaratën e fundit të besueshme, atëherë faqet e suksesshme të takimeve nuk do të ekzistonin në parim:

Kur kryeni testim të ndarjes ose ndonjë analizë tjetër të faqes tuaj, keqkuptimi i "rëndësisë statistikore" mund të çojë në keqinterpretim të rezultateve dhe, për rrjedhojë, veprime të pasakta në procesin e optimizimit të konvertimit. Kjo është e vërtetë për mijëra teste të tjera statistikore të kryera çdo ditë në çdo industri ekzistuese.

Për të kuptuar se çfarë është "rëndësia statistikore", duhet të zhyteni në historinë e termit, të mësoni kuptimin e tij të vërtetë dhe të kuptoni se si ky kuptim i vjetër "i ri" do t'ju ndihmojë të interpretoni saktë rezultatet e kërkimit tuaj.

Pak histori

Edhe pse njerëzimi ka përdorur statistikat për të zgjidhur probleme të ndryshme për shumë shekuj, kuptimi modern i rëndësisë statistikore, testimit të hipotezave, rastësisë dhe madje edhe Dizajni i Eksperimenteve (DOE) filloi të merrte formë vetëm në fillim të shekullit të 20-të dhe është i lidhur pazgjidhshmërisht me emri i Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher ishte një biolog dhe statistician evolucionar, i cili kishte një pasion të veçantë për studimin e evolucionit dhe përzgjedhjes natyrore në mbretërinë e kafshëve dhe bimëve. Gjatë karrierës së tij të shquar, ai zhvilloi dhe popullarizoi shumë mjete të dobishme statistikore që ne i përdorim edhe sot.

Fisher përdori teknikat që ai zhvilloi për të shpjeguar procese në biologji si dominimi, mutacionet dhe devijimet gjenetike. Ne mund të përdorim të njëjtat mjete sot për të optimizuar dhe përmirësuar përmbajtjen e burimeve të internetit. Fakti që këto mjete analize mund të përdoren për të punuar me objekte që as nuk ekzistonin në kohën e krijimit të tyre duket mjaft befasues. Është po aq e habitshme që njerëzit bënin llogaritje komplekse pa kalkulatorë ose kompjuterë.

Për të përshkruar rezultatet e një eksperimenti statistikor si me një probabilitet të lartë për të qenë të vërteta, Fisher përdori fjalën "rendësi".

Gjithashtu, një nga zhvillimet më interesante të Fisherit mund të quhet hipoteza e "djalit seksi". Sipas kësaj teorie, gratë preferojnë burra të shthurur seksualisht (të shthurur) sepse kjo do të lejojë që djemtë e lindur nga këta burra të kenë të njëjtin predispozicion dhe të prodhojnë më shumë pasardhës (vini re se kjo është vetëm një teori).

Por askush, madje edhe shkencëtarët e shkëlqyer, nuk janë të imunizuar nga gabimet. Të metat e Fisher ende shqetësojnë specialistët edhe sot e kësaj dite. Por mbani mend fjalët e Albert Ajnshtajnit: "Kush nuk ka bërë kurrë një gabim, nuk ka krijuar kurrë asgjë të re".

Para se të kaloni në pikën tjetër, mbani mend: rëndësia statistikore është kur ndryshimi në rezultatet e testit është aq i madh sa diferenca nuk mund të shpjegohet me faktorë të rastësishëm.

Cila është hipoteza juaj?

Për të kuptuar se çfarë do të thotë "rëndësia statistikore", së pari duhet të kuptoni se çfarë është "testimi i hipotezave", pasi të dy termat janë të ndërthurur ngushtë.
Një hipotezë është vetëm një teori. Pasi të keni zhvilluar një teori, do t'ju duhet të krijoni një proces për mbledhjen e provave të mjaftueshme dhe në fakt mbledhjen e atyre provave. Ekzistojnë dy lloje hipotezash.

Mollë apo portokall - cila është më e mirë?

Hipoteza zero

Si rregull, kjo është ajo ku shumë njerëz përjetojnë vështirësi. Një gjë që duhet mbajtur parasysh është se një hipotezë zero nuk është diçka që duhet të vërtetohet, si p.sh., ju provoni se një ndryshim i caktuar në një faqe interneti do të çojë në një rritje të konvertimeve, por anasjelltas. Hipoteza zero është një teori që thotë se nëse bëni ndonjë ndryshim në sit, asgjë nuk do të ndodhë. Dhe qëllimi i studiuesit është të hedh poshtë këtë teori, jo ta vërtetojë atë.

Nëse shikojmë përvojën e zbardhjes së krimeve, ku hetuesit krijojnë edhe hipoteza se kush është krimineli, hipoteza zero merr formën e të ashtuquajturit prezumim i pafajësisë, koncept sipas të cilit i akuzuari prezumohet i pafajshëm derisa të vërtetohet fajësia. në një gjykatë.

Nëse hipoteza zero është se dy objekte janë të barabarta në vetitë e tyre, dhe ju po përpiqeni të provoni se njëri prej tyre është më i mirë (për shembull, A është më i mirë se B), ju duhet të refuzoni hipotezën zero në favor të alternativës. Për shembull, po krahasoni një ose një mjet tjetër të optimizimit të konvertimit. Në hipotezën zero, të dy kanë të njëjtin efekt (ose asnjë efekt) në objektiv. Në alternativë, efekti i njërit prej tyre është më i mirë.

Hipoteza juaj alternative mund të përmbajë një vlerë numerike, si B - A > 20%. Në këtë rast, hipoteza zero dhe alternativa mund të marrin formën e mëposhtme:

Një emër tjetër për një hipotezë alternative është një hipotezë kërkimore sepse studiuesi është gjithmonë i interesuar të provojë këtë hipotezë të veçantë.

Rëndësia statistikore dhe vlera p

Le të kthehemi sërish te Ronald Fisher dhe koncepti i tij i rëndësisë statistikore.

Tani që keni një hipotezë zero dhe një alternativë, si mund të provoni njërën dhe të hidhni poshtë tjetrën?

Për shkak se statistikat, nga vetë natyra e tyre, përfshijnë studimin e një popullsie të caktuar (kampion), nuk mund të jeni kurrë 100% të sigurt për rezultatet e marra. Një shembull i mirë: rezultatet e zgjedhjeve shpesh ndryshojnë nga rezultatet e sondazheve paraprake dhe madje edhe nga pishinat e daljes.

Dr. Fisher donte të krijonte një vijë ndarëse që do t'ju tregonte nëse eksperimenti juaj ishte një sukses apo jo. Kështu u shfaq indeksi i besueshmërisë. Besueshmëria është niveli që marrim për të thënë se çfarë e konsiderojmë "të rëndësishme" dhe çfarë jo. Nëse "p", indeksi i rëndësisë, është 0.05 ose më pak, atëherë rezultatet janë të besueshme.

Mos u shqetësoni, në fakt nuk është aq konfuze sa duket.

Shpërndarja e probabilitetit Gaussian. Përgjatë skajeve janë vlerat më pak të mundshme të ndryshores, në qendër janë më të mundshmet. Rezultati P (zona me hije jeshile) është probabiliteti që rezultati i vëzhguar të ndodhë rastësisht.

Shpërndarja normale e probabilitetit (shpërndarja Gaussian) është një paraqitje e të gjitha vlerave të mundshme të një ndryshoreje të caktuar në një grafik (në figurën e mësipërme) dhe frekuencave të tyre. Nëse e bëni saktë kërkimin tuaj dhe pastaj vizatoni të gjitha përgjigjet tuaja në një grafik, do të merrni pikërisht këtë shpërndarje. Sipas shpërndarjes normale, do të merrni një përqindje të madhe të përgjigjeve të ngjashme, dhe opsionet e mbetura do të vendosen në skajet e grafikut (të ashtuquajturat "bishtat"). Kjo shpërndarje vlerash gjendet shpesh në natyrë, prandaj quhet "normale".

Duke përdorur një ekuacion të bazuar në mostrën tuaj dhe rezultatet e testit, ju mund të llogarisni atë që quhet "statistikë e testit", e cila do të tregojë se sa devijojnë rezultatet tuaja. Ai gjithashtu do t'ju tregojë se sa afër jeni që hipoteza zero të jetë e vërtetë.

Për t'ju ndihmuar të kuptoni, përdorni kalkulatorë në internet për të llogaritur rëndësinë statistikore:

Një shembull i kalkulatorëve të tillë

Shkronja "p" përfaqëson probabilitetin që hipoteza zero të jetë e vërtetë. Nëse numri është i vogël, do të tregojë një ndryshim midis grupeve të testimit, ndërsa hipoteza zero do të ishte se ato janë të njëjta. Grafikisht, do të duket sikur statistika juaj e testit do të jetë më afër njërit prej bishtave të shpërndarjes tuaj në formë zile.

Dr. Fisher vendosi të vendoste pragun e rëndësisë në p ≤ 0.05. Sidoqoftë, kjo deklaratë është e diskutueshme, pasi çon në dy vështirësi:

1. Së pari, fakti që ju e keni vërtetuar hipotezën zero false nuk do të thotë se keni vërtetuar hipotezën alternative. E gjithë kjo domethënie thjesht do të thotë që ju nuk mund të provoni as A as B.

2. Së dyti, nëse rezultati p është 0,049, do të thotë se probabiliteti i hipotezës zero do të jetë 4,9%. Kjo mund të nënkuptojë që rezultatet e testit tuaj mund të jenë të vërteta dhe të rreme në të njëjtën kohë.

Mund të përdorni ose jo rezultatin p, por më pas do t'ju duhet të llogarisni probabilitetin e hipotezës zero rast pas rasti dhe të vendosni nëse është mjaft i madh për t'ju penguar të bëni ndryshimet që keni planifikuar dhe testuar. .

Skenari më i zakonshëm për kryerjen e një testi statistikor sot është vendosja e një pragu të rëndësisë prej p ≤ 0.05 përpara se të ekzekutohet vetë testi. Vetëm sigurohuni që të shikoni nga afër vlerën p kur kontrolloni rezultatet tuaja.

Gabimet 1 dhe 2

Ka kaluar kaq shumë kohë saqë gabimeve që mund të ndodhin gjatë përdorimit të metrikës së rëndësisë statistikore u janë dhënë edhe emrat e tyre.

Gabimet e tipit 1

Siç u përmend më lart, një vlerë p prej 0.05 do të thotë se ka një shans 5% që hipoteza zero të jetë e vërtetë. Nëse nuk e bëni këtë, do të bëni gabimin numër 1. Rezultatet thonë se faqja juaj e re e internetit ka rritur normat e konvertimit, por ka një shans 5% që jo.

Gabimet e tipit 2

Ky gabim është e kundërta e gabimit 1: ju e pranoni hipotezën zero kur ajo është e rreme. Për shembull, rezultatet e testit ju tregojnë se ndryshimet e bëra në faqe nuk sollën ndonjë përmirësim, ndërkohë që kishte ndryshime. Si rezultat, ju humbisni mundësinë për të përmirësuar performancën tuaj.

Ky gabim është i zakonshëm në testet me madhësi të pamjaftueshme të mostrës, prandaj mbani mend: sa më i madh të jetë kampioni, aq më i besueshëm është rezultati.

konkluzioni

Ndoshta asnjë term nuk është aq i popullarizuar në mesin e studiuesve sa rëndësia statistikore. Kur rezultatet e testimit nuk janë të rëndësishme statistikisht, pasojat variojnë nga një rritje në normat e konvertimit deri në kolapsin e një kompanie.

Dhe meqenëse tregtarët përdorin këtë term kur optimizojnë burimet e tyre, ju duhet të dini se çfarë do të thotë në të vërtetë. Kushtet e testimit mund të ndryshojnë, por madhësia e kampionit dhe kriteret e suksesit janë gjithmonë të rëndësishme. Mbajeni mend këtë.

Rëndësia statistikore ose niveli p i rëndësisë është rezultati kryesor i testit

hipoteza statistikore. Në terma teknikë, kjo është probabiliteti për të marrë një të dhënë

rezultati i një studimi mostër, me kusht që në fakt për gjeneralin

Në total, hipoteza statistikore zero është e vërtetë - domethënë, nuk ka asnjë lidhje. Me fjalë të tjera, kjo

probabiliteti që marrëdhënia e zbuluar është e rastësishme dhe jo një veti

tërësia. Është rëndësi statistikore, niveli p i rëndësisë, d.m.th

Vlerësimi sasior i besueshmërisë së komunikimit: sa më i ulët të jetë ky probabilitet, aq më e besueshme është lidhja.

Supozoni, kur krahasojmë dy mesatare të mostrës, është marrë një vlerë niveli

rëndësi statistikore p=0.05. Kjo do të thotë se testimi i hipotezës statistikore rreth

barazia e mjeteve në popullatë tregoi se nëse është e vërtetë, atëherë probabiliteti

Shfaqja e rastësishme e dallimeve të zbuluara nuk është më shumë se 5%. Me fjalë të tjera, nëse

dy mostra janë marrë në mënyrë të përsëritur nga e njëjta popullatë, pastaj në 1 prej

20 raste do të zbulonin të njëjtin apo më shumë dallimin ndërmjet mesatareve të këtyre mostrave.

Kjo do të thotë, ka një shans 5% që dallimet e gjetura janë për shkak të rastësisë.

karakter, dhe nuk janë pronë e agregatit.

Në lidhje me një hipotezë shkencore, niveli i rëndësisë statistikore është sasior

një tregues i shkallës së mosbesimit në përfundimin për ekzistencën e një lidhjeje, i llogaritur nga rezultatet

testimi selektiv, empirik i kësaj hipoteze. Sa më e ulët të jetë vlera e nivelit p, aq më e lartë

rëndësia statistikore e një rezultati kërkimor që konfirmon një hipotezë shkencore.

Është e dobishme të dihet se çfarë ndikon në nivelin e rëndësisë. Niveli i rëndësisë, gjërat e tjera janë të barabarta

kushtet janë më të larta (vlera e nivelit p është më e ulët) nëse:

Madhësia e lidhjes (diferencës) është më e madhe;

Ndryshueshmëria e tipareve është më e vogël;

Madhësia(at) e kampionit është më e madhe.

I njëanshëm Testet e rëndësisë së dyanshme

Nëse qëllimi i studimit është të identifikojë dallimet në parametrat e dy të përgjithshme

agregatet që korrespondojnë me kushtet e ndryshme natyrore të tij (kushtet e jetesës,

mosha e subjekteve, etj.), atëherë shpesh nuk dihet se cili prej këtyre parametrave do të jetë më i madh, dhe

Cili është më i vogël?

Për shembull, nëse jeni të interesuar për ndryshueshmërinë e rezultateve në një test dhe

grupet eksperimentale, atëherë, si rregull, nuk ka besim në shenjën e ndryshimit në variancat ose

devijimet standarde të rezultateve me të cilat vlerësohet ndryshueshmëria. Në këtë rast

hipoteza zero është se variancat janë të barabarta, dhe qëllimi i studimit është

vërtetojnë të kundërtën, d.m.th. prania e dallimeve midis variancave. Është e lejuar që

ndryshimi mund të jetë i çdo shenje. Hipoteza të tilla quhen të dyanshme.

Por ndonjëherë sfida është të provosh një rritje ose ulje të një parametri;

për shembull, rezultati mesatar në grupin eksperimental është më i lartë se ai i kontrollit. Në të njëjtën kohë

Nuk lejohet më që diferenca të jetë e një shenje tjetër. Hipoteza të tilla quhen

I njëanshëm.

Testet e rëndësisë që përdoren për të testuar hipotezat e dyanshme quhen

Të dyanshme, dhe për të njëanshme - të njëanshme.

Shtrohet pyetja se cili kriter duhet zgjedhur në një rast të caktuar. Përgjigju

Kjo pyetje është përtej qëllimit të metodave formale statistikore dhe është plotësisht

Varet nga qëllimet e studimit. Në asnjë rrethanë nuk duhet të zgjidhni një ose një kriter tjetër

Kryerja e një eksperimenti bazuar në analizën e të dhënave eksperimentale, siç mundet

Të çojë në përfundime të pasakta. Nëse, para kryerjes së një eksperimenti, supozohet se ndryshimi

Parametrat e krahasuar mund të jenë pozitiv ose negativ, atëherë duhet

Karakteristikat kryesore të çdo marrëdhënieje midis variablave.

Mund të vëmë re dy vetitë më të thjeshta të marrëdhënies ndërmjet variablave: (a) madhësinë e marrëdhënies dhe (b) besueshmërinë e marrëdhënies.

- Madhësia . Madhësia e varësisë është më e lehtë për t'u kuptuar dhe matur sesa besueshmëria. Për shembull, nëse ndonjë burrë në kampion kishte një vlerë të numrit të qelizave të bardha të gjakut (WCC) më të lartë se çdo grua, atëherë mund të thuash se lidhja midis dy variablave (gjinia dhe WCC) është shumë e lartë. Me fjalë të tjera, ju mund të parashikoni vlerat e një ndryshoreje nga vlerat e një tjetri.

- Besueshmëria ("e vërteta"). Besueshmëria e ndërvarësisë është një koncept më pak intuitiv sesa madhësia e varësisë, por është jashtëzakonisht e rëndësishme. Besueshmëria e marrëdhënies lidhet drejtpërdrejt me përfaqësimin e një kampioni të caktuar mbi bazën e të cilit nxirren përfundimet. Me fjalë të tjera, besueshmëria i referohet sa gjasa ka që një marrëdhënie të rizbulohet (me fjalë të tjera, të konfirmohet) duke përdorur të dhëna nga një kampion tjetër i nxjerrë nga e njëjta popullatë.

Duhet mbajtur mend se qëllimi përfundimtar nuk është pothuajse kurrë të studiohet ky mostër e veçantë vlerash; një kampion është me interes vetëm për aq sa jep informacion për të gjithë popullsinë. Nëse studimi plotëson disa kritere specifike, atëherë besueshmëria e marrëdhënieve të gjetura ndërmjet variablave të mostrës mund të matet dhe të paraqitet duke përdorur një masë standarde statistikore.

Madhësia dhe besueshmëria e varësisë përfaqësojnë dy karakteristika të ndryshme të varësive ndërmjet variablave. Megjithatë, nuk mund të thuhet se ata janë plotësisht të pavarur. Sa më e madhe të jetë madhësia e marrëdhënies (lidhja) ndërmjet variablave në një kampion me madhësi normale, aq më i besueshëm është (shih seksionin tjetër).

Rëndësia statistikore e një rezultati (niveli p) është një masë e vlerësuar e besimit në "të vërtetën" e tij (në kuptimin e "përfaqësueshmërisë së kampionit"). Duke folur më teknikisht, niveli p është një masë që ndryshon në rendin në rënie të madhësisë me besueshmërinë e rezultatit. Një nivel më i lartë p korrespondon me një nivel më të ulët besimi në marrëdhënien midis variablave të gjetur në kampion. Domethënë, niveli p paraqet probabilitetin e gabimit të lidhur me shpërndarjen e rezultatit të vëzhguar në të gjithë popullatën.

Për shembull, niveli p = 0,05(d.m.th. 1/20) tregon se ekziston një shans 5% që marrëdhënia midis variablave të gjetur në mostër të jetë vetëm një veçori e rastësishme e kampionit. Në shumë studime, një nivel p prej 0.05 konsiderohet si një "marzhë e pranueshme" për nivelin e gabimit.

Nuk ka asnjë mënyrë për të shmangur arbitraritetin në vendosjen se cili nivel i rëndësisë duhet të konsiderohet vërtet "i rëndësishëm". Zgjedhja e një niveli të caktuar rëndësie mbi të cilin rezultatet refuzohen si të rreme është mjaft arbitrare.

Në praktikë, vendimi përfundimtar zakonisht varet nga fakti nëse rezultati ishte parashikuar a priori (d.m.th., përpara se të kryhej eksperimenti) ose u zbulua a posteriori si rezultat i shumë analizave dhe krahasimeve të kryera në një sërë të dhënash, si dhe në traditën e fushës së studimit.

Në përgjithësi, në shumë fusha, rezultati i p .05 është një kufi i pranueshëm për rëndësinë statistikore, por mbani në mend se ky nivel ende përfshin një diferencë mjaft të madhe gabimi (5%).

Rezultatet e rëndësishme në nivelin p .01 konsiderohen përgjithësisht të rëndësishme statistikisht, ndërsa rezultatet në nivelin p .005 ose p .00 përgjithësisht konsiderohen statistikisht të rëndësishme. 001 si shumë domethënëse. Megjithatë, duhet kuptuar se ky klasifikim i niveleve të rëndësisë është mjaft arbitrar dhe është thjesht një marrëveshje joformale e miratuar në bazë të përvojës praktike. në një fushë të caktuar studimi.

Është e qartë se sa më i madh të jetë numri i analizave që kryhen mbi tërësinë e të dhënave të mbledhura, aq më i madh do të zbulohet rastësisht numri i rezultateve domethënëse (në nivelin e zgjedhur).

Disa metoda statistikore që përfshijnë shumë krahasime, dhe kështu kanë një shans të konsiderueshëm për të përsëritur këtë lloj gabimi, bëjnë një rregullim ose korrigjim të veçantë për numrin total të krahasimeve. Megjithatë, shumë metoda statistikore (veçanërisht metodat e thjeshta të analizës së të dhënave eksploruese) nuk ofrojnë asnjë mënyrë për të zgjidhur këtë problem.

Nëse marrëdhënia ndërmjet variablave është “objektivisht” e dobët, atëherë nuk ka asnjë mënyrë tjetër për të testuar një marrëdhënie të tillë përveçse të studiohet një kampion i madh. Edhe nëse kampioni është plotësisht përfaqësues, efekti nuk do të jetë statistikisht i rëndësishëm nëse kampioni është i vogël. Po kështu, nëse një marrëdhënie është "objektivisht" shumë e fortë, atëherë ajo mund të zbulohet me një shkallë të lartë rëndësie edhe në një kampion shumë të vogël.

Sa më e dobët të jetë marrëdhënia midis variablave, aq më e madhe është madhësia e mostrës që kërkohet për ta zbuluar atë në mënyrë kuptimplote.

Shumë të ndryshme masat e marrëdhënies ndërmjet variablave. Zgjedhja e një mase të veçantë në një studim të caktuar varet nga numri i variablave, shkallët e matjes së përdorur, natyra e marrëdhënieve, etj.

Megjithatë, shumica e këtyre masave ndjekin një parim të përgjithshëm: ato përpiqen të vlerësojnë një marrëdhënie të vëzhguar duke e krahasuar atë me "marrëdhënien maksimale të mundshme" midis variablave në fjalë. Duke folur teknikisht, mënyra e zakonshme për të bërë vlerësime të tilla është të shikosh se si ndryshojnë vlerat e variablave dhe më pas të llogaritet se sa nga variacioni total i pranishëm mund të shpjegohet me praninë e variacionit "të përbashkët" ("të përbashkët") në dy (ose më shumë) variabla.

Rëndësia varet kryesisht nga madhësia e kampionit. Siç është shpjeguar tashmë, në mostrat shumë të mëdha edhe marrëdhëniet shumë të dobëta midis variablave do të jenë domethënëse, ndërsa në mostrat e vogla edhe marrëdhëniet shumë të forta nuk janë të besueshme.

Kështu, për të përcaktuar nivelin e rëndësisë statistikore, nevojitet një funksion që do të përfaqësonte marrëdhënien midis "madhësive" dhe "rëndësisë" së marrëdhënies midis variablave për çdo madhësi kampion.

Një funksion i tillë do të tregonte saktësisht "sa ka gjasa që të merret një varësi e një vlere të caktuar (ose më shumë) në një kampion të një madhësie të caktuar, duke supozuar se nuk ka një varësi të tillë në popullatë." Me fjalë të tjera, ky funksion do të jepte një nivel rëndësie
(niveli p), dhe, për rrjedhojë, probabiliteti për të hedhur poshtë gabimisht supozimin e mungesës së kësaj varësie në popullatë.

Kjo hipotezë "alternative" (që nuk ka marrëdhënie në popullatë) zakonisht quhet hipoteza zero.

Do të ishte ideale nëse funksioni që llogarit probabilitetin e gabimit do të ishte linear dhe do të kishte vetëm pjerrësi të ndryshme për madhësi të ndryshme të mostrës. Fatkeqësisht, ky funksion është shumë më kompleks dhe nuk është gjithmonë saktësisht i njëjtë. Megjithatë, në shumicën e rasteve forma e tij është e njohur dhe mund të përdoret për të përcaktuar nivelet e rëndësisë në studimet e mostrave të një madhësie të caktuar. Shumica e këtyre funksioneve shoqërohen me një klasë shpërndarjesh të quajtura normale .