Kur analizon seri variacionesh shpërndarja vlerë të madhe ka sa shpërndarja empirike shenja korrespondon normale. Për ta bërë këtë, frekuencat e shpërndarjes aktuale duhet të krahasohen me ato teorike, të cilat janë karakteristike për një shpërndarje normale. Kjo do të thotë se, bazuar në të dhënat aktuale, është e nevojshme të llogariten frekuencat teorike të lakores së shpërndarjes normale, të cilat janë funksion i devijimeve të normalizuara.
Me fjalë të tjera, kurba empirike e shpërndarjes duhet të përafrohet me kurbën e shpërndarjes normale.
Karakteristikat objektive të pajtueshmërisë teorike Dhe empirike frekuencave mund të merret duke përdorur të veçanta tregues statistikor të cilat quhen kriteret e pëlqimit.
Kriteri i marrëveshjes quhet një kriter që ju lejon të përcaktoni nëse mospërputhja është empirike Dhe teorike shpërndarjet janë të rastësishme ose domethënëse, d.m.th. nëse të dhënat e vëzhgimit pajtohen me hipotezën statistikore të paraqitur ose nuk pajtohen. Shpërndarja popullsia, të cilën e ka për shkak të hipotezës së paraqitur, quhet teorike.
Ka nevojë për instalim kriter(rregull) që do të lejonte dikë të gjykonte nëse mospërputhja midis empirike dhe shpërndarjet teorike rastësore ose domethënëse. Nëse mospërputhja rezulton të jetë e rastit, atëherë ata besojnë se të dhënat (mostra) vëzhguese janë në përputhje me hipotezën e paraqitur për ligjin e shpërndarjes së popullatës së përgjithshme dhe, për rrjedhojë, hipoteza pranohet; nëse mospërputhja rezulton të jetë domethënëse, atëherë të dhënat e vëzhgimit nuk përputhen me hipotezën dhe ajo refuzohet.
Në mënyrë tipike, frekuencat empirike dhe teorike ndryshojnë sepse:
- mospërputhja është e rastësishme dhe për shkak të sasi e kufizuar vëzhgime;
- mospërputhja nuk është e rastësishme dhe shpjegohet me faktin se hipoteza statistikore se popullsia është e shpërndarë normalisht është e gabuar.
Kështu, kriteret e pëlqimit bëjnë të mundur që të refuzohet ose të konfirmohet korrektësia e hipotezës së paraqitur kur përafrohet seria për natyrën e shpërndarjes në serinë empirike.
Frekuencat empirike të marra si rezultat i vëzhgimit. Frekuencat teorike llogaritur duke përdorur formula.
Për ligji normal i shpërndarjes ato mund të gjenden si më poshtë:
- Σƒ i - shuma e frekuencave empirike të grumbulluara (kumulative).
- h - ndryshimi midis dy opsioneve fqinje
- σ - devijimi standard i mostrës
- t–devijimi i normalizuar (i standardizuar).
- φ(t)–funksioni i densitetit të probabilitetit të shpërndarjes normale (i gjetur për vlerën korresponduese të t)
Ekzistojnë disa teste të përshtatshmërisë, më të zakonshmet prej të cilave janë: testi chi-square (Pearson), testi Kolmogorov, testi Romanovsky.
Testi i përshtatshmërisë së Pearson χ 2- një nga ato kryesore, i cili mund të përfaqësohet si shuma e raporteve të katrorëve të diferencave midis frekuencave teorike (f T) dhe empirike (f) me frekuencat teorike:
- k është numri i grupeve në të cilat ndahet shpërndarja empirike,
- f i -frekuenca e vëzhguar e tiparit në grupin e i-të,
- f T – frekuenca teorike.
Për shpërndarjen χ 2, janë përpiluar tabela që tregojnë vlerën kritike të kriterit të përshtatshmërisë χ 2 për nivelin e zgjedhur të rëndësisë α dhe shkallët e lirisë df (ose ν).
Niveli i rëndësisë α është probabiliteti për të refuzuar gabimisht hipotezën e propozuar, d.m.th. probabiliteti që një hipotezë e saktë të refuzohet. R - rëndësi statistikore
adoptimi hipoteza e saktë. Në statistika, tre nivele të rëndësisë përdoren më shpesh:
α=0.10, pastaj P=0.90 (në 10 raste nga 100)
α=0.05, pastaj P=0.95 (në 5 raste nga 100)
α=0.01, atëherë P=0.99 (në 1 rast nga 100) hipoteza e saktë mund të hidhet poshtë.
Numri i shkallëve të lirisë df përcaktohet si numri i grupeve në serinë e shpërndarjes minus numrin e lidhjeve: df = k –z. Numri i lidhjeve kuptohet si numri i treguesve të serisë empirike të përdorur në llogaritjen e frekuencave teorike, d.m.th. tregues që lidhin frekuencat empirike dhe teorike.Për shembull, kur përafrohet me një kurbë zile, ekzistojnë tre marrëdhënie.Prandaj, kur përafrohet ngakurba e zilesnumri i shkallëve të lirisë përcaktohet si df =k–3.Për të vlerësuar rëndësinë, vlera e llogaritur krahasohet me tabelën χ 2 tavolina
Me koincidencë të plotë të shpërndarjeve teorike dhe empirike χ 2 =0, përndryshe χ 2 > 0. Nëse χ 2 kalc > χ 2 tab , atëherë për një nivel të caktuar rëndësie dhe numër të shkallëve të lirisë, ne hedhim poshtë hipotezën për parëndësinë (rastësinë) e mospërputhjeve. Nëse llogaritet χ 2< χ 2 табл то ne e pranojmë hipotezën dhe me probabilitet P = (1-α) mund të argumentohet se mospërputhja midis teorisë dhe frekuencat empirike rastësisht. Prandaj, ka arsye për të pohuar se shpërndarja empirike bindet shpërndarje normale. Testi i përshtatshmërisë së Pearson-it përdoret nëse madhësia e popullsisë është mjaft e madhe (N>50) dhe frekuenca e secilit grup duhet të jetë së paku 5.
Bazuar në përcaktimin e mospërputhjes maksimale midis frekuencave të akumuluara empirike dhe teorike:
ku D dhe d janë, përkatësisht, diferenca maksimale ndërmjet frekuencave të grumbulluara dhe frekuencave të grumbulluara të shpërndarjeve empirike dhe teorike.
Duke përdorur tabelën e shpërndarjes së statistikave Kolmogorov, përcaktohet probabiliteti, i cili mund të ndryshojë nga 0 në 1. Kur P(λ) = 1, ka një koincidencë të plotë të frekuencave, P(λ) = 0 - një mospërputhje e plotë. Nëse vlera e probabilitetit P është e rëndësishme në lidhje me vlerën e gjetur λ, atëherë mund të supozojmë se mospërputhjet midis shpërndarjeve teorike dhe empirike janë të parëndësishme, domethënë ato janë të rastësishme.
Kushti kryesor për përdorimin e kriterit Kolmogorov është se numër i madh vëzhgimet.
Testi i mirësisë së Kolmogorov
Le të shqyrtojmë se si zbatohet kriteri Kolmogorov (λ) kur testimi i hipotezës së shpërndarjes normale popullata e përgjithshme.Përafrimi i shpërndarjes aktuale me kurbën e ziles përbëhet nga disa hapa:
- Krahasoni frekuencat aktuale dhe teorike.
- Bazuar në të dhënat aktuale, përcaktohen frekuencat teorike të kurbës së shpërndarjes normale, e cila është funksion i devijimit të normalizuar.
- Ata kontrollojnë deri në çfarë mase shpërndarja e karakteristikës korrespondon me normalen.
PërIVkolonat e tabelës:
Në MS Excel, devijimi i normalizuar (t) llogaritet duke përdorur funksionin NORMALIZATION. Është e nevojshme të zgjidhni një sërë qelizash të lira sipas numrit të opsioneve (rreshta fletëllogaritëse). Pa hequr përzgjedhjen, telefononi funksionin NORMALIZE. Në kutinë e dialogut që shfaqet, tregoni qelizat e mëposhtme, të cilat përmbajnë, përkatësisht, vlerat e vëzhguara (X i), mesataren (X) dhe devijimin standard Ϭ. Operacioni duhet të përfundojë të njëkohshme duke shtypur Ctrl+Shift+Enter
PërVkolonat e tabelës:
Funksioni i densitetit të probabilitetit të shpërndarjes normale φ(t) gjendet nga tabela e vlerave të funksionit lokal Laplace për vlerën përkatëse të devijimit të normalizuar (t)
PërVIkolonat e tabelës:
Testi i përshtatshmërisë Kolmogorov (λ) përcaktohet duke ndarë modulindiferenca maksimalendërmjet frekuencave kumulative empirike dhe teorike me rrënjën katrore të numrit të vëzhgimeve:
Duke përdorur një tabelë të veçantë probabiliteti për kriterin e marrëveshjes λ, ne përcaktojmë se vlera λ = 0,59 korrespondon me një probabilitet prej 0,88 (λ
Shpërndarja e frekuencave empirike dhe teorike, dendësia e probabilitetit të shpërndarjes teorike
Kur aplikoni teste të përshtatshmërisë për të kontrolluar nëse shpërndarja e vëzhguar (empirike) korrespondon me atë teorike, duhet bërë dallimi midis testimit të hipotezave të thjeshta dhe komplekse.
Testi i normalitetit Kolmogorov-Smirnov me një mostër bazohet në diferenca maksimale ndërmjet kumulative shpërndarja empirike mostra dhe shpërndarjen e supozuar (teorike) kumulative. Nëse statistika Kolmogorov-Smirnov D është domethënëse, atëherë hipoteza se shpërndarja përkatëse është normale duhet të hidhet poshtë.
Shihni gjithashtu
Kriteret për testimin e rastësisë dhe vlerësimin e vëzhgimeve të jashtme Literatura Hyrje Në praktikë analiza statistikore të dhënat eksperimentale, interesi kryesor nuk është vetë llogaritja e statistikave të caktuara, por përgjigjet e pyetjeve të këtij lloji. Në përputhje me rrethanat, janë zhvilluar shumë kritere për të verifikuar parashtruara hipoteza statistikore. Të gjitha kriteret për testimin e hipotezave statistikore ndahen në dy grupe të mëdha: parametrike dhe joparametrike.
Ndani punën tuaj në rrjetet sociale
Nëse kjo punë nuk ju përshtatet, në fund të faqes ka një listë të veprave të ngjashme. Ju gjithashtu mund të përdorni butonin e kërkimit
Përdorimi i kritereve të pëlqimit
Hyrje
Letërsia
Hyrje
Në praktikën e analizës statistikore të të dhënave eksperimentale, interesi kryesor nuk është vetë llogaritja e statistikave të caktuara, por përgjigjet e pyetjeve të këtij lloji. A është me të vërtetë mesatarja e popullsisë e barabartë me një numër të caktuar? A është koeficienti i korrelacionit dukshëm i ndryshëm nga zero? A janë variancat e dy mostrave të barabarta? Dhe shumë pyetje të tilla mund të lindin, në varësi të problemit specifik të kërkimit. Prandaj, janë zhvilluar shumë kritere për të testuar hipotezat e propozuara statistikore. Ne do të shqyrtojmë disa nga më të zakonshmet prej tyre. Këto do të lidhen kryesisht me mesataret, variancat, koeficientët e korrelacionit dhe shpërndarjet e bollëkut.
Të gjitha kriteret për testimin e hipotezave statistikore ndahen në dy grupe të mëdha: parametrike dhe joparametrike. Testet parametrike bazohen në supozimin se të dhënat e mostrës janë nxjerrë nga një popullatë me një shpërndarje të njohur dhe detyra kryesore është të vlerësohen parametrat e kësaj shpërndarjeje. Testet joparametrike nuk kërkojnë ndonjë supozim për natyrën e shpërndarjes, përveç supozimit se ajo është e vazhdueshme.
Le të shohim së pari kriteret parametrike. Sekuenca e testit do të përfshijë formulimin e hipotezës zero dhe hipotezën alternative, formulimin e supozimeve që do të bëhen, përcaktimin e statistikave të mostrës së përdorur në test dhe, formimin e shpërndarjes së mostrës së statistikave që testohen, identifikimi i rajoneve kritike për kriterin e përzgjedhur dhe ndërtimi i një intervali besimi për statistikat e mostrës.
1 Kriteret e përshtatshmërisë për mjetet
Le të jetë hipoteza që testohet se parametri i popullsisë. Nevoja për një kontroll të tillë mund të lindë, për shembull, në situatën e mëposhtme. Supozoni se, bazuar në kërkime të gjera, është përcaktuar diametri i guaskës së një molusku fosil në sedimente nga një vend fiks. Le të kemi në dispozicion edhe një numër të caktuar predhash të gjetura në një vend tjetër, dhe bëjmë supozimin se një vend i caktuar nuk ndikon në diametrin e guaskës, d.m.th. se vlera mesatare e diametrit të guaskës për të gjithë popullsinë e molusqeve që dikur jetonin në një vend të ri është e barabartë me vlerën e njohur të marrë më herët gjatë studimit të këtij lloji të molusqeve në habitatin e parë.
Nëse kjo vlera e njohurështë e barabartë, atëherë hipoteza zero dhe hipoteza alternative shkruhen si më poshtë: Le të supozojmë se ndryshorja x në popullatën në shqyrtim ka shpërndarje normale, dhe sasia e variancës së popullsisë është e panjohur.
Ne do të testojmë hipotezën duke përdorur statistikat:
, (1)
ku është devijimi standard i mostrës.
U tregua se nëse është e vërtetë, atëherë t në shprehjen (1) ka një shpërndarje t Studenti me n-1 shkallë lirie. Nëse zgjedhim nivelin e rëndësisë (probabilitetin e refuzimit të hipotezës së saktë) të barabartë, atëherë në përputhje me atë që u diskutua në kapitulli i mëparshëm, mund të përcaktoni vlerat kritike për kontrollin =0.
NË në këtë rast, meqenëse shpërndarja Studenti është simetrike, atëherë (1-) një pjesë e sipërfaqes nën lakoren e kësaj shpërndarjeje me n-1 shkallë lirie do të përmbahet midis pikave dhe, të cilat janë të barabarta me njëra-tjetrën në vlerë absolute. Prandaj, të gjitha vlerat janë më pak se negative dhe më të mëdha se pozitive për shpërndarjen t me numri i dhënë shkallët e lirisë në nivelin e zgjedhur të rëndësisë do të përbëjnë rajonin kritik. Nëse vlera t mostrës bie brenda këtij rajoni, hipoteza alternative pranohet.
Intervali i besimit for është ndërtuar sipas metodës së përshkruar më parë dhe përcaktohet nga shprehja e mëposhtme
(2)
Pra, na tregoni në rastin tonë se diametri i guaskës së një molusku fosil është 18.2 mm. Ne kishim në dispozicion një mostër prej 50 predhash të gjetura rishtazi, për të cilat mm, a = 2,18 mm. Le të kontrollojmë: =18.2 kundër Ne kemi
Nëse niveli i rëndësisë zgjidhet =0.05 atëherë vlerë kritike. Nga kjo rrjedh se mund të refuzohet në favor në nivelin e rëndësisë =0.05. Kështu, për shembullin tonë hipotetik mund të thuhet (me njëfarë probabiliteti, sigurisht) se diametri i guaskës së molusqeve fosile lloj i caktuar varet nga vendet ku ata kanë jetuar.
Për shkak të faktit se shpërndarja t është simetrike, vetëm vlerat pozitive t të kësaj shpërndarjeje në nivele të zgjedhura të rëndësisë dhe numrin e shkallëve të lirisë. Për më tepër, merret parasysh jo vetëm pjesa e zonës nën kurbën e shpërndarjes në të djathtë të vlerës t, por edhe në të majtë të vlerës -t në të njëjtën kohë. Kjo për faktin se në shumicën e rasteve gjatë testimit të hipotezave na intereson rëndësia e devijimeve në vetvete, pavarësisht nëse këto devijime janë më të mëdha apo më të vogla, d.m.th. ne kontrollojmë kundër, jo kundër: >a ose: Le të kthehemi tani në shembullin tonë. Intervali i besimit 100(1-)% për është 18,92,01
Le të shqyrtojmë tani rastin kur është e nevojshme të krahasohen mesataret e dy popullsive të përgjithshme. Hipoteza që testohet duket si kjo: : =0, : 0. Gjithashtu supozohet se ajo ka një shpërndarje normale me një mesatare dhe variancë, dhe - një shpërndarje normale me një mesatare dhe të njëjtën variancë. Përveç kësaj, supozojmë se mostrat nga të cilat vlerësohen popullatat e përgjithshme janë nxjerrë në mënyrë të pavarur nga njëra-tjetra dhe kanë një vëllim, përkatësisht, dhe nga pavarësia e mostrave rezulton se nëse marrim një numër më të madh të tyre dhe llogarisim mesataren vlerat për çdo çift, atëherë grupi i këtyre çifteve mesatare do të jetë plotësisht i pakorreluar. Testimi i hipotezës zero bëhet duke përdorur statistika (3)
ku dhe janë vlerësimet e variancës për kampionin e parë dhe të dytë, respektivisht. Është e lehtë të shihet se (3) është një përgjithësim i (1). U tregua se statistikat (3) kanë një shpërndarje t studentore me shkallë lirie. Nëse dhe janë të barabarta, d.m.th. = = formula (3) është thjeshtuar dhe ka formën (4)
Le të shohim një shembull. Le të supozojmë se gjatë matjes së gjetheve të kërcellit të së njëjtës popullatë bimore në dy sezone, fitohen këto rezultate: Supozojmë se kushtet për përdorimin e testit të Studentit, d.m.th. normaliteti i popullatave nga të cilat janë marrë kampionet, ekzistenca e një variance të panjohur por të njëjtë për këto popullata dhe pavarësia e mostrave janë të kënaqur. Le të vlerësojmë në nivelin e rëndësisë =0.01. ne kemi Vlera e tabelës t = 2,58. Prandaj, hipoteza për barazinë e vlerave mesatare të gjatësisë së gjetheve të kërcellit për një popullatë bimore gjatë dy sezoneve duhet të hidhet poshtë në nivelin e zgjedhur të rëndësisë. Kujdes! Hipoteza zero në statistikat matematikore është hipoteza se nuk ka dallime domethënëse midis treguesve të krahasuar, pavarësisht nëse bëhet fjalë për mesatare, varianca apo statistika të tjera. Dhe në të gjitha këto raste, nëse vlera empirike (e llogaritur me formulë) e kriterit është më e madhe se ajo teorike (e zgjedhur nga tabelat), ai refuzohet. Nëse vlera empirike është më e vogël se vlera e tabelës, atëherë ajo pranohet. Për të ndërtuar një interval besimi për diferencën midis mesatareve të këtyre dy popullatave, le t'i kushtojmë vëmendje faktit që testi i Studentit, siç shihet nga formula (3), vlerëson rëndësinë e diferencës midis mesatareve relative. ndaj gabimit standard të këtij ndryshimi. Është e lehtë të verifikohet se emëruesi në (3) përfaqëson pikërisht këtë gabim standard duke përdorur marrëdhëniet e diskutuara më parë dhe supozimet e bëra. Në fakt, ne e dimë se në rastin e përgjithshëm Nëse x dhe y janë të pavarura, atëherë edhe janë Duke marrë vlerat e mostrës dhe në vend të x dhe y dhe duke kujtuar supozimin e bërë që të dy popullatat kanë të njëjtën variancë, ne marrim (5)
Vlerësimi i variancës mund të merret nga relacioni i mëposhtëm (6)
(Ne ndajmë me sepse dy sasi vlerësohen nga mostrat dhe, për rrjedhojë, numri i shkallëve të lirisë duhet të reduktohet me dy.) Nëse tani e zëvendësojmë (6) në (5) dhe marrim rrënjën katrore, marrim emëruesin në shprehjen (3). Pas këtij digresioni, le të kthehemi në ndërtimin e një intervali besimi për përmes -. ne kemi Le të bëjmë disa komente në lidhje me supozimet e përdorura në ndërtimin e testit t. Para së gjithash, u tregua se shkeljet e supozimit të normalitetit për kanë një efekt të parëndësishëm në nivelin e rëndësisë dhe fuqisë së testit për 30. Shkeljet e supozimit të homogjenitetit të variancave të të dy popullatave nga të cilat janë marrë mostrat janë gjithashtu i parëndësishëm, por vetëm në rastin kur madhësitë e mostrës janë të barabarta. Nëse variancat e të dy popullatave ndryshojnë nga njëra-tjetra, atëherë probabilitetet e gabimeve të tipit të parë dhe të dytë do të ndryshojnë ndjeshëm nga ato të pritshme. Në këtë rast, kriteri duhet të përdoret për të kontrolluar (7)
me numrin e shkallëve të lirisë . (8)
Si rregull, rezulton të jetë një numër i pjesshëm, prandaj, kur përdorni tabelat e shpërndarjes t, është e nevojshme të merren vlerat e tabelës për vlerat më të afërta të numrit të plotë dhe të interpolohen për të gjetur t që korrespondon me mori një. Le të shohim një shembull. Gjatë studimit të dy nëngrupeve të bretkosës së liqenit, u llogarit raporti i gjatësisë së trupit me gjatësinë e tibisë. Janë marrë dy mostra me vëllime =49 dhe =27. Mjetet dhe variancat e marrëdhënies që na intereson rezultuan të barabarta, përkatësisht =2,34; =2,08; =0,21; =0,35. Nëse tani testojmë hipotezën duke përdorur formulën (2), marrim atë Në një nivel të rëndësisë prej =0.05, ne duhet të hedhim poshtë hipotezën zero (vlera e tabelës t = 1.995) dhe të supozojmë se ka dallime statistikisht domethënëse në nivelin e zgjedhur të rëndësisë midis vlerave mesatare të parametrave të matur për dy nënspeciet e bretkosave. . Kur përdorim formulat (6) dhe (7) kemi Në këtë rast, për të njëjtin nivel rëndësie =0.05, vlera e tabelës është t=2.015 dhe hipoteza zero pranohet. Ky shembull tregon qartë se neglizhimi i kushteve të pranuara gjatë nxjerrjes së një kriteri të caktuar mund të çojë në rezultate që janë drejtpërdrejt të kundërta me ato që ndodhin në të vërtetë. Natyrisht, në këtë rast, duke pasur mostra të madhësive të ndryshme në mungesë të një fakti të paracaktuar se variancat e treguesit të matur në të dy popullatat janë statistikisht të barabarta, ishte e nevojshme të përdoren formulat (7) dhe (8), të cilat tregoi mungesën e dallimeve statistikisht të rëndësishme. Prandaj, dëshiroj të përsëris edhe një herë se kontrolli i pajtueshmërisë me të gjitha supozimet e bëra gjatë nxjerrjes së një kriteri të caktuar është një kusht absolutisht i nevojshëm për përdorimin e saktë të tij. Kërkesa konstante në të dy modifikimet e mësipërme të testit t ishte kërkesa që mostrat të jenë të pavarura nga njëri-tjetri. Megjithatë, në praktikë shpesh ka situata kur kjo kërkesë nuk mund të përmbushet për arsye objektive. Për shembull, disa tregues maten në të njëjtën kafshë ose zonë të territorit para dhe pas veprimit të një faktori të jashtëm, etj. Dhe në këto raste ne mund të jemi të interesuar të testojmë hipotezën kundër. Ne do të vazhdojmë të supozojmë se të dy mostrat janë nxjerrë nga popullata normale me të njëjtën variancë. Në këtë rast, mund të përfitojmë nga fakti se diferencat midis sasive të shpërndara normalisht kanë gjithashtu një shpërndarje normale dhe për këtë arsye mund të përdorim testin t Studentit në formën (1). Kështu, do të testohet hipoteza që n dallime janë një kampion nga një popullatë e shpërndarë normalisht me një mesatare të barabartë me zero. Duke treguar ndryshimin i-të me, kemi , (9) Le të shohim një shembull. Le të kemi në dispozicion të dhëna për numrin e impulseve të një qelize nervore individuale gjatë një intervali të caktuar kohor para () dhe pas () veprimit të stimulit: Prandaj, duke pasur parasysh se (9) ka një shpërndarje t, dhe duke zgjedhur një nivel rëndësie prej =0.01, nga tabela përkatëse në Shtojcë gjejmë se vlera kritike e t për n-1=10-1=9 gradë e lirisë është 3.25. Krahasimi i statistikave t teorike dhe empirike tregon se hipoteza zero e mungesës së dallimeve statistikisht domethënëse midis shkallëve të qitjes para dhe pas stimulit duhet të refuzohet. Mund të konkludohet se stimuli i përdorur në mënyrë statistikore ndryshon ndjeshëm frekuencën e impulseve. Në studimet eksperimentale, siç u përmend më lart, mostrat e varura shfaqen mjaft shpesh. Megjithatë, ky fakt ndonjëherë injorohet dhe testi t përdoret gabimisht në formën (3). Papërshtatshmëria e kësaj mund të shihet duke marrë parasysh gabimet standarde të ndryshimit midis mjeteve të pakorreluara dhe të korreluara. Në rastin e parë Dhe në të dytën Gabimi standard i diferencës d është Duke marrë parasysh këtë, emëruesi në (9) do të ketë formën Tani le t'i kushtojmë vëmendje faktit që numëruesit e shprehjeve (4) dhe (9) përkojnë: prandaj diferenca në vlerën e t në to varet nga emëruesit. Kështu, nëse formula (3) përdoret në një problem me mostrat e varura, dhe mostrat kanë një korrelacion pozitiv, atëherë vlerat t që rezultojnë do të jenë më të vogla se sa duhet kur përdorni formulën (9) dhe mund të lindë një situatë ku hipoteza zero do të pranohet kur ajo është e rreme. Situata e kundërt mund të lindë kur ka një korrelacion negativ midis mostrave, d.m.th. në këtë rast, dallimet do të njihen si të rëndësishme që në fakt nuk janë. Le t'i kthehemi përsëri shembullit me aktivitet impuls dhe të llogarisim vlerën t për të dhënat e dhëna duke përdorur formulën (3), duke mos i kushtuar vëmendje faktit që mostrat janë të lidhura. Ne kemi: Për numrin e shkallëve të lirisë të barabartë me 18, dhe nivelin e rëndësisë = 0,01, vlera e tabelës është t = 2,88 dhe, në shikim të parë, duket se asgjë nuk ka ndodhur, edhe kur përdoret një formulë që është e papërshtatshme për kushtet e dhëna. Dhe në këtë rast, vlera e llogaritur t çon në refuzimin e hipotezës zero, d.m.th. në të njëjtin përfundim që është bërë duke përdorur formulën (9), i saktë në këtë situatë. Megjithatë, le të riformatojmë të dhënat ekzistuese dhe t'i paraqesim në formën e mëposhtme (2): Këto janë të njëjtat vlera dhe ato mund të merren në një nga eksperimentet. Meqenëse të gjitha vlerat në të dy mostrat janë ruajtur, përdorimi i testit t Studentit në formulën (3) jep vlerën e fituar më parë = 3.32 dhe të çon në të njëjtin përfundim që është bërë tashmë. Tani le të llogarisim vlerën e t duke përdorur formulën (9), e cila duhet të përdoret në këtë rast. Kemi: Vlera kritike e t në nivelin e zgjedhur të rëndësisë dhe nëntë shkallë lirie është 3.25. Rrjedhimisht, ne nuk kemi asnjë arsye për të hedhur poshtë hipotezën zero, ne e pranojmë atë dhe rezulton se ky përfundim është drejtpërdrejt i kundërt me atë që është bërë gjatë përdorimit të formulës (3). Duke përdorur këtë shembull, ne u bindëm edhe një herë se sa e rëndësishme është të merren përfundime të sakta gjatë analizimit të të dhënave eksperimentale për t'u përputhur rreptësisht me të gjitha kërkesat që ishin bazë për përcaktimin e një kriteri të veçantë. Modifikimet e konsideruara të testit të Studentit synojnë të testojnë hipotezat në lidhje me mesataren e dy mostrave. Megjithatë, lindin situata kur bëhet e nevojshme të nxirren përfundime në lidhje me barazinë e k mesatareve në të njëjtën kohë. Për këtë rast është zhvilluar edhe një procedurë e caktuar statistikore, e cila do të diskutohet më vonë gjatë diskutimit të çështjeve që kanë të bëjnë me analizën e variancës. 2 Testet e përshtatshmërisë për variancat Testimi i hipotezave statistikore në lidhje me variancat e popullsisë kryhet në të njëjtën sekuencë si për mesataret. Le të kujtojmë shkurtimisht këtë sekuencë. 1. Formulohet një hipotezë zero (për mungesën e dallimeve statistikisht të rëndësishme midis variancave të krahasuara). 2. Janë bërë disa supozime lidhur me shpërndarjen kampione të statistikave me të cilat planifikohet të vlerësohet parametri i përfshirë në hipotezë. 3. Përzgjidhet niveli i rëndësisë për testimin e hipotezës. 4. Llogaritet vlera e statistikave me interes për ne dhe merret një vendim lidhur me vërtetësinë e hipotezës zero. Tani le të fillojmë duke testuar hipotezën se varianca e popullatës =a, d.m.th. kundër. Nëse supozojmë se ndryshorja x ka një shpërndarje normale dhe se një kampion me madhësi n është nxjerrë nga popullata në mënyrë të rastësishme, atëherë statistikat përdoren për të testuar hipotezën zero. (10)
Duke kujtuar formulën për llogaritjen e dispersionit, ne rishkruajmë (10) si më poshtë: . (11)
Nga kjo shprehje është e qartë se numëruesi është shuma e katrorëve të devijimeve të vlerave të shpërndara normalisht nga mesatarja e tyre. Secila prej këtyre devijimeve gjithashtu shpërndahet normalisht. Prandaj, në përputhje me shpërndarjen e njohur për ne, shumat e katrorëve të vlerave të statistikave të shpërndara normalisht (10) dhe (11) kanë një - shpërndarje me n-1 shkallë lirie. Në analogji me përdorimin e shpërndarjes t, kur kontrollohet për nivelin e zgjedhur të rëndësisë, pikat kritike përcaktohen nga tabela e shpërndarjes, që korrespondojnë me probabilitetet e pranimit të hipotezës zero dhe. Intervali i besimit për në të zgjedhur është ndërtuar si më poshtë: . (12)
Le të shohim një shembull. Le të supozojmë, në bazë të një kërkimi të gjerë eksperimental, se shpërndarja e përmbajtjes së alkaloideve të një specie bimore nga një zonë e caktuar është e barabartë me 4,37 njësi konvencionale. Specialisti ka në dispozicion një kampion prej n = 28 bimë të tilla, me sa duket nga e njëjta zonë. Analiza tregoi se për këtë kampion =5.01 dhe ne duhet të sigurohemi që kjo dhe variancat e njohura më parë janë statistikisht të padallueshme në nivelin e sinjifikancës =0.1. Sipas formulës (10) kemi Vlera që rezulton duhet të krahasohet me vlerat kritike /2=0.05 dhe 1--/2=0.95. Nga tabela e Shtojcës për me 27 gradë lirie kemi përkatësisht 40.1 dhe 16.2, që do të thotë se hipoteza zero mund të pranohet. Intervali përkatës i besimit për është 3.37<<8,35.
Në ndryshim nga testimi i hipotezave në lidhje me mjetet e kampionit duke përdorur testin Studenti, kur gabimet e tipit të parë dhe të dytë nuk ndryshuan ndjeshëm kur shkelej supozimi i shpërndarjes normale të popullatave, në rastin e hipotezave për variancat kur kushtet e normalitetit nuk ishin u plotësuan, gabimet ndryshuan ndjeshëm. Problemi i konsideruar më sipër në lidhje me barazinë e variancës me një vlerë fikse është me interes të kufizuar, pasi situatat janë mjaft të rralla kur dihet varianca e popullatës. Me interes shumë më të madh është rasti kur duhet të kontrolloni nëse variancat e dy popullatave janë të barabarta, d.m.th. testimi i një hipoteze kundrejt një alternative. Supozohet se mostrat e madhësisë dhe janë nxjerrë rastësisht nga popullatat e përgjithshme me varianca dhe. Për të testuar hipotezën zero, përdoret testi i raportit të variancës së Fisher (13)
Meqenëse shumat e devijimeve në katror të ndryshoreve të rastësishme të shpërndara normalisht nga mesatarja e tyre kanë një shpërndarje, si numëruesi ashtu edhe emëruesi i (13) janë vlera të shpërndara të pjesëtuara me dhe përkatësisht, dhe për këtë arsye raporti i tyre ka një shpërndarje F me -1 dhe -1 shkallë lirie. Në përgjithësi pranohet - dhe kështu janë ndërtuar tabelat e shpërndarjes F - që variancat më të mëdha merret si numërues në (13), dhe për këtë arsye përcaktohet vetëm një pikë kritike, që korrespondon me nivelin e zgjedhur të rëndësisë. Le të kemi në dispozicion dy mostra me vëllim =11 dhe =28 nga popullatat e kërmijve të zakonshëm dhe ovale të pellgjeve, për të cilët raportet lartësi-gjerësi kanë varianca =0,59 dhe =0,38. Është e nevojshme të testohet hipoteza për barazinë e këtyre variancave të këtyre treguesve për popullatat që studiohen në një nivel sinjifikance =0.05. ne kemi Në literaturë, ndonjëherë mund të gjeni një deklaratë se testimi i hipotezës së barazisë së mesatareve duke përdorur testin e Studentit t-test duhet të paraprihet nga testimi i hipotezës së barazisë së variancave. Ky është rekomandim i gabuar. Për më tepër, mund të çojë në gabime që mund të shmangen nëse nuk ndiqen. Në të vërtetë, rezultatet e testimit të hipotezës së barazisë së variancave duke përdorur testin e Fisher varen në masë të madhe nga supozimi se mostrat janë nxjerrë nga popullata me një shpërndarje normale. Në të njëjtën kohë, testi i Studentit është i pandjeshëm ndaj shkeljeve të normalitetit, dhe nëse është e mundur të merren mostra me madhësi të barabartë, atëherë supozimi i barazisë së variancave nuk është gjithashtu i rëndësishëm. Në rastin e n të pabarabartë, formulat (7) dhe (8) duhet të përdoren për verifikim. Kur testohen hipotezat për barazinë e variancave, lindin disa veçori në llogaritjet që lidhen me mostrat e varura. Në këtë rast, statistikat përdoren për të testuar një hipotezë kundrejt një alternative (14)
Nëse hipoteza zero është e vërtetë, atëherë statistikat (14) kanë një shpërndarje t Student me n-2 shkallë lirie. Gjatë matjes së shkëlqimit të 35 mostrave të veshjes, është marrë një dispersion prej =134.5. Matjet e përsëritura dy javë më vonë treguan =199.1. Në këtë rast, koeficienti i korrelacionit midis matjeve të çiftuara doli të jetë i barabartë me =0.876. Nëse neglizhojmë faktin që mostrat janë të varura dhe përdorim testin Fisher për të testuar hipotezën, do të marrim F=1.48. Nëse zgjidhni nivelin e rëndësisë =0.05, atëherë hipoteza zero do të pranohet, pasi vlera kritike e shpërndarjes F për =35-1=34 dhe =35-1=34 gradë lirie është 1.79. Në të njëjtën kohë, nëse përdorim formulën (14) të përshtatshme për këtë rast, fitojmë t = 2,35, ndërsa vlera kritike e t për 33 gradë lirie dhe niveli i zgjedhur i rëndësisë = 0,05 është i barabartë me 2,03. Prandaj, hipoteza zero e variancave të barabarta në të dy mostrat duhet të refuzohet. Kështu, nga ky shembull është e qartë se, si në rastin e testimit të hipotezës së barazisë së mjeteve, përdorimi i një kriteri që nuk merr parasysh specifikat e të dhënave eksperimentale çon në një gabim. Në literaturën e rekomanduar mund të gjeni testin Bartlett, i cili përdoret për të testuar hipotezat rreth barazisë së njëkohshme të k variancave. Përveç faktit që llogaritja e statistikave të këtij kriteri është mjaft e mundimshme, disavantazhi kryesor i këtij kriteri është se është jashtëzakonisht i ndjeshëm ndaj devijimeve nga supozimi i shpërndarjes normale të popullatave nga të cilat janë nxjerrë mostrat. Kështu, kur e përdorni, nuk mund të jeni kurrë i sigurt se hipoteza zero refuzohet në të vërtetë sepse variancat janë statistikisht dukshëm të ndryshme dhe jo sepse mostrat nuk shpërndahen normalisht. Prandaj, nëse lind problemi i krahasimit të disa variancave, është e nevojshme të kërkohet një formulim i problemit ku do të jetë e mundur të përdoret kriteri Fisher ose modifikimet e tij. 3 Kriteret për marrëveshje lidhur me aksionet Shumë shpesh është e nevojshme të analizohen popullatat në të cilat objektet mund të klasifikohen në njërën nga dy kategoritë. Për shembull, sipas gjinisë në një popullatë të caktuar, nga prania e një mikroelementi të caktuar në tokë, nga ngjyra e errët ose e hapur e vezëve në disa lloje zogjsh, etj. Përpjesëtimin e elementeve që kanë një cilësi të caktuar e shënojmë me P, ku P përfaqëson raportin e objekteve me cilësinë që na intereson me të gjitha objektet në agregat.
Ku