Dispersijos analizė leidžia įvertinti. Dispersijos analizė

Kam naudojama dispersinė analizė? Dispersinės analizės tikslas – ištirti, ar koks nors kokybinis ar kiekybinis veiksnys turi reikšmingos įtakos tiriamos gaunamos charakteristikos pokyčiams, ar ne. Tam veiksnys, kuris, kaip manoma, turi arba neturi reikšmingą poveikį, suskirstomas į gradacijos klases (kitaip tariant, grupes) ir nustatoma, ar veiksnio įtaka yra vienoda, nagrinėjant reikšmingumą tarp priemonių. koeficiento gradacijas atitinkančiose duomenų rinkiniuose. Pavyzdžiai: tiriama įmonės pelno priklausomybė nuo naudojamų žaliavų rūšies (tada gradacijos klasės yra žaliavų rūšys), produkcijos vieneto gamybos savikainos priklausomybė nuo įmonės padalinio dydžio (tada gradacijos klasės – tai skyriaus dydžio charakteristikos: didelis, vidutinis, mažas).

Minimalus gradacijos klasių (grupių) skaičius – dvi. Baigimo pamokos gali būti kokybinės arba kiekybinės.

Kodėl dispersijos analizė vadinama dispersine analize? Dispersijos analizė tiria ryšį tarp dviejų dispersijų. Dispersija, kaip žinome, yra duomenų sklaidos aplink vidutinę vertę charakteristika. Pirmasis yra dispersija, paaiškinama faktoriaus įtaka, kuri apibūdina reikšmių sklaidą tarp faktoriaus (grupių) gradacijų aplink visų duomenų vidurkį. Antrasis yra nepaaiškinamas dispersija, apibūdinantis duomenų sklaidą gradacijose (grupėse) aplink pačių grupių vidutines vertes. Pirmoji dispersija gali būti vadinama tarp grupių, o antroji - grupių viduje. Šių dispersijų santykis vadinamas faktiniu Fišerio koeficientu ir lyginamas su kritine Fišerio koeficiento reikšme. Jei tikrasis Fišerio koeficientas yra didesnis už kritinį, tai gradacijos klasių vidurkiai skiriasi vienas nuo kito ir tiriamas veiksnys reikšmingai įtakoja duomenų pokytį. Jei jis mažesnis, tai vidutinės gradacijos klasės nesiskiria viena nuo kitos ir faktorius didelės įtakos neturi.

Kaip ANOVA formuluojamos, priimamos ir atmetamos hipotezės? Dispersijos analizėje nustatomas vieno ar kelių veiksnių bendros įtakos savitasis svoris. Veiksnio įtakos reikšmingumas nustatomas tikrinant hipotezes:

  • H0 : μ 1 = μ 2 = ... = μ a, Kur a- gradacijos klasių skaičius - visos gradacijos klasės turi tą pačią vidutinę vertę,
  • H1 : Ne visi μ i vienodas – ne visos gradacijos klasės turi vienodą vidutinę vertę.

Jei veiksnio įtaka nėra reikšminga, tai skirtumas tarp šio veiksnio gradacijos klasių taip pat yra nereikšmingas ir dispersijos analizės metu nulinė hipotezė H0 nėra atmestas. Jei veiksnio įtaka reikšminga, tada nulinė hipotezė H0 atmesta: ne visos gradacijos klasės turi vienodą vidutinę vertę, tai yra, tarp galimų skirtumų tarp gradacijos klasių viena ar kelios yra reikšmingos.

Dar keletas dispersinės analizės sąvokų. Statistinis dispersinės analizės kompleksas yra empirinių duomenų lentelė. Jei visos gradacijų klasės turi vienodą variantų skaičių, tai statistinis kompleksas vadinamas vienarūšiu (homogeniniu), jei variantų skaičius skirtingas – heterogeniniu (heterogeniniu).

Atsižvelgiant į vertinamų veiksnių skaičių, išskiriama vienfaktorinė, dviejų faktorių ir daugiafaktorinė dispersinė analizė.

Vienfaktorinė dispersinė analizė: metodo esmė, formulės, pavyzdžiai

Metodo esmė, formulė

yra pagrįsta tuo, kad statistinio komplekso kvadratinių nuokrypių sumą galima suskirstyti į komponentus:

SS = SS+ SS e,

SS

SSa a kvadratinių nuokrypių suma,

SSe- nepaaiškinta kvadratinių nuokrypių suma arba paklaidos nuokrypių kvadrato suma.

Jei per ni nurodyti variantų skaičių kiekvienoje gradacijos klasėje (grupėje) ir a yra bendras veiksnio (grupių) gradacijų skaičius, tada yra bendras stebėjimų skaičius ir galima gauti tokias formules:

bendras kvadratinių nuokrypių skaičius: ,

paaiškinama faktoriaus įtaka a kvadratinių nuokrypių suma: ,

nepaaiškinta kvadratinių nuokrypių suma arba paklaidos nuokrypių kvadrato suma: ,

- bendras stebėjimų vidurkis,

(grupė).

Be to,

kur faktoriaus (grupės) gradacijos dispersija.

Norėdami atlikti vienpusę statistinio komplekso duomenų dispersijos analizę, turite rasti tikrąjį Fišerio santykį – dispersijos santykį, paaiškintą faktoriaus (tarpgrupės) ir nepaaiškinamos dispersijos (vidinės grupės) įtaka:

ir palyginkite ją su Fišerio kritine verte.

Nuokrypiai apskaičiuojami taip:

Paaiškinta dispersija,

Nepaaiškinama dispersija

va = a − 1 - paaiškinamos dispersijos laisvės laipsnių skaičius,

ve = na - nepaaiškinamos dispersijos laisvės laipsnių skaičius,

v = n

Fišerio santykio kritinę reikšmę su tam tikromis reikšmingumo lygio ir laisvės laipsnių reikšmėmis galima rasti statistinėse lentelėse arba apskaičiuoti naudojant MS Excel funkciją F.OBR (žemiau esantis paveikslas, jei norite jį padidinti, spustelėkite jį mygtuku kairįjį pelės mygtuką).


Funkcijai reikia įvesti šiuos duomenis:

Tikimybė – reikšmingumo lygis α ,

Degrees_freedom1 – paaiškinamos dispersijos laisvės laipsnių skaičius va,

Degrees_freedom2 – nepaaiškinamos dispersijos laisvės laipsnių skaičius ve.

Jei tikroji Fišerio santykio vertė yra didesnė už kritinę reikšmę (), tada nulinė hipotezė atmetama reikšmingumo lygmeniu α . Tai reiškia, kad veiksnys reikšmingai įtakoja duomenų pokytį ir duomenys priklauso nuo veiksnio su tikimybe P = 1 − α .

Jei tikroji Fišerio koeficiento vertė yra mažesnė už kritinę reikšmę (), tada nulinės hipotezės negalima atmesti reikšmingumo lygmeniu α . Tai reiškia, kad veiksnys neturi didelės įtakos duomenims su tikimybe P = 1 − α .

Vienpusė ANOVA: pavyzdžiai

1 pavyzdys. Būtina išsiaiškinti, ar naudojamų žaliavų rūšis turi įtakos įmonės pelnui. Šešiose faktoriaus (1 tipo, 2 tipo ir kt.) gradacijos klasėse (grupėse) renkami duomenys apie pelną iš 1000 vienetų gaminio pagaminimo milijonais rublių per 4 metus.

Žaliavos tipas2014 2015 2016 2017
1-oji7,21 7,55 7,29 7,6
2-oji7,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
4-oji7,75 7,41 7,27 7,42
5-oji7,7 8,28 8,55 8,6
6-oji7,56 8,05 8,07 7,84
Vidutinis
Sklaida
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a= 6 ir kiekvienoje klasėje (grupėje) ni=4 pastebėjimai. Bendras stebėjimų skaičius n = 24 .

Laisvės laipsnių skaičius:

va = a − 1 = 6 − 1 = 5 ,

ve = na = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Apskaičiuokime dispersijas:

.

.

Kadangi tikrasis Fišerio koeficientas yra didesnis nei kritinis:

su reikšmingumo lygiu α = 0,05 darome išvadą, kad įmonės pelnas, priklausomai nuo gamyboje naudojamų žaliavų rūšies, labai skiriasi.

Arba, kas yra tas pats, pagrindinę hipotezę apie vidurkių lygybę visose faktorių gradacijos klasėse (grupėse) atmetame.

Ką tik aptartame pavyzdyje kiekviena faktorių gradacijos klasė turėjo tiek pat parinkčių. Tačiau, kaip minėta įžanginėje dalyje, parinkčių skaičius gali skirtis. Ir tai jokiu būdu neapsunkina dispersinės analizės procedūros. Tai yra kitas pavyzdys.

2 pavyzdys. Būtina išsiaiškinti, ar produkcijos vieneto gamybos savikaina priklauso nuo įmonės padalinio dydžio. Veiksnys (vieneto dydis) skirstomas į tris gradacijos klases (grupes): mažas, vidutinis, didelis. Apibendrinami šias grupes atitinkantys duomenys apie tos pačios rūšies prekės vieneto gamybos savikainą tam tikru laikotarpiu.

mažasvidutinisdidelis
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Vidutinis58,6 54,0 51,0
Sklaida128,25 65,00 107,60

Veiksnių gradacijos klasių (grupių) skaičius a= 3, stebėjimų skaičius klasėse (grupėse) n1 = 4 , n2 = 7 , n3 = 6 . Bendras stebėjimų skaičius n = 17 .

Laisvės laipsnių skaičius:

va = a − 1 = 2 ,

ve = na = 17 − 3 = 14 ,

v = n − 1 = 16 .

Apskaičiuokime kvadratinių nuokrypių sumą:

Apskaičiuokime dispersijas:

,

.

Apskaičiuokime tikrąjį Fisher koeficientą:

.

Kritinė Fisher koeficiento vertė:

Kadangi tikroji Fišerio koeficiento reikšmė yra mažesnė už kritinę: , darome išvadą, kad įmonės padalinio dydis neturi didelės įtakos produkcijos savikainai.

Arba, kas yra tas pats, su 95% tikimybe priimame pagrindinę hipotezę, kad vidutinės tos pačios prekės vieneto gamybos sąnaudos mažuose, vidutiniuose ir dideliuose įmonės padaliniuose labai nesiskiria.

Vienpusė ANOVA programoje MS Excel

Vienpusę dispersinę analizę galima atlikti naudojant MS Excel procedūrą Vienpusė ANOVA. Jį naudojame analizuodami duomenis apie naudojamų žaliavų rūšies ir įmonės pelno ryšį iš 1 pavyzdžio.

Paslauga / duomenų analizė ir pasirinkite analizės įrankį Vienpusė ANOVA.

Lange Įvesties intervalas nurodykite duomenų sritį (mūsų atveju tai yra $A$2:$E$7). Nurodome, kaip faktorius grupuojamas – pagal stulpelius ar pagal eilutes (mūsų atveju – pagal eilutes). Jei pirmame stulpelyje yra faktorių klasių pavadinimai, pažymėkite langelį Etiketės pirmame stulpelyje. Lange Alfa nurodyti reikšmingumo lygį α = 0,05 .

Antroje lentelėje – dispersijos analizė – pateikiami duomenys apie faktoriaus reikšmes tarp grupių ir grupių viduje bei sumas. Tai yra kvadratinių nuokrypių (SS), laisvės laipsnių skaičiaus (df), dispersijos (MS) suma. Paskutiniuose trijuose stulpeliuose yra tikroji Fišerio koeficiento reikšmė (F), p-lygis (P-reikšmė) ir kritinė Fisher koeficiento reikšmė (F crit).

MS F P vertė F krit
0,58585 6,891119 0,000936 2,77285
0,085017

Kadangi tikroji Fišerio koeficiento reikšmė (6,89) yra didesnė už kritinę (2,77), su 95% tikimybe atmetame nulinę hipotezę apie vidutinio produktyvumo lygybę naudojant visų rūšių žaliavas, ty mes daryti išvadą, kad naudojamų žaliavų tipas turi įtakos pelno įmonėms.

Dviejų faktorių dispersinė analizė be pasikartojimo: metodo esmė, formulės, pavyzdys

Dviejų faktorių dispersinė analizė naudojama norint patikrinti galimą gautos charakteristikos priklausomybę nuo dviejų veiksnių - A Ir B. Tada a- faktorių gradacijų skaičius A Ir b- faktorių gradacijų skaičius B. Statistiniame komplekse likučių kvadratų suma yra padalinta į tris komponentus:

SS = SS+ SS b+ SS e,

- bendra kvadratinių nuokrypių suma,

– paaiškinama faktoriaus įtaka A kvadratinių nuokrypių suma,

– paaiškinama faktoriaus įtaka B kvadratinių nuokrypių suma,

- bendras stebėjimų vidurkis,

Stebėjimų vidurkis kiekvienoje veiksnio gradacijoje A ,

B .

A ,

Variacija paaiškinama faktoriaus įtaka B ,

va = a − 1 A ,

vb = b − 1 - dispersijos laisvės laipsnių skaičius, paaiškinamas faktoriaus įtaka B ,

ve = ( a − 1)(b − 1)

v = ab− 1 – bendras laisvės laipsnių skaičius.

Jei veiksniai nepriklauso vienas nuo kito, tada faktorių reikšmingumui nustatyti pateikiamos dvi nulinės hipotezės ir atitinkamos alternatyvios hipotezės:

už veiksnį A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : Ne visi μ iA lygus;

už veiksnį B :

H0 : μ 1B = μ 2B = ... = μ aB,

H1 : Ne visi μ iB yra lygūs.

A

Norint nustatyti veiksnio įtaką B, reikia palyginti tikrąjį Fišerio požiūrį su kritišku Fišerio požiūriu.

α P = 1 − α .

α P = 1 − α .

Dviejų krypčių ANOVA be pakartojimų: pavyzdys

3 pavyzdys. Informacija apie vidutines degalų sąnaudas 100 kilometrų litrais, priklausomai nuo variklio dydžio ir degalų tipo.

Būtina patikrinti, ar degalų sąnaudos priklauso nuo variklio dydžio ir kuro rūšies.

Sprendimas. Dėl faktoriaus A gradacijos klasių skaičius a= 3, koeficientui B gradacijos klasių skaičius b = 3 .

Apskaičiuojame kvadratinių nuokrypių sumą:

,

,

,

.

Atitinkami nuokrypiai:

,

,

.

A . Kadangi tikrasis Fišerio koeficientas yra mažesnis už kritinį, su 95% tikimybe priimame hipotezę, kad variklio dydis neturi įtakos degalų sąnaudoms. Tačiau jei pasirinksime reikšmingumo lygį α = 0,1, tada faktinė Fišerio koeficiento vertė ir tada su 95% tikimybe galime pripažinti, kad variklio tūris turi įtakos degalų sąnaudoms.

Faktinis Fišerio koeficientas B , Fišerio koeficiento kritinė vertė: . Kadangi tikrasis Fisher koeficientas yra didesnis už kritinę Fisher koeficiento reikšmę, su 95% tikimybe pripažįstame, kad kuro rūšis turi įtakos jo suvartojimui.

Dviejų krypčių ANOVA be pakartojimų MS Excel

Dviejų faktorių dispersinę analizę be pasikartojimų galima atlikti naudojant MS Excel procedūrą. Jį naudojame analizuodami 3 pavyzdžio duomenis apie degalų rūšies ir jo sąnaudų ryšį.

MS Excel meniu vykdykite komandą Paslauga / duomenų analizė ir pasirinkite analizės įrankį Dviejų krypčių ANOVA be pakartojimų.

Duomenis pildome taip pat, kaip ir vienpusės dispersinės analizės atveju.


Procedūros rezultatas yra dvi lentelės. Pirmoji lentelė yra sumos. Jame yra duomenys apie visas faktorių gradacijos klases: stebėjimų skaičius, bendra vertė, vidutinė vertė ir dispersija.

Antroje lentelėje – Analysis of Variance – pateikiami duomenys apie variacijos šaltinius: sklaida tarp eilučių, sklaida tarp stulpelių, klaidų sklaida, bendra dispersija, kvadratinių nuokrypių suma (SS), laisvės laipsniai (df), dispersija (MS). Paskutiniuose trijuose stulpeliuose yra tikroji Fišerio koeficiento reikšmė (F), p-lygis (P-reikšmė) ir kritinė Fisher koeficiento reikšmė (F crit).

MS F P vertė F krit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

veiksnys A(variklio darbinis tūris) sugrupuotas linijomis. Kadangi tikrasis Fisher koeficientas 5,28 yra mažesnis už kritinį 6,94, su 95% tikimybe pripažįstame, kad degalų sąnaudos nepriklauso nuo variklio dydžio.

veiksnys B(kuro rūšis) sugrupuojamas į stulpelius. Faktinis Fisher koeficientas 13,56 yra didesnis nei kritinis koeficientas 6,94, todėl su 95% tikimybe pripažįstame, kad degalų sąnaudos priklauso nuo jo tipo.

Dviejų faktorių dispersinė analizė su pakartojimais: metodo esmė, formulės, pavyzdys

Dviejų faktorių dispersijos analizė su pasikartojimais naudojama ne tik galimai gautos charakteristikos priklausomybei nuo dviejų veiksnių patikrinti - A Ir B, bet ir galima veiksnių sąveika A Ir B. Tada a- faktorių gradacijų skaičius A Ir b- faktorių gradacijų skaičius B, r- pakartojimų skaičius. Statistiniame komplekse likučių kvadratų suma yra padalinta į keturis komponentus:

SS = SS+ SS b+ SS ab + SS e,

- bendra kvadratinių nuokrypių suma,

– paaiškinama faktoriaus įtaka A kvadratinių nuokrypių suma,

– paaiškinama faktoriaus įtaka B kvadratinių nuokrypių suma,

- paaiškinama veiksnių sąveikos įtaka A Ir B kvadratinių nuokrypių suma,

- nepaaiškinta kvadratinių nuokrypių suma arba paklaidos nuokrypių kvadrato suma,

- bendras stebėjimų vidurkis,

- kiekvieno faktoriaus gradacijos stebėjimų vidurkis A ,

- vidutinis stebėjimų skaičius kiekvienoje veiksnio gradacijoje B ,

Vidutinis stebėjimų skaičius kiekviename faktorių gradacijų derinyje A Ir B ,

n = abr- bendras stebėjimų skaičius.

Nuokrypiai apskaičiuojami taip:

Variacija paaiškinama faktoriaus įtaka A ,

Variacija paaiškinama faktoriaus įtaka B ,

- dispersija paaiškinama veiksnių sąveika A Ir B ,

- nepaaiškinamas dispersija arba klaidų dispersija,

va = a − 1 - dispersijos laisvės laipsnių skaičius, paaiškinamas faktoriaus įtaka A ,

vb = b − 1 - dispersijos laisvės laipsnių skaičius, paaiškinamas faktoriaus įtaka B ,

vab = ( a − 1)(b − 1) - dispersijos laisvės laipsnių skaičius, paaiškinamas veiksnių sąveika A Ir B ,

ve = ab(r − 1) - nepaaiškinamos dispersijos arba paklaidos dispersijos laisvės laipsnių skaičius,

v = abr− 1 – bendras laisvės laipsnių skaičius.

Jei veiksniai nepriklauso vienas nuo kito, tada faktorių reikšmingumui nustatyti pateikiamos trys nulinės hipotezės ir atitinkamos alternatyvios hipotezės:

už veiksnį A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : Ne visi μ iA lygus;

už veiksnį B :

Nustatyti veiksnių sąveikos įtaką A Ir B, reikia palyginti tikrąjį Fišerio požiūrį su kritišku Fišerio požiūriu.

Jei tikrasis Fišerio koeficientas yra didesnis už kritinį Fišerio koeficientą, tada nulinė hipotezė turėtų būti atmesta reikšmingumo lygiu α . Tai reiškia, kad veiksnys daro didelę įtaką duomenims: duomenys priklauso nuo veiksnio su tikimybe P = 1 − α .

Jei tikrasis Fišerio koeficientas yra mažesnis už kritinį Fišerio koeficientą, tada nulinė hipotezė turėtų būti priimta reikšmingumo lygiu α . Tai reiškia, kad veiksnys neturi didelės įtakos duomenims su tikimybe P = 1 − α .

Dviejų krypčių ANOVA su pakartojimais: pavyzdys

apie veiksnių sąveiką A Ir B: Fišerio faktinis santykis yra mažesnis nei kritinis, todėl reklamos kampanijos ir konkrečios parduotuvės sąveika nėra reikšminga.

Dviejų krypčių ANOVA su pakartojimais MS Excel

Dvipusė dispersijos analizė su pakartojimais gali būti atliekama naudojant MS Excel procedūrą. Jį naudojame analizuodami duomenis apie parduotuvės pajamų ryšį su konkrečios parduotuvės pasirinkimu ir reklamine kampanija iš 4 pavyzdžio.

MS Excel meniu vykdykite komandą Paslauga / duomenų analizė ir pasirinkite analizės įrankį Dviejų krypčių ANOVA su pakartojimais.

Duomenis pildome taip pat, kaip ir atliekant dviejų faktorių dispersinę analizę be pakartojimų, pridedant, kad į imties lango eilučių skaičių reikia įvesti pakartojimų skaičių.

Procedūros rezultatas yra dvi lentelės. Pirmoji lentelė susideda iš trijų dalių: pirmosios dvi atitinka kiekvieną iš dviejų reklaminių kampanijų, trečioje – duomenys apie abi reklamines kampanijas. Lentelės stulpeliuose pateikiama informacija apie visas antrojo faktoriaus – saugyklos – gradacijos klases: stebėjimų skaičius, bendra vertė, vidutinė vertė ir sklaida.

Antroje lentelėje pateikiami duomenys apie kvadratinių nuokrypių sumą (SS), laisvės laipsnių skaičių (df), dispersiją (MS), tikrąją Fišerio koeficiento reikšmę (F), p-lygį (P-reikšmę) ir Fišerio koeficiento (F crit) kritinė reikšmė įvairiems variacijos šaltiniams: du faktoriai, kurie pateikiami eilutėmis (imtis) ir stulpeliais, veiksnių sąveika, paklaida (viduje) ir bendrieji rodikliai (iš viso).

MS F P vertė F krit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Dėl faktoriaus B Faktinis Fisher koeficientas yra didesnis nei kritinis, todėl yra 95% tikimybė, kad pajamos įvairiose parduotuvėse labai skiriasi.

Dėl veiksnių sąveikos A Ir B Fišerio faktinis santykis yra mažesnis nei kritinis, todėl su 95% tikimybe reklaminės kampanijos ir konkrečios parduotuvės sąveika nėra reikšminga.

Viskas tema "Matematinė statistika"

Šiame straipsnyje aptariama dispersijos analizė. Išanalizuoti būdingi jos taikymo bruožai, pateikti dispersinės analizės metodai, dispersinės analizės panaudojimo sąlygos. Šio metodo naudojimo poreikis buvo nustatytas ir pagrįstas. Remiantis atliktais tyrimais, pateikiami klasikinės dispersinės analizės etapai.

  • Dėl automobilių kokybės kontrolės užtikrinimo po remonto automobilių serviso įmonėse, atsižvelgiant į sertifikavimo sistemos reikalavimus
  • Informacinių technologijų diegimo logistikoje problemos Rusijos organizacijų pavyzdžiu
  • Bangų generatoriaus įrenginio efektyvumo gerinimas
  • Mokomasis ir metodinis vadovas „Žemės-Mėnulio sistema“ Moodle nuotolinio mokymosi sistemoje

Pagrindinis dispersinės analizės tikslas – ištirti skirtumų tarp vidurkių reikšmę. Jei tiesiog lyginate dviejų imčių vidurkius, dispersijos analizė duos tokį patį rezultatą kaip ir įprasta analizė. t- nepriklausomų imčių testas (tai yra, jei lyginamos dvi nepriklausomos objektų ar stebėjimų grupės) arba priklausomų imčių t testas (tai yra, jei lyginami du kintamieji tame pačiame objektų ar stebėjimų rinkinyje).

Dispersijos analizė turi tokį pavadinimą dėl tam tikrų veiksnių. Gali pasirodyti keista, kad vidurkių palyginimo procedūra vadinama dispersine analize. Iš tikrųjų taip yra todėl, kad tirdami dviejų (ar daugiau) grupių vidurkių skirtumo statistinį reikšmingumą, iš tikrųjų lyginame (ty analizuojame) imties dispersijas. Pagrindinę dispersinės analizės koncepciją Fisheris pasiūlė 1920 m. Galbūt natūralesnis terminas būtų kvadratų sumos analizė arba variacijos analizė, tačiau dėl tradicijos vartojamas dispersijos analizės terminas.

Dispersinė analizė – matematinės statistikos metodas, kurio tikslas – ieškoti priklausomybių eksperimentiniuose duomenyse, tiriant vidutinių verčių skirtumų reikšmingumą. Skirtingai nuo t testo, jis leidžia palyginti trijų ar daugiau grupių vidutines vertes. Parengė R. Fischer eksperimentinių tyrimų rezultatams analizuoti. Literatūroje taip pat randamas pavadinimas ANOVA. Klaidos analizė).

Atliekant rinkos tyrimus, dažnai iškyla rezultatų palyginamumo klausimas. Pavyzdžiui, atliekant prekės vartojimo tyrimus skirtinguose šalies regionuose, reikia padaryti išvadas, kiek tyrimo duomenys skiriasi ar nesiskiria vienas nuo kito. Nėra prasmės lyginti atskirus rodiklius, todėl palyginimo ir vėlesnio vertinimo procedūra atliekama naudojant kai kurias vidutines vertes ir nukrypimus nuo šio vidurkio. Tiriamas bruožo kitimas. Dispersija gali būti laikoma variacijos matu. Sklaida σ 2 yra kitimo matas, apibrėžiamas kaip charakteristikos kvadrato nuokrypių vidurkis.

Praktikoje dažnai iškyla bendresnio pobūdžio problemos – kelių imties populiacijų vidurkių skirtumų reikšmingumo tikrinimo problema. Pavyzdžiui, reikia įvertinti įvairių žaliavų įtaką gaminamos produkcijos kokybei, išspręsti trąšų kiekio įtakos žemės ūkio derlingumui problemą. Produktai.

Kartais dispersijos analizė naudojama kelių populiacijų homogeniškumui nustatyti (šių populiacijų dispersijos yra vienodos pagal prielaidą; jei dispersijos analizė rodo, kad matematiniai lūkesčiai yra vienodi, tai šia prasme populiacijos yra vienalytės). Vienarūšes populiacijas galima sujungti į vieną ir taip gauti išsamesnę informaciją apie ją, taigi ir patikimesnes išvadas.

Variacijos metodų analizė

  1. Fisher metodas – F testas; Metodas naudojamas vienpusėje dispersijos analizėje, kai bendra visų stebimų verčių dispersija išskaidoma į dispersiją atskirų grupių viduje ir dispersiją tarp grupių.
  2. „Bendrojo linijinio modelio“ metodas. Jis pagrįstas koreliacijos arba regresijos analize, naudojama daugiamatėje analizėje.

Vieno veiksnio dispersijos modelis turi tokią formą: x ij = μ + F j + ε ij ,
čia x ij – tiriamojo kintamojo reikšmė, gauta i-tajame koeficiento lygyje (i=1,2,...,t) su j-uoju eilės numeriu (j=1,2,. ..,n); F i – veiksnio i-ojo lygio įtakos sukeliamas poveikis; ε ij – atsitiktinė dedamoji, arba sutrikimas, sukeltas nekontroliuojamų veiksnių įtakos, t.y. skirtumai tam tikrame lygyje.

Paprasčiausias dispersinės analizės atvejis yra vienmatė vienpusė dviejų ar daugiau nepriklausomų grupių analizė, kai visos grupės sujungiamos pagal vieną požymį. Analizės metu tikrinama vidurkių lygybės nulinė hipotezė. Analizuojant dvi grupes, dispersijos analizė yra identiška dviejų imčių analizei t-Studento nepriklausomų mėginių testas ir vertė F-statistika yra lygi atitinkamos kvadratui t- statistika.

Dispersijų lygybei patvirtinti dažniausiai naudojamas Lievene kriterijus ( Levene testas). Jei dispersijų lygybės hipotezė atmetama, pagrindinė analizė netaikoma. Jei dispersijos yra lygios, tada, norėdami įvertinti tarpgrupinio ir vidinio kintamumo santykį, naudojame F– Fišerio kriterijus F-statistika viršija kritinę reikšmę, tada nulinė hipotezė atmetama ir daroma išvada apie vidurkių nelygybę. Analizuojant dviejų grupių vidurkius, rezultatus galima interpretuoti iš karto pritaikius Fišerio testą.

Daug veiksnių. Pasaulis yra sudėtingas ir daugialypis. Situacijos, kai tam tikras reiškinys visiškai apibūdinamas vienu kintamuoju, yra itin retos. Pavyzdžiui, jei bandome išmokti auginti didelius pomidorus, turėtume atsižvelgti į veiksnius, susijusius su augalo genetine struktūra, dirvožemio tipu, šviesa, temperatūra ir kt. Taigi, atliekant tipinį eksperimentą, tenka susidurti su daugybe veiksnių. Pagrindinė priežastis, kodėl geriau naudoti ANOVA, o ne pakartotinai lyginti du mėginius skirtingais faktorių lygiais naudojant serijas t- kriterijus yra tas, kad dispersijos analizė yra žymiai daugiau efektyvus o mažiems pavyzdžiams – informatyvesni. Turite šiek tiek pasistengti, kad įsisavintumėte ANOVA techniką, įdiegtą STATISTICA, ir patirtumėte visą jos naudą konkrečiuose tyrimuose.

Dviejų veiksnių dispersijos modelis turi tokią formą:

x ijk =μ+F i +G j +I ij +ε ijk ,

čia x ijk yra stebėjimo reikšmė langelyje ij su skaičiumi k; μ - bendras vidurkis; F i - efektas, kurį sukelia A faktoriaus i-ojo lygio įtaka; G j - efektas, kurį sukelia B faktoriaus j-ojo lygio įtaka; I ij – dviejų veiksnių sąveikos sukeltas poveikis, t.y. nuokrypis nuo stebėjimo vidurkio langelyje ij nuo pirmųjų trijų modelio narių sumos; ε ijk yra sutrikimas, kurį sukelia kintamojo kitimas vienoje ląstelėje. Daroma prielaida, kad ε ijk turi normalaus skirstinio dėsnį N(0; c 2), o visi matematiniai lūkesčiai F *, G *, I i *, I * j yra lygūs nuliui.

Yra sąlygos naudoti dispersinę analizę:

  1. Tyrimo tikslas – nustatyti vieno (iki 3) faktoriaus įtakos rezultatui stiprumą arba nustatyti įvairių veiksnių (lyties ir amžiaus, fizinio aktyvumo ir mitybos ir kt.) bendros įtakos stiprumą.
  2. Tiriami veiksniai turi būti nepriklausomi (nesusiję) vienas su kitu. Pavyzdžiui, neįmanoma ištirti bendros darbo patirties ir amžiaus, vaikų ūgio ir svorio įtakos ir kt. apie gyventojų sergamumą.
  3. Grupių atranka tyrimui vykdoma atsitiktine tvarka (atsitiktinė atranka). Dispersinio komplekso organizavimas, įgyvendinant atsitiktinumo principą pasirenkant variantus, vadinamas randomizavimu (išvertus iš anglų kalbos – atsitiktinis), t.y. pasirinkta atsitiktinai.
  4. Galima naudoti tiek kiekybines, tiek kokybines (atributines) charakteristikas.

Atliekant vienpusę dispersijos analizę, rekomenduojama (būtina naudojimo sąlyga):

  1. Nagrinėjamų grupių pasiskirstymo normalumas arba imties grupių atitikimas bendroms populiacijoms su normaliu pasiskirstymu.
  2. Stebėjimų pasiskirstymo grupėse nepriklausomumas (ne giminingumas).
  3. Stebėjimų dažnumo (pasikartojimo) prieinamumas.

Pasiskirstymo normalumą lemia Gauso kreivė (De Mavoor), kurią galima apibūdinti funkcija y = f (x), nes tai yra vienas iš pasiskirstymo dėsnių, naudojamų aproksimuoti atsitiktinių, tikimybinių reiškinių aprašymą. gamtoje. Biomedicininių tyrimų objektas yra tikimybiniai reiškiniai, atliekant tokius tyrimus gana dažnai.

Klasikinė dispersinė analizė atliekama šiais etapais:

  1. Dispersinio komplekso statyba.
  2. Vidutinių kvadratinių nuokrypių skaičiavimas.
  3. Dispersijos skaičiavimas.
  4. Veiksnių ir liekamųjų dispersijų palyginimas.
  5. Rezultatų įvertinimas naudojant teorines Fisher-Snedecor skirstinio reikšmes
  6. Šiuolaikinės dispersinės analizės taikymas apima platų ekonomikos, biologijos ir technologijų problemų spektrą ir dažniausiai aiškinamas remiantis statistine teorija, nustatančia sisteminius skirtumus tarp tiesioginių matavimų, atliktų tam tikromis kintančiomis sąlygomis, rezultatų.
  7. Dispersinės analizės automatizavimo dėka tyrėjas gali atlikti įvairius statistinius tyrimus kompiuteriu, skirdamas mažiau laiko ir pastangų duomenų skaičiavimui. Šiuo metu yra daug taikomosios programinės įrangos paketų, kuriuose įdiegtas dispersijos analizės aparatas. Labiausiai paplitę programinės įrangos produktai yra: MS Excel, Statistica; Stadia; SPSS.

Dauguma statistikos metodų yra įdiegti šiuolaikiniuose statistikos programinės įrangos produktuose. Sukūrus algoritminio programavimo kalbas, atsirado galimybė kurti papildomus blokus statistiniams duomenims apdoroti.

Dispersinė analizė yra galingas šiuolaikinis statistinis metodas, skirtas psichologijos, biologijos, medicinos ir kitų mokslų eksperimentiniams duomenims apdoroti ir analizuoti. Tai labai glaudžiai susijusi su specifine eksperimentinių tyrimų projektavimo ir vykdymo metodika.

Dispersinė analizė taikoma visose mokslinių tyrimų srityse, kur būtina išanalizuoti įvairių veiksnių įtaką tiriamam kintamajam.

Bibliografija

  1. Ableeva, A. M. Vertinimo priemonių fondo formavimas federalinio valstybinio išsilavinimo standarto sąlygomis [Tekstas] / A. M. Ableeva, G. A. Salimova // Aktualios socialinių, humanitarinių, gamtos mokslų ir techninių disciplinų mokymo problemos aukštųjų mokyklų modernizavimo kontekste išsilavinimas: medžiaga tarptautinė mokslinė ir metodinė konferencija, 2014 m. balandžio 4-5 d. / Baškirijos valstybinis agrarinis universitetas, Informacinių technologijų ir vadybos fakultetas. - Ufa, 2014. - 11-14 p.
  2. Ganieva, A.M. Statistinė užimtumo ir nedarbo analizė [Tekstas] / A.M. Ganieva, T.N. Lubova // Ekonominių-statistinių tyrimų ir informacinių technologijų aktualijos: straipsnių rinkinys. mokslinis Art.: skirtas 40-osioms „Ekonomikos statistikos ir informacinių sistemų“ katedros / Baškirijos valstybinio agrarinio universiteto įkūrimo metinėms. - Ufa, 2011. - 315-316 p.
  3. Ismagilov, R. R. Kūrybinė grupė – efektyvi mokslinių tyrimų organizavimo forma aukštajame moksle [Tekstas] / R. R. Ismagilov, M. Kh Urazlin, D. R. Islamgulov // Regiono moksliniai, techniniai ir moksliniai edukaciniai kompleksai: problemos ir plėtros perspektyvos. mokslinės-praktinės konferencijos medžiaga / Baltarusijos Respublikos mokslų akademija, UGATU. - Ufa, 1999. - P. 105-106.
  4. Islamgulovas, D.R. Kompetencijomis pagrįstas požiūris į mokymą: ugdymo kokybės vertinimas [Tekstas] / D.R. Islamgulovas, T.N. Lubova, I.R. Islamgulova // Šiuolaikinis mokslo biuletenis. – 2015. – T. 7. – Nr.1. – P. 62-69.
  5. Islamgulov, D. R. Studentų tiriamasis darbas yra svarbiausias specialistų rengimo elementas žemės ūkio universitete [Tekstas] / D. R. Islamgulov // Studentų praktinio rengimo problemos universitete dabartiniame etape ir jų sprendimo būdai: rinkimas. medžiagų mokslinis-metodas. Konf., 2007 m. balandžio 24 d. / Baškirijos valstybinis agrarinis universitetas. - Ufa, 2007. - 20-22 p.
  6. Lubova, T.N. Federalinės valstijos švietimo standarto įgyvendinimo pagrindas yra kompetencija pagrįstas požiūris [Tekstas] / T.N. Lubova, D.R. Islamgulovas, I.R. Islamgulova// BIG RESEARCH - 2016: Medžiaga XII tarptautinei mokslinei ir praktinei konferencijai, 2016 m. vasario 15-22 d. - Sofija: Byal GRAD-BG OOD, 2016. - 4 tomas Pedagogikos mokslai. – 80-85 p.
  7. Lubova, T.N. Nauji švietimo standartai: įgyvendinimo ypatybės [Tekstas] / T.N. Lubova, D.R. Islamgulovas // Šiuolaikinis mokslo biuletenis. – 2015. – T. 7. – Nr.1. – P. 79-84.
  8. Lubova, T.N. Savarankiško studentų darbo organizavimas [Tekstas] / T.N. Lubova, D.R. Islamgulovas // Aukštojo mokslo švietimo programų įgyvendinimas pagal federalinį valstybinį aukštojo mokslo standartą: visos Rusijos mokslinės ir metodinės konferencijos medžiaga, vykstanti Nacionalinės medicinos tarybos aplinkosaugos ir vandens klausimais posėdžio metu. Federalinės švietimo institucijos naudojimas aukštojo mokslo sistemoje. / Baškirijos valstybinis agrarinis universitetas. - Ufa, 2016. - 214-219 p.
  9. Lubova, T.N. Federalinės valstijos švietimo standarto įgyvendinimo pagrindas yra kompetencija pagrįstas požiūris [Tekstas] / T.N. Lubova, D.R. Islamgulovas, I.R. Islamgulova // Šiuolaikinis mokslo biuletenis. – 2015. – T. 7. – Nr.1. – P. 85-93.
  10. Saubanova, L.M. Demografinės apkrovos lygis [Tekstas] / L.M. Saubanova, T.N. Lubova // Ekonominių-statistinių tyrimų ir informacinių technologijų aktualijos: straipsnių rinkinys. mokslinis Art.: skirtas 40-osioms „Ekonomikos statistikos ir informacinių sistemų“ katedros / Baškirijos valstybinio agrarinio universiteto įkūrimo metinėms. - Ufa, 2011. - 321-322 p.
  11. Fachrullina, A.R. Statistinė infliacijos Rusijoje analizė [Tekstas] / A.R. Fachrullina, T.N. Lubova // Ekonominių-statistinių tyrimų ir informacinių technologijų aktualijos: straipsnių rinkinys. mokslinis Art.: skirtas 40-osioms „Ekonomikos statistikos ir informacinių sistemų“ katedros / Baškirijos valstybinio agrarinio universiteto įkūrimo metinėms. - Ufa, 2011. - 323-324 p.
  12. Farkhutdinova, A.T. Darbo rinka Baškirijos Respublikoje 2012 m. [Elektroninis išteklius] / A.T. Farkhutdinova, T.N. Lubova // Studentų mokslinis forumas. V tarptautinės studentų elektroninės mokslinės konferencijos medžiaga: elektroninė mokslinė konferencija (elektroninis rinkinys). Rusijos gamtos mokslų akademija. 2013 m.

Dispersijos analizė

1. Dispersinės analizės samprata

Dispersijos analizė yra bruožo kintamumo analizė, veikiant bet kokiems kontroliuojamiems kintamiems veiksniams. Užsienio literatūroje dispersijos analizė dažnai vadinama ANOVA, kuri verčiama kaip kintamumo analizė (Analysis of Variance).

ANOVA problema susideda iš kitokio pobūdžio kintamumo išskyrimo nuo bendro bruožo kintamumo:

a) kintamumas dėl kiekvieno tiriamo nepriklausomo kintamojo veikimo;

b) kintamumas dėl tiriamų nepriklausomų kintamųjų sąveikos;

c) atsitiktinis kintamumas dėl visų kitų nežinomų kintamųjų.

Kintamumas dėl tiriamų kintamųjų veikimo ir jų sąveikos koreliuoja su atsitiktiniu kintamumu. Šio ryšio rodiklis yra Fišerio F testas.

F kriterijaus skaičiavimo formulė apima dispersijų įverčius, tai yra charakteristikos pasiskirstymo parametrus, todėl F kriterijus yra parametrinis kriterijus.

Kuo didesnis požymio kintamumas dėl tiriamų kintamųjų (veiksnių) ar jų sąveikos, tuo didesnis empirinių kriterijų reikšmės.

Nulis dispersijos analizės hipotezė teigs, kad tiriamos efektyvios charakteristikos vidutinės reikšmės visose gradacijose yra vienodos.

Alternatyva hipotezėje bus teigiama, kad gautos charakteristikos vidutinės vertės skirtingose ​​tiriamojo veiksnio gradacijose yra skirtingos.

Dispersijos analizė leidžia teigti charakteristikos pokytį, bet nenurodo kryptisšiuos pokyčius.

Dispersinės analizės svarstymą pradėkime nuo paprasčiausio atvejo, kai veiksmas tik vienas kintamasis (vienas veiksnys).

2. Vienpusė nesusijusių imčių dispersinė analizė

2.1. Metodo tikslas

Vienfaktorinės dispersinės analizės metodas taikomas tais atvejais, kai efektyvios charakteristikos pokyčiai tiriami kintančių sąlygų ar veiksnio gradacijų įtakoje. Šioje metodo versijoje kiekvienos veiksnio gradacijos įtaka yra skirtinga tiriamųjų pavyzdžių. Turi būti bent trys faktoriaus gradacijos. (Gali būti dvi gradacijos, bet tokiu atveju mes negalėsime nustatyti netiesinių priklausomybių ir atrodo protingiau naudoti paprastesnes).

Neparametrinė šio tipo analizės versija yra Kruskal-Wallis H testas.

Hipotezės

H 0: Skirtumai tarp faktorių laipsnių (skirtingų sąlygų) yra ne didesni už atsitiktinius skirtumus kiekvienoje grupėje.

H 1: Skirtumai tarp faktorių laipsnių (skirtingų sąlygų) yra didesni nei atsitiktiniai skirtumai kiekvienoje grupėje.

2.2. Nesusijusių mėginių vienpusės dispersijos analizės apribojimai

1. Vienpusei dispersijos analizei reikia bent trijų faktoriaus gradacijų ir bent dviejų dalykų kiekvienoje gradacijoje.

2. Gauta charakteristika turi būti normaliai pasiskirstyta tiriamame mėginyje.

Tiesa, dažniausiai nenurodoma, ar kalbame apie charakteristikos pasiskirstymą visoje tiriamoje imtyje, ar toje jos dalyje, kuri sudaro sklaidos kompleksą.

3. Problemos sprendimo, naudojant nesusijusių imčių vienpusės dispersinės analizės metodą, pavyzdys, naudojant pavyzdį:

Trims skirtingoms šešių dalykų grupėms buvo pateikti dešimties žodžių sąrašai. Pirmajai grupei žodžiai buvo pateikiami mažu greičiu – 1 žodis per 5 sekundes, antrajai grupei – vidutiniu greičiu – 1 žodis per 2 sekundes, o trečiajai – dideliu greičiu – 1 žodis per sekundę. Buvo prognozuojama, kad atgaminimo efektyvumas priklausys nuo žodžio pateikimo greičio. Rezultatai pateikti lentelėje. 1.

Atkurtų žodžių skaičius 1 lentelė

Dalyko Nr.

mažas greitis

Vidutinis greitis

didelis greitis

visas kiekis

H 0: žodžių gamybos apimties skirtumai tarp grupės nėra ryškesnės už atsitiktinius skirtumus viduje kiekvienai grupei.

H1: Žodžių gamybos apimties skirtumai tarp grupės yra ryškesnės nei atsitiktiniai skirtumai viduje kiekvienai grupei. Naudojant eksperimentines vertes, pateiktas lentelėje. 1, nustatysime kai kurias vertes, kurios bus reikalingos F kriterijui apskaičiuoti.

Pagrindinių dydžių apskaičiavimas vienpusei dispersinei analizei pateiktas lentelėje:

2 lentelė

3 lentelė

Operacijų seka nesusijusių imčių vienpusėje dispersijos analizėje

Šioje ir tolesnėse lentelėse dažnai randamas pavadinimas SS yra „kvadratų sumos“ santrumpa. Ši santrumpa dažniausiai naudojama verčiamuose šaltiniuose.

SS faktas reiškia charakteristikos kintamumą dėl tiriamo veiksnio veikimo;

SS apskritai- bendras bruožo kintamumas;

S C.A.-kintamumas dėl neatsižvelgtų veiksnių, „atsitiktinis“ arba „liekamasis“ kintamumas.

MS- „vidutinis kvadratas“ arba matematinis kvadratų sumos lūkestis, atitinkamo SS vidutinė vertė.

df - laisvės laipsnių skaičius, kurį, atsižvelgdami į neparametrinius kriterijus, pažymėjome graikiška raide v.

Išvada: H 0 atmetamas. H 1 yra priimtas. Žodžių prisiminimo skirtumai tarp grupių buvo didesni nei atsitiktiniai skirtumai kiekvienoje grupėje (α=0,05). Taigi žodžių pateikimo greitis turi įtakos jų atkūrimo apimtims.

Toliau pateikiamas problemos sprendimo Excel programoje pavyzdys:

Pradiniai duomenys:

Naudodami komandą: Tools->Data Analysis->One-way ANOVA, gauname šiuos rezultatus:

Vienpusė dispersinė analizė.

Dispersinės analizės samprata ir modeliai.

13 tema. Dispersinė analizė

Paskaita 1. Klausimai:

Dispersinė analizė, kaip tyrimo metodas, atsirado R. Fischerio (1918-1935) darbuose, susijusiuose su žemės ūkio tyrimais, siekiant nustatyti sąlygas, kuriomis tiriama žemės ūkio kultūrų veislė duoda didžiausią derlių. Dispersijos analizė buvo toliau plėtojama Yeatso darbuose. Dispersijos analizė leidžia atsakyti į klausimą, ar tam tikri veiksniai turi reikšmingos įtakos faktoriaus kintamumui, kurio reikšmes galima gauti iš patirties. Tikrinant statistines hipotezes, daroma prielaida, kad tiriamų veiksnių atsitiktinės variacijos. Dispersijos analizėje tam tikru būdu pakeičiamas vienas ar keli veiksniai ir šie pokyčiai gali turėti įtakos stebėjimų rezultatams. Tokios įtakos tyrimas yra dispersinės analizės tikslas.

Šiuo metu dispersinė analizė vis plačiau naudojama ekonomikos, sociologijos, biologijos ir kt. srityse, ypač atsiradus programinei įrangai, kuri pašalino statistinių skaičiavimų sudėtingumo problemas.

Praktinėje veikloje įvairiose mokslo srityse dažnai susiduriame su būtinybe įvertinti įvairių veiksnių įtaką tam tikriems rodikliams. Dažnai šie veiksniai yra kokybinio pobūdžio (pavyzdžiui, kokybinis veiksnys, turintis įtakos ekonominiam efektui, gali būti naujos gamybos valdymo sistemos įdiegimas), tada dispersijos analizė įgauna ypatingą vertę, nes ji tampa vieninteliu statistiniu tyrimo metodu, suteikiančiu toks įvertinimas.

Dispersijos analizė leidžia nustatyti, ar vienas ar kitas nagrinėjamas veiksnys turi reikšmingos įtakos požymio kintamumui, taip pat kiekybiškai įvertinti kiekvieno kintamumo šaltinio „specifinį svorį“ jų visumoje. Tačiau dispersijos analizė leidžia teigiamai atsakyti tik apie reikšmingos įtakos buvimą, kitaip klausimas lieka atviras ir reikalauja papildomų tyrimų (dažniausiai eksperimentų skaičiaus padidėjimas).

Dispersijos analizėje vartojami šie terminai.

Faktorius (X) yra kažkas, kas, mūsų manymu, turėtų turėti įtakos rezultatui (veiksmingoji savybė) Y.

Veiksnio lygis (arba apdorojimo būdas, kartais pažodžiui, pavyzdžiui, žemės dirbimo būdas) - reikšmės (X, i = 1,2,...I), kurias gali priimti faktorius.

Atsakymas – išmatuotos charakteristikos reikšmė (rezultato vertė Y).

ANOVA metodas skiriasi priklausomai nuo tiriamų nepriklausomų veiksnių skaičiaus. Jei veiksniai, sukeliantys charakteristikos vidutinės reikšmės kintamumą, priklauso vienam šaltiniui, tai turime paprastą grupavimą arba vienfaktorinę dispersinę analizę ir atitinkamai dvigubą grupavimą – dviejų faktorių dispersinę analizę, trijų faktorių. dispersijos analizė, ..., m faktorius. Daugiamatėje analizėje faktoriai dažniausiai žymimi lotyniškomis raidėmis: A, B, C ir kt.



Dispersinės analizės užduotis yra ištirti tam tikrų veiksnių (arba veiksnių lygių) įtaką stebimų atsitiktinių dydžių vidutinių verčių kintamumui.

Dispersinės analizės esmė. Dispersijos analizė susideda iš atskirų veiksnių, sukeliančių kintamumą, išskyrimo ir įvertinimo. Šiuo tikslu bendra stebimos dalinės populiacijos dispersija (bendra požymio dispersija), kurią sukelia visi kintamumo šaltiniai, išskaidoma į nepriklausomų veiksnių generuojamus dispersijos komponentus. Kiekvienas iš šių komponentų pateikia dispersijos , ,..., kurią sukelia tam tikras kintamumo šaltinis, įvertinimą visoje populiacijoje. Norint patikrinti šių komponentų dispersijos įverčių reikšmingumą, jie lyginami su visa populiacijos dispersija (Fišerio testas).

Pavyzdžiui, dviejų faktorių analizėje gauname formos skaidymą:

Suminė tiriamo požymio C dispersija;

Dispersijos dalis, kurią sukelia faktoriaus A įtaka;

Dispersijos dalis, kurią sukelia faktoriaus B įtaka;

A ir B faktorių sąveikos sukeltos dispersijos dalis;

Dispersijos dalis, kurią sukelia neatsitiktinės priežastys (atsitiktinė dispersija);

Dispersijos analizėje svarstoma hipotezė: H 0 - nė vienas iš nagrinėjamų veiksnių neturi įtakos požymio kintamumui. Kiekvienos dispersijos įverčio reikšmingumas tikrinamas pagal jo santykio su atsitiktinės dispersijos įverčio verte ir lyginamas su atitinkama kritine reikšme reikšmingumo lygyje a, naudojant Fisher-Snedecor F skirstinio kritinių verčių lenteles (4 priedas). . Hipotezė H 0 dėl vienokio ar kitokio kintamumo šaltinio atmetama, jei apskaičiuojamas F. >F kr. (pvz. faktoriui B: S B 2 /S ε 2 >F kr.).

Dispersijos analizė apima 3 tipų eksperimentus:

a) eksperimentai, kuriuose visi veiksniai turi sisteminius (fiksuotus) lygius;

b) eksperimentai, kuriuose visi veiksniai turi atsitiktinius lygius;

c) eksperimentai, kuriuose yra faktorių, turinčių atsitiktinius lygius, taip pat veiksnių, turinčių fiksuotus lygius.

Atvejai a), b), c) atitinka tris modelius, kurie nagrinėjami dispersijos analizėje.

Pradiniai dispersijos analizės duomenys paprastai pateikiami šios lentelės forma:

Stebėjimo numeris j Faktorių lygiai
A 1 A 2 A r
X 11 X 21 X p1
X 12 X 22 Xp2
X 13 X 23 X p3
. . .
. . .
. . .
n X 1n X2n Xpn
REZULTATAI

Apsvarstykite vienetinį koeficientą, kuris užima p skirtingų lygių, ir manykite, kad kiekviename lygyje atliekama n stebėjimų, gaudami N=np stebėjimų. (Mes apsiribosime svarstydami pirmąjį dispersinės analizės modelį – visi veiksniai turi fiksuotus lygius.)

Tegu rezultatai pateikiami forma X ij (i=1,2…,р; j=1,2,…,n).

Daroma prielaida, kad kiekvienam n stebėjimų lygiui yra vidurkis, lygus bendro vidurkio ir jo kitimo dėl pasirinkto lygio sumai:

čia m yra bendras vidurkis;

A i - veiksnio i – m lygio sukeltas efektas;

e ij – rezultatų kitimas individualaus faktoriaus lygyje. Terminas e ij atsižvelgia į visus nekontroliuojamus veiksnius.

Tegul stebėjimai fiksuoto faktoriaus lygyje paprastai pasiskirsto aplink vidurkį m + A i su bendra dispersija s 2 .

Tada (taškas vietoj indekso žymi atitinkamų stebėjimų per šį indeksą vidurkį):

A.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

Pastatę abi lygties puses kvadratu ir susumavus i ir j, gauname:

nuo, bet

Kitu atveju kvadratų sumą galima užrašyti: S = S 1 + S 2. S 1 reikšmė apskaičiuojama iš p vidurkių nuokrypių nuo bendro vidurkio X.., todėl S 1 turi (p-1) laisvės laipsnius. S 2 reikšmė apskaičiuojama iš N stebėjimų nuokrypių nuo p imties vidurkių ir todėl turi N-р = np - p=p(n-1) laisvės laipsnius. S turi (N-1) laisvės laipsnius. Remiantis skaičiavimo rezultatais, sudaroma dispersinės analizės lentelė.

ANOVA lentelė

Jei hipotezė, kad visų lygių įtaka yra vienoda, yra teisinga, tada ir M 1, ir M 2 (vidutiniai kvadratai) bus nešališki s 2 įverčiai. Tai reiškia, kad hipotezę galima patikrinti apskaičiavus santykį (M 1 / M 2) ir palyginus su F kr. su ν 1 = (p-1) ir ν 2 = (N-p) laisvės laipsniais.

Jei F apskaičiavo >F kr. , tuomet hipotezė apie nereikšmingą faktoriaus A įtaką stebėjimų rezultatui nepriimama.

Įvertinti skirtumų reikšmę F apskaičiav. F lentelė apskaičiuoti:

a) eksperimentinė klaida

b) vidurkių skirtumo paklaida

c) mažiausias reikšmingas skirtumas

Palyginus variantų vidutinių verčių skirtumus su NSR, jie daro išvadą, kad vidurkių lygio skirtumai yra reikšmingi.

komentuoti. Naudojant dispersinę analizę daroma prielaida, kad:

2) D(ε ij)=σ 2 = const,

3) ε ij → N (0, σ) arba x ij → N (a, σ).

Dispersijos analizė

Kursinis darbas disciplinoje: „Sistemų analizė“

Atlikėjas studentas gr. 99 ISE-2 Zhbanov V.V.

Orenburgo valstybinis universitetas

Informacinių technologijų fakultetas

Taikomosios informatikos katedra

Orenburgas-2003 m

Įvadas

Darbo tikslas: susipažinti su tokiu statistiniu metodu kaip dispersinė analizė.

Dispersinė analizė (iš lot. Dispersio – dispersija) yra statistinis metodas, leidžiantis analizuoti įvairių veiksnių įtaką tiriamam kintamajam. Metodą 1925 metais sukūrė biologas R. Fischeris ir iš pradžių buvo naudojamas augalininkystės eksperimentams įvertinti. Vėliau išaiškėjo bendra mokslinė dispersinės analizės reikšmė psichologijos, pedagogikos, medicinos ir kt. eksperimentams.

Dispersinės analizės tikslas – patikrinti skirtumų tarp vidurkių reikšmingumą, lyginant dispersijas. Matuojamos charakteristikos dispersija išskaidoma į nepriklausomus terminus, kurių kiekvienas apibūdina konkretaus veiksnio įtaką arba jų sąveiką. Vėlesnis tokių terminų palyginimas leidžia įvertinti kiekvieno tiriamo veiksnio bei jų derinio reikšmingumą /1/.

Jei nulinė hipotezė (kad vidurkiai yra lygūs keliose stebėjimų grupėse, atrinktose iš populiacijos) yra teisinga, dispersijos, susijusios su kintamumu grupės viduje, įvertinimas turėtų būti artimas dispersijos tarp grupių įvertinimui.

Atliekant rinkos tyrimus, dažnai iškyla rezultatų palyginamumo klausimas. Pavyzdžiui, atliekant prekės vartojimo tyrimus skirtinguose šalies regionuose, reikia padaryti išvadas, kiek tyrimo duomenys skiriasi ar nesiskiria vienas nuo kito. Nėra prasmės lyginti atskirus rodiklius, todėl palyginimo ir vėlesnio vertinimo procedūra atliekama naudojant kai kurias vidutines vertes ir nukrypimus nuo šio vidurkio. Tiriamas bruožo kitimas. Dispersija gali būti laikoma variacijos matu. Sklaida σ 2 yra kitimo matas, apibrėžiamas kaip charakteristikos kvadrato nuokrypių vidurkis.

Praktikoje dažnai iškyla bendresnio pobūdžio problemos – kelių imties populiacijų vidurkių skirtumų reikšmingumo tikrinimo problema. Pavyzdžiui, reikia įvertinti įvairių žaliavų įtaką gaminamos produkcijos kokybei, išspręsti trąšų kiekio įtakos žemės ūkio produkcijos derlingumui problemą.

Kartais dispersijos analizė naudojama kelių populiacijų homogeniškumui nustatyti (šių populiacijų dispersijos yra vienodos pagal prielaidą; jei dispersijos analizė rodo, kad matematiniai lūkesčiai yra vienodi, tai šia prasme populiacijos yra vienalytės). Vienarūšes populiacijas galima sujungti į vieną ir taip gauti išsamesnę informaciją apie ją, taigi ir patikimesnes išvadas /2/.

1 Dispersijos analizė

1.1 Pagrindinės dispersinės analizės sąvokos

Stebint tiriamą objektą kokybiniai veiksniai kinta savavališkai arba tam tikru būdu. Konkretus veiksnio įgyvendinimas (pavyzdžiui, tam tikras temperatūros režimas, pasirinkta įranga ar medžiaga) vadinamas faktoriaus lygiu arba apdorojimo būdu. Dispersinio modelio analizė su fiksuotais veiksnių lygiais vadinamas I modeliu, modelis su atsitiktiniais veiksniais vadinamas II modeliu. Keičiant veiksnį galima ištirti jo įtaką atsako dydžiui. Šiuo metu I modeliams sukurta bendroji dispersinės analizės teorija.

Priklausomai nuo veiksnių, lemiančių gautos charakteristikos kitimą, skaičiaus, dispersijos analizė skirstoma į vienfaktorinę ir daugiafaktorę.

Pagrindinės šaltinio duomenų suskirstymo pagal du ar daugiau veiksnių schemos yra šios:

Kryžminė klasifikacija, būdinga I modeliams, kurioje, planuojant eksperimentą su kiekviena kito faktoriaus gradacija, derinamas kiekvienas vieno veiksnio lygis;

Hierarchinė (klasterinė) klasifikacija, būdinga II modeliui, kurioje kiekviena atsitiktinai, atsitiktinai parinkta vieno veiksnio reikšmė atitinka savo antrojo faktoriaus reikšmių poaibį.

Jei vienu metu tiriama atsako priklausomybė nuo kokybinių ir kiekybinių veiksnių, t.y. mišraus pobūdžio veiksniai, tada naudojama kovariacinė analizė /3/.

Taigi šie modeliai skiriasi tuo, kaip pasirenka faktorių lygius, o tai akivaizdžiai pirmiausia turi įtakos galimybei apibendrinti gautus eksperimentinius rezultatus. Vieno veiksnio eksperimentų ANOVA skirtumas tarp šių dviejų modelių nėra toks reikšmingas, tačiau daugiamatėje ANOVA jis gali būti gana svarbus.

Atliekant dispersijos analizę, turi būti laikomasi šių statistinių prielaidų: nepriklausomai nuo faktoriaus lygio, atsako reikšmės turi normalų (Gauso) pasiskirstymo dėsnį ir tą pačią dispersiją. Ši dispersijų lygybė vadinama homogeniškumu. Taigi apdorojimo metodo pokytis turi įtakos tik atsitiktinio atsako kintamojo, kuriam būdinga vidutinė reikšmė arba mediana, padėtis. Todėl visi atsako stebėjimai priklauso normaliųjų skirstinių poslinkių šeimai.

Teigiama, kad ANOVA technika yra „tvirta“. Šis statistikų vartojamas terminas reiškia, kad tam tikros prielaidos gali būti tam tikru mastu pažeistos, tačiau technika vis tiek gali būti naudojama.

Kai atsako reikšmių pasiskirstymo dėsnis nežinomas, naudojami neparametrinės (dažniausiai ranginės) analizės metodai.

Dispersijos analizė pagrįsta dispersijos padalijimu į dalis arba komponentus. Skirtumas dėl veiksnio, kuriuo grindžiamas grupavimas, įtakos apibūdinamas tarpgrupine sklaida σ 2. Tai yra dalinių vidurkių kitimo tarp grupių matas

apie bendrą vidurkį ir nustatoma pagal formulę: ,

čia k yra grupių skaičius;

n j - vienetų skaičius j-oje grupėje;

- j-osios grupės dalinis vidurkis; - bendras vienetų rinkinio vidurkis.

Variacija dėl kitų veiksnių įtakos kiekvienoje grupėje apibūdinama grupės vidaus dispersija σ j 2.

.

Tarp bendros dispersijos σ 0 2, dispersijos grupės viduje σ 2 ir dispersijos tarp grupių

1.2 Vienpusė dispersinė analizė

Vieno veiksnio dispersijos modelis turi tokią formą:

x ij = μ + F j + ε ij , (1)

čia x ij – tiriamojo kintamojo reikšmė, gauta i-tajame koeficiento lygyje (i=1,2,...,t) su j-uoju eilės numeriu (j=1,2,. ..,n);

F i – veiksnio i-ojo lygio įtakos sukeliamas poveikis;

ε ij – atsitiktinė dedamoji, arba sutrikimas, sukeltas nekontroliuojamų veiksnių įtakos, t.y. skirtumai tam tikrame lygyje.

Pagrindinės dispersinės analizės sąlygos:

Trikdymo ε ij matematinis lūkestis yra lygus nuliui bet kuriam i, t.y.

M(ε ij) = 0; (2)

Trikdžiai ε ij yra vienas nuo kito nepriklausomi;

Kintamojo x ij (arba trikdymo ε ij) dispersija yra pastovi

bet koks i, j, t.y.

D(ε ij) = σ 2; (3)

Kintamasis x ij (arba trikdymas ε ij) turi normalųjį dėsnį

skirstinys N(0;σ 2).

Veiksnių lygių įtaka gali būti fiksuota arba sisteminė (I modelis) arba atsitiktinė (II modelis).

Tarkime, pavyzdžiui, reikia išsiaiškinti, ar yra didelių skirtumų tarp produktų partijų pagal kokį nors kokybės rodiklį, t.y. patikrinti vieno faktoriaus – produktų partijos – įtaką kokybei. Jeigu į tyrimą įtrauktume visas žaliavų partijas, tai tokio veiksnio lygio įtaka yra sisteminė (I modelis), o gautos išvados taikytinos tik toms atskiroms partijoms, kurios buvo įtrauktos į tyrimą. Jeigu įtrauktume tik atsitiktinai parinktą partijų dalį, tai veiksnio įtaka yra atsitiktinė (II modelis). Daugiafaktoriuose kompleksuose galimas mišrus III modelis, kuriame vieni faktoriai turi atsitiktinius lygius, o kiti – fiksuotus lygius.



Ar jums patiko straipsnis? Pasidalinkite su draugais!