Kaip apskaičiuojama dispersija? Likutinė dispersija

Tarp daugelio statistikoje naudojamų rodiklių būtina išskirti dispersijos skaičiavimą. Reikėtų pažymėti, kad atlikti šį skaičiavimą rankiniu būdu yra gana varginanti užduotis. Laimei, „Excel“ turi funkcijų, kurios leidžia automatizuoti skaičiavimo procedūrą. Išsiaiškinkime darbo su šiais įrankiais algoritmą.

Dispersija yra variacijos rodiklis, kuris yra vidutinis nuokrypių nuo matematinio lūkesčio kvadratas. Taigi jis išreiškia skaičių sklaidą aplink vidutinę reikšmę. Dispersijos apskaičiavimas gali būti atliekamas tiek bendrajai visumai, tiek imčiai.

1 metodas: skaičiavimas remiantis populiacija

Norėdami apskaičiuoti šį rodiklį „Excel“ bendrajai populiacijai, naudokite funkciją DISP.G. Šios išraiškos sintaksė yra tokia:

DISP.G(Skaičius1;Skaičius2;...)

Iš viso galima naudoti nuo 1 iki 255 argumentų. Argumentai gali būti skaitinės reikšmės arba nuorodos į langelius, kuriuose jie yra.

Pažiūrėkime, kaip apskaičiuoti šią vertę diapazonui su skaitiniais duomenimis.


2 metodas: skaičiavimas pagal pavyzdį

Skirtingai nei skaičiuojant reikšmę pagal aibę, skaičiuojant imtį, vardiklis nurodo ne bendrą skaičių skaičių, o vienu mažiau. Tai daroma klaidų taisymo tikslais. „Excel“ atsižvelgia į šį niuansą specialioje funkcijoje, skirtoje tokio tipo skaičiavimams - DISP.V. Jo sintaksė pavaizduota tokia formule:

DISP.B(Skaičius1;Skaičius2;...)

Argumentų skaičius, kaip ir ankstesnėje funkcijoje, taip pat gali svyruoti nuo 1 iki 255.


Kaip matote, Excel programa gali labai palengvinti dispersijos skaičiavimą. Šią statistiką programa gali apskaičiuoti pagal populiaciją arba imtį. Šiuo atveju visi vartotojo veiksmai iš tikrųjų susiję su apdorojamų skaičių diapazono nurodymu, o „Excel“ atlieka pagrindinį darbą. Žinoma, tai sutaupys daug vartotojo laiko.

Remiantis imties apklausa, indėlininkai buvo suskirstyti į grupes pagal jų indėlio dydį miesto Sberbanke:

Apibrėžkite:

1) variacijos apimtis;

2) vidutinis indėlio dydis;

3) vidutinis tiesinis nuokrypis;

4) dispersija;

5) standartinis nuokrypis;

6) įmokų variacijos koeficientas.

Sprendimas:

Šioje paskirstymo serijoje yra atviri intervalai. Tokiose serijose sutartinai daroma prielaida, kad pirmosios grupės intervalo reikšmė yra lygi kitos grupės intervalo reikšmei, o paskutinės grupės intervalo reikšmė yra lygi šios grupės intervalo reikšmei. ankstesnis.

Antrosios grupės intervalo reikšmė lygi 200, todėl pirmosios grupės reikšmė taip pat lygi 200. Priešpaskutinės grupės intervalo reikšmė lygi 200, vadinasi, bus ir paskutinis intervalas. kurių vertė yra 200.

1) Apibrėžkime variacijos diapazoną kaip skirtumą tarp didžiausios ir mažiausios atributo reikšmės:

Indėlio dydžio svyravimo diapazonas yra 1000 rublių.

2) Vidutinis įnašo dydis bus nustatytas naudojant svertinio aritmetinio vidurkio formulę.

Pirmiausia nustatykime diskrečiąją atributo reikšmę kiekviename intervale. Norėdami tai padaryti, naudodami paprastą aritmetinio vidurkio formulę, randame intervalų vidurio taškus.

Vidutinė pirmojo intervalo vertė bus:

antrasis - 500 ir kt.

Įveskime skaičiavimo rezultatus į lentelę:

Indėlio suma, patrinkite.Indėlininkų skaičius, fIntervalo vidurys, xxf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Iš viso 400 - 312000

Vidutinis indėlis miesto „Sberbank“ bus 780 rublių:

3) Vidutinis tiesinis nuokrypis yra individualių charakteristikų verčių absoliučių nuokrypių nuo bendrojo vidurkio aritmetinis vidurkis:

Vidutinio tiesinio nuokrypio intervalų pasiskirstymo eilutėse apskaičiavimo procedūra yra tokia:

1. Svertinis aritmetinis vidurkis apskaičiuojamas, kaip parodyta 2 dalyje).

2. Nustatomi absoliutūs nuokrypiai nuo vidurkio:

3. Gauti nuokrypiai dauginami iš dažnių:

4. Raskite svertinių nuokrypių sumą neatsižvelgdami į ženklą:

5. Svertinių nuokrypių suma padalinama iš dažnių sumos:

Patogu naudoti skaičiavimo duomenų lentelę:

Indėlio suma, patrinkite.Indėlininkų skaičius, fIntervalo vidurys, x
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Iš viso 400 - - - 81280

Vidutinis „Sberbank“ klientų indėlio dydžio tiesinis nuokrypis yra 203,2 rubliai.

4) Dispersija – kiekvienos požymio reikšmės kvadratinių nuokrypių nuo aritmetinio vidurkio aritmetinis vidurkis.

Intervalų pasiskirstymo eilučių dispersijos apskaičiavimas atliekamas naudojant formulę:

Šiuo atveju dispersijos apskaičiavimo procedūra yra tokia:

1. Nustatykite svertinį aritmetinį vidurkį, kaip parodyta 2 dalyje).

2. Raskite nuokrypius nuo vidurkio:

3. Palyginkite kiekvienos parinkties nuokrypį nuo vidurkio kvadratu:

4. Padauginkite nuokrypių kvadratus iš svorių (dažnių):

5. Susumuokite gautus produktus:

6. Gauta suma padalinama iš svorių (dažnių) sumos:

Sudėkime skaičiavimus į lentelę:

Indėlio suma, patrinkite.Indėlininkų skaičius, fIntervalo vidurys, x
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Iš viso 400 - - - 23040000

Tikimybių teorija – speciali matematikos šaka, kurią studijuoja tik aukštųjų mokyklų studentai. Ar jums patinka skaičiavimai ir formulės? Ar jūsų negąsdina perspektyvos susipažinti su normaliuoju skirstiniu, ansamblio entropija, matematiniais lūkesčiais ir diskretiškojo atsitiktinio dydžio sklaida? Tada ši tema jums bus labai įdomi. Susipažinkime su keliomis svarbiausiomis pagrindinėmis šios mokslo šakos sąvokomis.

Prisiminkime pagrindus

Net jei prisimenate paprasčiausias tikimybių teorijos sąvokas, nepamirškite pirmųjų straipsnio pastraipų. Esmė ta, kad be aiškaus pagrindinių dalykų supratimo negalėsite dirbti su toliau aptartomis formulėmis.

Taigi, įvyksta koks nors atsitiktinis įvykis, koks nors eksperimentas. Dėl savo veiksmų galime sulaukti kelių rezultatų – vieni iš jų pasitaiko dažniau, kiti rečiau. Įvykio tikimybė – tai faktiškai gautų vieno tipo baigčių skaičiaus ir bendro galimų baigčių skaičiaus santykis. Tik žinodami klasikinį šios sąvokos apibrėžimą, galite pradėti tyrinėti nuolatinių atsitiktinių dydžių matematinius lūkesčius ir sklaidą.

Vidutinis

Dar mokykloje per matematikos pamokas pradėjai dirbti su aritmetiniu vidurkiu. Ši sąvoka plačiai naudojama tikimybių teorijoje, todėl jos negalima ignoruoti. Šiuo metu mums svarbiausia, kad su juo susidursime atsitiktinio dydžio matematinio lūkesčio ir sklaidos formulėse.

Turime skaičių seką ir norime rasti aritmetinį vidurkį. Viskas, ko mums reikia, yra susumuoti viską, kas turima, ir padalyti iš sekos elementų skaičiaus. Turėkime skaičius nuo 1 iki 9. Elementų suma bus lygi 45, o šią reikšmę padalinsime iš 9. Atsakymas: - 5.

Sklaida

Moksliniu požiūriu dispersija yra vidutinis gautų charakteristikos verčių nuokrypių kvadratas nuo aritmetinio vidurkio. Ji žymima viena didžiąja lotyniška raide D. Ko reikia jai apskaičiuoti? Kiekvienam sekos elementui apskaičiuojame skirtumą tarp esamo skaičiaus ir aritmetinio vidurkio ir jį kvadratu. Bus lygiai tiek daug vertybių, kiek gali būti renginio, kurį svarstome, rezultatų. Toliau viską susumuojame ir padalijame iš sekos elementų skaičiaus. Jei turime penkis galimus rezultatus, padalinkite iš penkių.

Dispersija taip pat turi savybių, kurias reikia atsiminti, kad ją būtų galima panaudoti sprendžiant problemas. Pavyzdžiui, kai atsitiktinis dydis padidėja X kartų, dispersija padidėja X kvadratu kartų (t. y. X*X). Jis niekada nėra mažesnis už nulį ir nepriklauso nuo verčių keitimo aukštyn arba žemyn vienodais kiekiais. Be to, nepriklausomų bandymų atveju sumos dispersija yra lygi dispersijų sumai.

Dabar neabejotinai turime apsvarstyti diskrečiojo atsitiktinio dydžio sklaidos ir matematinio lūkesčio pavyzdžius.

Tarkime, kad atlikome 21 eksperimentą ir gavome 7 skirtingus rezultatus. Kiekvieną iš jų stebėjome atitinkamai 1, 2, 2, 3, 4, 4 ir 5 kartus. Kam bus lygi dispersija?

Pirmiausia apskaičiuokime aritmetinį vidurkį: elementų suma, žinoma, yra 21. Padalinkite ją iš 7, gaudami 3. Dabar iš kiekvieno pradinės sekos skaičiaus atimkite 3, kiekvieną reikšmę padėkite kvadratu ir sudėkite rezultatus. Rezultatas yra 12. Dabar tereikia skaičių padalyti iš elementų skaičiaus, ir, atrodytų, viskas. Bet yra laimikis! Tai aptarkime.

Priklausomybė nuo eksperimentų skaičiaus

Pasirodo, kad skaičiuojant dispersiją, vardiklyje gali būti vienas iš dviejų skaičių: arba N, arba N-1. Čia N yra atliktų eksperimentų skaičius arba sekos elementų skaičius (kuris iš esmės yra tas pats). Nuo ko tai priklauso?

Jei testų skaičius matuojamas šimtais, į vardiklį turime įrašyti N, jei vienetais, tada N-1. Mokslininkai nusprendė nubrėžti ribą gana simboliškai: šiandien ji eina per skaičių 30. Jei atlikome mažiau nei 30 eksperimentų, tada sumą padalinsime iš N-1, o jei daugiau, tai iš N.

Užduotis

Grįžkime prie mūsų dispersijos ir matematinių lūkesčių problemos sprendimo pavyzdžio. Gavome tarpinį skaičių 12, kurį reikėjo padalyti iš N arba N-1. Kadangi atlikome 21 eksperimentą, tai yra mažiau nei 30, pasirinksime antrąjį variantą. Taigi atsakymas yra toks: dispersija yra 12/2 = 2.

Tikėtina vertė

Pereikime prie antrosios koncepcijos, kurią turime apsvarstyti šiame straipsnyje. Matematinis lūkestis yra visų galimų rezultatų, padaugintų iš atitinkamų tikimybių, rezultatas. Svarbu suprasti, kad gauta reikšmė, kaip ir dispersijos skaičiavimo rezultatas, visai problemai gaunamas tik vieną kartą, nesvarbu, kiek rezultatų joje atsižvelgiama.

Matematinio lūkesčio formulė gana paprasta: imame rezultatą, padauginame iš jo tikimybės, pridedame tą patį antram, trečiam rezultatui ir tt Viską, kas susiję su šia sąvoka, nesunku apskaičiuoti. Pavyzdžiui, numatomų verčių suma yra lygi numatomai sumos vertei. Tas pats pasakytina ir apie darbą. Ne kiekvienas dydis tikimybių teorijoje leidžia atlikti tokias paprastas operacijas. Paimkime problemą ir apskaičiuokime dviejų sąvokų, kurias iš karto nagrinėjome, reikšmę. Be to, mus blaškė teorija – laikas praktikuotis.

Dar vienas pavyzdys

Atlikome 50 bandymų ir gavome 10 rūšių rezultatų – skaičių nuo 0 iki 9 – skirtingu procentais. Tai yra atitinkamai: 2%, 10%, 4%, 14%, 2%, 18%, 6%, 16%, 10%, 18%. Prisiminkite, kad norint gauti tikimybes, reikia padalyti procentines reikšmes iš 100. Taigi gauname 0,02; 0,1 ir kt. Pateiksime atsitiktinio dydžio dispersijos ir matematinio lūkesčio uždavinio sprendimo pavyzdį.

Aritmetinį vidurkį apskaičiuojame pagal formulę, kurią prisimename iš pradinės mokyklos: 50/10 = 5.

Dabar paverskime tikimybes į rezultatų skaičių „gabalais“, kad būtų lengviau skaičiuoti. Gauname 1, 5, 2, 7, 1, 9, 3, 8, 5 ir 9. Iš kiekvienos gautos reikšmės atimame aritmetinį vidurkį, po kurio kiekvieną gautą rezultatą padalome kvadratu. Pažiūrėkite, kaip tai padaryti naudojant pirmąjį elementą kaip pavyzdį: 1 - 5 = (-4). Kitas: (-4) * (-4) = 16. Jei norite naudoti kitas reikšmes, atlikite šiuos veiksmus patys. Jei viską padarėte teisingai, sudėję juos visus gausite 90.

Tęskime dispersijos ir numatomos vertės skaičiavimą, 90 padalydami iš N. Kodėl mes pasirenkame N, o ne N-1? Teisingai, nes atliktų eksperimentų skaičius viršija 30. Taigi: 90/10 = 9. Gavome dispersiją. Jei gausite kitą numerį, nenusiminkite. Greičiausiai padarėte paprastą klaidą skaičiavimuose. Dar kartą patikrinkite, ką parašėte, ir greičiausiai viskas atsistos į savo vietas.

Galiausiai prisiminkite matematinio lūkesčio formulę. Visų skaičiavimų nepateiksime, tik parašysime atsakymą, su kuriuo galėsite pasitikrinti atlikę visas reikalingas procedūras. Numatoma vertė bus 5,48. Prisiminkime tik, kaip atlikti operacijas, kaip pavyzdį naudodami pirmuosius elementus: 0*0.02 + 1*0.1... ir pan. Kaip matote, mes tiesiog padauginame rezultato vertę iš jos tikimybės.

Nukrypimas

Kita sąvoka, glaudžiai susijusi su sklaida ir matematiniais lūkesčiais, yra standartinis nuokrypis. Jis žymimas arba lotyniškomis raidėmis sd, arba graikiškomis mažosiomis raidėmis „sigma“. Ši koncepcija parodo, kiek vidutiniškai reikšmės nukrypsta nuo pagrindinės funkcijos. Norėdami sužinoti jo reikšmę, turite apskaičiuoti dispersijos kvadratinę šaknį.

Jei nubraižote normalaus pasiskirstymo grafiką ir norite tiesiogiai jame matyti kvadratinį nuokrypį, tai galima padaryti keliais etapais. Paimkite pusę vaizdo į kairę arba į dešinę nuo režimo (centrinė reikšmė), nubrėžkite statmeną horizontaliai ašiai, kad gautų figūrų plotai būtų lygūs. Atkarpos tarp pasiskirstymo vidurio ir gautos projekcijos į horizontaliąją ašį dydis parodys standartinį nuokrypį.

Programinė įranga

Kaip matyti iš formulių aprašymų ir pateiktų pavyzdžių, dispersijos ir matematinės lūkesčių skaičiavimas aritmetiniu požiūriu nėra pati paprasčiausia procedūra. Norint nešvaistyti laiko, prasminga naudoti aukštosiose mokyklose naudojamą programą - ji vadinama „R“. Jame yra funkcijų, leidžiančių apskaičiuoti daugelio sąvokų reikšmes iš statistikos ir tikimybių teorijos.

Pavyzdžiui, nurodote reikšmių vektorių. Tai daroma taip: vektorius<-c(1,5,2…). Теперь, когда вам потребуется посчитать какие-либо значения для этого вектора, вы пишете функцию и задаете его в качестве аргумента. Для нахождения дисперсии вам нужно будет использовать функцию var. Пример её использования: var(vector). Далее вы просто нажимаете «ввод» и получаете результат.

Pagaliau

Sklaida ir matematinis lūkestis yra be kurių sunku ką nors apskaičiuoti ateityje. Pagrindiniame paskaitų kurse universitetuose jos aptariamos jau pirmaisiais dalyko studijų mėnesiais. Būtent dėl ​​šių paprastų sąvokų nesuvokimo ir nesugebėjimo jų apskaičiuoti daugelis studentų iš karto pradeda atsilikti nuo programos, o vėliau sesijos pabaigoje gauna blogus pažymius, o tai atima stipendiją.

Praktikuokite bent vieną savaitę, pusvalandį per dieną, spręsdami problemas, panašias į pateiktas šiame straipsnyje. Tada atlikdami bet kurį tikimybių teorijos testą galėsite susidoroti su pavyzdžiais be pašalinių patarimų ir apgaulės lapų.

Variacijų diapazonas (arba variacijų diapazonas) – tai skirtumas tarp didžiausių ir mažiausių charakteristikos verčių:

Mūsų pavyzdyje darbuotojų pamainos našumo kitimo diapazonas yra toks: pirmoje brigadoje R = 105-95 = 10 vaikų, antroje brigadoje R = 125-75 = 50 vaikų. (5 kartus daugiau). Tai rodo, kad 1-osios brigados produkcija yra „stabilesnė“, tačiau antroji brigada turi daugiau rezervų našumui didinti, nes Jei visi darbuotojai pasiekia didžiausią šios brigados našumą, ji gali pagaminti 3 * 125 = 375 dalis, o 1-oje brigadoje tik 105 * 3 = 315 dalių.
Jei ekstremalios charakteristikos reikšmės nėra būdingos populiacijai, tada naudojami kvartilių arba decilių diapazonai. Kvartilis diapazonas RQ= Q3-Q1 apima 50% populiacijos apimties, pirmasis decilio diapazonas RD1 = D9-D1 apima 80% duomenų, antrasis decilio diapazonas RD2= D8-D2 – 60%.
Variacijos diapazono indikatoriaus trūkumas yra tas, kad jo reikšmė neatspindi visų požymio svyravimų.
Paprasčiausias bendrasis rodiklis, atspindintis visus charakteristikos svyravimus, yra vidutinis tiesinis nuokrypis, kuris yra atskirų pasirinkimų absoliučių nuokrypių nuo jų vidutinės vertės aritmetinis vidurkis:

,
sugrupuotiems duomenims
,
kur xi yra atributo reikšmė diskrečioje eilutėje arba intervalo vidurys intervalo skirstinyje.
Aukščiau pateiktose formulėse skaitiklio skirtumai imami modulo, kitaip pagal aritmetinio vidurkio savybę skaitiklis visada bus lygus nuliui. Todėl vidutinis tiesinis nuokrypis statistikos praktikoje naudojamas retai, tik tais atvejais, kai rodiklių sumavimas neatsižvelgiant į ženklą yra ekonomiškai prasmingas. Jos pagalba, pavyzdžiui, analizuojama darbo jėgos sudėtis, gamybos pelningumas, užsienio prekybos apyvarta.
Požymio dispersija yra vidutinis nuokrypių nuo jų vidutinės vertės kvadratas:
paprasta dispersija
,
svertinis dispersija
.
Dispersijos skaičiavimo formulę galima supaprastinti:

Taigi dispersija yra lygi skirtumui tarp opciono kvadratų vidurkio ir visumos opciono vidurkio kvadrato:
.
Tačiau dėl kvadratinių nuokrypių sumavimo dispersija suteikia iškreiptą nuokrypių vaizdą, todėl pagal jį apskaičiuojamas vidurkis standartinis nuokrypis, kuris parodo, kiek vidutiniškai konkretūs požymio variantai nukrypsta nuo savo vidutinės reikšmės. Apskaičiuojama imant kvadratinę šaknį nuo dispersijos:
negrupuotiems duomenims
,
variacijų serijoms

Kuo mažesnė dispersijos ir standartinio nuokrypio reikšmė, tuo populiacija homogeniškesnė, tuo patikimesnė (tipiškesnė) bus vidutinė reikšmė.
Vidutinis tiesinis ir standartinis nuokrypis yra pavadinti skaičiais, t.y. jie išreiškiami charakteristikos matavimo vienetais, yra identiški savo turiniu ir artimi reikšme.
Absoliučiuosius svyravimus rekomenduojama apskaičiuoti naudojant lenteles.
3 lentelė. Variacijos charakteristikų apskaičiavimas (naudojant komandos darbuotojų pamainos našumo duomenų laikotarpio pavyzdį)


Darbuotojų skaičius

Intervalo vidurys

Apskaičiuotos reikšmės

Iš viso:

Vidutinė darbuotojų darbo pamaina:

Vidutinis tiesinis nuokrypis:

Gamybos dispersija:

Atskirų darbuotojų produkcijos standartinis nuokrypis nuo vidutinės produkcijos:
.

1 Sklaidos apskaičiavimas momentų metodu

Skaičiuojant dispersijas reikia atlikti sudėtingus skaičiavimus (ypač jei vidurkis išreiškiamas dideliu skaičiumi su keliais skaitmenimis po kablelio). Skaičiavimai gali būti supaprastinti naudojant supaprastintą formulę ir dispersijos savybes.
Dispersija turi šias savybes:

  1. Jei visos charakteristikos vertės sumažinamos arba padidinamos ta pačia verte A, tada dispersija nesumažės:

,

, tada arba
Naudodami dispersijos savybes ir pirmiausia sumažinę visus populiacijos variantus reikšme A, o po to padalijus iš intervalo h reikšmės, gauname formulę dispersijos skaičiavimui variacijų eilutėse su vienodais intervalais. kelyje:
,
kur yra dispersija, apskaičiuota naudojant momentų metodą;
h – variacijų eilutės intervalo reikšmė;
– naujų (transformuotų) reikšmių parinktis;
A yra pastovi reikšmė, kuri naudojama kaip didžiausio dažnio intervalo vidurys; arba parinktis su didžiausiu dažniu;
– pirmosios eilės momento kvadratas;
– antrojo užsakymo momentas.
Apskaičiuokime sklaidą momentų metodu, remdamiesi duomenimis apie komandos darbuotojų pamainos našumą.
4 lentelė. Dispersijos apskaičiavimas momentų metodu


Gamybos darbuotojų grupės, vnt.

Darbuotojų skaičius

Intervalo vidurys

Apskaičiuotos reikšmės

Skaičiavimo procedūra:


  1. Apskaičiuojame dispersiją:

2 Alternatyvios charakteristikos dispersijos apskaičiavimas

Tarp statistikos tiriamų charakteristikų yra ir tokių, kurios turi tik dvi viena kitą paneigiančias reikšmes. Tai alternatyvūs ženklai. Jiems atitinkamai suteikiamos dvi kiekybinės reikšmės: 1 ir 0. 1 varianto dažnis, žymimas p, yra vienetų, turinčių šią charakteristiką, dalis. Skirtumas 1-р=q yra 0 variantų dažnis. Taigi,


xi

Alternatyvaus ženklo aritmetinis vidurkis
, nes p+q=1.

Alternatyvių bruožų dispersija
, nes 1-р=q
Taigi alternatyvios charakteristikos dispersija yra lygi vienetų, turinčių šią charakteristiką, ir vienetų, neturinčių šios charakteristikos, proporcijos sandaugai.
Jei reikšmės 1 ir 0 pasitaiko vienodai dažnai, ty p=q, dispersija pasiekia didžiausią pq=0,25.
Alternatyvaus požymio dispersija naudojama atrankiniuose tyrimuose, pavyzdžiui, produkto kokybės.

3 Skirtumas tarp grupių. Nuokrypių pridėjimo taisyklė

Dispersija, skirtingai nuo kitų kitimo charakteristikų, yra adityvus dydis. Tai yra suvestinėje, kuri suskirstyta į grupes pagal faktorių charakteristikas X , gaunamos charakteristikos dispersija y Galima išskaidyti į dispersiją kiekvienoje grupėje (grupėse) ir dispersiją tarp grupių (tarp grupių). Tada, kartu tiriant bruožo kitimą visoje populiacijoje, kaip visumoje, tampa įmanoma ištirti kiekvienos grupės, taip pat ir tarp šių grupių skirtumus.

Bendra dispersija matuoja bruožo kitimą adresu visuma veikiant visiems veiksniams, sukėlusiems šį kitimą (nukrypimus). Jis lygus atskirų atributo verčių vidutiniam kvadratiniam nuokrypiui adresu nuo didžiojo vidurkio ir gali būti apskaičiuojamas kaip paprasta arba svertinė dispersija.
Tarpgrupinė dispersija apibūdina gauto požymio kitimą adresu sukeltas veiksnio-ženklo įtakos X, kuris sudarė grupavimo pagrindą. Jis apibūdina grupės vidurkių kitimą ir yra lygus vidutiniam grupės vidurkių nuokrypių nuo bendrojo vidurkio kvadratui:
,
kur yra i-osios grupės aritmetinis vidurkis;
– vienetų skaičius i-oje grupėje (i-osios grupės dažnis);
– bendras gyventojų vidurkis.
Skirtumas grupės viduje atspindi atsitiktinę variaciją, t.y. tą variacijos dalį, kurią sukelia neatsižvelgtų veiksnių įtaka ir kuri nepriklauso nuo veiksnio-atributo, kuris sudaro grupavimo pagrindą. Jis apibūdina individualių verčių kitimą, palyginti su grupės vidurkiais ir yra lygus individualių požymio verčių vidutiniam kvadratiniam nuokrypiui. adresu grupėje nuo šios grupės aritmetinio vidurkio (grupės vidurkio) ir apskaičiuojamas kaip paprastas arba svertinis kiekvienos grupės dispersija:
arba ,
kur yra vienetų skaičius grupėje.
Remiantis kiekvienos grupės skirtumais grupės viduje, galima nustatyti bendras dispersijų grupės viduje vidurkis:
.
Santykis tarp trijų dispersijų vadinamas dispersijų pridėjimo taisyklės, pagal kurią bendra dispersija yra lygi dispersijos tarp grupių sumai ir dispersijos vidurkio grupės viduje:

Pavyzdys. Tiriant darbuotojų tarifinės kategorijos (kvalifikacijos) įtaką jų darbo našumo lygiui, gauti šie duomenys.
5 lentelė. Darbuotojų pasiskirstymas pagal vidutinį valandinį našumą.



p/p

4 kategorijos darbuotojai

5 kategorijos darbuotojai

Išvestis
darbininkas, vnt.,

Išvestis
darbininkas, vnt.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

Šiame pavyzdyje darbuotojai skirstomi į dvi grupes pagal faktorių charakteristikas X– kvalifikacijos, kurioms būdingas jų rangas. Gaunamas bruožas – gamyba – kinta tiek pagal savo įtaką (tarpgrupinė variacija), tiek dėl kitų atsitiktinių veiksnių (svyravimo tarp grupės). Tikslas yra išmatuoti šiuos skirtumus naudojant tris dispersijas: bendrą, tarp grupių ir grupių viduje. Empirinis determinacijos koeficientas parodo gautos charakteristikos kitimo proporciją adresu veiksnio ženklo įtakoje X. Likusi visos variacijos dalis adresu sukeltas kitų veiksnių pokyčių.
Pavyzdyje empirinis determinacijos koeficientas yra:
arba 66,7 proc.
Tai reiškia, kad 66,7 % darbuotojų produktyvumo svyravimų lemia kvalifikacijos skirtumai, o 33,3 % – dėl kitų veiksnių įtakos.
Empirinis koreliacinis ryšys parodo glaudų ryšį tarp grupavimo ir veiklos charakteristikų. Apskaičiuota kaip empirinio determinacijos koeficiento kvadratinė šaknis:

Empirinis koreliacijos koeficientas, kaip , gali būti nuo 0 iki 1.
Jei ryšio nėra, tada =0. Šiuo atveju =0, tai yra, grupės vidurkiai yra lygūs vienas kitam ir tarpgrupinių variacijų nėra. Tai reiškia, kad grupavimo charakteristika – veiksnys neturi įtakos bendros variacijos susidarymui.
Jei ryšys veikia, tada =1. Šiuo atveju grupės vidurkių dispersija yra lygi bendrajai dispersijai (), tai yra, nėra skirtumo grupės viduje. Tai reiškia, kad grupavimo charakteristika visiškai nulemia gautos tiriamos charakteristikos kitimą.
Kuo koreliacijos santykio reikšmė arčiau vieneto, tuo artimesnis, arčiau funkcinės priklausomybės, yra ryšys tarp charakteristikų.
Kokybiškai įvertinti savybių sąsajų glaudumą, naudojami Chaddock santykiai.

Pavyzdyje , o tai rodo glaudų ryšį tarp darbuotojų produktyvumo ir jų kvalifikacijos.

Tačiau vien šios charakteristikos nepakanka atsitiktiniam dydžiui ištirti. Įsivaizduokime du šaulius, šaudžiusius į taikinį. Vienas taikliai šaudo ir pataiko arti centro, o kitas... tiesiog linksminasi ir net nesitaiko. Bet juokingiausia, kad jis vidutinis rezultatas bus lygiai toks pat kaip ir pirmojo šaulio! Šią situaciją paprastai iliustruoja šie atsitiktiniai dydžiai:

„Snaiperio“ matematinis lūkestis yra lygus , tačiau „įdomiam žmogui“: – irgi nulis!

Taigi, reikia kiekybiškai įvertinti, kiek išsibarstę kulkos (atsitiktinių kintamųjų reikšmės), palyginti su taikinio centru (matematinis lūkestis). gerai ir išsibarstymas išvertus iš lotynų kalbos yra ne kitaip, kaip dispersija .

Pažiūrėkime, kaip ši skaitinė charakteristika nustatoma naudojant vieną iš 1-osios pamokos dalies pavyzdžių:

Ten radome nuviliančius matematinius šio žaidimo lūkesčius, o dabar turime apskaičiuoti jo dispersiją, kuri žymimas per .

Išsiaiškinkime, kiek laimėjimai/pralaimėjimai yra „išsibarstę“, palyginti su vidutine verte. Akivaizdu, kad tam turime apskaičiuoti skirtumus tarp atsitiktinių kintamųjų reikšmės ir ji matematinis lūkestis:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Dabar atrodo, kad reikia apibendrinti rezultatus, bet šis kelias netinka – dėl to, kad svyravimai į kairę vienas kitą panaikins su svyravimais į dešinę. Taigi, pavyzdžiui, „mėgėjiškas“ šaulys (pavyzdys aukščiau) skirtumai bus , o pridėjus jie duos nulį, todėl negausime jokio jo šaudymo sklaidos įvertinimo.

Norėdami išspręsti šią problemą, galite apsvarstyti moduliai skirtumai, tačiau dėl techninių priežasčių požiūris įsitvirtino, kai jie yra kvadratiniai. Patogiau sprendimą suformuluoti lentelėje:

Ir čia reikia skaičiuoti svertinis vidurkis kvadratinių nuokrypių vertė. Kas tai? Tai jų tikėtina vertė, kuris yra sklaidos matas:

apibrėžimas dispersijos. Iš apibrėžimo iš karto aišku, kad dispersija negali būti neigiama– atkreipkite dėmesį į praktiką!

Prisiminkime, kaip rasti numatomą vertę. Padauginkite skirtumus kvadratu iš atitinkamų tikimybių (Lentelės tęsinys):
– vaizdžiai tariant, tai yra „traukos jėga“,
ir apibendrinkite rezultatus:

Ar nemanote, kad lyginant su laimėjimais rezultatas pasirodė per didelis? Teisingai – mes jį išlyginome kvadratu, o norėdami grįžti prie savo žaidimo dimensijos, turime išgauti kvadratinę šaknį. Šis kiekis vadinamas standartinis nuokrypis ir žymimas graikiška raide „sigma“:

Ši vertė kartais vadinama standartinis nuokrypis .

Kokia jo prasmė? Jei nuo matematinio lūkesčio nukrypstame į kairę ir dešinę standartiniu nuokrypiu:

– tada šiame intervale bus „koncentruotos“ labiausiai tikėtinos atsitiktinio dydžio reikšmės. Ką mes iš tikrųjų stebime:

Tačiau atsitinka taip, kad analizuojant sklaidą beveik visada operuojama su dispersijos sąvoka. Išsiaiškinkime, ką tai reiškia žaidimų atžvilgiu. Jei kalbant apie strėles, mes kalbame apie smūgių „tikslumą“, palyginti su taikinio centru, tada dispersija apibūdina du dalykus:

Pirma, akivaizdu, kad didėjant statymams, didėja ir sklaida. Taigi, pavyzdžiui, jei padidinsime 10 kartų, tada matematinis lūkestis padidės 10 kartų, o dispersija padidės 100 kartų (kadangi tai kvadratinis dydis). Tačiau atkreipkite dėmesį, kad pačios žaidimo taisyklės nepasikeitė! Grubiai tariant, pasikeitė tik kursai, kol statėme 10 rublių, dabar 100.

Antras, įdomesnis dalykas, yra tas, kad žaidimo stiliui būdinga dispersija. Psichiškai pataisykite žaidimo statymus tam tikru lygiu, ir pažiūrėkime, kas yra kas:

Mažos dispersijos žaidimas yra atsargus žaidimas. Žaidėjas linkęs rinktis patikimiausias schemas, kur vienu metu per daug nepralaimi/laimi. Pavyzdžiui, raudona/juoda sistema ruletėje (žr. 4 straipsnio pavyzdį Atsitiktiniai kintamieji) .

Didelės dispersijos žaidimas. Ji dažnai vadinama dispersinisžaidimas. Tai nuotykių kupinas arba agresyvus žaidimo stilius, kai žaidėjas pasirenka „adrenalino“ schemas. Bent jau prisiminkime "Martingale", kuriame rizikuojamos sumos yra eilėmis didesnės nei ankstesnio punkto „tylus“ žaidimas.

Situacija pokeryje yra orientacinė: yra vadinamųjų ankštusžaidėjų, kurie linkę būti atsargūs ir „drebėti“ dėl savo žaidimų lėšų (bankroll). Nenuostabu, kad jų bankrotas reikšmingai svyruoja (maža dispersija). Priešingai, jei žaidėjas turi didelę dispersiją, jis yra agresorius. Jis dažnai rizikuoja, atlieka didelius statymus ir gali sulaužyti didžiulį banką arba pralaimėti skeveldromis.

Tas pats nutinka Forex ir panašiai – pavyzdžių apstu.

Be to, visais atvejais nesvarbu, ar žaidžiama už centus, ar už tūkstančius dolerių. Kiekvienas lygis turi mažos ir didelės dispersijos žaidėjus. Na, kaip prisimename, vidutinis laimėjimas yra „atsakingas“ tikėtina vertė.

Tikriausiai pastebėjote, kad dispersijos nustatymas yra ilgas ir kruopštus procesas. Bet matematika dosni:

Sklaidos nustatymo formulė

Ši formulė yra tiesiogiai išvesta iš dispersijos apibrėžimo, ir mes iš karto ją naudojame. Nukopijuosiu ženklą su aukščiau esančiu žaidimu:

ir rastas matematinis lūkestis.

Apskaičiuokime dispersiją antruoju būdu. Pirmiausia suraskime matematinį lūkestį – atsitiktinio dydžio kvadratą. Autorius matematinio lūkesčio nustatymas:

Tokiu atveju:

Taigi, pagal formulę:

Kaip sakoma, pajuskite skirtumą. Ir praktiškai, žinoma, geriau naudoti formulę (nebent sąlyga reikalauja kitaip).

Įvaldome sprendimo ir projektavimo techniką:

6 pavyzdys

Raskite jo matematinį lūkestį, dispersiją ir standartinį nuokrypį.

Ši užduotis randama visur ir, kaip taisyklė, neturi prasmės.
Galite įsivaizduoti kelias lemputes su skaičiais, kurios su tam tikra tikimybe užsidega beprotnamyje :)

Sprendimas: Pagrindinius skaičiavimus patogu apibendrinti lentelėje. Pirmiausia viršutinėse dviejose eilutėse įrašome pradinius duomenis. Tada apskaičiuojame produktus, tada ir galiausiai sumas dešiniajame stulpelyje:

Tiesą sakant, beveik viskas yra paruošta. Trečioje eilutėje parodytas paruoštas matematinis lūkestis: .

Dispersiją apskaičiuojame pagal formulę:

Ir galiausiai standartinis nuokrypis:
– Asmeniškai aš dažniausiai apvalinu iki 2 ženklų po kablelio.

Visus skaičiavimus galima atlikti skaičiuotuvu, o dar geriau – Excel:

Čia sunku suklysti :)

Atsakymas:

Norintys gali dar labiau supaprastinti savo gyvenimą ir pasinaudoti mano privalumais skaičiuotuvas (demo), kuris ne tik akimirksniu išspręs šią problemą, bet ir sukurs teminė grafika (greitai atvyksime). Programa gali būti parsisiųsti iš bibliotekos– jei atsisiuntėte bent vieną mokomąją medžiagą arba gaunate Kitas būdas. Ačiū už paramą projektui!

Keletas užduočių, kurias reikia išspręsti savarankiškai:

7 pavyzdys

Apskaičiuokite atsitiktinio dydžio dispersiją ankstesniame pavyzdyje pagal apibrėžimą.

Ir panašus pavyzdys:

8 pavyzdys

Diskretus atsitiktinis kintamasis nurodomas jo pasiskirstymo dėsniu:

Taip, atsitiktinių kintamųjų reikšmės gali būti gana didelės (pavyzdys iš tikro darbo), o čia, jei įmanoma, naudokite Excel. Kaip, beje, 7 pavyzdyje - tai greičiau, patikimiau ir maloniau.

Sprendimai ir atsakymai puslapio apačioje.

Baigdami 2-ąją pamokos dalį, panagrinėsime kitą tipišką problemą, galima sakyti, net mažą galvosūkį:

9 pavyzdys

Diskretus atsitiktinis dydis gali turėti tik dvi reikšmes: ir , ir . Yra žinomos tikimybės, matematinės lūkesčiai ir dispersija.

Sprendimas: Pradėkime nuo nežinomos tikimybės. Kadangi atsitiktinis kintamasis gali turėti tik dvi reikšmes, atitinkamų įvykių tikimybių suma yra tokia:

ir nuo tada .

Belieka tik rasti..., lengva pasakyti :) Bet va, štai. Pagal matematinio lūkesčio apibrėžimą:
– pakeisti žinomus kiekius:

– ir nieko daugiau iš šios lygties negalima išspausti, išskyrus tai, kad galite ją perrašyti įprasta kryptimi:

arba:

Manau, kad galite atspėti tolesnius veiksmus. Sudarykime ir išspręskime sistemą:

Dešimtainės, žinoma, yra visiška gėda; padauginkite abi lygtis iš 10:

ir padalinti iš 2:

Taip geriau. Iš 1-osios lygties išreiškiame:
(tai lengviausias būdas)– pakeisti į 2 lygtį:


Mes statome kvadratu ir padaryti supaprastinimus:

Padauginti iš:

Rezultatas buvo kvadratinė lygtis, randame jo diskriminaciją:
- Puiku!

ir gauname du sprendimus:

1) jei , Tai ;

2) jei , Tai.

Sąlygą tenkina pirmoji reikšmių pora. Su didele tikimybe viskas teisinga, bet vis dėlto užsirašykime paskirstymo dėsnį:

ir atlikti patikrinimą, būtent, rasti lūkesčius:



Ar jums patiko straipsnis? Pasidalinkite su draugais!