Atskiros variacijų serijos sudarymas. Statistinių grupių sudarymo principai

Apdorojant didelius informacijos kiekius, o tai ypač svarbu vykdant šiuolaikinius mokslo pasiekimus, tyrėjas susiduria su rimta užduotimi teisingai sugrupuoti pradinius duomenis. Jei duomenys yra diskretiško pobūdžio, tada, kaip matėme, problemų nekyla – tereikia apskaičiuoti kiekvienos funkcijos dažnumą. Jei tiriama charakteristika turi tęstinis simbolis (kas praktikoje yra labiau paplitęs), tada pasirinkti optimalų požymių grupavimo intervalų skaičių jokiu būdu nėra trivialus uždavinys.

Norint sugrupuoti ištisinius atsitiktinius dydžius, visas charakteristikos variacijų diapazonas yra padalintas į tam tikrą intervalų skaičių Į.

Grupuotas intervalas (tęstinis) variacijų serija vadinami intervalais, surikiuotais pagal atributo reikšmę (), kur į i-ąjį intervalą patenkančių stebėjimų skaičiai arba santykiniai dažniai () nurodomi kartu su atitinkamais dažniais ():

Charakteristikos reikšmių intervalai

mi dažnis

Juostinė diagrama Ir kauptis (ogiva), jau mūsų išsamiai aptarti, yra puiki duomenų vizualizavimo priemonė, leidžianti susidaryti pirminį supratimą apie duomenų struktūrą. Tokie grafikai (1.15 pav.) konstruojami ištisiniams duomenims taip pat, kaip ir diskretiesiems, tik atsižvelgiant į tai, kad ištisiniai duomenys visiškai užpildo jų galimų reikšmių sritį, įgaudami bet kokias reikšmes.

Ryžiai. 1.15.

Štai kodėl histogramos ir kumuliacijos stulpeliai turi liestis vienas su kitu ir neturi būti sričių, kuriose atributų reikšmės nepatenka į visas įmanomas(t. y. histogramoje ir kumuliacijose išilgai abscisių ašies neturėtų būti „skylių“, kuriose nėra tiriamo kintamojo reikšmių, kaip parodyta 1.16 pav.). Juostos aukštis atitinka dažnį – stebėjimų skaičių, patenkantį į tam tikrą intervalą, arba santykinį dažnį – stebėjimų proporciją. Intervalai neturi susikirsti ir paprastai yra vienodo pločio.

Ryžiai. 1.16.

Histograma ir daugiakampis yra tikimybės tankio kreivės (diferencialinės funkcijos) apytikslės reikšmės. f(x) teorinis skirstinys, svarstomas tikimybių teorijos eigoje. Todėl jų konstrukcija yra tokia svarbi pirminiame statistiniame kiekybinių tęstinių duomenų apdorojime – pagal jų išvaizdą galima spręsti apie hipotetinį pasiskirstymo dėsnį.

Cumulate – intervalų variacijų eilučių kaupiamųjų dažnių (dažnių) kreivė. Kaupiamojo skirstinio funkcijos grafikas lyginamas su kumuliacija F(x), taip pat aptarta tikimybių teorijos kurse.

Iš esmės histogramos ir kumuliacijos sąvokos yra susietos konkrečiai su ištisiniais duomenimis ir jų intervalų variacijų eilutėmis, nes jų grafikai yra atitinkamai empiriniai tikimybės tankio funkcijos ir pasiskirstymo funkcijos įverčiai.

Intervalų variacijų serijos konstravimas prasideda nuo intervalų skaičiaus nustatymo k. Ir ši užduotis yra bene sunkiausia, svarbiausia ir prieštaringiausia nagrinėjamu klausimu.

Intervalų skaičius neturėtų būti per mažas, nes dėl to histograma bus per lygi ( perlygintas), praranda visas pirminių duomenų kintamumo ypatybes – pav. 1.17 galite pamatyti, kaip tie patys duomenys, ant kurių grafikai pav. 1.15, naudojamas sudaryti histogramą su mažesniu intervalų skaičiumi (kairysis grafikas).

Tuo pačiu metu intervalų skaičius neturėtų būti per didelis - kitaip negalėsime įvertinti tiriamų duomenų pasiskirstymo tankio pagal skaitinę ašį: histograma bus nepakankamai išlyginta. (išlygintas), su tuščiais intervalais, nelygios (žr. 1.17 pav., dešinysis grafikas).

Ryžiai. 1.17.

Kaip nustatyti tinkamiausią intervalų skaičių?

Dar 1926 m. Herbertas Sturgesas pasiūlė formulę, kaip apskaičiuoti intervalų, į kuriuos reikia padalyti pradinį tiriamos charakteristikos verčių rinkinį, skaičių. Ši formulė išties tapo itin populiari – ją siūlo dauguma statistikos vadovėlių, o daugelis statistikos paketų ją naudoja pagal nutylėjimą. Kiek tai pagrįsta ir visais atvejais yra labai rimtas klausimas.

Taigi, kuo remiasi Sturges formulė?

Apsvarstykite dvinarį skirstinį)

Ar jums patiko straipsnis? Pasidalinkite su draugais!