Kaip sukurti variacijų seriją. Statistinė santrauka ir grupavimas

Laboratorinis darbas Nr.1. Pirminis statistinių duomenų apdorojimas

Paskirstymo serijos konstrukcija

Tvarkingas gyventojų vienetų pasiskirstymas į grupes pagal bet kurią požymį vadinamas netoli platinimo . Šiuo atveju charakteristika gali būti kiekybinė, tada vadinama serija variacinis , ir kokybinis, tada serija vadinama atributinis . Taigi, pavyzdžiui, miesto populiacija gali būti paskirstyta pagal amžiaus grupes variacijų eilutėje arba pagal profesinę priklausomybę atributų serijoje (žinoma, pasiskirstymo eilui sudaryti galima pasiūlyti daug daugiau kokybinių ir kiekybinių charakteristikų; pasirinkti charakteristika nulemta statistinio tyrimo uždavinio).

Bet kuriai platinimo serijai būdingi du elementai:

- variantas(x i) – tai individualios imties visumos vienetų charakteristikos reikšmės. Variacijų serijai pasirenkamos skaitinės reikšmės, atributinės eilutės – kokybinės (pvz., x = „valstybės tarnautojas“);

- dažnis(n i) – skaičius, rodantis, kiek kartų tam tikra atributo reikšmė pasitaiko. Jei dažnis išreiškiamas santykiniu skaičiumi (t. y. visumos elementų, atitinkančių duotą opcionų reikšmę, proporcija bendroje populiacijos apimtyje), tada jis vadinamas santykinis dažnis arba dažnis.

Variacijų serija gali būti:

- diskretiškas, kai tiriama charakteristika apibūdinama tam tikru skaičiumi (dažniausiai sveikuoju skaičiumi).

- intervalas, kai nuolat kintančios charakteristikos ribos „nuo“ ir „iki“. Intervalų serija taip pat sudaroma, jei diskretiškai kintančios charakteristikos reikšmių rinkinys yra didelis.

Intervalų serija gali būti sudaryta tiek su vienodo ilgio intervalais (vienodo intervalo eilutės), tiek su nevienodais intervalais, jei tai diktuoja statistinio tyrimo sąlygos. Pavyzdžiui, galima atsižvelgti į pajamų paskirstymo seką tokiais intervalais:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



kur k yra intervalų skaičius, n yra imties dydis. (Žinoma, formulė dažniausiai duoda trupmeninį skaičių, o intervalų skaičiumi pasirenkamas artimiausias gautam skaičiui sveikasis skaičius.) Intervalo ilgis šiuo atveju nustatomas pagal formulę

.

Grafiškai variacijų serijos gali būti pateiktos formoje histogramos(virš kiekvieno intervalų serijos intervalo pastatyta aukščio „stulpelis“, atitinkantis šio intervalo dažnį), paskirstymo daugiakampis(nutrūkusi linija, jungianti taškus ( x i;n i) arba kaupiasi(pagrįsta sukauptais dažniais, t. y. kiekvienai atributo reikšmei imamas dažnis objektų, kurių atributo reikšmė yra mažesnė už nurodytąją, rinkinyje).

Dirbant su Excel, variacijų serijoms sudaryti galima naudoti šias funkcijas:

CHECK( duomenų masyvas) – imties dydžiui nustatyti. Argumentas yra langelių diapazonas, kuriame yra imties duomenys.

COUNTIF( diapazonas; kriterijus) – gali būti naudojamas atributui arba variacinei serijai sudaryti. Argumentai yra atributo pavyzdinių verčių masyvo diapazonas ir kriterijus - skaitmeninė arba tekstinė atributo reikšmė arba langelio, kuriame jis yra, numeris. Rezultatas yra tos vertės atsiradimo imtyje dažnis.

DAŽNIS( duomenų masyvas; intervalų masyvas) – variacijų serijai sudaryti. Argumentai yra pavyzdinių duomenų masyvo diapazonas ir intervalo stulpelis. Jei reikia sudaryti diskrečią seriją, čia nurodomos parinkčių reikšmės, jei tai yra intervalų serija, tada viršutinės intervalų ribos (jos taip pat vadinamos „kišenėmis“). Kadangi rezultatas yra dažnių stulpelis, funkcijos įvedimą turite užbaigti paspausdami CTRL+SHIFT+ENTER. Atkreipkite dėmesį, kad įvesdami funkciją nurodydami intervalų masyvą, jums nereikia nurodyti paskutinės reikšmės - visos reikšmės, kurios nebuvo įtrauktos į ankstesnes „kišenes“, bus patalpintos į atitinkamą „kišenę“. Tai kartais gali padėti išvengti klaidos, kai didžiausia imties reikšmė automatiškai neįdedama į paskutinę kišenę.

Be to, sudėtingoms grupėms (remiantis keliomis charakteristikomis) naudokite įrankį „pivot tables“. Jie taip pat gali būti naudojami atributų ir variantų serijoms sudaryti, tačiau tai be reikalo apsunkina užduotį. Be to, norint sukurti variantų seriją ir histogramą, yra „histogramos“ procedūra iš „Analytics Package“ papildinio (norėdami naudoti priedus „Excel“, pirmiausia turite juos atsisiųsti; jie nėra įdiegti pagal numatytuosius nustatymus)

Iliustruojame pirminio duomenų apdorojimo procesą šiais pavyzdžiais.

1.1 pavyzdys. Yra duomenų apie 60 šeimų kiekybinę sudėtį.

Sukurkite variacijų seriją ir skirstinio daugiakampį

Sprendimas.

Atidarykime Excel lenteles. Įveskime duomenų masyvą į diapazoną A1:L5. Jei studijuojate dokumentą elektronine forma (pavyzdžiui, Word formatu), norėdami tai padaryti, tiesiog pasirinkite lentelę su duomenimis ir nukopijuokite ją į mainų sritį, tada pasirinkite langelį A1 ir įklijuokite duomenis – jie automatiškai užims atitinkamą diapazoną. Apskaičiuokime mėginio tūrį n – imties duomenų skaičių, kad tai padarytumėte, langelyje B7 įveskite formulę =COUNT(A1:L5). Atkreipkite dėmesį, kad norint įvesti norimą diapazoną į formulę, jo žymėjimo nereikia įvesti iš klaviatūros, pakanka jį pasirinkti. Nustatykime pavyzdžio minimalias ir didžiausias vertes, įvesdami formulę =MIN(A1:L5) langelyje B8, o langelyje B9: =MAX(A1:L5).

1.1 pav. 1 pavyzdys. Pirminis statistinių duomenų apdorojimas Excel lentelėse

Toliau parengsime lentelę variacijų serijai sudaryti, įvesdami intervalo stulpelio (variantų reikšmių) ir dažnio stulpelio pavadinimus. Intervalų stulpelyje įveskite būdingas reikšmes nuo minimalios (1) iki didžiausios (6), užimančias diapazoną B12:B17. Pasirinkite dažnio stulpelį, įveskite formulę =FREQUENCY(A1:L5,B12:B17) ir paspauskite klavišų kombinaciją CTRL+SHIFT+ENTER

1.2 pav. 1 pavyzdys. Variacijų serijos sudarymas

Norėdami valdyti, apskaičiuokime dažnių sumą naudodami funkciją SUM (funkcijos piktograma S grupėje „Redagavimas“ skirtuke „Pagrindinis“), apskaičiuota suma turi sutapti su anksčiau apskaičiuotu mėginio tūriu langelyje B7.

Dabar sukurkime daugiakampį: pasirinkę gautą dažnių diapazoną, skirtuke „Įterpti“ pasirinkite komandą „Grafas“. Pagal numatytuosius nustatymus horizontalios ašies reikšmės bus eilės skaičiai - mūsų atveju nuo 1 iki 6, o tai sutampa su parinkčių reikšmėmis (tarifų kategorijų skaičiais).

Diagramų serijos pavadinimą „1 serija“ galima pakeisti naudojant tą pačią skirtuko „Dizainas“ parinktį „Pasirinkti duomenis“ arba tiesiog ištrinti.

1.3 pav. 1 pavyzdys. Dažnio daugiakampio konstravimas

1.2 pavyzdys. Yra duomenų apie teršalų išmetimą iš 50 šaltinių:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Sukurkite vienodo intervalo eilutę, sukurkite histogramą

Sprendimas

Įveskime duomenų masyvą į Excel lapą, jis užims diapazoną A1:J5 Kaip ir ankstesnėje užduotyje, nustatysime imties dydį n, pavyzdyje esančias minimalias ir didžiausias reikšmes. Kadangi dabar mums reikia ne diskrečiųjų, o intervalų, o užduotyje esančių intervalų skaičius nenurodytas, intervalų skaičių k apskaičiuojame naudodami Sturgesso formulę. Norėdami tai padaryti, langelyje B10 įveskite formulę =1+3.322*LOG10(B7).

1.4 pav. 2 pavyzdys. Lygių intervalų serijos sudarymas

Gauta reikšmė nėra sveikasis skaičius, ji yra maždaug 6,64. Kadangi k=7 intervalų ilgis bus išreikštas sveikuoju skaičiumi (skirtingai nei k=6 atveju), pasirenkame k=7, įvesdami šią reikšmę į langelį C10. Intervalo d ilgį langelyje B11 apskaičiuojame įvedę formulę =(B9-B8)/C10.

Apibrėžkime intervalų masyvą, nurodydami viršutinę ribą kiekvienam iš 7 intervalų. Norėdami tai padaryti, langelyje E8 apskaičiuojame pirmojo intervalo viršutinę ribą, įvesdami formulę =B8+B11; langelyje E9 viršutinė antro intervalo riba, įvedant formulę =E8+B11. Norėdami apskaičiuoti likusias viršutinių intervalų ribų reikšmes, įvestoje formulėje fiksuojame langelio B11 skaičių naudodami $ ženklą, kad E9 langelio formulė būtų =E8+B$11, ir nukopijuokite ląstelės E9 turinys į E10-E14 ląsteles. Paskutinė gauta vertė yra lygi didžiausiai imties vertei, apskaičiuotai anksčiau langelyje B9.

1.5 pav. 2 pavyzdys. Lygių intervalų serijos sudarymas


Dabar užpildykime „kišenių“ masyvą naudodami FREQUENCY funkciją, kaip buvo padaryta 1 pavyzdyje.

1.6 pav. 2 pavyzdys. Lygių intervalų serijos sudarymas

Naudodami gautas variacijų eilutes sudarysime histogramą: pasirinkite dažnio stulpelį ir skirtuke „Įterpti“ pasirinkite „Histograma“. Gavę histogramą, pakeiskime joje esančias horizontaliosios ašies reikšmes į intervalų diapazono reikšmes, skirtuke „Dizaineris“ pasirinkite parinktį „Pasirinkti duomenis“. Pasirodžiusiame lange pasirinkite „Horizontalios ašies etiketės“ ​​komandą „Keisti“ ir įveskite parinkčių reikšmių diapazoną, pasirinkdami jį pele.

1.7 pav. 2 pavyzdys. Histogramos sudarymas

1.8 pav. 2 pavyzdys. Histogramos sudarymas

Atskiroms charakteristikoms yra sukurta atskirų variacijų serija.

Norint sudaryti diskrečiųjų variacijų eilutę, reikia atlikti šiuos veiksmus: 1) sutvarkyti stebėjimo vienetus didėjančia tirtos charakteristikos reikšmės tvarka,

2) nustatyti visas galimas charakteristikos x i reikšmes, išdėstyti jas didėjančia tvarka,

atributo vertė, i .

atributo vertės dažnumas ir žymėti f i . Visų serijos dažnių suma yra lygi elementų skaičiui tiriamoje populiacijoje.

1 pavyzdys .

Mokinių gautų pažymių per egzaminus sąrašas: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Štai numeris X - pažymysyra diskretinis atsitiktinis kintamasis, o gautas įverčių sąrašas yrastatistiniai (stebimi) duomenys .

    išdėliokite stebėjimo vienetus tirtos charakteristikos vertės didėjimo tvarka:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) nustatyti visas galimas charakteristikos x i reikšmes, išdėstyti jas didėjančia tvarka:

Šiame pavyzdyje visi įverčiai gali būti suskirstyti į keturias grupes su šiomis reikšmėmis: 2; 3; 4; 5.

Vadinama atsitiktinio dydžio reikšmė, atitinkanti tam tikrą stebimų duomenų grupę atributo vertė, parinktis (parinktis) ir pažymėkite x i .

Vadinamas skaičius, parodantis, kiek kartų atitinkama charakteristikos reikšmė atsiranda daugelyje stebėjimų atributo vertės dažnumas ir žymėti f i .

Mūsų pavyzdžiui

2 balas pasitaiko – 8 kartus,

3 balas pasitaiko - 12 kartų,

4 balas pasitaiko - 23 kartus,

5 balas pasitaiko – 17 kartų.

Iš viso yra 60 įvertinimų.

4) gautus duomenis surašykite į lentelę iš dviejų eilučių (stulpelių) - x i ir f i.

Remiantis šiais duomenimis, galima sudaryti atskirų variacijų eilutes

Diskrečių variacijų serija – tai lentelė, kurioje tiriamos charakteristikos pasitaikančios reikšmės nurodomos kaip individualios reikšmės didėjančia tvarka ir jų dažniai

  1. Intervalinių variacijų serijos konstravimas

Be atskirų variacijų eilučių, dažnai susiduriama su duomenų grupavimo metodu, pvz., intervalų variacijų serijomis.

Intervalų serija sudaroma, jei:

    ženklas turi nuolatinį kitimo pobūdį;

    Buvo daug atskirų verčių (daugiau nei 10)

    diskrečiųjų reikšmių dažniai yra labai maži (neviršija 1–3, kai yra gana daug stebėjimo vienetų);

    daug atskirų ypatybės reikšmių su tais pačiais dažniais.

Intervalų variacijų serija yra būdas grupuoti duomenis lentelės, kurioje yra du stulpeliai, forma (charakteristikos reikšmės reikšmių intervalo pavidalu ir kiekvieno intervalo dažnis).

Skirtingai nuo diskrečiųjų serijų, intervalų serijos charakteristikos reikšmės vaizduojamos ne atskiromis reikšmėmis, o reikšmių intervalu („nuo - iki“).

Skaičius, rodantis, kiek stebėjimo vienetų pateko į kiekvieną pasirinktą intervalą, vadinamas atributo vertės dažnumas ir žymėti f i . Visų serijos dažnių suma yra lygi elementų (stebėjimo vienetų) skaičiui tiriamoje populiacijoje.

Jei vienetas turi būdingą vertę, lygią viršutinei intervalo ribai, tada jis turi būti priskirtas kitam intervalui.

Pavyzdžiui, vaikas, kurio ūgis 100 cm, pateks į 2 intervalą, o ne į pirmąjį; o vaikas, kurio ūgis 130 cm, pateks į paskutinį intervalą, o ne į trečią.

Remiantis šiais duomenimis, galima sudaryti intervalų variacijų eilutes.

Kiekvienas intervalas turi apatinę ribą (xn), viršutinę ribą (xw) ir intervalo plotį ( i).

Intervalo riba yra atributo, esančio ant dviejų intervalų ribos, reikšmė.

vaikų ūgis (cm)

vaikų ūgis (cm)

vaikų skaičius

daugiau nei 130

Jei intervalas turi viršutinę ir apatinę ribas, tada jis vadinamas uždaras intervalas. Jei intervalas turi tik apatinę arba tik viršutinę ribą, tai yra - atviras intervalas. Atviras gali būti tik pats pirmasis arba paskutinis intervalas. Aukščiau pateiktame pavyzdyje paskutinis intervalas yra atviras.

Intervalo plotis (i) – skirtumas tarp viršutinės ir apatinės ribos.

i = x n - x in

Laikoma, kad atvirojo intervalo plotis yra toks pat kaip gretimo uždaro intervalo plotis.

vaikų ūgis (cm)

vaikų skaičius

Intervalo plotis (i)

skaičiavimams 130+20=150

20 (nes gretimo uždaro intervalo plotis yra 20)

Visos intervalų eilutės skirstomos į intervalų eilutes su vienodais intervalais ir intervalų serijas su nevienodais intervalais . Tarpais išdėstytose eilutėse su vienodais intervalais visų intervalų plotis yra vienodas. Intervalų serijose su nelygiais intervalais intervalų plotis yra skirtingas.

Nagrinėjamame pavyzdyje - intervalų eilutė su nelygiais intervalais.

Būklė:

Yra duomenų apie darbuotojų amžiaus sudėtį (metai): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Sukurkite intervalų skirstinio seką.
    2. Sukurkite grafinį serijos vaizdą.
    3. Grafiškai nustatykite režimą ir medianą.

Sprendimas:

1) Pagal Sturgesso formulę populiacija turi būti suskirstyta į 1 + 3,322 lg 30 = 6 grupes.

Maksimalus amžius – 38, minimalus – 18 metų.

Intervalo plotis Kadangi intervalų galai turi būti sveikieji skaičiai, populiaciją suskirstome į 5 grupes. Intervalo plotis - 4.

Kad būtų lengviau atlikti skaičiavimus, duomenis išdėliosime didėjimo tvarka: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

Darbuotojų pasiskirstymas pagal amžių

Grafiškai serija gali būti pavaizduota kaip histograma arba daugiakampis. Histograma – juostinė diagrama. Stulpelio pagrindas yra intervalo plotis. Stulpelio aukštis lygus dažniui.

Daugiakampis (arba pasiskirstymo daugiakampis) – dažnio grafikas. Norėdami jį sukurti naudodami histogramą, sujungiame stačiakampių viršutinių kraštinių vidurio taškus. Uždarome daugiakampį ant Ox ašies atstumais, lygiais pusei intervalo nuo kraštutinių x verčių.

Režimas (Mo) yra tiriamos charakteristikos, kuri dažniausiai pasitaiko tam tikroje populiacijoje, reikšmė.

Norėdami nustatyti režimą iš histogramos, turite pasirinkti aukščiausią stačiakampį, nubrėžti liniją nuo dešiniosios šio stačiakampio viršūnės iki ankstesnio stačiakampio viršutinio dešiniojo kampo ir iš kairiosios modalinio stačiakampio viršūnės nubrėžti liniją iki paskesnio stačiakampio kairioji viršūnė. Iš šių linijų sankirtos nubrėžkite statmeną x ašiai. Abscisė bus mada. Mo ≈ 27,5. Tai reiškia, kad dažniausiai šios populiacijos amžius yra 27–28 metai.

Mediana (Me) yra tiriamos charakteristikos vertė, kuri yra tvarkingų variacijų eilutės viduryje.

Medianą randame naudodami kumuliaciją. Cumulates – sukauptų dažnių grafikas. Abscisos yra serijos variantai. Ordinatės yra sukaupti dažniai.

Norėdami nustatyti kumuliacijos medianą, išilgai ordinačių ašies randame tašką, atitinkantį 50% sukauptų dažnių (mūsų atveju, 15), per jį nubrėžiame tiesią liniją, lygiagrečią Ox ašiai ir nuo taško jo susikirtimo su kumuliacija nubrėžkite statmeną x ašiai. Abscisė yra mediana. Aš ≈ 25,9. Tai reiškia, kad pusė šios populiacijos darbuotojų yra jaunesni nei 26 metų amžiaus.

2. Paskirstymo serijų samprata. Diskrečiosios ir intervalinės skirstymo eilutės

Paskirstymo eilutės vadinamos specialaus tipo grupuotėmis, kuriose kiekvienai charakteristikai, požymių grupei ar požymių klasei yra žinomas vienetų skaičius grupėje arba šio skaičiaus santykis sumoje. Tie. platinimo serija– sutvarkytas atributų reikšmių rinkinys, išdėstytas didėjančia arba mažėjančia tvarka su atitinkamais svoriais. Paskirstymo serijos gali būti sudarytos pagal kiekybines arba atributines charakteristikas.

Pasiskirstymo serijos, sudarytos remiantis kiekybiniu pagrindu, vadinamos variacijų serijomis. Jie įvyksta diskretiškas ir intervalas. Pasiskirstymo serija gali būti sudaryta remiantis nuolat kintančia charakteristika (kai charakteristika gali įgauti bet kokias reikšmes bet kuriame intervale) ir diskretiškai kintančia charakteristika (reikia griežtai apibrėžtų sveikųjų skaičių).

Diskretus Paskirstymo variacijų serija yra reitinguotų parinkčių rinkinys su atitinkamais dažniais ar detalėmis. Atskiros serijos variantai yra diskretiškai nuolat kintančios charakteristikos vertės, dažniausiai skaičiavimo rezultatas.

Diskretus

Variacijų eilutės paprastai sudaromos, jei tiriamos charakteristikos reikšmės gali skirtis viena nuo kitos ne mažiau kaip tam tikru baigtiniu dydžiu. Diskrečiose serijose nurodomos charakteristikos taškinės reikšmės. Pavyzdys : Parduotuvių parduodamų vyriškų kostiumų pasiskirstymas per mėnesį pagal dydį.

Intervalas

Variacijų serija yra sutvarkyta atsitiktinių dydžių verčių keitimo intervalų rinkinys su atitinkamais dažniais arba kintamojo verčių dažniais, patenkančiais į kiekvieną iš jų. Intervalinės serijos skirtos analizuoti nuolat kintančios charakteristikos pasiskirstymą, kurios reikšmė dažniausiai fiksuojama matavimo ar svėrimo būdu. Tokios serijos variantai yra grupės.

Pavyzdys : Pirkinių pasiskirstymas bakalėjos parduotuvėje pagal sumas.

Jei diskrečiųjų variacijų serijose dažnio atsakas yra tiesiogiai susijęs su serijos variantu, tai intervalinėse serijose jis nurodo variantų grupę.

Patogu analizuoti pasiskirstymo serijas naudojant jų grafinį vaizdą, kuris leidžia spręsti apie pasiskirstymo formą ir modelius. Atskira serija diagramoje pavaizduota kaip trūkinė linija - paskirstymo daugiakampis. Norėdami jį sukurti, stačiakampėje koordinačių sistemoje kintamos charakteristikos reitinguotos (sutvarkytos) reikšmės brėžiamos išilgai x ašies toje pačioje skalėje, o dažnių išreiškimo skalė – išilgai ordinačių ašies.

Intervalų serijos vaizduojamos kaip pasiskirstymo histogramos(ty juostines diagramas).

Kuriant histogramą, intervalų reikšmės brėžiamos ant abscisių ašies, o dažniai vaizduojami stačiakampiais, pastatytais ant atitinkamų intervalų. Stulpelių aukštis vienodais intervalais turi būti proporcingas dažniams.

Bet kurią histogramą galima paversti paskirstymo daugiakampiu, reikia sujungti jos stačiakampių viršūnes su tiesiomis atkarpomis.

2. Indekso metodas, skirtas analizuoti vidutinės produkcijos ir vidutinio darbuotojų skaičiaus įtaką gamybos apimties pokyčiams

Indekso metodas naudojama analizuojant dinamiką ir lyginant bendruosius rodiklius bei veiksnius, įtakojančius šių rodiklių lygių pokyčius. Naudojant indeksus, galima nustatyti vidutinės produkcijos ir vidutinio darbuotojų skaičiaus įtaką gamybos apimties pokyčiams. Ši problema išspręsta sukūrus analitinių indeksų sistemą.

Gamybos apimties indeksas yra susijęs su vidutiniu darbuotojų skaičiumi, o vidutinis produkcijos indeksas taip pat, kaip ir gamybos apimtis (Q) su produkcija ( w) ir skaičiai ( r) .

Galime daryti išvadą, kad produkcijos apimtis bus lygi vidutinės produkcijos ir vidutinio darbuotojų skaičiaus sandaugai:

Q = w r, kur Q yra gamybos apimtis,

w - vidutinė išeiga,

r – vidutinis darbuotojų skaičius.

Kaip matote, mes kalbame apie reiškinių ryšį statikoje: dviejų veiksnių sandauga duoda bendrą gauto reiškinio tūrį. Taip pat akivaizdu, kad šis ryšys yra funkcinis, todėl šio ryšio dinamika tiriama naudojant indeksus. Pateiktame pavyzdyje tai yra tokia sistema:

Jw × Jr = Jwr.

Pavyzdžiui, gamybos apimties indeksas Jwr, kaip gamybinio reiškinio indeksas, gali būti išskaidytas į du faktorių indeksus: vidutinį produkcijos indeksą (Jw) ir vidutinį darbuotojų skaičiaus indeksą (Jr):

Indeksas Indeksas Indeksas

vidutinio darbo užmokesčio apimtis

produkcijos produkcijos numeris

Kur J w- darbo našumo indeksas, apskaičiuotas pagal Laspeireso formulę;

J r- darbuotojų skaičiaus indeksas, apskaičiuotas pagal Paasche formulę.

Indeksų sistemos naudojamos atskirų veiksnių įtakai veiklos rodiklio lygio formavimuisi nustatyti, jos leidžia iš 2 žinomų indekso reikšmių nustatyti nežinomojo reikšmę.

Remiantis aukščiau pateikta indeksų sistema, galima rasti ir absoliutų gamybos apimties padidėjimą, išskaidytą į veiksnių įtaką.

1. Bendras gamybos apimties padidėjimas:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Padidėjimas dėl vidutinio produkcijos rodiklio veikimo:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Padidėjimas dėl vidutinio darbuotojų skaičiaus rodiklio veikimo:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Pavyzdys. Yra žinomi šie duomenys

Galime nustatyti, kaip keitėsi gamybos apimtis santykiniais ir absoliučiais dydžiais ir kaip atskiri veiksniai turėjo įtakos šiam pokyčiui.

Gamybos apimtis buvo:

baziniu laikotarpiu

w 0 * r 0 = 2000 * 90 = 180 000,

ir ataskaitoje

w 1 * r 1 = 2100 * 100 = 210 000.

Vadinasi, produkcijos apimtys išaugo 30.000 arba 1,16 proc.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

arba (210000:180000)*100%=1,16%.

Tokį gamybos apimties pokytį lėmė:

1) vidutinis darbuotojų skaičius padidėjo 10 žmonių arba 111,1 proc.

r 1 / r 0 = 100 / 90 = 1,11 arba 111,1%.

Absoliučiais skaičiais dėl šio veiksnio gamybos apimtis padidėjo 20 000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20 000.

2) vidutinės produkcijos padidėjimas 105 % arba 10 000:

w 1 r 1 / w 0 r 1 = 2100*100/2000*100 = 1,05 arba 105 %.

Absoliučiais skaičiais padidėjimas yra toks:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Taigi bendra veiksnių įtaka buvo:

1. Absoliučiais dydžiais

10000 + 20000 = 30000

2. Santykine prasme

1,11 * 1,05 = 1,16 (116%)

Todėl padidėjimas siekia 1,16 proc. Abu rezultatai buvo gauti anksčiau.

Žodis „indeksas“ vertime reiškia rodyklę, indikatorių. Statistikoje indeksas interpretuojamas kaip santykinis rodiklis, apibūdinantis reiškinio pasikeitimą laike, erdvėje arba lyginant su planu. Kadangi indeksas yra santykinė reikšmė, indeksų pavadinimai sutampa su santykinių reikšmių pavadinimais.

Tais atvejais, kai analizuojame palyginamų produktų pokyčius laikui bėgant, galime kelti klausimą, kaip skirtingomis sąlygomis (skirtingose ​​srityse) keičiasi indekso komponentai (kaina, fizinė apimtis, atskirų produktų rūšių gamybos ar pardavimo struktūra) . Šiuo atžvilgiu sudaromi pastovios sudėties, kintamos sudėties ir struktūrinių pokyčių indeksai.

Nuolatinės (fiksuotos) sudėties indeksas – tai indeksas, apibūdinantis tos pačios fiksuotos populiacijos struktūros vidutinės vertės dinamiką.

Pastovios sudėties indekso sudarymo principas yra eliminuoti svorių struktūros pokyčių įtaką indeksuojamai vertei, apskaičiuojant indeksuojamo rodiklio svertinį vidutinį lygį tais pačiais svoriais.

Pastovios sudėties indeksas savo forma yra identiškas suvestiniam indeksui. Suvestinė forma yra labiausiai paplitusi.

Pastovios sudėties indeksas skaičiuojamas vieno periodo lygyje fiksuotais svoriais ir parodo tik indeksuotos vertės pokytį. Pastovios sudėties indeksas eliminuoja svorių struktūros pokyčių įtaką indeksuojamai reikšmei, apskaičiuodamas indeksuojamo rodiklio svertinį vidutinį lygį tais pačiais svoriais. Pastovios sudėties indeksai lygina rodiklius, apskaičiuotus remiantis pastovia reiškinių struktūra.

Apdorojant didelius informacijos kiekius, o tai ypač svarbu vykdant šiuolaikinius mokslo pokyčius, tyrėjas susiduria su rimta užduotimi teisingai sugrupuoti pradinius duomenis. Jei duomenys yra diskretiško pobūdžio, tada, kaip matėme, problemų nekyla – tereikia apskaičiuoti kiekvienos funkcijos dažnumą. Jei tiriama charakteristika turi tęstinis simbolis (kas praktikoje yra labiau paplitęs), tada pasirinkti optimalų požymių grupavimo intervalų skaičių jokiu būdu nėra trivialus uždavinys.

Norint sugrupuoti ištisinius atsitiktinius dydžius, visas charakteristikos variacijų diapazonas yra padalintas į tam tikrą intervalų skaičių Į.

Grupuotas intervalas (tęstinis) variacijų serija vadinami intervalais, surikiuotais pagal atributo reikšmę (), kur į r-ąjį intervalą patenkančių stebėjimų skaičiai arba santykiniai dažniai () nurodomi kartu su atitinkamais dažniais ():

Charakteristikos reikšmių intervalai

mi dažnis

Histograma Ir kauptis (ogiva), jau išsamiai aptarti, yra puiki duomenų vizualizavimo priemonė, leidžianti susidaryti pirminį duomenų struktūros vaizdą. Tokie grafikai (1.15 pav.) konstruojami ištisiniams duomenims taip pat, kaip ir diskretiesiems, tik atsižvelgiant į tai, kad ištisiniai duomenys visiškai užpildo jų galimų reikšmių sritį, įgaudami bet kokias reikšmes.

Ryžiai. 1.15.

Štai kodėl histogramos ir kumuliacijos stulpeliai turi liestis vienas su kitu ir neturi būti sričių, kuriose atributų reikšmės nepatenka į visas įmanomas(t. y. histogramoje ir kumuliacijose išilgai abscisių ašies neturėtų būti „skylių“, kuriose nėra tiriamo kintamojo reikšmių, kaip parodyta 1.16 pav.). Juostos aukštis atitinka dažnį – stebėjimų, patenkančių į tam tikrą intervalą, skaičių arba santykinį dažnį – stebėjimų proporciją. Intervalai neturi susikirsti ir paprastai yra vienodo pločio.

Ryžiai. 1.16.

Histograma ir daugiakampis yra tikimybės tankio kreivės (diferencialinės funkcijos) apytikslės reikšmės. f(x) teorinis skirstinys, svarstomas tikimybių teorijos eigoje. Todėl jų konstrukcija yra tokia svarbi pirminiame statistiniame kiekybinių tęstinių duomenų apdorojime – pagal jų išvaizdą galima spręsti apie hipotetinį pasiskirstymo dėsnį.

Cumulate – intervalų variacijų eilučių kaupiamųjų dažnių (dažnių) kreivė. Kaupiamojo skirstinio funkcijos grafikas lyginamas su kumuliacija F(x), taip pat aptarta tikimybių teorijos kurse.

Iš esmės histogramos ir kumuliacijos sąvokos yra susietos konkrečiai su ištisiniais duomenimis ir jų intervalų variacijų eilutėmis, nes jų grafikai yra atitinkamai empiriniai tikimybės tankio funkcijos ir pasiskirstymo funkcijos įverčiai.

Intervalų variacijų serijos konstravimas prasideda nuo intervalų skaičiaus nustatymo k. Ir ši užduotis yra bene sunkiausia, svarbiausia ir prieštaringiausia nagrinėjamu klausimu.

Intervalų skaičius neturėtų būti per mažas, nes dėl to histograma bus per lygi ( perlygintas), praranda visas pirminių duomenų kintamumo ypatybes – pav. 1.17 galite pamatyti, kaip tie patys duomenys, ant kurių grafikai pav. 1.15, naudojamas sudaryti histogramą su mažesniu intervalų skaičiumi (kairysis grafikas).

Tuo pačiu metu intervalų skaičius neturėtų būti per didelis - kitaip negalėsime įvertinti tiriamų duomenų pasiskirstymo tankio pagal skaitinę ašį: histograma bus nepakankamai išlyginta. (išlygintas), su tuščiais intervalais, nelygios (žr. 1.17 pav., dešinysis grafikas).

Ryžiai. 1.17.

Kaip nustatyti tinkamiausią intervalų skaičių?

Dar 1926 m. Herbertas Sturgesas pasiūlė formulę, kaip apskaičiuoti intervalų, į kuriuos reikia padalyti pradinį tiriamos charakteristikos verčių rinkinį, skaičių. Ši formulė išties tapo itin populiari – ją siūlo dauguma statistikos vadovėlių, o daugelis statistikos paketų ją naudoja pagal nutylėjimą. Kiek tai pagrįsta ir visais atvejais yra labai rimtas klausimas.

Taigi, kuo remiasi Sturges formulė?

Apsvarstykite dvinarį skirstinį)

Ar jums patiko straipsnis? Pasidalinkite su draugais!