Kako zgraditi variacijsko serijo. Statistični povzetek in grupiranje

Laboratorijsko delo št. 1. Primarna obdelava statističnih podatkov

Izgradnja razdelilnih serij

Imenuje se urejena porazdelitev populacijskih enot v skupine glede na katero koli značilnost blizu distribucije . V tem primeru je lahko značilnost kvantitativna, nato pa se imenuje serija variacijski , in kvalitativno, potem se serija imenuje atributivna . Tako je na primer prebivalstvo mesta mogoče porazdeliti po starostnih skupinah v variacijskem nizu ali po poklicni pripadnosti v atributnem nizu (seveda je mogoče predlagati veliko več kvalitativnih in kvantitativnih značilnosti za konstruiranje porazdelitvenih nizov; izbira značilnost je določena z nalogo statističnega raziskovanja).

Za vsako distribucijsko serijo sta značilna dva elementa:

- možnost(x i) – gre za individualne vrednosti značilnosti enot v vzorčni populaciji. Za niz variacij ima možnost številčne vrednosti, za atributne nize – kvalitativne (na primer x = "državni uslužbenec");

- pogostost(n jaz) – število, ki kaže, kolikokrat se pojavi določena vrednost atributa. Če je frekvenca izražena kot relativno število (tj. delež elementov populacije, ki ustreza dani vrednosti možnosti v celotnem obsegu populacije), se imenuje relativna frekvenca oz pogostost.

Variacijska serija je lahko:

- diskretna, ko je značilnost, ki se preučuje, označena z določeno številko (običajno celo število).

- interval, ko so meje »od« in »do« definirane za nenehno spreminjajočo se karakteristiko. Intervalna serija je zgrajena tudi, če je niz vrednosti diskretno spremenljive značilnosti velik.

Intervalni niz je lahko sestavljen tako z intervali enake dolžine (serije z enakimi intervali) kot z neenakimi intervali, če to narekujejo pogoji statistične študije. Na primer, lahko razmislimo o nizu porazdelitev dohodka z naslednjimi intervali:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:

kjer je k število intervalov, n je velikost vzorca. (Seveda formula običajno poda delno število, za število intervalov pa se izbere celo število, ki je najbližje dobljenemu številu.) Dolžino intervala v tem primeru določa formula

Grafično lahko variacijske serije predstavimo v obliki histogrami(nad vsakim intervalom serije intervalov je zgrajen "stolpec" višine, ki ustreza frekvenci v tem intervalu), razdelilni poligon(prekinjena črta, ki povezuje točke ( x i;n i) oz kumulira(zgrajeno na akumuliranih frekvencah, tj. za vsako vrednost atributa se vzame pogostost pojavljanja v nizu objektov z vrednostjo atributa, manjšo od dane).

Pri delu v Excelu je mogoče uporabiti naslednje funkcije za sestavo vrst variacij:

PREVERI( podatkovno polje) – za določitev velikosti vzorca. Argument je obseg celic, v katerih se nahajajo vzorčni podatki.

COUNTIF( obseg; merilo) – lahko se uporablja za sestavo atributa ali variacijske serije. Argumenta sta obseg matrike vzorčnih vrednosti atributa in merilo - številska ali besedilna vrednost atributa ali številka celice, v kateri se nahaja. Rezultat je pogostost pojavljanja te vrednosti v vzorcu.

FREKVENCA( podatkovno polje; niz intervalov) – za izdelavo variacijske serije. Argumenta sta obseg matrike vzorčnih podatkov in intervalni stolpec. Če morate sestaviti diskretno serijo, so tukaj navedene vrednosti možnosti, če gre za intervalno serijo, potem zgornje meje intervalov (imenujejo se tudi "žepi"). Ker je rezultat stolpec s frekvencami, morate dokončati vnos funkcije s pritiskom na CTRL+SHIFT+ENTER. Upoštevajte, da vam pri določanju niza intervalov pri uvajanju funkcije ni treba določiti zadnje vrednosti v njej - vse vrednosti, ki niso bile vključene v prejšnje "žepe", bodo postavljene v ustrezen "žep". To lahko včasih pomaga preprečiti napako, da se največja vrednost vzorca samodejno ne postavi v zadnji žep.

Poleg tega za kompleksne skupine (na podlagi več značilnosti) uporabite orodje "vrtilne tabele". Lahko jih uporabimo tudi za izdelavo atributnih in variacijskih serij, vendar to po nepotrebnem zaplete nalogo. Poleg tega je za izdelavo serije variacij in histograma na voljo postopek »histogram« iz dodatka »Analysis Package« (če želite uporabljati dodatke v Excelu, jih morate najprej prenesti; niso privzeto nameščeni)

Naj proces primarne obdelave podatkov ponazorimo z naslednjimi primeri.

Primer 1.1. Obstajajo podatki o kvantitativni sestavi 60 družin.

Konstruirajte variacijsko serijo in porazdelitveni poligon

rešitev.

Odprimo Excelove tabele. Vnesemo podatkovno matriko v obseg A1:L5. Če preučujete dokument v elektronski obliki (na primer v formatu Word), za to preprosto izberite tabelo s podatki in jo kopirajte v odložišče, nato izberite celico A1 in prilepite podatke - samodejno bodo zasedli ustrezen obseg. Izračunajmo količino vzorca n - število vzorčnih podatkov, vnesite formulo =COUNT(A1:L5) v celico B7. Upoštevajte, da za vnos želenega obsega v formulo ni treba vnesti njegove oznake s tipkovnice, dovolj je, da jo izberete. Določimo najmanjšo in največjo vrednost v vzorcu tako, da vnesemo formulo =MIN(A1:L5) v celico B8 in v celico B9: =MAX(A1:L5).

Slika 1.1 Primer 1. Primarna obdelava statističnih podatkov v Excelovih tabelah

Nato bomo pripravili tabelo za izdelavo variacijske serije z vnosom imen za intervalni stolpec (vrednosti variant) in stolpec frekvence. V intervalni stolpec vnesite značilne vrednosti od najmanjše (1) do največje (6), ki zasedajo obseg B12: B17. Izberite stolpec frekvence, vnesite formulo =FREQUENCY(A1:L5,B12:B17) in pritisnite kombinacijo tipk CTRL+SHIFT+ENTER

Slika 1.2 Primer 1. Konstrukcija variacijske serije

Za nadzor izračunajmo vsoto frekvenc s funkcijo SUM (ikona funkcije S v skupini »Urejanje« na zavihku »Domov«), izračunana vsota naj sovpada s predhodno izračunano prostornino vzorca v celici B7.

Sedaj zgradimo poligon: ko izberemo nastalo frekvenčno območje, na zavihku »Vstavi« izberemo ukaz »Graf«. Privzeto bodo vrednosti na vodoravni osi redne številke - v našem primeru od 1 do 6, kar sovpada z vrednostmi možnosti (številke tarifnih kategorij).

Ime serije grafikonov »serija 1« lahko spremenite z isto možnostjo »izberi podatke« na zavihku »Oblikovanje« ali pa ga preprosto izbrišete.

Slika 1.3. Primer 1. Konstrukcija frekvenčnega poligona

Primer 1.2. Obstajajo podatki o emisijah onesnaževal iz 50 virov:

10,4	18,6	10,3	26,0	45,0	18,2	17,3	19,2	25,8	18,7
28,2	25,2	18,4	17,5	41,8	14,6	10,0	37,8	10,5	16,0
18,1	16,8	38,5	37,7	17,9	29,0	10,1	28,0	12,0	14,0
14,2	20,8	13,5	42,4	15,5	17,9	19,	10,8	12,1	12,4
12,9	12,6	16,8	19,7	18,3	36,8	15,0	37,0	13,0	19,5

Sestavite serijo enakih intervalov, zgradite histogram

rešitev

Vnesemo podatkovno matriko v Excelov list, zasedla bo obseg A1:J5 Kot v prejšnji nalogi bomo določili velikost vzorca n, najmanjšo in največjo vrednost v vzorcu. Ker zdaj ne potrebujemo diskretne serije, ampak intervalno vrsto, število intervalov v problemu pa ni določeno, izračunamo število intervalov k s pomočjo Sturgessove formule. Če želite to narediti, v celico B10 vnesite formulo =1+3,322*LOG10(B7).

Slika 1.4. Primer 2. Konstrukcija serije z enakimi intervali

Dobljena vrednost ni celo število, je približno 6,64. Ker bo pri k=7 dolžina intervalov izražena kot celo število (za razliko od k=6), izberemo k=7 tako, da to vrednost vnesemo v celico C10. Dolžino intervala d v celici B11 izračunamo z vnosom formule =(B9-B8)/C10.

Določimo niz intervalov, ki nakazujejo zgornjo mejo za vsakega od 7 intervalov. V ta namen v celici E8 izračunamo zgornjo mejo prvega intervala z vnosom formule =B8+B11; v celico E9 zgornjo mejo drugega intervala z vnosom formule =E8+B11. Za izračun preostalih vrednosti zgornjih meja intervalov popravimo število celice B11 v vneseni formuli z znakom $, tako da ima formula v celici E9 obliko =E8+B$11 in kopiramo vsebino celice E9 v celice E10-E14. Zadnja dobljena vrednost je enaka največji vrednosti v vzorcu, izračunani prej v celici B9.

Slika 1.5. Primer 2. Konstrukcija serije z enakimi intervali

Zdaj pa napolnimo matriko "žepov" s funkcijo FREQUENCY, kot je bilo storjeno v primeru 1.

Slika 1.6. Primer 2. Konstrukcija serije z enakimi intervali

Z uporabo dobljene serije variacij bomo zgradili histogram: izberite stolpec frekvence in na zavihku »Vstavi« izberite »Histogram«. Ko prejmemo histogram, spremenimo oznake vodoravne osi v vrednosti v območju intervalov; za to izberite možnost »Izberi podatke« na zavihku »Oblikovalnik«. V oknu, ki se prikaže, izberite ukaz »Spremeni« za razdelek »Oznake vodoravne osi« in vnesite obseg vrednosti za možnosti ter ga izberite z miško.

Slika 1.7. Primer 2. Izdelava histograma

Slika 1.8. Primer 2. Izdelava histograma

Serija diskretnih variacij je izdelana za diskretne značilnosti.

Če želite sestaviti diskretno variacijsko serijo, morate izvesti naslednje korake: 1) razporedite enote opazovanja v naraščajočem vrstnem redu preučevane vrednosti značilnosti,

2) določite vse možne vrednosti atributa x i , jih uredite v naraščajočem vrstnem redu,

vrednost atributa, jaz .

pogostost vrednosti atributa in označujejo f jaz . Vsota vseh frekvenc serije je enaka številu elementov v proučevani populaciji.

Primer 1 .

Seznam ocen študentov na izpitih: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Tukaj je številka X - razredje diskretna naključna spremenljivka in nastali seznam ocen jestatistični (opazni) podatki .

razvrstite enote opazovanja v naraščajočem vrstnem redu proučevane značilne vrednosti:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) določite vse možne vrednosti atributa x i, jih razvrstite v naraščajočem vrstnem redu:

V tem primeru lahko vse ocene razdelimo v štiri skupine z naslednjimi vrednostmi: 2; 3; 4; 5.

Imenuje se vrednost naključne spremenljivke, ki ustreza določeni skupini opazovanih podatkov vrednost atributa, možnost (možnost) in označite x jaz .

Imenuje se število, ki kaže, kolikokrat se ustrezna vrednost značilnosti pojavi v določenem številu opazovanj pogostost vrednosti atributa in označujejo f jaz .

Za naš primer

rezultat 2 se pojavi - 8-krat,

rezultat 3 se pojavi - 12-krat,

rezultat 4 se pojavi - 23-krat,

rezultat 5 se pojavi - 17-krat.

Skupaj je 60 ocen.

4) prejete podatke zapišite v tabelo dveh vrstic (stolpcev) - x i in f i.

Na podlagi teh podatkov je mogoče sestaviti diskretno variacijsko vrsto

Diskretne variacijske serije – to je tabela, v kateri so pojavljajoče se vrednosti značilnosti, ki se preučuje, navedene kot posamezne vrednosti v naraščajočem vrstnem redu in njihove frekvence

Konstrukcija intervalne variacijske serije

Poleg diskretnih variacijskih serij se pogosto pojavlja metoda združevanja podatkov, kot je intervalna variacijska serija.

Intervalna serija je zgrajena, če:

znak se nenehno spreminja;

Bilo je veliko diskretnih vrednosti (več kot 10)

frekvence diskretnih vrednosti so zelo majhne (ne presegajo 1-3 z relativno velikim številom opazovalnih enot);

veliko diskretnih vrednosti lastnosti z enakimi frekvencami.

Intervalna variacijska serija je način združevanja podatkov v obliki tabele, ki ima dva stolpca (vrednosti značilnosti v obliki intervala vrednosti in frekvenca vsakega intervala).

Za razliko od diskretne serije vrednosti značilnosti intervalne serije niso predstavljene s posameznimi vrednostmi, temveč z intervalom vrednosti (»od - do«).

Pokličemo število, ki pove, koliko enot opazovanja je padlo v posamezen izbrani interval pogostost vrednosti atributa in označujejo f jaz . Vsota vseh frekvenc serije je enaka številu elementov (enot opazovanja) v proučevani populaciji.

Če ima enota značilno vrednost, ki je enaka zgornji meji intervala, jo je treba dodeliti naslednjemu intervalu.

Na primer, otrok z višino 100 cm bo padel v 2. interval in ne v prvega; in otrok z višino 130 cm bo padel v zadnji interval in ne v tretji.

Na podlagi teh podatkov je mogoče sestaviti niz intervalnih variacij.

Vsak interval ima spodnjo mejo (xn), zgornjo mejo (xv) in širino intervala ( jaz).

Intervalna meja je vrednost atributa, ki leži na meji dveh intervalov.

višina otrok (cm)	višina otrok (cm)	število otrok




več kot 130

Če ima interval zgornjo in spodnjo mejo, se imenuje zaprt interval. Če ima interval samo spodnjo ali samo zgornjo mejo, potem je - odprt interval. Odprt je lahko samo prvi ali zadnji interval. V zgornjem primeru je zadnji interval odprt.

Širina intervala (jaz) – razlika med zgornjo in spodnjo mejo.

jaz = x n - x noter

Predpostavlja se, da je širina odprtega intervala enaka širini sosednjega zaprtega intervala.

višina otrok (cm)		število otrok	Širina intervala (i)
		število otrok	Širina intervala (i)



	za izračune 130+20=150		20 (ker je širina sosednjega zaprtega intervala 20)

Vse intervalne serije delimo na intervalne serije z enakimi intervali in intervalne serije z neenakimi intervali . V razmaknjenih vrstah z enakimi presledki je širina vseh presledkov enaka. V intervalnih serijah z neenakimi intervali je širina intervalov drugačna.

V obravnavanem primeru - intervalna serija z neenakimi intervali.

Pogoj:

Obstajajo podatki o starostni sestavi delavcev (leta): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

1. Konstruirajte niz intervalnih porazdelitev.
2. Sestavite grafični prikaz serije.
3. Grafično določite modus in mediano.

rešitev:

1) Po Sturgessovi formuli je treba populacijo razdeliti na 1 + 3,322 lg 30 = 6 skupin.

Najvišja starost - 38, najmanjša - 18.

Širina intervala Ker morajo biti konci intervalov cela števila, razdelimo populacijo v 5 skupin. Širina intervala - 4.

Za lažji izračun bomo podatke razvrstili v naraščajočem vrstnem redu: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Starostna porazdelitev delavcev

Grafično je serija lahko prikazana kot histogram ali poligon. Histogram - palični grafikon. Osnova stolpca je širina intervala. Višina stolpca je enaka frekvenci.

Poligon (ali porazdelitveni poligon) - frekvenčni graf. Če ga želimo zgraditi s pomočjo histograma, povežemo sredine zgornjih stranic pravokotnikov. Poligon zapremo na osi Ox na razdaljah, ki so enake polovici intervala od skrajnih vrednosti x.

Način (Mo) je vrednost lastnosti, ki se preučuje, ki se najpogosteje pojavlja v določeni populaciji.

Če želite določiti način iz histograma, morate izbrati najvišji pravokotnik, potegniti črto od desnega vrha tega pravokotnika do zgornjega desnega kota prejšnjega pravokotnika in od levega vrha modalnega pravokotnika potegniti črto do levo oglišče naslednjega pravokotnika. Iz točke presečišča teh črt narišite pravokotno na os x. Na abscisi bo moda. Mo ≈ 27,5. To pomeni, da je najpogostejša starost v tej populaciji 27-28 let.

Mediana (Me) je vrednost proučevane značilnosti, ki je na sredini urejenega variacijskega niza.

Mediano najdemo s kumulato. Cumulates - graf akumuliranih frekvenc. Abscise so različice serije. Ordinate so akumulirane frekvence.

Za določitev mediane nad kumulacijo poiščemo točko vzdolž ordinatne osi, ki ustreza 50 % akumuliranih frekvenc (v našem primeru 15), skozi njo narišemo ravno črto, vzporedno z osjo Ox, in iz točke njegovo presečišče s kumulato narišite pravokotno na os x. Abscisa je mediana. Jaz ≈ 25.9. To pomeni, da je polovica delavcev v tej populaciji mlajših od 26 let.

2. Koncept porazdelitvenih serij. Diskretne in intervalne porazdelitvene vrste

Distribucijske vrstice se imenujejo skupine posebne vrste, v katerih je za vsako značilnost, skupino značilnosti ali razred značilnosti znano število enot v skupini ali delež tega števila v skupnem seštevku. Tisti. distribucijske serije– urejen niz vrednosti atributov, urejenih v naraščajočem ali padajočem vrstnem redu z njihovimi ustreznimi utežmi. Porazdelitvene serije je mogoče sestaviti s kvantitativnimi ali atributnimi značilnostmi.

Porazdelitvene vrste, sestavljene na kvantitativni osnovi, se imenujejo variacijske serije. So diskretno in intervalno. Porazdelitveno serijo je mogoče sestaviti na podlagi nenehno spreminjajoče se karakteristike (ko ima lahko značilnost poljubne vrednosti znotraj katerega koli intervala) in na podlagi diskretno spreminjajoče se značilnosti (zavzema strogo določene celoštevilske vrednosti).

Diskretno Niz variacij porazdelitve je razvrščen niz možnosti z njihovimi ustreznimi frekvencami ali podrobnostmi. Različice diskretne serije so diskretno nenehno spreminjajoče se vrednosti značilnosti, običajno rezultat štetja.

Diskretno

Serije variacij so običajno zgrajene, če se vrednosti značilnosti, ki se preučujejo, lahko med seboj razlikujejo za najmanj določeno končno količino. V diskretnih serijah so podane točkovne vrednosti značilnosti. Primer : Porazdelitev prodanih moških oblek po trgovinah na mesec po velikosti.

Interval

Variacijska serija je urejen niz intervalov spreminjanja vrednosti naključne spremenljivke z ustreznimi frekvencami ali frekvencami vrednosti spremenljivke, ki spadajo v vsako od njih. Intervalne serije so zasnovane za analizo porazdelitve stalno spreminjajoče se karakteristike, katere vrednost se najpogosteje zabeleži z meritvijo ali tehtanjem. Različice takšne serije so skupine.

Primer : Porazdelitev nakupov v živilski trgovini po količini.

Če se v serijah diskretnih variacij frekvenčni odziv neposredno nanaša na različico serije, potem se v serijah intervalov nanaša na skupino različic.

Porazdelitvene serije je priročno analizirati z njihovo grafično predstavitvijo, ki omogoča presojo oblike porazdelitve in vzorcev. Diskretna serija je na grafu prikazana kot lomljena črta - razdelilni poligon. Za njegovo konstrukcijo so v pravokotnem koordinatnem sistemu razvrščene (urejene) vrednosti spremenljive karakteristike narisane vzdolž osi x v istem merilu, lestvica za izražanje frekvenc pa je narisana vzdolž ordinatne osi.

Intervalne serije so prikazane kot porazdelitveni histogrami(to je palični grafikoni).

Pri izdelavi histograma so vrednosti intervalov narisane na abscisni osi, frekvence pa so prikazane s pravokotniki, zgrajenimi na ustreznih intervalih. Višina stolpcev v primeru enakih intervalov naj bo sorazmerna s frekvencami.

Vsak histogram je mogoče pretvoriti v porazdelitveni poligon; to je potrebno povezati oglišča njegovih pravokotnikov z ravnimi segmenti.

2. Indeksna metoda za analizo vpliva povprečne proizvodnje in povprečnega števila zaposlenih na spremembe obsega proizvodnje

Indeksna metoda se uporablja za analizo dinamike in primerjavo splošnih kazalnikov ter dejavnikov, ki vplivajo na spremembe ravni teh kazalnikov. Z indeksi je mogoče ugotoviti vpliv povprečne proizvodnje in povprečnega števila zaposlenih na spremembe obsega proizvodnje. Ta problem je rešen z izgradnjo sistema analitičnih indeksov.

Indeks obsega proizvodnje je povezan s povprečnim številom zaposlenih in povprečni indeks proizvodnje na enak način, kot je obseg proizvodnje (Q) povezan z proizvodnjo ( w) in številke ( r) .

Sklepamo lahko, da bo obseg proizvodnje enak produktu povprečne proizvodnje in povprečnega števila zaposlenih:

Q = w r, kjer je Q obseg proizvodnje,

w - povprečni izhod,

r – povprečno število zaposlenih.

Kot lahko vidite, govorimo o razmerju pojavov v statiki: zmnožek dveh faktorjev daje skupni obseg nastalega pojava. Očitno je tudi, da je ta povezava funkcionalna, zato se dinamika te povezave preučuje z uporabo indeksov. Za navedeni primer je to naslednji sistem:

Jw × Jr = Jwr.

Na primer, indeks obsega proizvodnje Jwr kot indeks produktivnega pojava lahko razčlenimo na dva faktorska indeksa: indeks povprečne proizvodnje (Jw) in indeks povprečnega števila zaposlenih (Jr):

Index Index Index

obseg povprečne plače

proizvodno število

Kje J w- indeks produktivnosti dela, izračunan po Laspeyresovi formuli;

J r- indeks števila zaposlenih, izračunan po Paaschejevi formuli.

Indeksni sistemi se uporabljajo za ugotavljanje vpliva posameznih dejavnikov na oblikovanje nivoja kazalnika uspešnosti, omogočajo določitev vrednosti neznanke iz 2 znanih vrednosti indeksa.

Na podlagi omenjenega sistema indeksov lahko ugotovimo tudi absolutno povečanje obsega proizvodnje, razčlenjeno na vpliv dejavnikov.

1. Splošno povečanje obsega proizvodnje:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Povečanje zaradi delovanja indikatorja povprečnega izhoda:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Povečanje zaradi delovanja indikatorja povprečnega števila zaposlenih:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Primer. Znani so naslednji podatki

Ugotovimo lahko, kako se je relativno in absolutno spreminjal obseg proizvodnje in kako so na to spremembo vplivali posamezni dejavniki.

Obseg proizvodnje je bil:

v baznem obdobju

w 0 * r 0 = 2000 * 90 = 180000,

in v poročanju

w 1 * r 1 = 2100 * 100 = 210000.

Posledično se je obseg proizvodnje povečal za 30.000 ali 1,16 %.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

ali (210000:180000)*100%=1,16%.

Ta sprememba obsega proizvodnje je bila posledica:

1) povečanje povprečnega števila zaposlenih za 10 ljudi ali 111,1%

r 1 / r 0 = 100 / 90 = 1,11 ali 111,1 %.

V absolutnem smislu se je zaradi tega dejavnika obseg proizvodnje povečal za 20.000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) povečanje povprečne proizvodnje za 105% ali 10.000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 ali 105 %.

V absolutnem smislu je povečanje:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Zato je bil skupni vpliv dejavnikov:

1. V absolutnem smislu

10000 + 20000 = 30000

2. V relativnem smislu

1,11 * 1,05 = 1,16 (116%)

Torej je povišanje 1,16-odstotno. Oba rezultata sta bila pridobljena prej.

Beseda "indeks" v prevodu pomeni kazalec, indikator. V statistiki se indeks razlaga kot relativni indikator, ki označuje spremembo pojava v času, prostoru ali v primerjavi z načrtom. Ker je indeks relativna vrednost, so imena indeksov soglasna z imeni relativnih vrednosti.

V primerih, ko analiziramo časovne spremembe primerjanih izdelkov, se lahko vprašamo, kako se komponente indeksa (cena, fizični obseg, struktura proizvodnje ali prodaje posameznih vrst izdelkov) spreminjajo v različnih pogojih (na različnih področjih) . V zvezi s tem so izdelani indeksi konstantne sestave, spremenljive sestave in strukturnih sprememb.

Indeks stalne (stalne) sestave – To je indeks, ki označuje dinamiko povprečne vrednosti za enako fiksno strukturo prebivalstva.

Načelo konstruiranja indeksa konstantne sestave je odpraviti vpliv sprememb v strukturi uteži na indeksirano vrednost z izračunom tehtane povprečne ravni indeksiranega kazalnika z enakimi utežmi.

Indeks stalne sestave je po obliki enak agregatnemu indeksu. Agregatna oblika je najpogostejša.

Indeks konstantne sestave se izračuna z utežmi, ki so fiksirane na ravni enega obdobja in prikazuje spremembo samo indeksirane vrednosti. Indeks konstantne sestave izloči vpliv sprememb v strukturi uteži na indeksirano vrednost tako, da izračuna tehtano povprečno raven indeksiranega kazalnika z enakimi utežmi. Indeksi konstantne sestave primerjajo kazalnike, izračunane na podlagi nespremenjene strukture pojavov.

Pri obdelavi velikih količin informacij, kar je še posebej pomembno pri izvajanju sodobnega znanstvenega razvoja, se raziskovalec sooča z resno nalogo pravilnega združevanja izvornih podatkov. Če so podatki diskretne narave, potem, kot smo videli, ne nastanejo nobene težave - samo izračunati morate frekvenco vsake lastnosti. Če ima preučevana lastnost neprekinjeno naravi (kar je v praksi bolj pogosto), potem izbira optimalnega števila intervalov združevanja značilnosti nikakor ni nepomembna naloga.

Za združevanje zveznih naključnih spremenljivk je celotno variacijsko območje značilnosti razdeljeno na določeno število intervalov. Za.

Skupinski interval (neprekinjeno) variacijske serije se imenujejo intervali, razvrščeni po vrednosti atributa (), kjer so števila opazovanj, ki spadajo v i"-ti interval, ali relativne frekvence (), navedene skupaj z ustreznimi frekvencami ():

Intervali karakterističnih vrednosti
frekvenca mi

Stolpični diagram in kumulacija (ogiva), ki smo jih že podrobno obravnavali, so odlično sredstvo za vizualizacijo podatkov, ki vam omogoča, da dobite primarno predstavo o strukturi podatkov. Takšni grafi (sl. 1.15) so zgrajeni za zvezne podatke na enak način kot za diskretne podatke, le ob upoštevanju dejstva, da zvezni podatki popolnoma zapolnijo območje njihovih možnih vrednosti in prevzamejo poljubne vrednosti.

riž. 1.15.

Zato stolpca na histogramu in kumulatu se morata dotikati drug drugega in nimata območij, kjer vrednosti atributov ne spadajo v vse možne(tj. histogram in kumulacije ne smejo imeti "lukenj" vzdolž osi abscise, ki ne vsebujejo vrednosti preučevane spremenljivke, kot na sliki 1.16). Višina stolpca ustreza frekvenci – številu opazovanj v danem intervalu ali relativni frekvenci – deležu opazovanj. Intervali se ne smejo sekati in so običajno enake širine.

riž. 1.16.

Histogram in poligon sta približka krivulje gostote verjetnosti (diferencialna funkcija) f(x) teoretična porazdelitev, obravnavana pri teoriji verjetnosti. Zato je njihova konstrukcija tako pomembna pri primarni statistični obdelavi kvantitativnih zveznih podatkov - po njihovem videzu je mogoče soditi hipotetični zakon porazdelitve.

Kumulacija – krivulja akumuliranih frekvenc (frekvenc) intervalne variacijske serije. Graf funkcije kumulativne porazdelitve primerjamo s kumulato F(x), o čemer se razpravlja tudi pri predmetu teorije verjetnosti.

V bistvu sta koncepta histograma in kumulacije povezana posebej z zveznimi podatki in njihovimi serijami intervalnih variacij, saj so njuni grafi empirične ocene funkcije gostote verjetnosti oziroma porazdelitvene funkcije.

Konstrukcija intervalne variacijske serije se začne z določitvijo števila intervalov k. In ta naloga je morda najtežja, pomembna in kontroverzna v tem vprašanju.

Število intervalov ne sme biti premajhno, ker bo histogram postal preveč gladek ( preveč zglajen), izgubi vse značilnosti variabilnosti izvirnih podatkov - na sl. 1.17 lahko vidite, kako isti podatki, na katerih so prikazani grafi na sl. 1.15, ki se uporablja za izdelavo histograma z manjšim številom intervalov (levi graf).

Hkrati število intervalov ne sme biti preveliko - sicer ne bomo mogli oceniti gostote porazdelitve proučevanih podatkov vzdolž numerične osi: histogram se bo izkazal za premalo zglajen (premalo zglajeno), s praznimi intervali, neenakomerno (glej sliko 1.17, desni graf).

riž. 1.17.

Kako določiti najprimernejše število intervalov?

Leta 1926 je Herbert Sturges predlagal formulo za izračun števila intervalov, na katere je treba razdeliti prvotni niz vrednosti značilnosti, ki se preučuje. Ta formula je resnično postala izjemno priljubljena - ponuja jo večina statističnih učbenikov in številni statistični paketi jo uporabljajo privzeto. Koliko je to upravičeno in v vseh primerih, je zelo resno vprašanje.

Torej, na čem temelji Sturgesova formula?

Upoštevajte binomsko porazdelitev)