Si të ndërtoni një seri variacionesh. Përmbledhje statistikore dhe grupim

Puna laboratorike nr. 1. Përpunimi primar i të dhënave statistikore

Ndërtimi i serive të shpërndarjes

Shpërndarja e renditur e njësive të popullsisë në grupe sipas ndonjë karakteristike quhet afër shpërndarjes . Në këtë rast, karakteristika mund të jetë ose sasiore, atëherë seria quhet variacionale , dhe cilësore, atëherë quhet seria atributiv . Kështu, për shembull, popullsia e një qyteti mund të shpërndahet sipas grupmoshave në një seri variacionesh, ose nga përkatësia profesionale në një seri atributesh (natyrisht, shumë më tepër karakteristika cilësore dhe sasiore mund të propozohen për ndërtimin e serive të shpërndarjes; zgjedhja e karakteristikë përcaktohet nga detyra e kërkimit statistikor).

Çdo seri e shpërndarjes karakterizohet nga dy elementë:

- opsion(x i) - këto janë vlera individuale të karakteristikave të njësive në popullatën e mostrës. Për serinë e variacionit, opsioni merr vlera numerike, për seritë atributive - cilësore (për shembull, x = "nëpunës civil");

- frekuenca(n i) – një numër që tregon se sa herë ndodh një vlerë e caktuar e atributit. Nëse frekuenca shprehet si një numër relativ (d.m.th., proporcioni i elementeve të popullsisë që korrespondon me një vlerë të caktuar të opsioneve në vëllimin e përgjithshëm të popullsisë), atëherë quhet frekuencë relative ose frekuenca.

Seritë e variacioneve mund të jenë:

- diskrete, kur karakteristika që studiohet karakterizohet nga një numër i caktuar (zakonisht një numër i plotë).

- intervali, kur kufijtë "nga" dhe "deri" janë përcaktuar për një karakteristikë që ndryshon vazhdimisht. Një seri intervali ndërtohet gjithashtu nëse grupi i vlerave të një karakteristike të ndryshueshme në mënyrë diskrete është i madh.

Një seri intervali mund të ndërtohet si me intervale me gjatësi të barabartë (seri me interval të barabartë) ashtu edhe me intervale të pabarabarta, nëse kjo diktohet nga kushtet e studimit statistikor. Për shembull, mund të merren parasysh një sërë shpërndarjesh të të ardhurave të popullsisë me intervalet e mëposhtme:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:

ku k është numri i intervaleve, n është madhësia e kampionit. (Sigurisht, formula zakonisht jep një numër thyesor, dhe numri i plotë më i afërt me numrin që rezulton zgjidhet si numri i intervaleve.) Gjatësia e intervalit në këtë rast përcaktohet nga formula

Grafikisht, seritë e variacioneve mund të paraqiten në formë histogramet(mbi çdo interval të serisë së intervalit ndërtohet një "kolona" e lartësisë që korrespondon me frekuencën në këtë interval), poligonin e shpërndarjes(vija e thyer që lidh pikat ( x i;n i) ose grumbullohet(ndërtuar mbi frekuencat e grumbulluara, d.m.th. për secilën vlerë të atributit, merret frekuenca e shfaqjes në një grup objektesh me një vlerë atributi më të vogël se ajo e dhënë).

Kur punoni në Excel, funksionet e mëposhtme mund të përdoren për të ndërtuar seri variacionesh:

KONTROLLO ( grupi i të dhënave) – për të përcaktuar madhësinë e kampionit. Argumenti është diapazoni i qelizave në të cilat ndodhen të dhënat e mostrës.

COUNTIF( varg; kriter) – mund të përdoret për të ndërtuar një atribut ose seri variacionale. Argumentet janë diapazoni i grupit të vlerave të mostrës së atributit dhe kriteri - vlera numerike ose tekstuale e atributit ose numri i qelizës në të cilën ndodhet. Rezultati është frekuenca e shfaqjes së asaj vlere në mostër.

FREKUENCA ( grupi i të dhënave; varg intervalesh) – për ndërtimin e një serie variacionesh. Argumentet janë diapazoni i grupit të të dhënave të mostrës dhe kolona e intervalit. Nëse keni nevojë të ndërtoni një seri diskrete, atëherë vlerat e opsioneve tregohen këtu nëse është një seri intervali, atëherë kufijtë e sipërm të intervaleve (ato quhen gjithashtu "xhepa"). Meqenëse rezultati është një kolonë frekuencash, duhet të plotësoni hyrjen e funksionit duke shtypur CTRL+SHIFT+ENTER. Vini re se kur specifikoni një grup intervalesh kur futni një funksion, nuk është e nevojshme të specifikoni vlerën e fundit në të - të gjitha vlerat që nuk janë përfshirë në "xhepat" e mëparshëm do të vendosen në "xhepin" përkatës. Kjo ndonjëherë mund të ndihmojë në shmangien e gabimit të mos vendosjes automatike të vlerës së mostrës më të madhe në xhepin e fundit.

Për më tepër, për grupime komplekse (bazuar në disa karakteristika), përdorni mjetin "tabelat kryesore". Ato mund të përdoren gjithashtu për të ndërtuar seri atributesh dhe variacionesh, por kjo e ndërlikon në mënyrë të panevojshme detyrën. Gjithashtu, për të ndërtuar një seri variacionesh dhe një histogram, ekziston një procedurë "histogram" nga shtesa "Analysis Package" (për të përdorur shtesat në Excel, fillimisht duhet t'i shkarkoni; ato nuk janë instaluar si parazgjedhje)

Le të ilustrojmë procesin e përpunimit të të dhënave parësore me shembujt e mëposhtëm.

Shembulli 1.1. Ka të dhëna për përbërjen sasiore të 60 familjeve.

Ndërtoni një seri variacionesh dhe poligonin e shpërndarjes

Zgjidhje.

Le të hapim tabelat në Excel. Le të fusim grupin e të dhënave në intervalin A1:L5. Nëse jeni duke studiuar një dokument në formë elektronike (në formatin Word, për shembull), për ta bërë këtë, thjesht zgjidhni tabelën me të dhënat dhe kopjoni atë në clipboard, pastaj zgjidhni qelizën A1 dhe ngjitni të dhënat - ato automatikisht do të zënë diapazoni i duhur. Le të llogarisim vëllimin e mostrës n - numrin e të dhënave të mostrës për ta bërë këtë, futni formulën =COUNT(A1:L5) në qelizën B7; Vini re se për të futur gamën e dëshiruar në formulë, nuk është e nevojshme të vendosni përcaktimin e tij nga tastiera; Le të përcaktojmë vlerat minimale dhe maksimale në mostër duke futur formulën =MIN(A1:L5) në qelizën B8 dhe në qelizën B9: =MAX(A1:L5).

Fig.1.1 Shembull 1. Përpunimi primar i të dhënave statistikore në tabelat Excel

Më pas, ne do të përgatisim një tabelë për ndërtimin e një serie variacionesh duke futur emra për kolonën e intervalit (vlerat e variantit) dhe kolonën e frekuencës. Në kolonën e intervalit, vendosni vlerat karakteristike nga minimumi (1) në maksimum (6), duke zënë diapazonin B12:B17. Zgjidhni kolonën e frekuencës, shkruani formulën =FREQUENCY(A1:L5,B12:B17) dhe shtypni kombinimin e tastit CTRL+SHIFT+ENTER

Fig. 1.2 Shembull 1. Ndërtimi i një serie variacionesh

Për të kontrolluar, le të llogarisim shumën e frekuencave duke përdorur funksionin SUM (ikona e funksionit S në grupin "Redaktimi" në skedën "Home"), shuma e llogaritur duhet të përkojë me vëllimin e llogaritur më parë të mostrës në qelizën B7.

Tani le të ndërtojmë një poligon: pasi të keni zgjedhur gamën e frekuencës që rezulton, zgjidhni komandën "Graph" në skedën "Fut". Si parazgjedhje, vlerat në boshtin horizontal do të jenë numra rendorë - në rastin tonë nga 1 në 6, që përkon me vlerat e opsioneve (numrat e kategorive tarifore).

Emri i serisë së grafikëve "seri 1" ose mund të ndryshohet duke përdorur të njëjtin opsion "përzgjedh të dhënat" të skedës "Dizajn", ose thjesht të fshihet.

Fig.1.3. Shembull 1. Ndërtimi i një shumëkëndëshi të frekuencës

Shembulli 1.2. Ekzistojnë të dhëna për emetimet e ndotësve nga 50 burime:

10,4	18,6	10,3	26,0	45,0	18,2	17,3	19,2	25,8	18,7
28,2	25,2	18,4	17,5	41,8	14,6	10,0	37,8	10,5	16,0
18,1	16,8	38,5	37,7	17,9	29,0	10,1	28,0	12,0	14,0
14,2	20,8	13,5	42,4	15,5	17,9	19,	10,8	12,1	12,4
12,9	12,6	16,8	19,7	18,3	36,8	15,0	37,0	13,0	19,5

Hartoni një seri me interval të barabartë, ndërtoni një histogram

Zgjidhje

Le të fusim grupin e të dhënave në një fletë Excel, ai do të zërë diapazonin A1:J5 Ashtu si në detyrën e mëparshme, ne do të përcaktojmë madhësinë e mostrës n, vlerat minimale dhe maksimale në mostër. Meqenëse tani nuk kemi nevojë për një seri diskrete, por për një seri intervali, dhe numri i intervaleve në problem nuk është specifikuar, ne llogarisim numrin e intervaleve k duke përdorur formulën Sturgess. Për ta bërë këtë, futni formulën =1+3.322*LOG10(B7) në qelizën B10.

Fig.1.4. Shembulli 2. Ndërtimi i një serie me interval të barabartë

Vlera që rezulton nuk është një numër i plotë, është afërsisht 6.64. Meqenëse me k=7 gjatësia e intervaleve do të shprehet si numër i plotë (ndryshe nga rasti i k=6), zgjedhim k=7 duke e futur këtë vlerë në qelizën C10. Ne llogarisim gjatësinë e intervalit d në qelizën B11 duke futur formulën =(B9-B8)/C10.

Le të përcaktojmë një grup intervalesh, duke treguar kufirin e sipërm për secilin nga 7 intervalet. Për ta bërë këtë, në qelizën E8 llogarisim kufirin e sipërm të intervalit të parë duke futur formulën =B8+B11; në qelizën E9 kufiri i sipërm i intervalit të dytë duke futur formulën =E8+B11. Për të llogaritur vlerat e mbetura të kufijve të sipërm të intervaleve, ne rregullojmë numrin e qelizës B11 në formulën e futur duke përdorur shenjën $, në mënyrë që formula në qelizën E9 të marrë formën =E8+B$11 dhe kopjoni përmbajtja e qelizës E9 në qelizat E10-E14. Vlera e fundit e marrë është e barabartë me vlerën maksimale në kampionin e llogaritur më parë në qelizën B9.

Fig.1.5. Shembulli 2. Ndërtimi i një serie me interval të barabartë

Tani le të mbushim grupin e "xhepave" duke përdorur funksionin FREQUENCY, siç u bë në shembullin 1.

Fig.1.6. Shembulli 2. Ndërtimi i një serie me interval të barabartë

Duke përdorur serinë e variacionit që rezulton, ne do të ndërtojmë një histogram: zgjidhni kolonën e frekuencës dhe zgjidhni "Histogram" në skedën "Fut". Pasi të kemi marrë histogramin, le të ndryshojmë etiketat e boshtit horizontal në të në vlerat në intervalin e intervalit për ta bërë këtë, zgjidhni opsionin "Zgjidhni të dhënat" në skedën "Dizajner". Në dritaren që shfaqet, zgjidhni komandën "Ndrysho" për seksionin "Etiketat e boshtit horizontal" dhe futni gamën e vlerave për opsionet, duke e zgjedhur atë me miun.

Fig.1.7. Shembulli 2. Ndërtimi i një histogrami

Fig.1.8. Shembulli 2. Ndërtimi i një histogrami

Një seri variacionesh diskrete është ndërtuar për karakteristika diskrete.

Për të ndërtuar një seri variacionesh diskrete, duhet të kryeni hapat e mëposhtëm: 1) rregulloni njësitë e vëzhgimit në rend rritës të vlerës së studiuar të karakteristikës,

2) përcaktoni të gjitha vlerat e mundshme të atributit x i, rregulloni ato në rend rritës,

vlera e atributit, i .

frekuenca e vlerës së atributit dhe shënojnë f i . Shuma e të gjitha frekuencave të një serie është e barabartë me numrin e elementeve në popullsinë që studiohet.

Shembulli 1 .

Lista e notave të marra nga studentët në provime: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Këtu është numri X - gradëështë një variabël e rastësishme diskrete, dhe lista që rezulton e vlerësimeve ështëtë dhëna statistikore (të vëzhgueshme). .

rregulloni njësitë e vëzhgimit në rend rritës të vlerës karakteristike të studiuar:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) përcaktoni të gjitha vlerat e mundshme të atributit x i, renditini ato në rend rritës:

Në këtë shembull, të gjitha vlerësimet mund të ndahen në katër grupe me vlerat e mëposhtme: 2; 3; 4; 5.

Vlera e një ndryshoreje të rastësishme që korrespondon me një grup të caktuar të të dhënave të vëzhguara quhet vlera e atributit, opsioni (opsioni) dhe caktoni x i .

Një numër që tregon se sa herë vlera përkatëse e një karakteristike ndodh në një numër vëzhgimesh quhet frekuenca e vlerës së atributit dhe shënojnë f i .

Për shembullin tonë

rezultati 2 ndodh - 8 herë,

rezultati 3 ndodh - 12 herë,

rezultati 4 ndodh - 23 herë,

rezultati 5 ndodh - 17 herë.

Ka 60 vlerësime në total.

4) shkruani të dhënat e marra në një tabelë me dy rreshta (kolona) - x i dhe f i.

Bazuar në këto të dhëna, është e mundur të ndërtohet një seri variacionesh diskrete

Seritë e variacioneve diskrete - kjo është një tabelë në të cilën vlerat e shfaqura të karakteristikës që studiohet tregohen si vlera individuale në rend rritës dhe frekuencat e tyre

Ndërtimi i një serie variacionesh intervali

Përveç serive variacionale diskrete, shpesh haset një metodë e grupimit të të dhënave si një seri variacionale intervali.

Një seri intervali ndërtohet nëse:

shenja ka një natyrë të vazhdueshme ndryshimi;

Kishte shumë vlera diskrete (më shumë se 10)

frekuencat e vlerave diskrete janë shumë të vogla (të mos kalojnë 1-3 me një numër relativisht të madh njësish vëzhgimi);

shumë vlera diskrete të një veçorie me të njëjtat frekuenca.

Një seri e variacionit të intervalit është një mënyrë për të grupuar të dhënat në formën e një tabele që ka dy kolona (vlerat e karakteristikës në formën e një intervali vlerash dhe frekuenca e secilit interval).

Ndryshe nga një seri diskrete, vlerat e karakteristikës së një serie intervali përfaqësohen jo nga vlera individuale, por nga një interval vlerash ("nga - në").

Numri që tregon se sa njësi vëzhgimi ranë në çdo interval të zgjedhur quhet frekuenca e vlerës së atributit dhe shënojnë f i . Shuma e të gjitha frekuencave të një serie është e barabartë me numrin e elementeve (njësive të vëzhgimit) në popullatën që studiohet.

Nëse një njësi ka një vlerë karakteristike të barabartë me kufirin e sipërm të intervalit, atëherë ajo duhet të caktohet në intervalin tjetër.

Për shembull, një fëmijë me një lartësi prej 100 cm do të bjerë në intervalin e dytë, dhe jo në të parën; dhe një fëmijë me lartësi 130 cm do të bjerë në intervalin e fundit, dhe jo në të tretën.

Bazuar në këto të dhëna, mund të ndërtohet një seri variacionesh intervali.

Çdo interval ka një kufi të poshtëm (xn), një kufi të sipërm (xw) dhe një gjerësi intervali ( i).

Kufiri i intervalit është vlera e atributit që shtrihet në kufirin e dy intervaleve.

lartësia e fëmijëve (cm)	lartësia e fëmijëve (cm)	sasia e fëmijëve




më shumë se 130

Nëse një interval ka një kufi të sipërm dhe të poshtëm, atëherë ai quhet interval i mbyllur. Nëse një interval ka vetëm një kufi të poshtëm ose vetëm të sipërm, atëherë ai është - interval i hapur. Vetëm intervali i parë ose i fundit mund të jetë i hapur. Në shembullin e mësipërm, intervali i fundit është i hapur.

Gjerësia e intervalit (i) - dallimi midis kufirit të sipërm dhe të poshtëm.

i = x n - x in

Gjerësia e një intervali të hapur supozohet të jetë e njëjtë me gjerësinë e intervalit të mbyllur ngjitur.

lartësia e fëmijëve (cm)		sasia e fëmijëve	Gjerësia e intervalit (i)
		sasia e fëmijëve	Gjerësia e intervalit (i)



	për llogaritjet 130+20=150		20 (sepse gjerësia e intervalit të mbyllur ngjitur është 20)

Të gjitha seritë e intervalit ndahen në seri intervali me intervale të barabarta dhe seri intervali me intervale të pabarabarta . Në rreshtat e ndarë me intervale të barabarta, gjerësia e të gjitha intervaleve është e njëjtë. Në seritë intervale me intervale të pabarabarta, gjerësia e intervaleve është e ndryshme.

Në shembullin në shqyrtim - një seri intervali me intervale të pabarabarta.

Kushti:

Ekzistojnë të dhëna për përbërjen e moshës së punëtorëve (vjet): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

1. Ndërtoni një seri shpërndarjeje intervali.
2. Ndërtoni një paraqitje grafike të serisë.
3. Përcaktoni grafikisht mënyrën dhe mesataren.

Zgjidhja:

1) Sipas formulës Sturgess, popullsia duhet të ndahet në 1 + 3,322 lg 30 = 6 grupe.

Mosha maksimale - 38, minimumi - 18.

Gjerësia e intervalit Meqenëse skajet e intervaleve duhet të jenë numra të plotë, ne e ndajmë popullsinë në 5 grupe. Gjerësia e intervalit - 4.

Për t'i bërë llogaritjet më të lehta, ne do t'i renditim të dhënat në rend rritës: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Shpërndarja në moshë e punëtorëve

Grafikisht, një seri mund të përshkruhet si një histogram ose poligon. Histogram - grafik me shtylla. Baza e kolonës është gjerësia e intervalit. Lartësia e kolonës është e barabartë me frekuencën.

Shumëkëndëshi (ose shumëkëndëshi i shpërndarjes) - grafiku i frekuencës. Për ta ndërtuar atë duke përdorur një histogram, ne lidhim mesin e anëve të sipërme të drejtkëndëshave. Ne mbyllim poligonin në boshtin Ox në distanca të barabarta me gjysmën e intervalit nga vlerat ekstreme të x.

Modaliteti (Mo) është vlera e karakteristikës që studiohet, e cila shfaqet më shpesh në një popullatë të caktuar.

Për të përcaktuar modalitetin nga një histogram, duhet të zgjidhni drejtkëndëshin më të lartë, të vizatoni një vijë nga kulmi i djathtë i këtij drejtkëndëshi në këndin e sipërm të djathtë të drejtkëndëshit të mëparshëm dhe nga kulmi i majtë i drejtkëndëshit modal vizatoni një vijë në kulmi i majtë i drejtkëndëshit pasues. Nga pika e kryqëzimit të këtyre vijave, vizatoni një pingul me boshtin x. Abshisa do të jetë modë. Mo ≈ 27,5. Kjo do të thotë se mosha më e zakonshme në këtë popullatë është 27-28 vjeç.

Mediana (Me) është vlera e karakteristikës që studiohet, e cila është në mes të serisë së variacionit të renditur.

Ne gjejmë mesataren duke përdorur kumulimin. Kumulon - një grafik i frekuencave të grumbulluara. Abshisat janë variante të një serie. Ordinatat janë frekuenca të grumbulluara.

Për të përcaktuar mesataren mbi kumulat, gjejmë një pikë përgjatë boshtit të ordinatave që korrespondon me 50% të frekuencave të grumbulluara (në rastin tonë, 15), vizatojmë një vijë të drejtë përmes saj, paralel me boshtin Ox, dhe nga pika e prerja e tij me kumulatin, vizatoni një pingul me boshtin x. Abshisa është mediana. Unë ≈ 25,9. Kjo do të thotë se gjysma e punëtorëve në këtë popullsi janë nën 26 vjeç.

2. Koncepti i serive të shpërndarjes. Seritë diskrete dhe intervale të shpërndarjes

Rreshtat e shpërndarjes quhen grupime të një lloji të veçantë në të cilat për secilën karakteristikë, grup karakteristikash ose klasë karakteristikash dihet numri i njësive në grup ose përqindja e këtij numri në total. Ato. seritë e shpërndarjes– një grup i renditur vlerash atributesh, të renditura në rend rritës ose zbritës me peshën e tyre përkatëse. Seritë e shpërndarjes mund të ndërtohen ose sipas karakteristikave sasiore ose atributeve.

Seritë e shpërndarjes të ndërtuara në bazë sasiore quhen seri variacioni. Ata janë diskrete dhe intervale. Një seri shpërndarjeje mund të ndërtohet bazuar në një karakteristikë që ndryshon vazhdimisht (kur karakteristika mund të marrë çdo vlerë brenda çdo intervali) dhe në një karakteristikë të ndryshueshme në mënyrë diskrete (merr vlera të plota të përcaktuara rreptësisht).

Diskret Një seri variacionesh të një shpërndarjeje është një grup opsionesh të renditura me frekuencat ose veçoritë e tyre përkatëse. Variantet e një serie diskrete janë vlera që ndryshojnë vazhdimisht në mënyrë diskrete të një karakteristike, zakonisht rezultat i një numërimi.

Diskret

Seritë e variacioneve zakonisht ndërtohen nëse vlerat e karakteristikës që studiohet mund të ndryshojnë nga njëra-tjetra jo më pak se një sasi e caktuar e fundme. Në seritë diskrete, specifikohen vlerat e pikave të një karakteristike. Shembull : Shpërndarja e kostumeve për meshkuj që shiten nga dyqanet në muaj sipas madhësisë.

Intervali

Një seri variacionesh është një grup i renditur intervalesh të ndryshimit të vlerave të një ndryshoreje të rastësishme me frekuencat përkatëse ose frekuencat e vlerave të ndryshores që bien në secilën prej tyre. Seritë e intervalit janë krijuar për të analizuar shpërndarjen e një karakteristike që ndryshon vazhdimisht, vlera e së cilës më së shpeshti regjistrohet me matje ose peshim. Variantet e një serie të tillë janë grupime.

Shembull : Shpërndarja e blerjeve në një dyqan ushqimor sipas sasisë.

Nëse në seritë e variacioneve diskrete përgjigja e frekuencës lidhet drejtpërdrejt me një variant të serisë, atëherë në seritë intervale i referohet një grupi variantesh.

Është i përshtatshëm për të analizuar seritë e shpërndarjes duke përdorur paraqitjen e tyre grafike, e cila ju lejon të gjykoni formën e shpërndarjes dhe modelet. Një seri diskrete përshkruhet në një grafik si një vijë e thyer - poligonin e shpërndarjes. Për ta ndërtuar atë, në një sistem koordinativ drejtkëndor, vlerat e renditura (të renditura) të karakteristikës së ndryshme vizatohen përgjatë boshtit të abshisës në të njëjtën shkallë, dhe një shkallë për shprehjen e frekuencave vizatohet përgjatë boshtit të ordinatave.

Seritë e intervalit përshkruhen si histogramet e shpërndarjes(domethënë grafikët me shtylla).

Kur ndërtohet një histogram, vlerat e intervaleve vizatohen në boshtin e abshisës, dhe frekuencat përshkruhen nga drejtkëndësha të ndërtuar në intervalet përkatëse. Lartësia e kolonave në rastin e intervaleve të barabarta duhet të jetë proporcionale me frekuencat.

Çdo histogram mund të shndërrohet në një poligon të shpërndarjes, për ta bërë këtë, është e nevojshme të lidhni kulmet e drejtkëndëshave të tij me segmente të drejta.

2. Metoda e indeksit për analizimin e ndikimit të prodhimit mesatar dhe numrit mesatar të punonjësve në ndryshimet në vëllimin e prodhimit

Metoda e indeksit përdoret për të analizuar dinamikën dhe për të krahasuar treguesit e përgjithshëm, si dhe faktorët që ndikojnë në ndryshimet në nivelet e këtyre treguesve. Duke përdorur indekset, është e mundur të identifikohet ndikimi i prodhimit mesatar dhe numrit mesatar të punonjësve në ndryshimet në vëllimin e prodhimit. Ky problem zgjidhet duke ndërtuar një sistem indeksesh analitike.

Indeksi i vëllimit të prodhimit lidhet me numrin mesatar të punonjësve dhe indeksi mesatar i prodhimit në të njëjtën mënyrë si vëllimi i prodhimit (Q) lidhet me produktin ( w) dhe numrat ( r) .

Mund të konkludojmë se vëllimi i prodhimit do të jetë i barabartë me produktin e prodhimit mesatar dhe numrin mesatar të punonjësve:

Q = w r, ku Q është vëllimi i prodhimit,

w - prodhimi mesatar,

r – numri mesatar i punonjësve.

Siç mund ta shihni, ne po flasim për marrëdhëniet e fenomeneve në statikë: produkti i dy faktorëve jep vëllimin e përgjithshëm të fenomenit që rezulton. Është gjithashtu e qartë se kjo lidhje është funksionale, prandaj dinamika e kësaj lidhjeje është studiuar duke përdorur indekse. Për shembullin e dhënë, ky është sistemi i mëposhtëm:

Jw × Jr = Jwr.

Për shembull, indeksi i vëllimit të prodhimit Jwr, si një indeks i një fenomeni produktiv, mund të zbërthehet në dy indekse faktorësh: indeksi mesatar i prodhimit (Jw) dhe indeksi mesatar i numrit të punonjësve (Jr):

Indeksi Indeksi Indeksi

vëllimi i listës mesatare të pagave

numri i prodhimit të prodhimit

Ku J w- indeksi i produktivitetit të punës i llogaritur duke përdorur formulën Laspeyres;

Jr- indeksi i numrit të punonjësve, i llogaritur duke përdorur formulën Paasche.

Sistemet e indeksit përdoren për të përcaktuar ndikimin e faktorëve individualë në formimin e nivelit të një treguesi të performancës, ato lejojnë që vlera e një të panjohure të përcaktohet nga 2 vlera të indeksit të njohur;

Bazuar në sistemin e mësipërm të indekseve, mund të gjendet edhe rritja absolute e vëllimit të prodhimit, e zbërthyer në ndikimin e faktorëve.

1. Rritja e përgjithshme e vëllimit të prodhimit:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Rritja për shkak të veprimit të treguesit mesatar të prodhimit:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Rritja për shkak të veprimit të treguesit të numrit mesatar të punonjësve:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Shembull. Të dhënat e mëposhtme janë të njohura

Ne mund të përcaktojmë se si vëllimi i prodhimit ka ndryshuar në terma relativë dhe absolutë dhe si faktorët individualë kanë ndikuar në këtë ndryshim.

Vëllimi i prodhimit ishte:

në periudhën bazë

w 0 * r 0 = 2000 * 90 = 180000,

dhe në raportim

w 1 * r 1 = 2100 * 100 = 210000.

Për rrjedhojë, vëllimi i prodhimit u rrit me 30,000 ose 1.16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

ose (210000:180000)*100%=1.16%.

Ky ndryshim në vëllimin e prodhimit ishte për shkak të:

1) një rritje në numrin mesatar të punonjësve me 10 persona ose 111.1%

r 1 / r 0 = 100 / 90 = 1,11 ose 111,1%.

Në terma absolutë, për shkak të këtij faktori, vëllimi i prodhimit u rrit me 20,000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) një rritje në prodhimin mesatar me 105% ose 10,000:

w 1 r 1 / w 0 r 1 = 2100*100/2000*100 = 1,05 ose 105%.

Në terma absolutë, rritja është:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Prandaj, ndikimi i kombinuar i faktorëve ishte:

1. Në terma absolutë

10000 + 20000 = 30000

2. Në terma relativë

1,11 * 1,05 = 1,16 (116%)

Pra, rritja është 1.16%. Të dy rezultatet janë marrë më parë.

Fjala "indeks" në përkthim do të thotë tregues, tregues. Në statistika, një indeks interpretohet si një tregues relativ që karakterizon një ndryshim në një fenomen në kohë, hapësirë ose në krahasim me një plan. Meqenëse indeksi është një vlerë relative, emrat e indekseve janë në përputhje me emrat e vlerave relative.

Në rastet kur analizojmë ndryshimet me kalimin e kohës në produktet e krahasuara, mund të shtrojmë pyetjen se si ndryshojnë përbërësit e indeksit (çmimi, vëllimi fizik, struktura e prodhimit ose shitjet e llojeve individuale të produkteve) në kushte të ndryshme (në zona të ndryshme) . Në këtë drejtim, ndërtohen indekset e përbërjes konstante, përbërjes së ndryshueshme dhe ndryshimeve strukturore.

Indeksi i përbërjes së përhershme (fikse) - ky është një indeks që karakterizon dinamikën e vlerës mesatare për të njëjtën strukturë fikse të popullsisë.

Parimi i ndërtimit të një indeksi të përbërjes konstante është të eliminojë ndikimin e ndryshimeve në strukturën e peshave në vlerën e indeksuar duke llogaritur nivelin mesatar të ponderuar të treguesit të indeksuar me të njëjtat pesha.

Indeksi i përbërjes konstante është identik në formë me indeksin agregat. Forma agregate është më e zakonshme.

Indeksi i përbërjes konstante llogaritet me pesha të fiksuara në nivelin e një periudhe dhe tregon ndryshimin vetëm në vlerën e indeksuar. Indeksi i përbërjes konstante eliminon ndikimin e ndryshimeve në strukturën e peshave në vlerën e indeksuar duke llogaritur nivelin mesatar të ponderuar të treguesit të indeksuar me të njëjtat pesha. Indekset e përbërjes konstante krahasojnë treguesit e llogaritur në bazë të një strukture të pandryshuar të fenomeneve.

Kur përpunon sasi të mëdha informacioni, gjë që është veçanërisht e rëndësishme gjatë kryerjes së zhvillimeve moderne shkencore, studiuesi përballet me detyrën serioze të grupimit të saktë të të dhënave burimore. Nëse të dhënat janë të natyrës diskrete, atëherë, siç e kemi parë, nuk lindin probleme - thjesht duhet të llogaritni frekuencën e secilës veçori. Nëse karakteristika në studim ka të vazhdueshme karakter (i cili është më i zakonshëm në praktikë), atëherë zgjedhja e numrit optimal të intervaleve të grupimit të veçorive nuk është aspak një detyrë e parëndësishme.

Për të grupuar variabla të rastësishme të vazhdueshme, i gjithë diapazoni i variacionit të karakteristikës ndahet në një numër të caktuar intervalesh te.

Interval i grupuar (të vazhdueshme) seri variacionesh quhen intervale të renditura nga vlera e atributit (), ku numrat e vëzhgimeve që bien në intervalin e i"-të, ose frekuencat relative (), tregohen së bashku me frekuencat përkatëse ():

Intervalet e vlerave karakteristike
frekuenca mi

grafik me shtylla Dhe grumbulloj (ogiva), të diskutuara tashmë në detaje nga ne, janë një mjet i shkëlqyer i vizualizimit të të dhënave, duke ju lejuar të merrni një ide primare të strukturës së të dhënave. Grafikët e tillë (Fig. 1.15) ndërtohen për të dhënat e vazhdueshme në të njëjtën mënyrë si për të dhënat diskrete, vetëm duke marrë parasysh faktin se të dhënat e vazhdueshme plotësojnë plotësisht rajonin e vlerave të tyre të mundshme, duke marrë çdo vlerë.

Oriz. 1.15.

Kjo është arsyeja pse kolonat në histogram dhe kumulat duhet të prekin njëra-tjetrën dhe të mos kenë zona ku vlerat e atributeve nuk bien brenda të gjitha të mundshmeve(d.m.th., histogrami dhe kumulatet nuk duhet të kenë "vrima" përgjatë boshtit të abshisave, të cilat nuk përmbajnë vlerat e ndryshores që studiohet, si në Fig. 1.16). Lartësia e shiritit korrespondon me frekuencën - numri i vëzhgimeve që bien brenda një intervali të caktuar, ose frekuenca relative - proporcioni i vëzhgimeve. Intervalet nuk duhet të kryqëzohen dhe zakonisht kanë të njëjtën gjerësi.

Oriz. 1.16.

Histogrami dhe shumëkëndëshi janë përafrime të lakores së densitetit të probabilitetit (funksioni diferencial) f(x) shpërndarja teorike, e konsideruar në rrjedhën e teorisë së probabilitetit. Prandaj, ndërtimi i tyre është kaq i rëndësishëm në përpunimin statistikor parësor të të dhënave sasiore të vazhdueshme - nga pamja e tyre mund të gjykohet ligji hipotetik i shpërndarjes.

Kumulimi - një kurbë e frekuencave (frekuencave) të grumbulluara të një serie variacionesh intervali. Grafiku i funksionit të shpërndarjes kumulative krahasohet me kumulimin F(x), diskutuar edhe në lëndën e teorisë së probabilitetit.

Në thelb, konceptet e histogramit dhe të kumulimit shoqërohen në mënyrë specifike me të dhënat e vazhdueshme dhe seritë e tyre të variacionit të intervalit, pasi grafikët e tyre janë vlerësime empirike të funksionit të densitetit të probabilitetit dhe funksionit të shpërndarjes, përkatësisht.

Ndërtimi i një serie variacionesh intervali fillon me përcaktimin e numrit të intervaleve k. Dhe kjo detyrë është ndoshta më e vështira, më e rëndësishmja dhe më e diskutueshme në çështjen në studim.

Numri i intervaleve nuk duhet të jetë shumë i vogël, pasi kjo do ta bëjë histogramin shumë të qetë ( i zbutur tej mase), humbet të gjitha tiparet e ndryshueshmërisë së të dhënave origjinale - në Fig. 1.17 mund të shihni se si të njëjtat të dhëna mbi të cilat janë paraqitur grafikët në Fig. 1.15, përdoret për të ndërtuar një histogram me një numër më të vogël intervalesh (grafiku majtas).

Në të njëjtën kohë, numri i intervaleve nuk duhet të jetë shumë i madh - përndryshe ne nuk do të jemi në gjendje të vlerësojmë densitetin e shpërndarjes së të dhënave të studiuara përgjatë boshtit numerik: histogrami do të rezultojë të jetë nën zbutjen (i zbutur), me intervale boshe, të pabarabarta (shih Fig. 1.17, grafiku djathtas).

Oriz. 1.17.

Si të përcaktohet numri më i preferuar i intervaleve?

Në vitin 1926, Herbert Sturges propozoi një formulë për llogaritjen e numrit të intervaleve në të cilat është e nevojshme të ndahet grupi origjinal i vlerave të karakteristikës që studiohet. Kjo formulë është bërë me të vërtetë jashtëzakonisht e popullarizuar - shumica e teksteve statistikore e ofrojnë atë dhe shumë paketa statistikore e përdorin atë si parazgjedhje. Sa e justifikuar është dhe në të gjitha rastet kjo është një pyetje shumë serioze.

Pra, mbi çfarë bazohet formula e Sturges?

Merrni parasysh shpërndarjen binomiale)