Çfarë vlere mund të marrë koeficienti i korrelacionit të shumëfishtë? Korrelacioni linear i shumëfishtë

7.1. Analiza e regresionit linear konsiston në përshtatjen e një grafiku në një grup vëzhgimesh duke përdorur metodën e katrorëve më të vegjël. Analiza e regresionit na lejon të vendosim një marrëdhënie funksionale midis një ndryshoreje të caktuar të rastësishme Y dhe disa ndikues Y vlerat X. Kjo varësi quhet ekuacioni i regresionit. Ka te thjeshta ( y=m*x+b) dhe shumës ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) regresioni i tipit linear dhe jolinear.
Për të vlerësuar shkallën e lidhjes ndërmjet sasive, përdoret Koeficienti i korrelacionit të shumëfishtë Pearson R(raporti i korrelacionit), i cili mund të marrë vlera nga 0 në 1. R=0 nëse nuk ka lidhje midis sasive, dhe R=1 nëse ka një lidhje funksionale ndërmjet sasive. Në shumicën e rasteve, R merr vlera të ndërmjetme nga 0 në 1. Vlera R 2 thirrur koeficienti i përcaktimit.
Detyra e ndërtimit të një varësie regresioni është gjetja e vektorit të koeficientëve M Modeli i regresionit të shumëfishtë linear, në të cilin koeficienti R merr vlerën maksimale.
Për të vlerësuar rëndësinë R zbatohet Testi F Fisher, llogaritur me formulën:

Ku n– numri i eksperimenteve; k– numri i koeficientëve të modelit. Nëse F tejkalon një vlerë kritike për të dhënat n Dhe k dhe probabiliteti i pranuar i besimit, pastaj vlera R konsiderohen të rëndësishme.

7.2. Mjet Regresioni nga Paketa e analizës ju lejon të llogaritni të dhënat e mëposhtme:

· koeficientët e funksionit të regresionit linear– metoda e katrorëve më të vegjël; lloji i funksionit të regresionit përcaktohet nga struktura e të dhënave burimore;

· koeficienti i përcaktimit dhe sasitë përkatëse(tabela Statistikat e regresionit);

· tabela e variancës dhe statistikat e kritereve për të testuar rëndësinë e regresionit(tabela Analiza e variancës);

· devijimi standard dhe karakteristikat e tjera statistikore të tij për çdo koeficient regresioni, duke ju lejuar të kontrolloni rëndësinë e këtij koeficienti dhe të ndërtoni intervale besimi për të;

· vlerat dhe mbetjet e funksionit të regresionit– dallimet midis vlerave fillestare të ndryshores Y dhe vlerat e llogaritura të funksionit të regresionit (tabela Tërheqja e bilancit);

· probabilitete që korrespondojnë me vlerat e ndryshores Y të renditura në rend rritës(tabela Probabiliteti i prodhimit).

7.3. Telefononi mjetin e përzgjedhjes nëpërmjet Të dhënat > Analiza e të dhënave > Regresioni.

7.4. Në fushë Intervali i hyrjes Y shkruani adresën e diapazonit që përmban vlerat e ndryshores së varur Y. Gama duhet të përbëhet nga një kolonë.
Në fushë Intervali i hyrjes X shkruani adresën e një diapazoni që përmban vlerat e ndryshores X. Gama duhet të përbëhet nga një ose më shumë kolona, ​​por jo më shumë se 16 kolona. Nëse specifikohet në fusha Intervali i hyrjes Y Dhe Intervali i hyrjes X vargjet përfshijnë titujt e kolonave, atëherë duhet të kontrolloni kutinë e opsioneve Etiketat– këto tituj do të përdoren në tabelat e daljes të krijuara nga mjeti Regresioni.
Kutia e zgjedhjes së opsionit Konstante - zero duhet të vendoset nëse ekuacioni i regresionit ka një konstante b detyrohet e barabartë me zero.
Opsioni Niveli i besueshmërisë vendoset kur është e nevojshme të ndërtohen intervale besimi për koeficientët e regresionit me një nivel besimi të ndryshëm nga 0.95, i cili përdoret si parazgjedhje. Pasi të keni kontrolluar kutinë e opsioneve Niveli i besueshmërisë Një fushë hyrëse bëhet e disponueshme në të cilën futet një vlerë e re e nivelit të besimit.
Në zonë Të mbetura Ka katër opsione: Të mbetura, Bilancet e standardizuara, Grafiku i bilancit Dhe Orari i përzgjedhjes. Nëse të paktën një prej tyre është i instaluar, tabela do të shfaqet në rezultatet e daljes Tërheqja e bilancit, i cili do të shfaqë vlerat e funksionit të regresionit dhe mbetjet - ndryshimet midis vlerave fillestare të ndryshores Y dhe vlerave të llogaritura të funksionit të regresionit. Në zonë Probabilitet normal Ekziston një opsion - ; instalimi i tij gjeneron një tabelë në rezultatet e daljes Probabiliteti i prodhimit dhe çon në ndërtimin e grafikut përkatës.


7.5. Vendosni parametrat sipas figurës. Sigurohuni që vlera Y të jetë ndryshorja e parë (duke përfshirë qelizën me emrin), dhe vlera X është dy variablat e tjerë (duke përfshirë qelizat me emrat). Klikoni Ne rregull.

7.6. Ne tavoline Statistikat e regresionit Janë dhënë të dhënat e mëposhtme.

Shumësi R– rrënja e koeficientit të përcaktimit R 2 të dhënë në rreshtin vijues. Një emër tjetër për këtë tregues është indeksi i korrelacionit, ose koeficienti i korrelacionit të shumëfishtë.

R-katror– koeficienti i përcaktimit R 2 ; llogaritur si raport shuma e regresionit të katrorëve(qeliza C12) te shuma totale e katrorëve(qeliza C14).

R-katrore e normalizuar llogaritur me formulë

ku n është numri i vlerave të ndryshores Y, k është numri i kolonave në intervalin hyrës të ndryshores X.

Gabim standard– rrënja e variancës së mbetur (qeliza D13).

Vëzhgimet– numri i vlerave të ndryshores Y.

7.7. NË Tabela e shpërndarjes në kolonë SS në kolonë jepen shumat e katrorëve df– numri i shkallëve të lirisë. në kolonë ZNJ– dispersion. Ne rresht Regresioni në kolonë f Vlera e statistikave të kriterit është llogaritur për të testuar rëndësinë e regresionit. Kjo vlerë llogaritet si raport i variancës së regresionit me variancën e mbetur (qelizat D12 dhe D13). Në kolonë Rëndësia F llogaritet probabiliteti i vlerës së fituar të statistikës së kriterit. Nëse ky probabilitet është më i vogël se, për shembull, 0.05 (një nivel i caktuar rëndësie), atëherë hipoteza për parëndësinë e regresionit (d.m.th., hipoteza që të gjithë koeficientët e funksionit të regresionit janë të barabartë me zero) hidhet poshtë dhe regresioni është konsiderohen të rëndësishme. Në këtë shembull, regresioni nuk është i rëndësishëm.

7.8. Në tabelën e mëposhtme, në kolonën Shanset, shkruhen vlerat e llogaritura të koeficientëve të funksionit të regresionit, ndërsa në rresht Kryqëzimi Y shkruhet vlera e termit të lirë b. Në kolonë Gabim standard U llogaritën devijimet standarde të koeficientëve.
Në kolonë t-statistika Regjistrohen raportet e vlerave të koeficientëve ndaj devijimeve të tyre standarde. Këto janë vlerat e statistikave të kriterit për testimin e hipotezave për rëndësinë e koeficientëve të regresionit.
Në kolonë P-Vlera llogariten nivelet e rëndësisë që korrespondojnë me vlerat e statistikave të kriterit. Nëse niveli i llogaritur i rëndësisë është më i vogël se niveli i rëndësisë së specifikuar (për shembull, 0.05). atëherë pranohet hipoteza se koeficienti ndryshon ndjeshëm nga zero; përndryshe, pranohet hipoteza se koeficienti ndryshon në mënyrë të parëndësishme nga zero. Në këtë shembull, vetëm koeficienti b dukshëm të ndryshme nga zero, pjesa tjetër - në mënyrë të parëndësishme.
Në kolona 95% e poshtme Dhe 95% e lartë janë dhënë kufijtë e intervaleve të besimit me një nivel besimi 0.95. Këta kufij llogariten duke përdorur formulat
Më e ulët 95% = Koeficienti - Gabim standard * t α;
95% e sipërme = Koeficient + Gabim Standard * t α.
Këtu t α– sasia e rendit α Shpërndarjet e nxënësve t me (n-k-1) shkallë lirie. Në këtë rast α = 0,95. Kufijtë e intervaleve të besimit në kolona llogariten në të njëjtën mënyrë Fundi 90,0% Dhe 90.0% e lartë.

7.9. Merrni parasysh tabelën Tërheqja e bilancit nga rezultatet e daljes. Kjo tabelë shfaqet në rezultatet e daljes vetëm kur është vendosur të paktën një opsion në zonë Të mbetura kuti dialogu Regresioni.

Në kolonë Vrojtim jepen numrat serialë të vlerave të variablave Y.
Në kolonë Parashikoi Y vlerat e funksionit të regresionit y i = f(x i) janë llogaritur për ato vlera të ndryshores X, që korrespondon me numrin serial i në kolonë Vrojtim.
Në kolonë Të mbetura përmban diferencat (mbetjet) ε i =Y-y i , dhe kolonën Bilancet standarde– mbetjet e normalizuara, të cilat llogariten si raporte ε i/s ε. ku s ε është devijimi standard i mbetjeve. Katrori i vlerës s ε llogaritet duke përdorur formulën

ku është mesatarja e mbetjeve. Vlera mund të llogaritet si raport i dy vlerave nga tabela e shpërndarjes: shuma e mbetjeve në katror (qeliza C13) dhe shkallët e lirisë nga rreshti Total(qeliza B14).

7.10. Sipas vlerave të tabelës Tërheqja e bilancit ndërtohen dy lloje grafikësh: grafikët e mbetur Dhe oraret e përzgjedhjes(nëse janë vendosur opsionet e duhura në zonë Të mbetura kuti dialogu Regresioni). Ato janë ndërtuar për çdo komponent të ndryshueshëm X veçmas.

Aktiv grafikët e bilancit shfaqen bilancet, d.m.th. dallimet midis vlerave origjinale Y dhe llogaritet nga funksioni i regresionit për secilën vlerë të komponentit të ndryshueshëm X.

Aktiv oraret e përzgjedhjes shfaq si vlerat origjinale Y ashtu edhe vlerat e llogaritura të funksionit të regresionit për secilën vlerë të komponentit të ndryshueshëm X.

7.11. Tabela e fundit e rezultateve të prodhimit është tabela Probabiliteti i prodhimit. Shfaqet nëse në kutinë e dialogut Regresioni opsioni i instaluar Grafik i probabilitetit normal.
Vlerat e kolonës Përqindja llogariten si më poshtë. Hapi është llogaritur h = (1/n)*100%, vlera e parë është h/2, kjo e fundit është e barabartë 100-h/2. Duke u nisur nga vlera e dytë, çdo vlerë pasuese është e barabartë me atë të mëparshme, së cilës i shtohet një hap h.
Në kolonë Y jepen vlerat e variablave Y, të renditura në rend rritës. Në bazë të të dhënave në këtë tabelë, të ashtuquajturat grafiku i shpërndarjes normale. Kjo ju lejon të vlerësoni vizualisht shkallën e linearitetit të marrëdhënies midis variablave X Dhe Y.


8. D analiza e variancës

8.1. Paketa e analizës lejon tre lloje të analizës së variancës. Zgjedhja e një instrumenti specifik përcaktohet nga numri i faktorëve dhe numri i mostrave në grupin e të dhënave që studiohen.
përdoret për të testuar hipotezën se mesataret e dy ose më shumë mostrave që i përkasin të njëjtës popullatë janë të ngjashme.
ANOVA dykahëshe me përsëritjeështë një version më kompleks i analizës së njëanshme që përfshin më shumë se një mostër për çdo grup të dhënash.
ANOVA dykahëshe pa përsëritjeështë një analizë e dyanshme e variancës që nuk përfshin më shumë se një kampion për grup. Përdoret për të testuar hipotezën se mesataret e dy ose më shumë mostrave janë të njëjta (kampionët i përkasin të njëjtës popullatë).

8.2. ANOVA njëkahëshe

8.2.1. Le të përgatisim të dhënat për analizë. Krijoni një fletë të re dhe kopjoni kolonat në të A, B, C, D. Hiqni dy rreshtat e parë. Të dhënat e përgatitura mund të përdoren për të kryer Analiza njëkahëshe e variancës.

8.2.2. Telefononi mjetin e përzgjedhjes nëpërmjet Të dhënat > Analiza e të dhënave > ANOVA njëkahëshe. Plotësoni sipas figurës. Klikoni Ne rregull.

8.2.3. Merrni parasysh tabelën Rezultatet: Kontrollo- numri i përsëritjeve, Shuma- shuma e vlerave të treguesve sipas rreshtit, Dispersion– variancë e pjesshme e treguesit.

8.2.4. Tabela Analiza e variancës: kolona e parë Burimi i variacionit përmban emrin e dispersioneve, SS- shuma e devijimeve në katror, df- shkalla e lirisë, ZNJ- katror mesatar, F-test shpërndarja aktuale e F. P-vlera– probabiliteti që varianca e riprodhuar nga ekuacioni të jetë e barabartë me variancën e mbetjeve. Ai përcakton probabilitetin që përcaktimi sasior i marrë i marrëdhënies midis faktorëve dhe rezultatit të mund të konsiderohet i rastësishëm. F-kritikeështë vlera teorike F, e cila më pas krahasohet me F-në aktuale.

8.2.5. Hipoteza zero për barazinë e pritjeve matematikore të të gjitha mostrave pranohet nëse pabarazia F-test < F-kritike. kjo hipotezë duhet hedhur poshtë. Në këtë rast, vlerat mesatare të mostrave ndryshojnë ndjeshëm.

Analiza e regresionit është një metodë kërkimore statistikore që ju lejon të tregoni varësinë e një parametri të veçantë nga një ose më shumë variabla të pavarur. Në epokën para kompjuterit, përdorimi i tij ishte mjaft i vështirë, veçanërisht kur bëhej fjalë për vëllime të mëdha të dhënash. Sot, pasi keni mësuar se si të ndërtoni regresion në Excel, mund të zgjidhni probleme komplekse statistikore në vetëm disa minuta. Më poshtë janë shembuj specifikë nga fusha e ekonomisë.

Llojet e regresionit

Vetë ky koncept u fut në matematikë në 1886. Regresioni ndodh:

  • lineare;
  • parabolike;
  • qetësues;
  • eksponenciale;
  • hiperbolike;
  • demonstrative;
  • logaritmike.

Shembulli 1

Le të shqyrtojmë problemin e përcaktimit të varësisë së numrit të anëtarëve të ekipit që largohen nga paga mesatare në 6 ndërmarrje industriale.

Detyrë. Në gjashtë ndërmarrje u analizua paga mesatare mujore dhe numri i të punësuarve që largohen vullnetarisht. Në formë tabelare kemi:

Numri i njerëzve që kanë lënë duhanin

Paga

30,000 rubla

35,000 rubla

40,000 rubla

45,000 rubla

50,000 rubla

55,000 rubla

60,000 rubla

Për detyrën e përcaktimit të varësisë së numrit të punonjësve që largohen nga paga mesatare në 6 ndërmarrje, modeli i regresionit ka formën e ekuacionit Y = a 0 + a 1 x 1 +...+a k x k, ku x i janë variablat ndikues, a i janë koeficientët e regresionit dhe k është numri i faktorëve.

Për këtë problem, Y është treguesi i largimit të punonjësve dhe faktori ndikues është paga, të cilën e shënojmë me X.

Përdorimi i aftësive të procesorit Excel

Analiza e regresionit në Excel duhet të paraprihet duke aplikuar funksione të integruara në të dhënat ekzistuese tabelare. Sidoqoftë, për këto qëllime është më mirë të përdorni shtesën shumë të dobishme "Paketa e Analizës". Për ta aktivizuar ju duhet:

  • nga skeda "File" shkoni te seksioni "Opsionet";
  • në dritaren që hapet, zgjidhni rreshtin "Shtesa";
  • klikoni në butonin "Shko" që ndodhet më poshtë, në të djathtë të rreshtit "Menaxhimi";
  • kontrolloni kutinë pranë emrit "Paketa e analizës" dhe konfirmoni veprimet tuaja duke klikuar "Ok".

Nëse gjithçka është bërë si duhet, butoni i kërkuar do të shfaqet në anën e djathtë të skedës "Të dhënat", e vendosur mbi fletën e punës Excel.

në Excel

Tani që kemi në dispozicion të gjitha mjetet e nevojshme virtuale për të kryer llogaritjet ekonometrike, mund të fillojmë të zgjidhim problemin tonë. Për këtë:

  • Klikoni në butonin "Analiza e të dhënave";
  • në dritaren që hapet, klikoni në butonin "Regresion";
  • në skedën që shfaqet, futni gamën e vlerave për Y (numri i punonjësve që largohen nga puna) dhe për X (pagat e tyre);
  • Ne konfirmojmë veprimet tona duke shtypur butonin "Ok".

Si rezultat, programi do të mbushë automatikisht një tabelë të re me të dhëna të analizës së regresionit. Shënim! Excel ju lejon të vendosni manualisht vendndodhjen që preferoni për këtë qëllim. Për shembull, kjo mund të jetë e njëjta fletë ku ndodhen vlerat Y dhe X, ose edhe një libër i ri pune i krijuar posaçërisht për të ruajtur të dhëna të tilla.

Analiza e rezultateve të regresionit për R-katror

Në Excel, të dhënat e marra gjatë përpunimit të të dhënave në shembullin në shqyrtim kanë formën:

Para së gjithash, duhet t'i kushtoni vëmendje vlerës së katrorit R. Ai përfaqëson koeficientin e përcaktimit. Në këtë shembull, R-katror = 0.755 (75.5%), d.m.th., parametrat e llogaritur të modelit shpjegojnë lidhjen midis parametrave në shqyrtim me 75.5%. Sa më e lartë të jetë vlera e koeficientit të përcaktimit, aq më i përshtatshëm është modeli i përzgjedhur për një detyrë specifike. Konsiderohet se përshkruan saktë situatën reale kur vlera e katrorit R është mbi 0.8. Nëse R-katror<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza e Shanseve

Numri 64.1428 tregon se cila do të jetë vlera e Y nëse të gjitha variablat xi në modelin që po shqyrtojmë rivendosen në zero. Me fjalë të tjera, mund të argumentohet se vlera e parametrit të analizuar ndikohet edhe nga faktorë të tjerë që nuk janë përshkruar në një model specifik.

Koeficienti tjetër -0,16285, i vendosur në qelizën B18, tregon peshën e ndikimit të ndryshores X në Y. Kjo do të thotë se paga mesatare mujore e punonjësve brenda modelit në shqyrtim ndikon në numrin e larguesve me peshë -0,16285, d.m.th. shkalla e ndikimit të saj është krejtësisht e vogël. Shenja "-" tregon se koeficienti është negativ. Kjo është e qartë, pasi të gjithë e dinë që sa më e lartë të jetë paga në ndërmarrje, aq më pak njerëz shprehin dëshirën për të ndërprerë kontratën e punës ose për t'u larguar.

Regresion i shumëfishtë

Ky term i referohet një ekuacioni të marrëdhënieve me disa variabla të pavarur të formës:

y=f(x 1 +x 2 +…x m) + ε, ku y është karakteristika rezultante (ndryshore e varur), dhe x 1, x 2,…x m janë karakteristika të faktorëve (ndryshore të pavarura).

Vlerësimi i parametrave

Për regresionin e shumëfishtë (MR), ai kryhet duke përdorur metodën e katrorëve më të vegjël (OLS). Për ekuacionet lineare të formës Y = a + b 1 x 1 +…+b m x m + ε ne ndërtojmë një sistem ekuacionesh normale (shih më poshtë)

Për të kuptuar parimin e metodës, merrni parasysh një rast me dy faktorë. Pastaj kemi një situatë të përshkruar nga formula

Nga këtu marrim:

ku σ është varianca e tiparit përkatës të pasqyruar në indeks.

OLS është i zbatueshëm për ekuacionin MR në një shkallë të standardizuar. Në këtë rast marrim ekuacionin:

në të cilat t y, t x 1, ... t xm janë variabla të standardizuara, për të cilat vlerat mesatare janë të barabarta me 0; β i janë koeficientët e standardizuar të regresionit, dhe devijimi standard është 1.

Ju lutemi vini re se të gjitha β i në këtë rast specifikohen si të normalizuara dhe të centralizuara, prandaj krahasimi i tyre me njëri-tjetrin konsiderohet i saktë dhe i pranueshëm. Përveç kësaj, është e zakonshme që të ekzaminohen faktorët duke hedhur poshtë ata me vlerat më të ulëta βi.

Problem me përdorimin e ekuacionit të regresionit linear

Supozoni se kemi një tabelë të dinamikës së çmimeve për një produkt specifik N gjatë 8 muajve të fundit. Është e nevojshme të merret një vendim për këshillueshmërinë e blerjes së një grupi të tij me një çmim prej 1850 rubla/t.

numri i muajit

emri i muajit

çmimi i produktit N

1750 rubla për ton

1755 rubla për ton

1767 rubla për ton

1760 rubla për ton

1770 rubla për ton

1790 rubla për ton

1810 rubla për ton

1840 rubla për ton

Për të zgjidhur këtë problem në procesorin e spreadsheet Excel, duhet të përdorni mjetin "Analiza e të dhënave", e njohur tashmë nga shembulli i paraqitur më sipër. Tjetra, zgjidhni seksionin "Regresioni" dhe vendosni parametrat. Duhet mbajtur mend se në fushën "Input intervali Y" duhet të futet një sërë vlerash për variablin e varur (në këtë rast, çmimet për mallrat në muaj të caktuar të vitit), dhe në "Inputin interval X" - për variablin e pavarur (numri i muajit). Konfirmoni veprimin duke klikuar "Ok". Në një fletë të re (nëse tregohet kështu) marrim të dhëna për regresion.

Duke i përdorur ato ndërtojmë një ekuacion linear të formës y=ax+b, ku parametrat a dhe b janë koeficientët e drejtëzës me emrin e numrit të muajit dhe koeficientët dhe drejtëzat “Y-prerja” nga fleta me rezultatet e analizës së regresionit. Kështu, ekuacioni i regresionit linear (LR) për detyrën 3 shkruhet si:

Çmimi i produktit N = 11.714* numri i muajit + 1727.54.

ose në shënimin algjebrik

y = 11,714 x + 1727,54

Analiza e rezultateve

Për të vendosur nëse ekuacioni i regresionit linear që rezulton është adekuat, përdoren koeficientët e korrelacionit të shumëfishtë (MCC) dhe përcaktimit, si dhe testi Fisher dhe testi Student t. Në tabelën e Excel-it me rezultatet e regresionit, ato quhen përkatësisht R të shumëfishta, R-katrore, F-statistikë dhe t-statistika.

KMC R bën të mundur vlerësimin e afërsisë së marrëdhënies probabilistike midis variablave të pavarur dhe të varur. Vlera e tij e lartë tregon një lidhje mjaft të fortë midis variablave "Numri i muajit" dhe "Çmimi i produktit N në rubla për 1 ton". Megjithatë, natyra e kësaj marrëdhënieje mbetet e panjohur.

Katrori i koeficientit të përcaktimit R2 (RI) është karakteristikë numerike e proporcionit të shpërndarjes totale dhe tregon shpërndarjen e cilës pjesë të të dhënave eksperimentale, d.m.th. vlerat e ndryshores së varur korrespondojnë me ekuacionin e regresionit linear. Në problemin në shqyrtim, kjo vlerë është e barabartë me 84.8%, d.m.th., të dhënat statistikore përshkruhen me një shkallë të lartë saktësie nga SD që rezulton.

Statistikat F, të quajtura edhe testi i Fisher-it, përdoren për të vlerësuar rëndësinë e një marrëdhënieje lineare, duke hedhur poshtë ose konfirmuar hipotezën e ekzistencës së saj.

(Testi i studentit) ndihmon për të vlerësuar rëndësinë e koeficientit për një term të panjohur ose të lirë të një marrëdhënieje lineare. Nëse vlera e testit t > tcr, atëherë hipoteza për parëndësinë e termit të lirë të ekuacionit linear hidhet poshtë.

Në problemin në shqyrtim për termin e lirë, duke përdorur mjetet e Excel-it, u arrit që t = 169.20903, dhe p = 2.89E-12, d.m.th., kemi probabilitet zero që hipoteza e saktë për parëndësinë e termit të lirë të hidhet poshtë. . Për koeficientin për të panjohurën t=5,79405, dhe p=0,001158. Me fjalë të tjera, probabiliteti që hipoteza e saktë për parëndësinë e koeficientit për një të panjohur të hidhet poshtë është 0.12%.

Kështu, mund të argumentohet se ekuacioni i regresionit linear që rezulton është adekuat.

Problemi i fizibilitetit të blerjes së një blloku aksionesh

Regresioni i shumëfishtë në Excel kryhet duke përdorur të njëjtin mjet Analiza e të Dhënave. Le të shqyrtojmë një problem specifik aplikimi.

Menaxhmenti i kompanisë NNN duhet të vendosë për këshillueshmërinë e blerjes së 20% të aksioneve në MMM SHA. Kostoja e paketës (PS) është 70 milionë dollarë amerikanë. Specialistët e NNN kanë mbledhur të dhëna për transaksione të ngjashme. Është vendosur që vlera e bllokut të aksioneve të vlerësohet sipas parametrave të tillë, të shprehur në miliona dollarë amerikanë, si:

  • llogaritë e pagueshme (VK);
  • vëllimi i qarkullimit vjetor (VO);
  • llogaritë e arkëtueshme (VD);
  • kostoja e aseteve fikse (COF).

Përveç kësaj, përdoret parametri i pagave të prapambetura të ndërmarrjes (V3 P) në mijëra dollarë amerikanë.

Zgjidhja duke përdorur procesorin e fletëllogaritjes Excel

Para së gjithash, ju duhet të krijoni një tabelë të të dhënave burimore. Duket kështu:

  • telefononi dritaren "Analiza e të dhënave";
  • zgjidhni seksionin "Regresioni";
  • në kutinë "Input interval Y", shkruani gamën e vlerave të variablave të varur nga kolona G;
  • Klikoni në ikonën me një shigjetë të kuqe në të djathtë të dritares "Input interval X" dhe theksoni gamën e të gjitha vlerave nga kolonat B, C, D, F në fletë.

Shënoni artikullin "Fleta e re e punës" dhe klikoni "Ok".

Merrni një analizë regresioni për një problem të caktuar.

Studimi i rezultateve dhe përfundimeve

Ne "mbledhim" ekuacionin e regresionit nga të dhënat e rrumbullakosura të paraqitura më sipër në tabelën e Excel:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Në një formë matematikore më të njohur, mund të shkruhet si:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Të dhënat për MMM SHA janë paraqitur në tabelë:

Duke i zëvendësuar ato në ekuacionin e regresionit, marrim një shifër prej 64.72 milion dollarë amerikanë. Kjo do të thotë se aksionet e MMM sh.a. nuk ia vlen të blihen, pasi vlera e tyre prej 70 milionë dollarësh është mjaft e fryrë.

Siç mund ta shihni, përdorimi i procesorit Excel dhe ekuacioni i regresionit bënë të mundur marrjen e një vendimi të informuar në lidhje me realizueshmërinë e një transaksioni shumë specifik.

Tani e dini se çfarë është regresioni. Shembujt e Excel të diskutuar më sipër do t'ju ndihmojnë të zgjidhni problemet praktike në fushën e ekonometrisë.

Ndërtimi i regresionit linear, vlerësimi i parametrave të tij dhe rëndësia e tyre mund të kryhet shumë më shpejt kur përdoret paketa e analizës Excel (Regresioni). Le të shqyrtojmë interpretimin e rezultateve të marra në rastin e përgjithshëm ( k variablat shpjegues) sipas shembullit 3.6.

Ne tavoline statistikat e regresionit jepen vlerat e mëposhtme:

Të shumëfishta R – koeficienti i korrelacionit të shumëfishtë;

R- katrore– koeficienti i përcaktimit R 2 ;

Normalizuar R - katrore- rregulluar R 2 përshtatur për numrin e shkallëve të lirisë;

Gabim standard– Gabim standard i regresionit S;

Vëzhgimet - numri i vëzhgimeve n.

Ne tavoline Analiza e variancës janë dhënë:

1. Kolona df - numri i shkallëve të lirisë është i barabartë me

për vargun Regresioni df = k;

për vargun Pjesa e mbeturdf = nk – 1;

për vargun Totaldf = n– 1.

2. Kolona SS - shuma e devijimeve në katror e barabartë me

për vargun Regresioni ;

për vargun Pjesa e mbetur ;

për vargun Total .

3. Kolona ZNJ variancat e përcaktuara nga formula ZNJ = SS/df:

për vargun Regresioni– dispersioni i faktorit;

për vargun Pjesa e mbetur– varianca e mbetur.

4. Kolona F – vlera e llogaritur F-kriteri i llogaritur duke përdorur formulën

F = ZNJ(regresion)/ ZNJ(mbetja).

5. Kolona Rëndësia F – vlera e nivelit të rëndësisë që korrespondon me atë të llogaritur F-statistikat .

Rëndësia F= FDIST( F- statistika, df(regresioni), df(mbetja)).

Nëse rëndësia F < стандартного уровня значимости, то R 2 është statistikisht i rëndësishëm.

Shanset Gabim standard t-statistikat P-vlera 95% e poshtme 95% e lartë
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Kjo tabelë tregon:

1. Shanset– vlerat e koeficientit a, b.

2. Gabim standard– gabimet standarde të koeficientëve të regresionit S a, Sb.



3. t- statistikat– vlerat e llogaritura t - kriteret e llogaritura me formulën:

t-statistika = Koeficientët/Gabimi standard.

4.R-vlera (rëndësia t) është vlera e nivelit të rëndësisë që korrespondon me të llogaritur t- statistikat.

R-vlera = STUDIDIST(t- statistikat, df(mbetja)).

Nëse R-kuptim< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95% e poshtme dhe 95% e lartë– kufijtë e poshtëm dhe të sipërm të intervaleve të besimit 95% për koeficientët e ekuacionit teorik të regresionit linear.

TËRHEQJA E PJESËS SË PJESËS
Vrojtim Parashikuar y Mbetjet e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Ne tavoline TËRHEQJA E PJESËS SË PJESËS treguar:

në kolonë Vrojtim– numri i vëzhgimit;

në kolonë e parathënë y – vlerat e llogaritura të ndryshores së varur;

në kolonë Të mbetura e - diferenca midis vlerave të vëzhguara dhe të llogaritura të ndryshores së varur.

Shembulli 3.6. Ekzistojnë të dhëna (njësi konvencionale) për kostot e ushqimit y dhe të ardhurat për frymë x për nëntë grupe familjesh:

x
y

Duke përdorur rezultatet e paketës së analizës Excel (Regresioni), do të analizojmë varësinë e kostove të ushqimit nga të ardhurat për frymë.

Rezultatet e analizës së regresionit zakonisht shkruhen në formën:

ku gabimet standarde të koeficientëve të regresionit tregohen në kllapa.

Koeficientët e regresionit A = 65,92 dhe b= 0,107. Drejtimi i komunikimit ndërmjet y Dhe x përcakton shenjën e koeficientit të regresionit b= 0,107, d.m.th. lidhja është e drejtpërdrejtë dhe pozitive. Koeficient b= 0.107 tregon se me një rritje të të ardhurave për frymë me 1 konvencionale. njësi kostot e ushqimit rriten me 0.107 njësi konvencionale. njësi

Le të vlerësojmë rëndësinë e koeficientëve të modelit që rezulton. Rëndësia e koeficientëve ( a, b) kontrollohet nga t-test:

P-vlera ( a) = 0,00080 < 0,01 < 0,05

P-vlera ( b) = 0,00016 < 0,01 < 0,05,

prandaj, koeficientët ( a, b) janë të rëndësishme në nivelin 1%, dhe aq më tepër në nivelin e rëndësisë 5%. Kështu, koeficientët e regresionit janë domethënës dhe modeli është adekuat me të dhënat origjinale.

Rezultatet e vlerësimit të regresionit janë në përputhje jo vetëm me vlerat e marra të koeficientëve të regresionit, por edhe me një grup të caktuar të tyre (intervali i besimit). Me një probabilitet 95%, intervalet e besimit për koeficientët janë (38.16 – 93.68) për a dhe (0,0728 – 0,142) për b.

Cilësia e modelit vlerësohet nga koeficienti i përcaktimit R 2 .

Madhësia R 2 = 0,884 do të thotë se faktori i të ardhurave për frymë mund të shpjegojë 88,4% të variacionit (shpërndarjes) në shpenzimet e ushqimit.

Rëndësia R 2 kontrollohet nga F- test: rëndësi F = 0,00016 < 0,01 < 0,05, следовательно, R 2 është i rëndësishëm në nivelin 1%, dhe aq më tepër në nivelin e rëndësisë 5%.

Në rastin e regresionit linear në çift, koeficienti i korrelacionit mund të përkufizohet si . Vlera e përftuar e koeficientit të korrelacionit tregon se lidhja ndërmjet shpenzimeve ushqimore dhe të ardhurave për frymë është shumë e ngushtë.

Gjatë studimit të fenomeneve komplekse, është e nevojshme të merren parasysh më shumë se dy faktorë të rastësishëm. Një kuptim i saktë i natyrës së marrëdhënies midis këtyre faktorëve mund të arrihet vetëm nëse të gjithë faktorët e rastësishëm në shqyrtim shqyrtohen menjëherë. Një studim i përbashkët i tre ose më shumë faktorëve të rastit do t'i lejojë studiuesit të krijojë supozime pak a shumë të arsyeshme rreth varësive shkakësore midis fenomeneve që studiohen. Një formë e thjeshtë e marrëdhënieve të shumëfishta është një marrëdhënie lineare midis tre karakteristikave. Faktorët e rastësishëm shënohen si X 1 , X 2 dhe X 3. Koeficientët e çiftëzimit të korrelacionit ndërmjet X 1 dhe X 2 shënohet si r 12, respektivisht ndërmjet X 1 dhe X 3 - r 12, ndërmjet X 2 dhe X 3 - r 23. Si masë e afërsisë së marrëdhënies lineare midis tre karakteristikave, përdoren koeficientë të shumëfishtë korrelacioni, të shënuar R 1 ּ 23, R 2 ּ 13, R 3 ּ 12 dhe koeficientët e korrelacionit të pjesshëm, të shënuar r 12.3 , r 13.2 , r 23.1 .

Koeficienti i shumëfishtë i korrelacionit R 1.23 i tre faktorëve është një tregues i afërsisë së marrëdhënies lineare midis njërit prej faktorëve (indeksi para pikës) dhe kombinimi i dy faktorëve të tjerë (indekset pas pikës).

Vlerat e koeficientit R janë gjithmonë në intervalin nga 0 në 1. Ndërsa R i afrohet një, shkalla e marrëdhënies lineare midis tre karakteristikave rritet.

Ndërmjet koeficientit të korrelacionit të shumëfishtë, p.sh. R 2 ּ 13 , dhe koeficientët e korrelacionit dy çifte r 12 dhe r 23 ekziston një marrëdhënie: secili nga koeficientët e çiftuar nuk mund të kalojë në vlerë absolute R 2 ּ 13 .

Formulat për llogaritjen e koeficientëve të korrelacionit të shumëfishtë me vlera të njohura të koeficientëve të korrelacionit të çiftit r 12, r 13 dhe r 23 kanë formën:

Koeficienti i korrelacionit të shumëfishtë në katror R 2 quhet koeficienti i përcaktimit të shumëfishtë. Ai tregon proporcionin e variacionit në variablin e varur nën ndikimin e faktorëve që studiohen.

Rëndësia e korrelacionit të shumëfishtë vlerësohet nga F- kriteri:

n - Madhësia e mostrës; k - numri i faktorëve. Në rastin tonë k = 3.

hipoteza zero për barazinë e koeficientit të korrelacionit të shumëfishtë në popullatë në zero ( h o:r=0) pranohet nëse f f<f t, dhe refuzohet nëse
f f ³ f T.

vlera teorike f-përcaktohet kriteri për v 1 = k- 1 dhe v 2 = n - k shkallët e lirisë dhe niveli i pranuar i rëndësisë a (Shtojca 1).

Shembull i llogaritjes së koeficientit të korrelacionit të shumëfishtë. Gjatë studimit të marrëdhënies midis faktorëve, u morën koeficientët e korrelacionit të çiftit ( n =15): r 12 ==0,6; g 13 = 0,3; r 23 = - 0,2.

Është e nevojshme të zbulohet varësia e veçorisë X 2 nga shenja X 1 dhe X 3, d.m.th. llogarisni koeficientin e korrelacionit të shumëfishtë:

Vlera e tabelës F-kriteret me n 1 = 2 dhe n 2 = 15 – 3 = 12 gradë lirie me a = 0,05 F 0,05 = 3,89 dhe në a = 0,01 F 0,01 = 6,93.

Kështu, marrëdhënia midis shenjave R 2,13 = 0,74 është domethënëse në
Niveli i rëndësisë 1%. F f > F 0,01 .

Duke gjykuar nga koeficienti i përcaktimit të shumëfishtë R 2 = (0,74) 2 = 0,55, variacion tipar X 2 është 55% e lidhur me efektin e faktorëve që studiohen dhe 45% e variacionit (1-R 2) nuk mund të shpjegohet nga ndikimi i këtyre variablave.

Korrelacion i pjesshëm linear

Koeficienti i korrelacionit të pjesshëmështë një tregues që mat shkallën e konjugimit të dy karakteristikave.

Statistikat matematikore ju lejojnë të vendosni një korrelacion midis dy karakteristikave me një vlerë konstante të së tretës, pa kryer një eksperiment të veçantë, por duke përdorur koeficientët e korrelacionit të çiftëzuar r 12 , r 13 , r 23 .

Koeficientët e korrelacionit të pjesshëm llogariten duke përdorur formulat:

Numrat para pikës tregojnë se cilat veçori po studiohet marrëdhënia, dhe numri pas pikës tregon ndikimin e cilës veçori përjashtohet (eliminohet). Kriteri i gabimit dhe rëndësisë për korrelacionin e pjesshëm përcaktohet duke përdorur të njëjtat formula si për korrelacionin e çiftit:

.

Vlera teorike t-është përcaktuar kriteri për v = n– 2 shkallë lirie dhe niveli i pranuar i rëndësisë a (Shtojca 1).

Hipoteza zero që koeficienti i korrelacionit të pjesshëm në popullatë është i barabartë me zero ( H o: r= 0) pranohet nëse t f< t t, dhe refuzohet nëse
t f ³ t T.

Koeficientët e pjesshëm mund të marrin vlera midis -1 dhe +1. Privat koeficientët e përcaktimit gjetur duke kuadruar koeficientët e korrelacionit të pjesshëm:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Përcaktimi i shkallës së ndikimit të pjesshëm të faktorëve individualë në një tipar efektiv duke përjashtuar (eliminuar) lidhjen e tij me tipare të tjera që shtrembërojnë këtë korrelacion është shpesh me interes të madh. Ndonjëherë ndodh që me një vlerë konstante të karakteristikës së eliminuar, është e pamundur të vërehet ndikimi i saj statistikor në ndryshueshmërinë e karakteristikave të tjera. Për të kuptuar teknikën për llogaritjen e koeficientit të korrelacionit të pjesshëm, merrni parasysh një shembull. Ka tre opsione X, Y Dhe Z. Për madhësinë e mostrës n= Përcaktohen 180 koeficientë korrelacioni të çiftuar

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Le të përcaktojmë koeficientët e korrelacionit të pjesshëm:

Koeficienti i korrelacionit të pjesshëm ndërmjet parametrit X Dhe Y Z (r xyּz = 0,720) tregon se vetëm një pjesë e vogël e marrëdhënies ndërmjet këtyre karakteristikave në korrelacionin e përgjithshëm ( r xy= 0.799) është për shkak të ndikimit të karakteristikës së tretë ( Z). Një përfundim i ngjashëm duhet të bëhet në lidhje me koeficientin e korrelacionit të pjesshëm ndërmjet parametrit X dhe parametri Z me një vlerë konstante parametri Y (r X zּу = 0,318 dhe r xz= 0,57). Përkundrazi, koeficienti i korrelacionit të pjesshëm ndërmjet parametrave Y Dhe Z me një vlerë konstante parametri X r yz ּ x= 0,105 është dukshëm i ndryshëm nga koeficienti i përgjithshëm i korrelacionit r y z = 0,507. Nga kjo është e qartë se nëse zgjidhni objekte me të njëjtën vlerë parametri X, pastaj raporti ndërmjet shenjave Y Dhe Z ata do të kenë një shumë të dobët, pasi një pjesë e rëndësishme e kësaj marrëdhënieje është për shkak të ndryshimit të parametrit X.

Në disa rrethana, koeficienti i korrelacionit të pjesshëm mund të jetë i kundërt në shenjë me atë në çift.

Për shembull, kur studiojmë marrëdhëniet midis karakteristikave X, Y Dhe Z- janë marrë koeficientët e korrelacionit të çiftëzuar (me n = 100): r xy = 0,6; r X z= 0,9;
r y z = 0,4.

Koeficientët e korrelacionit të pjesshëm duke përjashtuar ndikimin e karakteristikës së tretë:

Shembulli tregon se vlerat e koeficientit të çiftit dhe koeficientit të korrelacionit të pjesshëm ndryshojnë në shenjë.

Metoda e korrelacionit të pjesshëm bën të mundur llogaritjen e koeficientit të korrelacionit të pjesshëm të rendit të dytë. Ky koeficient tregon marrëdhënien midis karakteristikave të para dhe të dyta me një vlerë konstante të tretë dhe të katërt. Përcaktimi i koeficientit të pjesshëm të rendit të dytë bazohet në koeficientët e pjesshëm të rendit të parë duke përdorur formulën:

Ku r 12 . 4 , r 13 ּ4, r 23 ּ4 - koeficientët e pjesshëm, vlera e të cilave përcaktohet nga formula e koeficientit të pjesshëm, duke përdorur koeficientët e korrelacionit të çiftit r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

Koeficienti i korrelacionit të shumëfishtë i tre variablave është një tregues i afërsisë së marrëdhënies lineare midis njërës prej karakteristikave (shkronja e indeksit para vizës) dhe kombinimit të dy karakteristikave të tjera (gërma treguese pas vizës):

; (12.7)

(12.8)

Këto formula e bëjnë të lehtë llogaritjen e koeficientëve të korrelacionit të shumëfishtë me vlerat e njohura të koeficientëve të korrelacionit të çifteve r xy, r xz dhe r yz.

Koeficient R nuk është negativ dhe shkon gjithmonë nga 0 në 1. Ndërsa afroheni R Në njërën, shkalla e lidhjes lineare midis tre karakteristikave rritet. Ndërmjet koeficientit të korrelacionit të shumëfishtë, p.sh. R y-xz, dhe dy koeficientë korrelacioni r yx Dhe r yz ekziston marrëdhënia e mëposhtme: secili nga koeficientët e çiftuar nuk mund të kalojë në vlerë absolute R y-xz.

Koeficienti i korrelacionit të shumëfishtë në katror R 2 quhet koeficienti i përcaktimit të shumëfishtë. Ai tregon proporcionin e variacionit në variablin e varur nën ndikimin e faktorëve që studiohen.

Rëndësia e korrelacionit të shumëfishtë vlerësohet nga
F– kriteri:

, (12.9)

n- Madhësia e mostrës,

k– numri i shenjave; në rastin tonë k = 3.

Vlera teorike F– kriteret janë marrë nga tabela e aplikimit për ν 1 = k-1 dhe ν 2 = n–k shkallët e lirisë dhe niveli i pranuar i rëndësisë. Hipoteza zero se koeficienti i korrelacionit të shumëfishtë në popullatë është i barabartë me zero ( H0: R= 0) pranohet nëse F fakt.< F табл . dhe refuzohet nëse F fakt. ≥ tabelë F.

Fundi i punës -

Kjo temë i përket seksionit:

Statistikat e matematikës

Institucion arsimor.. Universiteti Shtetëror Gomel.. me emrin Francis Skaryna Yu M Zhuchenko..

Nëse keni nevojë për materiale shtesë për këtë temë, ose nuk keni gjetur atë që po kërkoni, ju rekomandojmë të përdorni kërkimin në bazën e të dhënave tona të veprave:

Çfarë do të bëjmë me materialin e marrë:

Nëse ky material ishte i dobishëm për ju, mund ta ruani në faqen tuaj në rrjetet sociale:

Të gjitha temat në këtë seksion:

Tutorial
per studentet universitare qe studiojne ne specialitetin 1-31 01 01 “Biologji” Gomel 2010

Lënda dhe metoda e statistikave matematikore
Lënda e statistikave matematikore është studimi i vetive të dukurive masive në biologji, ekonomi, teknologji dhe fusha të tjera. Këto dukuri zakonisht paraqiten si komplekse për shkak të diversitetit (ndryshimeve)

Koncepti i një ngjarjeje të rastësishme
Induksioni statistikor ose përfundimet statistikore, si përbërësi kryesor i metodës së studimit të dukurive masive, kanë veçoritë e tyre dalluese. Përfundimet statistikore bëhen me numerikë

Probabiliteti i një ngjarjeje të rastësishme
Një karakteristikë numerike e një ngjarjeje të rastësishme që ka vetinë që për çdo seri mjaftueshëm të madhe testesh, frekuenca e ngjarjes ndryshon vetëm pak nga kjo karakteristikë quhet

Llogaritja e probabiliteteve
Shpesh ka nevojë për të shtuar dhe shumëzuar njëkohësisht probabilitetet. Për shembull, ju duhet të përcaktoni probabilitetin për të marrë 5 pikë kur hidhni 2 zare në të njëjtën kohë. Shuma e kërkuar ka të ngjarë

Koncepti i një ndryshoreje të rastësishme
Pasi përcaktuam konceptin e probabilitetit dhe sqaruam vetitë e tij kryesore, le të vazhdojmë të shqyrtojmë një nga konceptet më të rëndësishme të teorisë së probabilitetit - konceptin e një ndryshoreje të rastësishme.

Le të supozojmë se si rezultat
Variabla të rastësishme diskrete

Një ndryshore e rastësishme është diskrete nëse grupi i vlerave të tij të mundshme është i fundëm, ose të paktën i numërueshëm. Supozoni se ndryshorja e rastësishme X mund të marrë vlera x1
Variabla të rastësishme të vazhdueshme

Në ndryshim nga variablat diskrete të rastësishme të diskutuara në nënseksionin e mëparshëm, grupi i vlerave të mundshme të një ndryshoreje të rastësishme të vazhdueshme jo vetëm që nuk është i kufizuar, por as nuk i nënshtrohet
Pritshmëria dhe varianca

Shpesh ekziston nevoja për të karakterizuar shpërndarjen e një ndryshoreje të rastësishme duke përdorur një ose dy tregues numerikë që shprehin vetitë më thelbësore të kësaj shpërndarjeje. Tek të tillët
Momente

Të ashtuquajturat momente të shpërndarjes së një ndryshoreje të rastësishme kanë një rëndësi të madhe në statistikat matematikore. Në pritjet matematikore, vlerat e mëdha të një ndryshoreje të rastësishme nuk merren parasysh mjaftueshëm.
Shpërndarja binomiale dhe matja e probabilitetit

Në këtë temë do të shqyrtojmë llojet kryesore të shpërndarjes së variablave diskrete të rastit. Le të supozojmë se probabiliteti i ndodhjes së ndonjë ngjarjeje të rastësishme A gjatë një prove të vetme është e barabartë me
Shpërndarja drejtkëndore (uniforme).

Shpërndarja drejtkëndore (uniforme) është lloji më i thjeshtë i shpërndarjes së vazhdueshme. Nëse një ndryshore e rastësishme X mund të marrë çdo vlerë reale në intervalin (a, b), ku a dhe b janë reale
Shpërndarja normale luan një rol themelor në statistikat matematikore. Kjo nuk është aspak e rastësishme: në realitetin objektiv, shumë shpesh hasen shenja të ndryshme

Shpërndarja lognormale
Një ndryshore e rastësishme Y ka një shpërndarje lognormale me parametra μ dhe σ nëse një ndryshore e rastësishme X = lnY ka një shpërndarje normale me të njëjtat parametra μ dhe &

Vlerat mesatare
Nga të gjitha vetitë e grupit, niveli mesatar, i matur me vlerën mesatare të atributit, ka rëndësinë më të madhe teorike dhe praktike.

Vlera mesatare e një veçorie është një koncept shumë i thellë,
Vetitë e përgjithshme të mesatareve

Për përdorimin e saktë të vlerave mesatare, është e nevojshme të njihen vetitë e këtyre treguesve: vendndodhja mesatare, abstraktiteti dhe uniteti i veprimit total.
Sipas vlerës së tij numerike

Mesatarja aritmetike
Mesatarja aritmetike, që ka vetitë e përgjithshme të vlerave mesatare, ka karakteristikat e veta, të cilat mund të shprehen me formulat e mëposhtme:

Renditja mesatare (mesatarja joparametrike)
Renditja mesatare përcaktohet për karakteristikat për të cilat metodat e matjes sasiore nuk janë gjetur ende. Sipas shkallës së shfaqjes së shenjave të tilla, objektet mund të renditen, d.m.th

Mesatarja e ponderuar aritmetike
Zakonisht, për të llogaritur mesataren aritmetike, të gjitha vlerat e atributit mblidhen dhe shuma që rezulton ndahet me numrin e opsioneve. Në këtë rast, çdo vlerë e përfshirë në shumë e rrit atë plotësisht

Sheshi mesatar
Katrori mesatar llogaritet duke përdorur formulën: , (6.5) Është e barabartë me rrënjën katrore të shumës

mesatare
Mediana është një vlerë karakteristike që e ndan të gjithë grupin në dy pjesë të barabarta: njëra pjesë ka një vlerë karakteristike më të vogël se mediana, dhe tjetra ka një vlerë më të madhe.

Për shembull, nëse keni
Mesatarja gjeometrike

Për të marrë mesataren gjeometrike për një grup me n të dhëna, duhet të shumëzoni të gjitha opsionet dhe të nxirrni rrënjën e n-të nga produkti që rezulton:
Mesatarja harmonike

Mesatarja harmonike llogaritet duke përdorur formulën. (6.14) Për pesë opsione: 1, 4, 5, 5 e mërkurë
Devijimi standard është një vlerë e emërtuar e shprehur në të njëjtat njësi matëse si mesatarja aritmetike.

Prandaj, për të krahasuar karakteristika të ndryshme të shprehura në njësi të ndryshme nga
Kufijtë dhe shtrirja

Për një vlerësim të shpejtë dhe të përafërt të shkallës së diversitetit, shpesh përdoren treguesit më të thjeshtë: lim = (min ¸ max) - kufijtë, d.m.th. vlerat më të vogla dhe më të mëdha të karakteristikës, p =
Devijim i normalizuar

Në mënyrë tipike, shkalla e zhvillimit të një tipari përcaktohet duke e matur atë dhe shprehet me një numër të caktuar të emërtuar: 3 kg peshë, 15 cm gjatësi, 20 grepa në krahët e bletëve, 4% yndyrë në qumësht, 15 kg prerje
Mesatarja dhe sigma e grupit total

Ndonjëherë është e nevojshme të përcaktohet mesatarja dhe sigma për një shpërndarje përmbledhëse të përbërë nga disa shpërndarje. Në këtë rast, nuk dihen vetë shpërndarjet, por vetëm mesataret dhe sigmat e tyre.
Skewness (skewness) dhe pjerrësi (kurtosis) e kurbës së shpërndarjes

Për mostrat e mëdha (n > 100), llogariten edhe dy statistika të tjera.
Shtrirja e kurbës quhet asimetri:

Seritë e variacioneve
Me rritjen e numrit të grupeve të studiuara, modeli i diversitetit që në grupe të vogla fshihej nga forma e rastësishme e shfaqjes së tij bëhet gjithnjë e më evidente.

Histogrami dhe kurba e variacionit
Një histogram është një seri variacionesh e paraqitur në formën e një diagrami në të cilin vlera të ndryshme të frekuencës përfaqësohen nga lartësi të ndryshme të shufrave. Histogrami i shpërndarjes së të dhënave është paraqitur në f

Besueshmëria e dallimeve në shpërndarje
Një hipotezë statistikore është një supozim specifik rreth shpërndarjes së probabilitetit që qëndron në bazë të një kampioni të vëzhguar të dhënash.

Testimi i hipotezave statistikore është një proces pranimi
Kriteri për anshmërinë dhe kurtozën

Disa karakteristika të bimëve, kafshëve dhe mikroorganizmave, kur kombinohen objektet në grupe, japin shpërndarje që ndryshojnë ndjeshëm nga normalja.
Në rastet kur ndonjë

Popullsia dhe mostra
Vlerësimi i parametrave të përgjithshëm duke përdorur treguesit e mostrës ka karakteristikat e veta.

Një pjesë nuk mund të karakterizojë kurrë plotësisht të tërën, pra karakteristikat e popullsisë së përgjithshme
Kufijtë e besimit

Është e nevojshme të përcaktohet madhësia e gabimeve të përfaqësimit në mënyrë që të përdoren treguesit e mostrës dhe për të gjetur vlerat e mundshme të parametrave të përgjithshëm. Ky proces quhet o
Procedura e përgjithshme e vlerësimit

Tre sasi të nevojshme për të vlerësuar parametrin e përgjithshëm - treguesi i mostrës (), kriteri i besueshmërisë
Vlerësimi i mesatares aritmetike

Vlerësimi i vlerës mesatare synon të përcaktojë vlerën e mesatares së përgjithshme për kategorinë e objekteve të studiuara. Gabimi i përfaqësimit i kërkuar për këtë qëllim përcaktohet nga formula:
Vlerësimi i diferencës mesatare

Disa studime marrin diferencën e dy matjeve si të dhëna parësore. Ky mund të jetë rasti kur çdo individ në kampion studiohet në dy gjendje - ose në mosha të ndryshme, ose
Vlerësim jo i besueshëm dhe i besueshëm i diferencës mesatare

Rezultatet e tilla të studimeve të mostrës për të cilat nuk mund të merret një vlerësim i caktuar i parametrit të përgjithshëm (ose është më i madh se zero, ose më i vogël se ose i barabartë me zero) quhen jo të besueshme.
Vlerësimi i ndryshimit midis mesatareve të përgjithshme

Në kërkimin biologjik, ndryshimi midis dy sasive është i një rëndësie të veçantë. Për dallim, krahasimet bëhen midis popullatave të ndryshme, racave, racave, varieteteve, linjave, familjeve, grupeve eksperimentale dhe të kontrollit (metoda gr
Kriteri i besueshmërisë së diferencës

Duke pasur parasysh rëndësinë e madhe që ka për studiuesit marrja e dallimeve të besueshme, ekziston nevoja për të zotëruar metoda që bëjnë të mundur përcaktimin nëse rezultati i marrë është i besueshëm, realisht.
Përfaqësueshmëria në studimin e karakteristikave cilësore

Karakteristikat cilësore zakonisht nuk mund të kenë shkallë të manifestimit: ato janë ose të pranishme ose jo të pranishme në secilin prej individëve, për shembull, seksi, vrojtimi, prania ose mungesa e disa tipareve, deformimet.
Besueshmëria e diferencës së aksioneve

Besueshmëria e ndryshimit në përmasat e mostrës përcaktohet në të njëjtën mënyrë si për ndryshimin në mesatare: (10.34)
Koeficienti i korrelacionit

Shumë studime kërkojnë shqyrtimin e tipareve të shumta në marrëdhëniet e tyre të ndërsjella. Nëse kryeni një studim të tillë në lidhje me dy karakteristika, do të vini re se ndryshueshmëria e një karakteristike nuk është
Gabim i koeficientit të korrelacionit

Besueshmëria e koeficientit të korrelacionit të mostrës
Kriteri për koeficientin e korrelacionit të mostrës përcaktohet nga formula: (11.9) ku:

Kufijtë e besimit të koeficientit të korrelacionit
Kufijtë e besimit të vlerës së përgjithshme të koeficientit të korrelacionit gjenden në një mënyrë të përgjithshme duke përdorur formulën:

Besueshmëria e diferencës midis dy koeficientëve të korrelacionit
Besueshmëria e diferencës në koeficientët e korrelacionit përcaktohet në të njëjtën mënyrë si besueshmëria e diferencës në mesatare, sipas formulës së zakonshme

Ekuacioni i regresionit të drejtë
Një korrelacion drejtvizor është i ndryshëm në atë që me këtë formë lidhjeje, secila prej ndryshimeve identike në karakteristikën e parë korrespondon me një ndryshim krejtësisht të caktuar dhe gjithashtu mesatarisht identik në karakteristikën tjetër.

Gabimet në elementet e ekuacionit të regresionit linear
Në ekuacionin e thjeshtë të regresionit linear: y = a + bx, lindin tre gabime të përfaqësimit.

1 Gabim i koeficientit të regresionit:
Koeficienti i korrelacionit të pjesshëm

Një koeficient korrelacioni i pjesshëm është një tregues që mat shkallën e konjugimit të dy karakteristikave me një vlerë konstante të së tretës.
Statistikat matematikore na lejojnë të vendosim një korrelacion

Ekuacioni linear i regresionit të shumëfishtë
Ekuacioni matematik për një marrëdhënie drejtvizore midis tre ndryshoreve quhet ekuacion i planit të regresionit të shumëfishtë linear. Ajo ka formën e mëposhtme të përgjithshme:

Marrëdhënie korrelacioni
Nëse marrëdhënia midis dukurive në studim devijon ndjeshëm nga ajo lineare, e cila është e lehtë të përcaktohet nga një grafik, atëherë koeficienti i korrelacionit është i papërshtatshëm si matës i lidhjes. Ai mund të tregojë mungesën

Vetitë e një relacioni korrelacioni
Raporti i korrelacionit mat shkallën e korrelacionit në çdo formë.

Përveç kësaj, relacioni i korrelacionit ka një sërë veçorish të tjera që janë me interes të madh në statistikë
Gabim i përfaqësimit të marrëdhënies së korrelacionit

Një formulë e saktë për gabimin e përfaqësimit të një marrëdhënie korrelacioni nuk është zhvilluar ende. Zakonisht formula e dhënë në tekstet shkollore ka disavantazhe që nuk mund të anashkalohen gjithmonë. Kjo formulë nuk mëson
Kriteri i Linearitetit të Korrelacionit

Për të përcaktuar shkallën e përafrimit të një varësie lakor ndaj një drejtvizore, përdoret kriteri F, i llogaritur me formulën:
Ndikimi statistikor është një reflektim në diversitetin e atributit rezultues të diversitetit të faktorit (gradacionet e tij) që organizohet në studim.

Për të vlerësuar ndikimin e faktorit neo
Ndikimi faktorial

Ndikimi faktorial është një ndikim statistikor i thjeshtë ose i kombinuar i faktorëve që studiohen.
Në komplekset me një faktor, ndikimi i thjeshtë i një faktori studiohet në organizime të caktuara

Kompleksi i dispersionit me një faktor
Analiza e dispersionit u zhvillua dhe u fut në praktikën e kërkimit bujqësor dhe biologjik nga shkencëtari anglez R. A. Fisher, i cili zbuloi ligjin e shpërndarjes së raportit të katrorëve mesatarë

Kompleksi i dispersionit me shumë faktorë
Një kuptim i qartë i modelit matematikor të analizës së variancës lehtëson të kuptuarit e operacioneve të nevojshme llogaritëse, veçanërisht kur përpunohen të dhënat nga eksperimentet me shumë variante në të cilat më shumë

Transformimet
Përdorimi i saktë i analizës së variancës për përpunimin e materialit eksperimental presupozon homogjenitetin e variancave midis varianteve (mostrave), shpërndarje normale ose afër normales në

Treguesit e fuqisë së ndikimeve
Përcaktimi i forcës së ndikimeve bazuar në rezultatet e tyre kërkohet në biologji, bujqësi, mjekësi për të zgjedhur mjetet më efektive të ndikimit, për dozimin e agjentëve fizikë dhe kimikë - art.

Gabim i përfaqësimit të treguesit kryesor të fuqisë së ndikimit
Formula e saktë e gabimit për treguesin kryesor të fuqisë së ndikimit nuk është gjetur ende.

Në komplekset me një faktor, kur gabimi i përfaqësimit përcaktohet vetëm për një tregues faktorial
Vlerat kufitare të treguesve të ndikimit

Treguesi kryesor i fuqisë së ndikimit është i barabartë me pjesën e një termi nga shuma totale e termave. Për më tepër, ky tregues është i barabartë me katrorin e raportit të korrelacionit. Për këto dy arsye, treguesi i fuqisë
Besueshmëria e ndikimeve

Treguesi kryesor i fuqisë së ndikimit të marrë në një studim mostër karakterizon, para së gjithash, shkallën e ndikimit që u shfaq në të vërtetë në grupin e objekteve të studiuara
Analiza diskriminuese

Analiza diskriminuese është një nga metodat e analizës statistikore multivariate. Qëllimi i analizës diskriminuese është që, bazuar në matjen e karakteristikave të ndryshme (veçoritë, çiftet)
Analiza diskriminuese "funksionon" nëse përmbushen një numër supozimesh.

Supozimi se sasitë e vëzhgueshme - karakteristikat e matshme të një objekti - kanë një shpërndarje normale. Kjo
Algoritmi i analizës diskriminuese

Zgjidhja e problemeve të diskriminimit (analiza diskriminuese) konsiston në ndarjen e të gjithë hapësirës së mostrës (bashkësisë së realizimeve të të gjitha ndryshoreve të rastësishme shumëdimensionale në shqyrtim) në një numër të caktuar.
Analiza e grupimeve

Analiza e grupeve kombinon procedura të ndryshme të përdorura për të kryer klasifikimin. Si rezultat i zbatimit të këtyre procedurave, grupi fillestar i objekteve ndahet në grupe ose grupe
Metodat e analizës së grupimeve

Në praktikë, zakonisht zbatohen metodat e grumbullimit aglomerativ.
Zakonisht, përpara se të fillojë klasifikimi, të dhënat standardizohen (mesatarja zbritet dhe ndahet me rrënjën katrore



Algoritmi i analizës së grupimeve Analiza e grupimeve është një grup metodash për klasifikimin e vëzhgimeve ose objekteve shumëdimensionale bazuar në përcaktimin e konceptit të distancës midis objekteve dhe më pas identifikimin e grupeve prej tyre, dhe