Koeficienti i regresionit është vlera absolute me të cilën, mesatarisht, vlera e një karakteristike ndryshon kur një karakteristikë tjetër e lidhur ndryshon nga një njësi e caktuar matjeje. Përkufizimi i regresionit. Marrëdhënia midis y dhe x përcakton shenjën e koeficientit të regresionit b (nëse > 0 - marrëdhënie direkte, përndryshe - inverse). Modeli i regresionit linear është më i përdoruri dhe më i studiuari në ekonometri.

1.4. Gabimi i përafrimit Le të vlerësojmë cilësinë e ekuacionit të regresionit duke përdorur gabimin absolut të përafrimit. Vlerat e parashikimit të faktorëve zëvendësohen në model dhe merren vlerësimet e parashikimit pikësor të treguesit të studiuar. Kështu, koeficientët e regresionit karakterizojnë shkallën e rëndësisë së faktorëve individualë për rritjen e nivelit të treguesit të performancës.

Koeficienti i regresionit

Le të shqyrtojmë tani problemin 1 të detyrave të analizës së regresionit të dhëna në f. 300-301. Një nga rezultatet matematikore të teorisë së regresionit linear thotë se vlerësuesi, N, është vlerësuesi i paanshëm me variancën minimale në klasën e të gjithë vlerësuesve linearë të paanshëm. Për shembull, ju mund të llogarisni numrin e ftohjeve mesatarisht në vlera të caktuara të temperaturës mesatare mujore të ajrit në periudhën vjeshtë-dimër.

Vija e regresionit dhe ekuacioni i regresionit

Sigma e regresionit përdoret për të ndërtuar një shkallë regresioni, e cila pasqyron devijimin e vlerave të karakteristikës që rezulton nga vlera mesatare e saj e paraqitur në vijën e regresionit. 1, x2, x3 dhe vlerat mesatare përkatëse y1, y2 y3, si dhe vlerat më të vogla (y - σrу/х) dhe më të mëdha (y + σrу/х) (y) për të ndërtuar një shkallë regresioni. konkluzioni. Kështu, shkalla e regresionit brenda kufijve të vlerave të llogaritura të peshës trupore bën të mundur përcaktimin e saj në çdo vlerë tjetër të lartësisë ose vlerësimin e zhvillimit individual të fëmijës.

Në formën e matricës, ekuacioni i regresionit (RE) shkruhet si: Y=BX+U(\displaystyle Y=BX+U), ku U(\displaystyle U) është matrica e gabimit. Përdorimi statistikor i fjalës regresion vjen nga fenomeni i njohur si regresion në mesatare, që i atribuohet Sir Francis Galton (1889).

Regresioni linear në çift mund të zgjerohet për të përfshirë më shumë se një ndryshore të pavarur; në këtë rast njihet si regresion i shumëfishtë. Për të dyja, vëzhgimet (pikat) e jashtme dhe "ndikuese" përdoren modele, si me përfshirjen e tyre ashtu edhe pa ato, dhe vëmendje i kushtohet ndryshimeve në vlerësime (koeficientët e regresionit).

Për shkak të marrëdhënies lineare, dhe ne presim se çfarë ndryshon ndërsa ndryshon, dhe ne e quajmë këtë ndryshim që shkaktohet ose shpjegohet me regresion. Nëse kjo është e vërtetë, atëherë shumica e variacionit do të shpjegohet me regresion, dhe pikat do të qëndrojnë afër vijës së regresionit, d.m.th. rreshti i përshtatet mirë të dhënave. Diferenca paraqet përqindjen e variancës që nuk mund të shpjegohet me regresion.

Kjo metodë përdoret për të përshkruar vizualisht formën e lidhjes midis treguesve ekonomikë të studiuar. Bazuar në fushën e korrelacionit, mund të hipotezojmë (për popullatën) se marrëdhënia midis të gjitha vlerave të mundshme të X dhe Y është lineare.

Arsyet për ekzistencën e një gabimi të rastësishëm: 1. Mospërfshirja e variablave të rëndësishëm shpjegues në modelin e regresionit; 2. Grumbullimi i variablave. Sistemi i ekuacioneve normale. Në shembullin tonë, lidhja është e drejtpërdrejtë. Për të parashikuar variablin e varur të atributit rezultant, është e nevojshme të njihen vlerat e parashikuara të të gjithë faktorëve të përfshirë në model.

Krahasimi i koeficientëve të korrelacionit dhe regresionit

Me një probabilitet prej 95% është e mundur të garantohet që vlera Y për një numër të pakufizuar vëzhgimesh nuk do të bjerë jashtë kufijve të intervaleve të gjetura. Nëse vlera e llogaritur me lang=EN-SH>n-m-1) shkallë lirie është më e madhe se vlera e tabelës në një nivel të caktuar rëndësie, atëherë modeli konsiderohet i rëndësishëm. Kjo siguron që të mos ketë korrelacion midis ndonjë devijimi dhe, në veçanti, midis devijimeve ngjitur.

Koeficientët e regresionit dhe interpretimi i tyre

Në shumicën e rasteve, autokorrelacioni pozitiv shkaktohet nga ndikimi konstant i drejtimit të disa faktorëve që nuk merren parasysh në model. Autokorrelacioni negativ në thelb do të thotë që një devijim pozitiv pasohet nga një negativ dhe anasjelltas.

Çfarë është regresioni?

2. Inercia. Shumë tregues ekonomikë (inflacioni, papunësia, GNP, etj.) kanë një natyrë të caktuar ciklike të shoqëruar me valëzimin e aktivitetit të biznesit. Në shumë fusha të prodhimit dhe të tjera, treguesit ekonomikë i përgjigjen ndryshimeve të kushteve ekonomike me vonesë (vonesë kohore).

Nëse kryhet standardizimi paraprak i treguesve të faktorëve, atëherë b0 është e barabartë me vlerën mesatare të treguesit efektiv në agregat. Vlerat specifike të koeficientëve të regresionit përcaktohen nga të dhënat empirike sipas metodës së katrorëve më të vegjël (si rezultat i zgjidhjes së sistemeve të ekuacioneve normale).

Ekuacioni i regresionit linear ka formën y = bx + a + ε Këtu ε është një gabim i rastësishëm (devijim, shqetësim). Meqenëse gabimi është më shumë se 15%, nuk këshillohet përdorimi i këtij ekuacioni si regresion. Duke zëvendësuar vlerat e duhura x në ekuacionin e regresionit, ne mund të përcaktojmë vlerat e rreshtuara (të parashikuara) të treguesit të performancës y(x) për çdo vëzhgim.

Çfarë është regresioni?

Konsideroni dy ndryshore të vazhdueshme x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Le t'i vendosim pikat në një komplot shpërndarjeje dydimensionale dhe të themi se kemi lidhje lineare, nëse të dhënat përafrohen me një vijë të drejtë.

Nëse besojmë se y varet nga x, dhe ndryshimet në y shkaktohen pikërisht nga ndryshimet në x, mund të përcaktojmë vijën e regresionit (regresion y në x), i cili përshkruan më së miri marrëdhënien lineare midis këtyre dy variablave.

Përdorimi statistikor i fjalës regresion vjen nga fenomeni i njohur si regresion në mesatare, që i atribuohet Sir Francis Galton (1889).

Ai tregoi se megjithëse baballarët e gjatë priren të kenë djem të gjatë, gjatësia mesatare e djemve është më e shkurtër se ajo e baballarëve të tyre të gjatë. Gjatësia mesatare e djemve "regresoi" dhe "u zhvendos prapa" drejt gjatësisë mesatare të të gjithë baballarëve në popullatë. Kështu, mesatarisht, baballarët e gjatë kanë djem më të shkurtër (por ende mjaft të gjatë), dhe baballarët e shkurtër kanë djem më të gjatë (por ende mjaft të shkurtër).

Linja e regresionit

Një ekuacion matematik që vlerëson një vijë të regresionit linear të thjeshtë (në çift):

x quhet ndryshore e pavarur ose parashikues.

Y- variabli i varur ose variabli i përgjigjes. Kjo është vlera që ne presim y(mesatarisht) nëse e dimë vlerën x, d.m.th. është "vlera e parashikuar" y»

a- anëtar (kryqëzimi) i lirë i vijës së vlerësimit; ky është kuptimi Y, Kur x=0(Fig.1).
b- pjerrësia ose pjerrësia e vijës së vlerësuar; paraqet shumën me të cilën Y rritet mesatarisht nëse rritemi x për një njësi.
a Dhe b quhen koeficientë regresioni të vijës së vlerësuar, megjithëse ky term shpesh përdoret vetëm për b.

Regresioni linear në çift mund të zgjerohet për të përfshirë më shumë se një ndryshore të pavarur; në këtë rast njihet si regresioni i shumëfishtë.

Fig.1. Vija e regresionit linear që tregon ndërprerjen a dhe pjerrësinë b (shuma Y rritet kur x rritet me një njësi)

Metoda e katrorëve më të vegjël

Ne kryejmë analizën e regresionit duke përdorur një mostër vëzhgimesh ku a Dhe b- vlerësimet e mostrave të parametrave të vërtetë (të përgjithshëm), α dhe β, të cilët përcaktojnë vijën e regresionit linear në popullatë (popullata e përgjithshme).

Metoda më e thjeshtë për përcaktimin e koeficientëve a Dhe bështë Metoda e katrorëve më të vegjël(MNC).

Përshtatja vlerësohet duke parë mbetjet (distanca vertikale e secilës pikë nga vija, p.sh. mbetje = vëzhguar y- parashikoi y, Oriz. 2).

Linja e përshtatjes më të mirë zgjidhet në mënyrë që shuma e katrorëve të mbetjeve të jetë minimale.

Oriz. 2. Vija e regresionit linear me mbetje të paraqitura (vija vertikale me pika) për secilën pikë.

Supozimet e regresionit linear

Pra, për secilën vlerë të vëzhguar, mbetja është e barabartë me diferencën dhe vlera e parashikuar përkatëse mund të jetë pozitive ose negative.

Ju mund të përdorni mbetjet për të testuar supozimet e mëposhtme pas regresionit linear:

Mbetjet zakonisht shpërndahen me një mesatare prej zero;

Nëse supozimet e linearitetit, normalitetit dhe/ose variancës konstante janë të dyshimta, ne mund të transformojmë ose dhe të llogarisim një vijë të re regresioni për të cilën këto supozime plotësohen (për shembull, të përdorim një transformim logaritmik, etj.).

Vlerat anormale (të jashtme) dhe pikat e ndikimit

Një vëzhgim "ndikues", nëse hiqet, ndryshon një ose më shumë vlerësime të parametrave të modelit (dmth. pjerrësia ose ndërprerja).

Një vëzhgim i jashtëm (një vëzhgim që nuk është në përputhje me shumicën e vlerave në një grup të dhënash) mund të jetë një vëzhgim "ndikues" dhe mund të zbulohet lehtësisht vizualisht duke inspektuar një grafik shpërhapjeje me dy variacione ose grafik të mbetur.

Si për pikat e jashtme, ashtu edhe për vëzhgimet (pikat) "ndikues", përdoren modele, si me përfshirjen e tyre ashtu edhe pa ato, dhe vëmendje i kushtohet ndryshimeve në vlerësime (koeficientët e regresionit).

Kur kryeni një analizë, nuk duhet të hiqni automatikisht pikat e jashtme ose pikat e ndikimit, pasi thjesht injorimi i tyre mund të ndikojë në rezultatet e marra. Gjithmonë studioni arsyet e këtyre dallimeve dhe analizoni ato.

Hipoteza e regresionit linear

Kur ndërtohet regresioni linear, testohet hipoteza zero se pjerrësia e përgjithshme e vijës së regresionit β është e barabartë me zero.

Nëse pjerrësia e vijës është zero, nuk ka lidhje lineare midis dhe: ndryshimi nuk ndikon

Për të testuar hipotezën zero se pjerrësia e vërtetë është zero, mund të përdorni algoritmin e mëposhtëm:

Llogaritni statistikën e testit të barabartë me raportin , i cili i nënshtrohet një shpërndarjeje me shkallë lirie, ku gabimi standard i koeficientit

- vlerësimi i dispersionit të mbetjeve.

Në mënyrë tipike, nëse arrihet niveli i rëndësisë, hipoteza zero refuzohet.

ku është pika e përqindjes së shpërndarjes me shkallë lirie, e cila jep probabilitetin e një testi të dyanshëm

Ky është intervali që përmban pjerrësinë e përgjithshme me një probabilitet prej 95%.

Për mostrat e mëdha, të themi, mund të përafrojmë një vlerë prej 1.96 (d.m.th., statistikat e testimit do të priren të shpërndahen normalisht)

Vlerësimi i cilësisë së regresionit linear: koeficienti i përcaktimit R 2

Për shkak të marrëdhënies lineare dhe ne presim që të ndryshojë si , dhe e quajmë atë variacion që është për shkak ose shpjegohet me regresion. Variacioni i mbetur duhet të jetë sa më i vogël që të jetë e mundur.

Nëse kjo është e vërtetë, atëherë shumica e variacionit do të shpjegohet me regresion, dhe pikat do të qëndrojnë afër vijës së regresionit, d.m.th. rreshti i përshtatet mirë të dhënave.

Proporcioni i variancës totale që shpjegohet me regresion quhet koeficienti i përcaktimit, zakonisht shprehet si përqindje dhe shënohet R 2(në regresionin linear të çiftuar kjo është sasia r 2, katrori i koeficientit të korrelacionit), ju lejon të vlerësoni subjektivisht cilësinë e ekuacionit të regresionit.

Diferenca paraqet përqindjen e variancës që nuk mund të shpjegohet me regresion.

Nuk ka asnjë test formal për të vlerësuar ne duhet të mbështetemi në gjykimin subjektiv për të përcaktuar mirësinë e përshtatjes së linjës së regresionit.

Zbatimi i një linje regresioni për parashikimin

Ju mund të përdorni një vijë regresioni për të parashikuar një vlerë nga një vlerë në skajin ekstrem të diapazonit të vëzhguar (kurrë mos e ekstrapoloni përtej këtyre kufijve).

Ne parashikojmë mesataren e vëzhguesve që kanë një vlerë të veçantë duke e futur atë vlerë në ekuacionin e vijës së regresionit.

Pra, nëse parashikojmë si Përdorni këtë vlerë të parashikuar dhe gabimin e tij standard për të vlerësuar një interval besimi për mesataren e vërtetë të popullsisë.

Përsëritja e kësaj procedure për vlera të ndryshme ju lejon të ndërtoni kufijtë e besimit për këtë linjë. Ky është brezi ose zona që përmban vijën e vërtetë, për shembull në nivelin 95% të besimit.

Plane të thjeshta regresioni

Modelet e thjeshta të regresionit përmbajnë një parashikues të vazhdueshëm. Nëse ka 3 vëzhgime me vlera parashikuese P, të tilla si 7, 4 dhe 9, dhe dizajni përfshin një efekt të rendit të parë P, atëherë matrica e projektimit X do të jetë

dhe ekuacioni i regresionit duke përdorur P për X1 është

Y = b0 + b1 P

Nëse një dizajn i thjeshtë regresioni përmban një efekt të rendit më të lartë në P, siç është një efekt kuadratik, atëherë vlerat në kolonën X1 në matricën e projektimit do të ngrihen në fuqinë e dytë:

dhe ekuacioni do të marrë formën

Y = b0 + b1 P2

Metodat e kodimit të kufizuara nga Sigma dhe të mbiparametizuara nuk zbatohen për dizajne të thjeshta regresioni dhe modele të tjera që përmbajnë vetëm parashikues të vazhdueshëm (sepse thjesht nuk ka parashikues kategorikë). Pavarësisht nga metoda e zgjedhur e kodimit, vlerat e ndryshoreve të vazhdueshme rriten në përputhje me rrethanat dhe përdoren si vlera për ndryshoret X. Në këtë rast, nuk kryhet rikodim. Përveç kësaj, kur përshkruani planet e regresionit, mund të mos merrni parasysh matricën e projektimit X dhe të punoni vetëm me ekuacionin e regresionit.

Shembull: Analiza e thjeshtë e regresionit

Ky shembull përdor të dhënat e paraqitura në tabelë:

Oriz. 3. Tabela e të dhënave fillestare.

Të dhënat e përpiluara nga një krahasim i regjistrimeve të 1960 dhe 1970 në 30 qarqe të zgjedhura rastësisht. Emrat e qarqeve paraqiten si emra vëzhgimi. Informacioni në lidhje me secilën variabël është paraqitur më poshtë:

Oriz. 4. Tabela e specifikimeve të variablave.

Problemi i kërkimit

Për këtë shembull, do të analizohet korrelacioni ndërmjet shkallës së varfërisë dhe shkallës që parashikon përqindjen e familjeve që janë nën kufirin e varfërisë. Prandaj, ne do ta trajtojmë variablin 3 (Pt_Poor) si variabël të varur.

Mund të parashtrojmë një hipotezë: ndryshimet në madhësinë e popullsisë dhe përqindja e familjeve që janë nën kufirin e varfërisë janë të lidhura. Duket e arsyeshme të pritet që varfëria të çojë në migrim jashtë, kështu që do të kishte një korrelacion negativ midis përqindjes së njerëzve nën kufirin e varfërisë dhe ndryshimit të popullsisë. Prandaj, ne do ta trajtojmë variablin 1 (Pop_Chng) si një ndryshore parashikuese.

Shiko rezultatet

Koeficientët e regresionit

Oriz. 5. Koeficientët e regresionit të Pt_Poor në Pop_Chng.

Në kryqëzimin e rreshtit Pop_Chng dhe kolonës Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

koeficienti i pa standardizuar për regresionin e Pt_Poor në Pop_Chng është -0.40374. Kjo do të thotë se për çdo njësi rënie të popullsisë, ka një rritje të shkallës së varfërisë prej .40374. Kufijtë e sipërm dhe të poshtëm (të parazgjedhur) 95% të besimit për këtë koeficient të pa standardizuar nuk përfshijnë zero, kështu që koeficienti i regresionit është i rëndësishëm në nivelin p.

Shpërndarja e ndryshueshme

Koeficientët e korrelacionit mund të mbivlerësohen ose nënvlerësohen ndjeshëm nëse në të dhëna janë të pranishme vlera të mëdha të jashtme. Le të studiojmë shpërndarjen e ndryshores së varur Pt_Poor sipas rretheve. Për ta bërë këtë, le të ndërtojmë një histogram të ndryshores Pt_Poor.

Oriz. 6. Histogrami i ndryshores Pt_Poor.

Siç mund ta shihni, shpërndarja e kësaj variabli ndryshon dukshëm nga shpërndarja normale. Megjithatë, edhe pse edhe dy qarqe (dy kolonat djathtas) kanë një përqindje më të lartë të familjeve që janë nën kufirin e varfërisë sesa pritej në një shpërndarje normale, ato duket se janë "brenda kufirit".

Oriz. 7. Histogrami i ndryshores Pt_Poor.

Ky gjykim është disi subjektiv. Rregulli i përgjithshëm është që të dhënat e jashtme duhet të merren parasysh nëse vëzhgimi (ose vëzhgimet) nuk bien brenda intervalit (mesatarja ± 3 herë devijimi standard). Në këtë rast, ia vlen të përsëritet analiza me dhe pa pika të jashtme për t'u siguruar që ato të mos kenë një efekt të madh në korrelacionin midis anëtarëve të popullsisë.

Scatterplot

Nëse një nga hipotezat është a priori për marrëdhënien midis variablave të dhënë, atëherë është e dobishme ta testoni atë në grafikun e scatterplot-it përkatës.

Oriz. 8. Diagrami i shpërndarjes.

Skaterploti tregon një korrelacion të qartë negativ (-.65) midis dy variablave. Ai gjithashtu tregon intervalin 95% të besimit për vijën e regresionit, d.m.th., ka një probabilitet 95% që vija e regresionit të shtrihet midis dy kthesave me pika.

Kriteret e rëndësisë

Oriz. 9. Tabela që përmban kriteret e rëndësisë.<.001 .

Testi për koeficientin e regresionit Pop_Chng konfirmon se Pop_Chng është i lidhur fort me Pt_Poor, p.

Fundi

Me një lloj lidhjeje lineare midis dy karakteristikave që studiohen, krahas llogaritjes së korrelacioneve, përdoret edhe llogaritja e koeficientit të regresionit.

Në rastin e një korrelacioni linear, çdo ndryshim në një karakteristikë korrespondon me një ndryshim shumë të caktuar në një karakteristikë tjetër. Sidoqoftë, koeficienti i korrelacionit e tregon këtë marrëdhënie vetëm në sasi relative - në fraksione të unitetit. Me ndihmën e analizës së regresionit, kjo vlerë e marrëdhënies fitohet në njësi të emërtuara. Sasia me të cilën karakteristika e parë ndryshon mesatarisht kur e dyta ndryshon me një njësi matjeje quhet koeficient regresioni.

Ndryshe nga analiza e regresionit të korrelacionit, ajo ofron informacion më të gjerë, pasi duke llogaritur dy koeficientë regresioni Rx/y Dhe Rу/хËshtë e mundur të përcaktohet varësia e shenjës së parë nga e dyta, dhe e dyta nga e para. Shprehja e një marrëdhënieje regresioni duke përdorur një ekuacion lejon që dikush të përcaktojë vlerën e një karakteristike tjetër bazuar në një vlerë të caktuar të një karakteristike.

Koeficienti i regresionit R është prodhimi i koeficientit të korrelacionit dhe raportit të devijimeve katrore të llogaritur për secilën karakteristikë. Ajo llogaritet sipas formulës

ku, R - koeficienti i regresionit; SH është devijimi standard i karakteristikës së parë, i cili ndryshon për shkak të një ndryshimi në të dytën; SУ - devijimi standard i karakteristikës së dytë në lidhje me ndryshimin e së cilës ndryshon karakteristika e parë; r është koeficienti i korrelacionit ndërmjet këtyre karakteristikave; x - funksioni; y -argument.

Kjo formulë përcakton vlerën e x kur y ndryshon me një njësi matëse. Nëse është e nevojshme llogaritja e kundërt, mund të gjeni vlerën e y kur x ndryshon sipas njësisë së matjes duke përdorur formulën:

Në këtë rast, roli aktiv në ndryshimin e një karakteristike në raport me një tjetër ndryshon në krahasim me formulën e mëparshme, argumenti bëhet funksion dhe anasjelltas. Vlerat e SX dhe SY merren në një shprehje të emërtuar.

Ekziston një marrëdhënie e qartë midis vlerave të r dhe R, e cila shprehet në faktin se produkti i regresionit të x në y nga regresioni i y në x është i barabartë me katrorin e koeficientit të korrelacionit, d.m.th.

Rx/y * Ry/x = r2

Kjo tregon se koeficienti i korrelacionit përfaqëson mesataren gjeometrike të të dy vlerave të koeficientëve të regresionit të një kampioni të caktuar. Kjo formulë mund të përdoret për të kontrolluar saktësinë e llogaritjeve.

Gjatë përpunimit të materialit dixhital në makinat llogaritëse, mund të përdoren formula të detajuara të koeficientit të regresionit:

R ose

Për një koeficient regresioni, gabimi i përfaqësimit të tij mund të llogaritet. Gabimi i koeficientit të regresionit është i barabartë me gabimin e koeficientit të korrelacionit të shumëzuar me raportin e raporteve kuadratike:

Kriteri i besueshmërisë së koeficientit të regresionit llogaritet duke përdorur formulën e zakonshme:

si rezultat, është e barabartë me kriterin e besueshmërisë së koeficientit të korrelacionit:

Besueshmëria e vlerës tR përcaktohet duke përdorur tabelën e Studentit në  = n - 2, ku n është numri i çifteve të vëzhgimeve.

Regresioni curvilinear.

REGRESIONI, KURVILINEAR. Çdo regresion jolinear në të cilin ekuacioni i regresionit për ndryshimet në një ndryshore (y) si funksion i t ndryshon në një tjetër (x) është një ekuacion kuadratik, kub ose i rendit më të lartë. Edhe pse është gjithmonë matematikisht e mundur të merret një ekuacion regresioni që do të përshtatet me çdo gërvishtje të kurbës, shumica e këtyre shqetësimeve rezultojnë nga gabimet e kampionimit ose matjes, dhe një përshtatje e tillë "perfekte" nuk arrin asgjë. Nuk është gjithmonë e lehtë të përcaktohet nëse një regresion lakor i përshtatet një grupi të dhënash, megjithëse ka teste statistikore për të përcaktuar nëse çdo fuqi më e lartë e ekuacionit rrit ndjeshëm shkallën e përshtatjes së atij grupi të dhënash.

Montimi i kurbës kryhet në të njëjtën mënyrë me katrorët më të vegjël si montimi me vijë të drejtë. Vija e regresionit duhet të plotësojë kushtin e shumës minimale të distancave në katror për secilën pikë të fushës së korrelacionit. Në këtë rast, në ekuacionin (1), y përfaqëson vlerën e llogaritur të funksionit, të përcaktuar duke përdorur ekuacionin e marrëdhënies së zgjedhur kurvilineare bazuar në vlerat aktuale të x j. Për shembull, nëse zgjidhet një parabolë e rendit të dytë për të përafruar lidhjen, atëherë y = a + b x + cx2, (14) Dhe ndryshimi midis një pike të shtrirë në kurbë dhe një pike të caktuar në fushën e korrelacionit me një të përshtatshme argumenti mund të shkruhet në mënyrë të ngjashme me ekuacionin (3) në formën yj = yj (a + bx + cx2) (15) Në këtë rast, shuma e distancave në katror nga çdo pikë e fushës së korrelacionit në vijën e re të regresionit në rastin e një parabole të rendit të dytë do të ketë formën: S 2 = yj 2 = 2 (16) Bazuar në kushtin minimal të kësaj shume, derivatet e pjesshme të S 2 në lidhje me a, b dhe c janë të barabarta me zero. Pasi kemi kryer transformimet e nevojshme, marrim një sistem prej tre ekuacionesh me tre të panjohura për të përcaktuar a, b dhe c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Duke zgjidhur sistemin e ekuacioneve për a, b dhe c, gjejmë vlerat numerike të koeficientëve të regresionit. Vlerat e y, x, x2, yx, yx2, x3, x4 gjenden direkt nga të dhënat e matjes së prodhimit. Një vlerësim i afërsisë së lidhjes për një varësi kurvilineare është raporti teorik i korrelacionit xy, i cili është rrënja katrore e raportit të dy dispersioneve: katrori mesatar p2 i devijimeve të vlerave të llogaritura y" j të funksionit. sipas ekuacionit të regresionit të gjetur nga vlera mesatare aritmetike Y e vlerës y në devijimet mesatare katrore y2 të vlerave aktuale të funksionit y j nga vlera mesatare aritmetike e tij: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Katrori i raportit të korrelacionit xy2 tregon pjesën e ndryshueshmërisë totale të ndryshores së varur y, për shkak të ndryshueshmërisë së argumentit x . Ky tregues quhet koeficienti i përcaktimit. Në ndryshim nga koeficienti i korrelacionit, vlera e raportit të korrelacionit mund të marrë vetëm vlera pozitive nga 0 në 1. Në mungesë të plotë të një lidhjeje, raporti i korrelacionit është i barabartë me zero, në prani të një lidhje funksionale është e barabartë me një, dhe në prani të një lidhjeje regresioni me afërsi të ndryshme, raporti i korrelacionit merr vlera midis zeros dhe një. Zgjedhja e llojit të kurbës ka një rëndësi të madhe në analizën e regresionit, pasi saktësia e përafrimit dhe vlerësimet statistikore të afërsisë së marrëdhënies varen nga lloji i marrëdhënies së zgjedhur. Metoda më e thjeshtë për zgjedhjen e llojit të kurbës është ndërtimi i fushave korrelacioni dhe përzgjedhja e llojeve të përshtatshme të ekuacioneve të regresionit bazuar në vendndodhjen e pikave në këto fusha. Metodat e analizës së regresionit bëjnë të mundur gjetjen e vlerave numerike të koeficientëve të regresionit për llojet komplekse të marrëdhënieve midis parametrave, të përshkruara, për shembull, nga polinome të shkallëve të larta. Shpesh forma e kurbës mund të përcaktohet bazuar në natyrën fizike të procesit ose fenomenit në shqyrtim. Ka kuptim të përdoren polinome të shkallëve të larta për të përshkruar procese që ndryshojnë me shpejtësi nëse kufijtë e luhatjes së parametrave të këtyre proceseve janë të rëndësishëm. Në lidhje me studimet e procesit metalurgjik, mjafton të përdoren kthesa të rendit më të ulët, për shembull, një parabolë e rendit të dytë. Kjo kurbë mund të ketë një ekstrem, i cili, siç ka treguar praktika, është mjaft i mjaftueshëm për të përshkruar karakteristika të ndryshme të procesit metalurgjik. Rezultatet e llogaritjeve të parametrave të marrëdhënies së korrelacionit të çiftëzuar do të ishin të besueshme dhe do të kishin vlerë praktike nëse informacioni i përdorur do të merrej për kushtet e kufijve të gjerë të luhatjeve të argumentit me të gjithë parametrat e tjerë të procesit konstant. Rrjedhimisht, metodat për studimin e korrelacionit në çift të parametrave mund të përdoren për të zgjidhur problemet praktike vetëm kur ekziston besimi në mungesën e ndikimeve të tjera serioze në funksion, përveç argumentit të analizuar. Në kushtet e prodhimit, është e pamundur të kryhet procesi në këtë mënyrë për një kohë të gjatë. Sidoqoftë, nëse kemi informacion për parametrat kryesorë të procesit që ndikojnë në rezultatet e tij, atëherë matematikisht mund të eliminojmë ndikimin e këtyre parametrave dhe të izolojmë në "formë të pastër" marrëdhënien midis funksionit dhe argumentit që na intereson. Një lidhje e tillë quhet private, ose individuale. Për ta përcaktuar atë, përdoret metoda e regresionit të shumëfishtë.

Marrëdhënie korrelacioni.

Raporti i korrelacionit dhe indeksi i korrelacionit janë karakteristika numerike që janë të lidhura ngushtë me konceptin e një ndryshoreje të rastësishme, ose më mirë me një sistem variablash të rastësishëm. Prandaj, për të prezantuar dhe përcaktuar kuptimin dhe rolin e tyre, është e nevojshme të shpjegohet koncepti i një sistemi variablash të rastësishëm dhe disa vetive të qenësishme në to.

Dy ose më shumë ndryshore të rastësishme që përshkruajnë një fenomen të caktuar quhen sistem ose kompleks variablash të rastësishëm.

Një sistem i disa variablave të rastësishëm X, Y, Z, …, W zakonisht shënohet me (X, Y, Z, …, W).

Për shembull, një pikë në një aeroplan përshkruhet jo nga një koordinatë, por nga dy, dhe në hapësirë - madje edhe nga tre.

Vetitë e një sistemi të disa ndryshoreve të rastit nuk janë të kufizuara në vetitë e variablave individuale të rastësishme të përfshira në sistem, por përfshijnë gjithashtu lidhje (varësi) të ndërsjella midis variablave të rastit. Prandaj, kur studiohet një sistem variablash të rastësishëm, duhet t'i kushtohet vëmendje natyrës dhe shkallës së varësisë. Kjo varësi mund të jetë pak a shumë e theksuar, pak a shumë e afërt. Dhe në raste të tjera, variablat e rastësishëm rezultojnë të jenë praktikisht të pavarur.

Një ndryshore e rastësishme Y thuhet se është e pavarur nga një ndryshore e rastësishme X nëse ligji i shpërndarjes së ndryshores së rastësishme Y nuk varet nga vlera që merr X.

Duhet të theksohet se varësia dhe pavarësia e variablave të rastit është gjithmonë një fenomen i ndërsjellë: nëse Y nuk varet nga X, atëherë vlera X nuk varet nga Y. Duke marrë parasysh këtë, mund të japim përkufizimin e mëposhtëm të pavarësisë të ndryshoreve të rastësishme.

Variablat e rastësishëm X dhe Y quhen të pavarur nëse ligji i shpërndarjes së secilës prej tyre nuk varet nga vlera që merr tjetri. Përndryshe, madhësitë X dhe Y quhen të varura.

Ligji i shpërndarjes së një ndryshoreje të rastësishme është çdo marrëdhënie që vendos një lidhje midis vlerave të mundshme të një ndryshoreje të rastësishme dhe probabiliteteve të tyre përkatëse.

Koncepti i "varësisë" së variablave të rastësishëm, i cili përdoret në teorinë e probabilitetit, është disi i ndryshëm nga koncepti i zakonshëm i "varësisë" së variablave, i cili përdoret në matematikë. Kështu, një matematikan me "varësi" nënkupton vetëm një lloj varësie - varësi të plotë, të ngurtë, të ashtuquajtur funksionale. Dy sasi X dhe Y quhen të varura funksionalisht nëse, duke ditur vlerën e njërës prej tyre, mund të përcaktoni me saktësi vlerën e tjetrës.

Në teorinë e probabilitetit, ne hasim një lloj varësie paksa të ndryshme - një varësi probabiliste. Nëse vlera Y lidhet me vlerën X nga një varësi probabiliste, atëherë, duke ditur vlerën e X, është e pamundur të tregohet me saktësi vlera e Y, por mund të tregoni ligjin e shpërndarjes së tij, në varësi të asaj vlere që ka vlera X marrë.

Marrëdhënia probabiliste mund të jetë pak a shumë e ngushtë; Me rritjen e afërsisë së varësisë probabilistike, ajo bëhet gjithnjë e më afër asaj funksionale. Kështu, varësia funksionale mund të konsiderohet si një rast ekstrem, kufizues i varësisë më të afërt probabilistike. Një rast tjetër ekstrem është pavarësia e plotë e variablave të rastësishëm. Midis këtyre dy rasteve ekstreme qëndrojnë të gjitha shkallët e varësisë probabiliste - nga më e forta tek më e dobëta.

Varësia probabiliste ndërmjet variablave të rastësishëm haset shpesh në praktikë. Nëse variablat e rastësishëm X dhe Y janë në një marrëdhënie probabilistike, kjo nuk do të thotë se me një ndryshim në vlerën e X, vlera e Y ndryshon në një mënyrë plotësisht të përcaktuar; kjo do të thotë vetëm se ndërsa vlera e X ndryshon, vlera e Y tenton gjithashtu të ndryshojë (rritet ose ulet ndërsa X rritet). Ky trend vërehet vetëm në terma të përgjithshëm, dhe në çdo rast individual devijime nga ai janë të mundshme.

Studimi i varësive të korrelacionit bazohet në studimin e lidhjeve të tilla midis variablave në të cilat vlerat e një ndryshoreje, e cila mund të merret si një variabël e varur, ndryshojnë "mesatarisht" në varësi të vlerave të marra nga një tjetër. variabël, i konsideruar si shkak në raport me variablin e varur. Veprimi i këtij shkaku kryhet në kushte të ndërveprimit kompleks të faktorëve të ndryshëm, si rezultat i të cilit manifestimi i modelit errësohet nga ndikimi i rastësisë. Duke llogaritur vlerat mesatare të atributit efektiv për një grup të caktuar vlerash të faktorit-atribut, ndikimi i rastësisë eliminohet pjesërisht. Duke llogaritur parametrat e linjës teorike të komunikimit, ato eliminohen më tej dhe fitohet një ndryshim i paqartë (në formë) në "y" me një ndryshim në faktorin "x".

Për të studiuar marrëdhëniet stokastike, përdoret gjerësisht metoda e krahasimit të dy serive paralele, metoda e grupimeve analitike, analiza e korrelacionit, analiza e regresionit dhe disa metoda joparametrike. Në përgjithësi, detyra e statistikave në fushën e studimit të marrëdhënieve nuk është vetëm të përcaktojë praninë e tyre, drejtimin dhe forcën e lidhjes, por edhe të përcaktojë formën (shprehjen analitike) të ndikimit të karakteristikave të faktorëve në atë rezultante. Për ta zgjidhur atë, përdoren metodat e analizës së korrelacionit dhe regresionit.

KAPITULLI 1. EKUACIONI I REGRESIONIT: BAZET TEORIKE

1.1. Ekuacioni i regresionit: thelbi dhe llojet e funksioneve

Regresioni (lat. regressio - lëvizje e kundërt, kalimi nga format më komplekse të zhvillimit në ato më pak komplekse) është një nga konceptet bazë në teorinë e probabilitetit dhe statistikat matematikore, që shpreh varësinë e vlerës mesatare të një ndryshoreje të rastit nga vlerat. të një ndryshoreje tjetër të rastësishme ose të disa ndryshoreve të rastësishme. Ky koncept u prezantua nga Francis Galton në 1886.

Vija e regresionit teorik është vija rreth së cilës grupohen pikat e fushës së korrelacionit dhe që tregon drejtimin kryesor, prirjen kryesore të lidhjes.

Linja e regresionit teorik duhet të pasqyrojë ndryshimin në vlerat mesatare të atributit efektiv "y" pasi vlerat e atributit të faktorit "x" ndryshojnë, duke iu nënshtruar anulimit të plotë të të gjitha të tjerave - të rastësishme në lidhje me faktorin. "x" - shkaqet. Rrjedhimisht, kjo vijë duhet të tërhiqet në mënyrë që shuma e devijimeve të pikave të fushës së korrelacionit nga pikat përkatëse të vijës së regresionit teorik të jetë e barabartë me zero, dhe shuma e katrorëve të këtyre devijimeve të jetë minimale.

y=f(x) - ekuacioni i regresionit është një formulë për lidhjen statistikore ndërmjet variablave.

Drejtëza në një rrafsh (në hapësirë dydimensionale) jepet me ekuacionin y=a+b*x. Në mënyrë më të detajuar, ndryshorja y mund të shprehet në terma të një konstante (a) dhe një pjerrësi (b) të shumëzuar me ndryshoren x. Konstanta nganjëherë quhet edhe termi i ndërprerjes, dhe pjerrësia nganjëherë quhet regresion ose koeficient B.

Një fazë e rëndësishme e analizës së regresionit është përcaktimi i llojit të funksionit me të cilin karakterizohet varësia midis karakteristikave. Baza kryesore duhet të jetë një analizë kuptimplotë e natyrës së varësisë që studiohet dhe mekanizmit të saj. Në të njëjtën kohë, nuk është gjithmonë e mundur të vërtetohet teorikisht forma e lidhjes midis secilit prej faktorëve dhe treguesit të performancës, pasi fenomenet socio-ekonomike në studim janë shumë komplekse dhe faktorët që formojnë nivelin e tyre janë të ndërthurur ngushtë dhe ndërveprojnë. me njëri-tjetrin. Prandaj, në bazë të analizës teorike, shpesh mund të nxirren përfundimet më të përgjithshme në lidhje me drejtimin e marrëdhënies, mundësinë e ndryshimit të saj në popullsinë në studim, legjitimitetin e përdorimit të një marrëdhënie lineare, praninë e mundshme të vlerave ekstreme, etj. etj. Një plotësim i domosdoshëm i supozimeve të tilla duhet të jetë një analizë e të dhënave specifike faktike.

Një ide e përafërt e linjës së marrëdhënieve mund të merret bazuar në linjën e regresionit empirik. Linja e regresionit empirik është zakonisht një vijë e thyer dhe ka një thyerje pak a shumë domethënëse. Kjo shpjegohet me faktin se ndikimi i faktorëve të tjerë të pa llogaritur që ndikojnë në ndryshimin e karakteristikës rezultuese është shuar jo plotësisht në mesatare, për shkak të numrit të pamjaftueshëm të vëzhgimeve, prandaj, një linjë empirike komunikimi mund të përdoret për të zgjedhur dhe justifikoni llojin e kurbës teorike, me kusht që numri i vëzhgimeve të jetë mjaftueshëm i madh.

Një nga elementët e studimeve specifike është krahasimi i ekuacioneve të ndryshme të varësisë, bazuar në përdorimin e kritereve të cilësisë për përafrimin e të dhënave empirike nga versionet konkurruese të modeleve. Llojet e mëposhtme të funksioneve përdoren më shpesh për të karakterizuar marrëdhëniet e treguesve ekonomikë.

1. Linear:

2. Hiperbolik:

3. Demonstruese:

4. Parabolike:

5. Fuqia:

6. Logaritmike:

7. Logjistika:

Një model me një variabël shpjegues dhe një të shpjeguar është një model regresioni i çiftuar. Nëse përdoren dy ose më shumë variabla shpjegues (faktorë), atëherë flasim për përdorimin e një modeli regresioni të shumëfishtë. Në këtë rast, funksionet lineare, eksponenciale, hiperbolike, eksponenciale dhe lloje të tjera të funksioneve që lidhin këto variabla mund të zgjidhen si opsione.

Për të gjetur parametrat a dhe b të ekuacionit të regresionit, përdoret metoda e katrorëve më të vegjël. Kur aplikoni metodën e katrorëve më të vegjël për të gjetur një funksion që i përshtatet më së miri të dhënave empirike, besohet se çanta e katrorëve të devijimeve të pikave empirike nga vija e regresionit teorik duhet të jetë një vlerë minimale.

Kriteri i katrorëve më të vegjël mund të shkruhet si më poshtë:

Rrjedhimisht, përdorimi i metodës së katrorëve më të vegjël për të përcaktuar parametrat a dhe b të vijës që përputhet më mirë me të dhënat empirike reduktohet në një problem ekstrem.

Në lidhje me vlerësimet, mund të nxirren përfundimet e mëposhtme:

1. Vlerësuesit e katrorëve më të vegjël janë funksione të kampionit, duke i bërë të lehtë për t'u llogaritur.

2. Vlerësimet e katrorëve më të vegjël janë vlerësime pikësore të koeficientëve të regresionit teorik.

3. Vija e regresionit empirik kalon domosdoshmërisht nëpër pikën x, y.

4. Ekuacioni i regresionit empirik është ndërtuar në atë mënyrë që shuma e devijimeve

Një paraqitje grafike e linjës empirike dhe teorike të komunikimit është paraqitur në Figurën 1.

Parametri b në ekuacion është koeficienti i regresionit. Në prani të një korrelacioni të drejtpërdrejtë, koeficienti i regresionit është pozitiv, dhe në rastin e një korrelacioni të anasjelltë, koeficienti i regresionit është negativ. Koeficienti i regresionit tregon se sa ndryshon mesatarisht vlera e atributit efektiv "y" kur atributi i faktorit "x" ndryshon me një. Gjeometrikisht, koeficienti i regresionit është pjerrësia e vijës së drejtë që përshkruan ekuacionin e korrelacionit në lidhje me boshtin "x" (për ekuacionin

Dega e analizës statistikore multivariate që i kushtohet rindërtimit të varësive quhet analiza e regresionit. Termi "analizë e regresionit linear" përdoret kur funksioni në shqyrtim varet në mënyrë lineare nga parametrat e vlerësuar (varësia nga variablat e pavarur mund të jetë arbitrare). Teoria e vlerësimit

parametrat e panjohur janë zhvilluar mirë veçanërisht në rastin e analizës së regresionit linear. Nëse nuk ka linearitet dhe është e pamundur të kalohet në një problem linear, atëherë, si rregull, nuk mund të presim veti të mira nga vlerësimet. Ne do të demonstrojmë qasje në rastin e varësive të llojeve të ndryshme. Nëse varësia ka formën e një polinomi (polinomi). Nëse llogaritja e korrelacionit karakterizon forcën e marrëdhënies midis dy variablave, atëherë analiza e regresionit shërben për të përcaktuar llojin e kësaj marrëdhënieje dhe bën të mundur parashikimin e vlerës së një ndryshoreje (të varur) bazuar në vlerën e një ndryshoreje tjetër (të pavarur). . Për të kryer analizën e regresionit linear, ndryshorja e varur duhet të ketë një shkallë intervali (ose rendore). Në të njëjtën kohë, regresioni binar logjistik zbulon varësinë e një ndryshoreje dikotomike nga një variabël tjetër që lidhet me çdo shkallë. Të njëjtat kushte aplikimi vlejnë për analizën probit. Nëse ndryshorja e varur është kategorike, por ka më shumë se dy kategori, atëherë regresioni logjistik multinomial është një metodë e përshtatshme për të analizuar marrëdhëniet jolineare midis variablave që i përkasin një shkalle intervali. Metoda e regresionit jolinear është projektuar për këtë qëllim.

Koncepti i regresionit. Varësia ndërmjet variablave x Dhe y mund të përshkruhen në mënyra të ndryshme. Në veçanti, çdo formë e lidhjes mund të shprehet me një ekuacion të përgjithshëm, ku y trajtohet si një variabël i varur, ose funksionet nga një tjetër - ndryshore e pavarur x, e quajtur argument. Korrespondenca midis një argumenti dhe një funksioni mund të specifikohet nga një tabelë, formulë, grafik, etj. Ndryshimi i një funksioni në varësi të një ndryshimi në një ose më shumë argumente quhet regresioni. Të gjitha mjetet e përdorura për të përshkruar korrelacionet përbëjnë përmbajtjen analiza e regresionit.

Për të shprehur regresionin, ekuacionet e korrelacionit ose ekuacionet e regresionit, përdoren seritë e regresionit empirik dhe teorikisht të llogaritur, grafikët e tyre të quajtur linja regresioni, si dhe koeficientët e regresionit linear dhe jolinear.

Treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, duke marrë parasysh ndryshimet në vlerat mesatare të karakteristikës Y gjatë ndryshimit të vlerave x i shenjë X, dhe, anasjelltas, tregojnë një ndryshim në vlerat mesatare të karakteristikës X sipas vlerave të ndryshuara y i shenjë Y. Përjashtim bëjnë seritë kohore, ose seritë kohore, që tregojnë ndryshime në karakteristika me kalimin e kohës. Regresioni i serive të tilla është i njëanshëm.

Ka shumë forma dhe lloje të ndryshme të korrelacioneve. Detyra zbret në identifikimin e formës së lidhjes në çdo rast specifik dhe shprehjen e saj me ekuacionin e duhur të korrelacionit, i cili na lejon të parashikojmë ndryshimet e mundshme në një karakteristikë Y bazuar në ndryshimet e njohura në një tjetër X, lidhur me të parën në mënyrë korrelative.

12.1 Regresioni linear

Ekuacioni i regresionit. Rezultatet e vëzhgimeve të kryera në një objekt të veçantë biologjik bazuar në karakteristikat e ndërlidhura x Dhe y, mund të përfaqësohet me pika në një rrafsh duke ndërtuar një sistem koordinatash drejtkëndëshe. Rezultati është një lloj diagrami shpërndarës që lejon dikë të gjykojë formën dhe afërsinë e marrëdhënies midis karakteristikave të ndryshme. Shumë shpesh kjo marrëdhënie duket si një vijë e drejtë ose mund të përafrohet me një vijë të drejtë.

Marrëdhënia lineare ndërmjet variablave x Dhe y përshkruhet me një ekuacion të përgjithshëm, ku a, b, c, d,... – parametrat e ekuacionit që përcaktojnë marrëdhëniet ndërmjet argumenteve x 1 , x 2 , x 3 , …, x m dhe funksionet.

Në praktikë, jo të gjitha argumentet e mundshme merren parasysh, por vetëm disa argumente në rastin më të thjeshtë, vetëm një:

Në ekuacionin e regresionit linear (1) aështë termi i lirë dhe parametri b përcakton pjerrësinë e vijës së regresionit në raport me boshtet e koordinatave drejtkëndore. Në gjeometrinë analitike ky parametër quhet shpat, dhe në biometrikë - koeficienti i regresionit. Një paraqitje vizuale e këtij parametri dhe pozicioni i linjave të regresionit Y Nga X Dhe X Nga Y në sistemin e koordinatave drejtkëndëshe jep Fig. 1.

Oriz. 1 Linjat e regresionit të Y me X dhe X nga Y në sistem

koordinatat drejtkëndore

Linjat e regresionit, siç tregohet në figurën 1, kryqëzohen në pikën O (,), që korrespondojnë me vlerat mesatare aritmetike të karakteristikave të ndërlidhura me njëra-tjetrën Y Dhe X. Gjatë ndërtimit të grafikëve të regresionit, vlerat e ndryshores së pavarur X vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur, ose funksionit Y, vizatohen përgjatë boshtit të ordinatës AB që kalon nëpër pikën O (, ) korrespondon me marrëdhënien e plotë (funksionale) ndërmjet variablave Y Dhe X, kur koeficienti i korrelacionit . Sa më e fortë të jetë lidhja ndërmjet Y Dhe X, sa më afër të jenë linjat e regresionit me AB dhe, anasjelltas, sa më e dobët të jetë lidhja midis këtyre sasive, aq më të largëta janë linjat e regresionit nga AB. Nëse nuk ka lidhje midis karakteristikave, linjat e regresionit janë në kënde të drejta me njëra-tjetrën dhe .

Meqenëse treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, ekuacioni i regresionit (1) duhet të shkruhet si më poshtë:

Formula e parë përcakton vlerat mesatare kur ndryshon karakteristika X për njësi matëse, për të dytën - vlerat mesatare kur ndryshoni me një njësi matëse të atributit Y.

Koeficienti i regresionit. Koeficienti i regresionit tregon se sa është mesatarisht vlera e një karakteristike y ndryshon kur masa e një tjetri, e ndërlidhur me, ndryshon me një Y shenjë X. Ky tregues përcaktohet nga formula

Këtu janë vlerat s shumëzuar me madhësinë e intervaleve të klasave λ , nëse janë gjetur nga seritë e variacioneve ose tabelat e korrelacionit.

Koeficienti i regresionit mund të llogaritet pa llogaritur devijimet standarde s y Dhe s x sipas formulës

Nëse koeficienti i korrelacionit është i panjohur, koeficienti i regresionit përcaktohet si më poshtë:

Marrëdhënia ndërmjet regresionit dhe koeficientëve të korrelacionit. Duke krahasuar formulat (11.1) (tema 11) dhe (12.5), shohim: numëruesi i tyre ka të njëjtën vlerë, gjë që tregon një lidhje midis këtyre treguesve. Kjo marrëdhënie shprehet me barazi

Kështu, koeficienti i korrelacionit është i barabartë me mesataren gjeometrike të koeficientëve b yx Dhe b xy. Formula (6) lejon, së pari, bazuar në vlerat e njohura të koeficientëve të regresionit b yx Dhe b xy përcaktoni koeficientin e regresionit R xy, dhe së dyti, kontrolloni korrektësinë e llogaritjes së këtij treguesi korrelacioni R xy ndërmjet karakteristikave të ndryshme X Dhe Y.

Ashtu si koeficienti i korrelacionit, koeficienti i regresionit karakterizon vetëm një marrëdhënie lineare dhe shoqërohet nga një shenjë plus për një marrëdhënie pozitive dhe një shenjë minus për një marrëdhënie negative.

Përcaktimi i parametrave të regresionit linear. Dihet se shuma e devijimeve në katror është një variant x i nga mesatarja është vlera më e vogël, pra kjo teoremë përbën bazën e metodës së katrorëve më të vegjël. Lidhur me regresionin linear [shih formula (1)] kërkesa e kësaj teoreme plotësohet nga një sistem i caktuar ekuacionesh i quajtur normale:

Zgjidhja e përbashkët e këtyre ekuacioneve në lidhje me parametrat a Dhe bçon në rezultatet e mëposhtme:

;

, nga ku dhe.

Duke marrë parasysh natyrën e dyanshme të marrëdhënies ndërmjet variablave Y Dhe X, formula për përcaktimin e parametrit A duhet të shprehet kështu:

Dhe . (7)

Parametri b, ose koeficienti i regresionit, përcaktohet nga formulat e mëposhtme:

Ndërtimi i serive të regresionit empirik. Nëse ka një numër të madh vëzhgimesh, analiza e regresionit fillon me ndërtimin e serive të regresionit empirik. Seritë e regresionit empirik formohet duke llogaritur nga vlerat e një karakteristike të ndryshme X vlerat mesatare të një tjetri, të ndërlidhura me X shenjë Y. Me fjalë të tjera, ndërtimi i serive të regresionit empirik zbret në gjetjen e mesatareve të grupit nga vlerat përkatëse të karakteristikave Y dhe X.

Një seri regresioni empirik është një seri e dyfishtë numrash që mund të përfaqësohen me pika në një rrafsh dhe më pas, duke i lidhur këto pika me segmente të drejtëza, mund të merret një vijë empirike regresioni. Seritë e regresionit empirik, veçanërisht grafikët e tyre, quhen linjat e regresionit, japin një ide të qartë të formës dhe afërsisë së korrelacionit midis karakteristikave të ndryshme.

Rreshtimi i serive të regresionit empirik. Grafikët e serive të regresionit empirik rezultojnë, si rregull, të mos jenë linja të lëmuara, por të thyera. Kjo shpjegohet me faktin se, së bashku me arsyet kryesore që përcaktojnë modelin e përgjithshëm në ndryshueshmërinë e karakteristikave të ndërlidhura, madhësia e tyre ndikohet nga ndikimi i arsyeve të shumta dytësore që shkaktojnë luhatje të rastësishme në pikat nyjore të regresionit. Për të identifikuar tendencën (prirjen) kryesore të variacionit të konjuguar të karakteristikave të ndërlidhura, është e nevojshme të zëvendësohen linjat e thyera me linja regresioni të lëmuara dhe pa probleme. Procesi i zëvendësimit të vijave të thyera me ato të lëmuara quhet përafrimi i serive empirike Dhe linjat e regresionit.

Metoda grafike e shtrirjes. Kjo është metoda më e thjeshtë që nuk kërkon punë llogaritëse. Thelbi i saj zbret në sa vijon. Seria e regresionit empirik përshkruhet si një grafik në një sistem koordinativ drejtkëndor. Pastaj pikat e mesme të regresionit përshkruhen vizualisht, përgjatë së cilës vizatohet një vijë e fortë duke përdorur një vizore ose model. Disavantazhi i kësaj metode është i dukshëm: nuk përjashton ndikimin e vetive individuale të studiuesit në rezultatet e shtrirjes së linjave të regresionit empirik. Prandaj, në rastet kur nevojitet saktësi më e lartë kur zëvendësohen linjat e thyera të regresionit me ato të lëmuara, përdoren metoda të tjera të rreshtimit të serive empirike.

Metoda e mesatares lëvizëse. Thelbi i kësaj metode zbret në llogaritjen vijuese të mesatareve aritmetike nga dy ose tre terma ngjitur të serisë empirike. Kjo metodë është veçanërisht e përshtatshme në rastet kur seria empirike përfaqësohet nga një numër i madh termash, kështu që humbja e dy prej tyre - ato ekstreme, e cila është e pashmangshme me këtë metodë të shtrirjes, nuk do të ndikojë dukshëm në strukturën e saj.

Metoda e katrorëve më të vegjël. Kjo metodë u propozua në fillim të shekullit të 19-të nga A.M. Lezhandrit dhe, pavarësisht nga ai, K. Gauss. Kjo ju lejon të përafroni më saktë seritë empirike. Kjo metodë, siç tregohet më lart, bazohet në supozimin se shuma e devijimeve në katror është një opsion x i nga mesatarja e tyre ka një vlerë minimale, pra emri i metodës, e cila përdoret jo vetëm në ekologji, por edhe në teknologji. Metoda e katrorëve më të vegjël është objektive dhe universale, ajo përdoret në një larmi të gjerë rastesh për gjetjen e ekuacioneve empirike për seritë e regresionit dhe përcaktimin e parametrave të tyre.

Kërkesa e metodës së katrorëve më të vegjël është që pikat teorike të vijës së regresionit duhet të përftohen në atë mënyrë që shuma e devijimeve në katror nga këto pika për vëzhgimet empirike. y i ishte minimale, d.m.th.

Duke llogaritur minimumin e kësaj shprehjeje në përputhje me parimet e analizës matematikore dhe duke e transformuar atë në një mënyrë të caktuar, mund të merret një sistem i të ashtuquajturit. ekuacionet normale, në të cilën vlerat e panjohura janë parametrat e kërkuar të ekuacionit të regresionit, dhe koeficientët e njohur përcaktohen nga vlerat empirike të karakteristikave, zakonisht shumat e vlerave të tyre dhe prodhimet e tyre të kryqëzuara.

Regresioni linear i shumëfishtë. Marrëdhënia midis disa variablave zakonisht shprehet me një ekuacion të regresionit të shumëfishtë, i cili mund të jetë lineare Dhe jolineare. Në formën e tij më të thjeshtë, regresioni i shumëfishtë shprehet si një ekuacion me dy ndryshore të pavarura ( x, z):

Ku a– termi i lirë i ekuacionit; b Dhe c– parametrat e ekuacionit. Për të gjetur parametrat e ekuacionit (10) (duke përdorur metodën e katrorëve më të vegjël), përdoret sistemi i mëposhtëm i ekuacioneve normale:

Seri dinamike. Rreshtimi i rreshtave. Ndryshimet në karakteristikat me kalimin e kohës formojnë të ashtuquajturat seritë kohore ose seri dinamike. Një tipar karakteristik i serive të tilla është se ndryshorja e pavarur X këtu është gjithmonë faktori kohë, dhe ndryshorja e varur Y është një tipar në ndryshim. Në varësi të serisë së regresionit, marrëdhënia midis variablave X dhe Y është e njëanshme, pasi faktori kohë nuk varet nga ndryshueshmëria e karakteristikave. Pavarësisht këtyre veçorive, seritë dinamike mund të krahasohen me seritë e regresionit dhe të përpunohen duke përdorur të njëjtat metoda.

Ashtu si seritë e regresionit, seritë empirike të dinamikës mbajnë ndikimin jo vetëm të faktorëve kryesorë, por edhe të shumtë dytësorë (të rastësishëm) që errësojnë prirjen kryesore të ndryshueshmërisë së karakteristikave, që në gjuhën e statistikës quhet trend.

Analiza e serive kohore fillon me identifikimin e formës së trendit. Për ta bërë këtë, seritë kohore përshkruhen si një grafik rreshtor në një sistem koordinativ drejtkëndor. Në këtë rast, pikat kohore (vitet, muajt dhe njësitë e tjera të kohës) vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur Y janë paraqitur përgjatë boshtit të ordinatave, nëse ka një lidhje lineare midis ndryshoreve X dhe Y (tendenca lineare), metoda e katrorëve më të vegjël është më e përshtatshme për përafrimin e serive kohore është një ekuacion regresioni në formën e devijimeve të termave të serisë së ndryshores së varur Y nga mesatarja aritmetike e serisë së të pavarurit. ndryshorja X:

Këtu është parametri i regresionit linear.

Karakteristikat numerike të serive dinamike. Karakteristikat kryesore numerike përgjithësuese të serive dinamike përfshijnë mesatare gjeometrike dhe një mesatare aritmetike afër tij. Ato karakterizojnë shkallën mesatare në të cilën vlera e ndryshores së varur ndryshon gjatë periudhave të caktuara kohore:

Një vlerësim i ndryshueshmërisë së anëtarëve të serisë së dinamikës është devijimi standard. Kur zgjedhim ekuacionet e regresionit për të përshkruar seritë kohore, merret parasysh forma e trendit, e cila mund të jetë lineare (ose reduktuar në lineare) dhe jolineare. Korrektësia e zgjedhjes së ekuacionit të regresionit zakonisht gjykohet nga ngjashmëria e vlerave të vëzhguara dhe të llogaritura empirike të ndryshores së varur. Një zgjidhje më e saktë për këtë problem është metoda e analizës së regresionit të variancës (tema 12, paragrafi 4).

Korrelacioni i serive kohore. Shpesh është e nevojshme të krahasohet dinamika e serive kohore paralele të lidhura me njëra-tjetrën nga disa kushte të përgjithshme, për shembull, për të gjetur marrëdhënien midis prodhimit bujqësor dhe rritjes së numrit të bagëtive gjatë një periudhe të caktuar kohore. Në raste të tilla, karakteristika e marrëdhënies ndërmjet variablave X dhe Y është koeficienti i korrelacionit R xy (në prani të një tendence lineare).

Dihet se tendenca e serive kohore, si rregull, errësohet nga luhatjet e termave të serisë së ndryshores së varur Y. Kjo krijon një problem të dyfishtë: matja e varësisë midis serive të krahasuara, pa përjashtuar tendencën, dhe matja e varësisë ndërmjet anëtarëve fqinjë të së njëjtës seri, duke përjashtuar trendin. Në rastin e parë, treguesi i afërsisë së lidhjes ndërmjet serive kohore të krahasuara është koeficienti i korrelacionit(nëse marrëdhënia është lineare), në të dytën - koeficienti i autokorrelacionit. Këta tregues kanë kuptime të ndryshme, megjithëse llogariten duke përdorur të njëjtat formula (shih temën 11).

Është e lehtë të shihet se vlera e koeficientit të autokorrelacionit ndikohet nga ndryshueshmëria e anëtarëve të serisë së ndryshores së varur: sa më pak anëtarët e serisë të devijojnë nga tendenca, aq më i lartë është koeficienti i autokorrelacionit dhe anasjelltas.