Metodat për vlerësimin e parametrave të regresionit linear. Plane të thjeshta regresioni

Ekuacioni i regresionit plotësohet gjithmonë me një tregues të afërsisë së lidhjes. Kur përdoret regresioni linear, një tregues i tillë është koeficienti i korrelacionit linear r yt. Ekzistojnë modifikime të ndryshme të formulës së koeficientit të korrelacionit linear.

Duhet të kihet parasysh se vlera e koeficientit të korrelacionit linear vlerëson afërsinë e lidhjes midis karakteristikave në shqyrtim në formën e saj lineare. Prandaj, afërsia e vlerës absolute të koeficientit të korrelacionit linear me zero nuk do të thotë se nuk ka lidhje midis karakteristikave.

Për të vlerësuar cilësinë e përshtatjes së një funksioni linear, llogaritet katrori i koeficientit të korrelacionit linear r yt 2, i quajtur koeficienti i përcaktimit. Koeficienti i përcaktimit karakterizon proporcionin e variancës së karakteristikës efektive në t të shpjeguar me regresion në variancën totale të karakteristikës efektive.

Ekuacioni i regresionit jolinear, si dhe në varësinë lineare, plotësohet me një tregues korrelacioni, përkatësisht indeksin e korrelacionit R.

Një parabolë e rendit të dytë, si një polinom i rendit më të lartë, kur linearizohet merr formën e një ekuacioni të regresionit të shumëfishtë. Nëse, kur është linearizuar, një ekuacion i regresionit që është jolinear në lidhje me variablin e shpjeguar merr formën e një ekuacioni të regresionit të çiftëzuar linear, atëherë një koeficient linear korrelacioni mund të përdoret për të vlerësuar afërsinë e marrëdhënies, vlera e së cilës në këtë rast do të përkojë me indeksin e korrelacionit.

Situata është e ndryshme kur shndërrimet e ekuacionit në formë lineare përfshijnë një ndryshore të varur. Në këtë rast, koeficienti linear i korrelacionit bazuar në vlerat e tipareve të transformuara jep vetëm një vlerësim të përafërt të afërsisë së marrëdhënies dhe nuk përkon numerikisht me indeksin e korrelacionit. Pra, për një funksion fuqie

pasi kalon në ekuacionin linear logaritmik

lny = lna + blnx

një koeficient linear korrelacioni mund të gjendet jo për vlerat aktuale të ndryshoreve x dhe y, por për logaritmet e tyre, domethënë r lnylnx. Prandaj, katrori i vlerës së tij do të karakterizojë raportin e shumës faktoriale të devijimeve në katror me totalin, por jo për y, por për logaritmet e tij:

Ndërkaq gjatë llogaritjes së indeksit të korrelacionit përdoren shumat e devijimeve në katror të karakteristikës y dhe jo logaritmet e tyre. Për këtë qëllim, përcaktohen vlerat teorike të karakteristikës që rezulton, domethënë si antilogaritmi i vlerës së llogaritur nga ekuacioni dhe shuma e mbetur e katrorëve si.

Emëruesi i llogaritjes R 2 yx përfshin shumën totale të devijimeve në katror të vlerave aktuale y nga vlera e tyre mesatare, dhe emëruesi r 2 lnxlny merr pjesë në llogaritje. Numëruesit dhe emëruesit e treguesve në shqyrtim ndryshojnë në përputhje me rrethanat:

  • - në indeksin e korrelacionit dhe
  • - në koeficientin e korrelacionit.

Për shkak të ngjashmërisë së rezultateve dhe thjeshtësisë së llogaritjeve duke përdorur programe kompjuterike, koeficienti i korrelacionit linear përdoret gjerësisht për të karakterizuar afërsinë e lidhjes për funksionet jolineare.

Pavarësisht afërsisë së vlerave të R dhe r ose R dhe r në funksionet jolineare me transformimin e vlerës së karakteristikës y, duhet mbajtur mend se nëse, me një varësi lineare të karakteristikave, i njëjti koeficient korrelacioni karakterizon regresioni, duhet mbajtur mend se nëse, me një varësi lineare të karakteristikave, një dhe i njëjti koeficient korrelacioni karakterizon regresionin si dhe, meqenëse, atëherë me një varësi kurvilineare për funksionin y=j(x) nuk është i barabartë për regresionin x. =f(y).

Meqenëse llogaritja e indeksit të korrelacionit përdor raportin e faktorit dhe shumën totale të devijimeve në katror, ​​ai ka të njëjtin kuptim si koeficienti i përcaktimit. Në studime të veçanta, vlera për marrëdhëniet jolineare quhet indeksi i përcaktimit.

Vlerësimi i rëndësisë së indeksit të korrelacionit kryhet në të njëjtën mënyrë si vlerësimi i besueshmërisë së koeficientit të korrelacionit.

Indeksi i korrelacionit përdoret për të testuar rëndësinë e ekuacionit të përgjithshëm jolinear të regresionit duke përdorur testin Fisher F.

Vlera m karakterizon numrin e shkallëve të lirisë për shumën faktoriale të katrorëve, dhe (n - m - 1) - numrin e shkallëve të lirisë për shumën e mbetur të katrorëve.

Për një funksion fuqie m = 1 dhe formula e kriterit F merr të njëjtën formë si për një varësi lineare:

Për një parabolë të shkallës së dytë

y = a 0 + a 1 x + a 2 x 2 +em = 2

Kriteri F mund të llogaritet edhe në tabelën e analizës së variancës së rezultateve të regresionit, siç u tregua për funksionin linear.

Indeksi i përcaktimit mund të krahasohet me koeficientin e përcaktimit për të justifikuar mundësinë e përdorimit të një funksioni linear. Sa më e madhe të jetë lakimi i vijës së regresionit, aq më pak koeficienti i përcaktimit është indeksi i përcaktimit. Ngjashmëria e këtyre treguesve do të thotë se nuk ka nevojë të ndërlikohet forma e ekuacionit të regresionit dhe mund të përdoret një funksion linear.

Në praktikë, nëse diferenca midis indeksit të përcaktimit dhe koeficientit të përcaktimit nuk kalon 0.1, atëherë supozimi i një forme lineare të marrëdhënies konsiderohet i justifikuar.

Nëse tabela t fakt >t, atëherë dallimet ndërmjet treguesve të marrë në konsideratë të korrelacionit janë domethënëse dhe zëvendësimi i regresionit jolinear me një ekuacion të funksionit linear është i pamundur. Praktikisht, nëse vlera t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Dukuritë ekonomike, si rregull, përcaktohen nga një numër i madh faktorësh që veprojnë njëkohësisht dhe kumulativ. Në këtë drejtim, shpesh lind detyra për të studiuar varësinë e një ndryshoreje nga disa variabla shpjegues ( x 1, x 2,…, x k) të cilat mund të zgjidhen duke përdorur analiza e korrelacionit të shumëfishtë dhe e regresionit.

Kur studiohet varësia duke përdorur metoda të regresionit të shumëfishtë, problemi formohet në të njëjtën mënyrë si kur përdoret regresioni i çiftuar, d.m.th. kërkohet të përcaktohet shprehja analitike e formës së lidhjes ndërmjet karakteristikës që rezulton dhe karakteristikat e faktorit x, x 2,..., xk, gjeni funksionin , ku k është numri i karakteristikave të faktorit

Regresioni i shumëfishtë përdoret gjerësisht në zgjidhjen e problemeve të kërkesës, kthimit të aksioneve, në studimin e funksionit të kostos së prodhimit, në llogaritjet makroekonomike dhe një sërë çështjesh të tjera ekonometrike. Aktualisht, regresioni i shumëfishtë është një nga metodat më të zakonshme në ekonometri. Qëllimi kryesor i regresionit të shumëfishtë është ndërtimi i një modeli me një numër të madh faktorësh, duke përcaktuar ndikimin e secilit prej tyre veç e veç, si dhe ndikimin e tyre të kombinuar në treguesin e modeluar.

Për shkak të veçorive të metodës së katrorëve më të vegjël në regresionin e shumëfishtë, si në regresionin çift, përdoren vetëm ekuacionet lineare dhe ekuacionet e reduktuara në formë lineare duke transformuar variabla. Ekuacioni më i përdorur është një ekuacion linear, i cili mund të shkruhet si më poshtë:

a 0 , a 1, …, a k – parametrat e modelit (koeficientët e regresionit);

ε j – ndryshore e rastësishme (vlera e mbetur).

Koeficienti i regresionit A j tregon se me çfarë sasie mesatarisht do të ndryshojë atributi efektiv y, nëse një ndryshore X j rritja me njësi matëse me një vlerë fikse (konstante) të faktorëve të tjerë të përfshirë në ekuacionin e regresionit. Parametrat në x quhen koeficientët e regresionit "të pastër". .

Shembull.

Le të supozojmë se varësia e shpenzimeve të ushqimit për një grup familjesh karakterizohet nga ekuacioni i mëposhtëm:

y- shpenzimet e familjes për një muaj për ushqim, mijë rubla;

x 1 - të ardhura mujore për anëtar të familjes, mijë rubla;

x 2 – madhësia e familjes, njerëzit.

Analiza e këtij ekuacioni na lejon të nxjerrim përfundime - me një rritje të të ardhurave për anëtar të familjes me 1 mijë rubla. shpenzimet e ushqimit do të rriten mesatarisht me 350 rubla. me të njëjtën madhësi mesatare të familjes. Me fjalë të tjera, 35% e shpenzimeve shtesë familjare shpenzohen për ushqim. Një rritje në madhësinë e familjes me të njëjtat të ardhura nënkupton një rritje shtesë të kostove të ushqimit me 730 rubla. Parametri i parë nuk i nënshtrohet interpretimit ekonomik.

Besueshmëria e secilit prej parametrave të modelit vlerësohet duke përdorur T-testin Student. Për cilindo nga parametrat e modelit a j, vlera e kriterit t llogaritet duke përdorur formulën , Ku


S ε – devijimi standard (katror mesatar) i ekuacionit të regresionit)

përcaktuar nga formula

Koeficienti i regresionit a j konsiderohet mjaftueshëm i besueshëm nëse vlera e llogaritur t- kriter me ( n - k - 1) shkallët e lirisë e tejkalojnë vlerën e tabelës, d.m.th. t kalc > t A jn - k -1 . Nëse besueshmëria e koeficientit të regresionit nuk konfirmohet, atëherë duhet; konkluzioni për parëndësi në modelin e faktorëve j karakteristikë dhe nevojën për ta eliminuar atë nga modeli ose për ta zëvendësuar me një karakteristikë tjetër faktoriale.

Një rol të rëndësishëm në vlerësimin e ndikimit të faktorëve luajnë koeficientët e modelit të regresionit. Sidoqoftë, me ndihmën e tyre është e pamundur të krahasohen drejtpërdrejt karakteristikat e faktorëve sipas shkallës së ndikimit të tyre në variablin e varur për shkak të ndryshimit në njësitë e matjes dhe shkallëve të ndryshme të ndryshueshmërisë. Për të eliminuar dallime të tilla, përdorni koeficientët e elasticitetit të pjesshëm E j dhe koeficientët beta β j.

Formula për llogaritjen e koeficientit të elasticitetit

Ku

a j – koeficienti i regresionit të faktorit j,

Vlera mesatare e karakteristikës efektive

Vlera mesatare e karakteristikës j

Koeficienti i elasticitetit tregon se në çfarë përqindje ndryshon ndryshorja e varur kur faktori ndryshon j me 1%.

Formula për përcaktimin e koeficientit beta.

, Ku

S xj – devijimi standard i faktorit j;

S y - devijimi standard i faktorit y.

β - koeficienti tregon se me cilën pjesë të devijimit standard S y ndryshorja e varur do të ndryshojë me një ndryshim në variablin e pavarur përkatës X j me vlerën e devijimit standard të tij me një vlerë fikse të variablave të pavarur të mbetur.

Pjesa e ndikimit të një faktori të caktuar në ndikimin total të të gjithë faktorëve mund të vlerësohet nga vlera koeficientët delta Δ j.

Këta koeficientë ju lejojnë të renditni faktorët sipas shkallës së ndikimit të faktorëve në variablin e varur.

Formula për përcaktimin e koeficientit delta.

r yj – koeficienti i korrelacionit në çift ndërmjet faktorit j dhe ndryshores së varur;

R 2 – koeficienti i shumëfishtë i përcaktimit.

Koeficienti i përcaktimit të shumëfishtë përdoret për vlerësimet e cilësisë modele të shumëfishta regresioni.

Formula për përcaktimin e koeficientit të përcaktimit të shumëfishtë.

Koeficienti i përcaktimit tregon proporcionin e ndryshimit në karakteristikën që rezulton që është nën ndikimin e karakteristikave të faktorëve, d.m.th. përcakton se çfarë raporti të ndryshimit në një tipar merret parasysh në model dhe është për shkak të ndikimit në të të faktorëve të përfshirë në model. Sa më afër R 2 në një, aq më e lartë është cilësia e modelit

Kur shtoni ndryshore të pavarura, vlera R 2 rritet, pra koeficienti R 2 duhet të rregullohet për numrin e variablave të pavarur duke përdorur formulën

Për testimi i rëndësisë së modelit Testi F Fisher përdoret për regresion. Përcaktohet nga formula

Nëse vlera e llogaritur e kriterit me γ 1, = k Dhe γ 2 = (n - k- 1) shkallë lirie më të mëdha se tabela në një nivel të caktuar rëndësie, atëherë modeli konsiderohet i rëndësishëm.

Si masë e saktësisë së modelit, përdoret gabimi standard, i cili është raporti i shumës së katrorëve të niveleve të komponentit të mbetur me vlerën (n - k -1):

Qasja klasike për vlerësimin e parametrave të një modeli linear bazohet në Metoda e katrorëve më të vegjël (LSM). Sistemi i ekuacioneve normale ka formën:

Sistemi mund të zgjidhet duke përdorur një nga metodat e njohura: metodën e Gausit, metodën Cramer, etj.

Shembulli 15.

Për katër ndërmarrje në rajon (Tabela 41), është studiuar varësia e prodhimit të produktit për punonjës y(mijë rubla) nga vënia në punë e aktiveve të reja fikse (% e vlerës së aseteve në fund të vitit) dhe nga pjesa e punëtorëve me kualifikim të lartë në numrin e përgjithshëm të punëtorëve (%). Ju duhet të shkruani një ekuacion të regresionit të shumëfishtë.

Tabela 41 – Varësia e prodhimit të produktit për punonjës

Ju mund të kontrolloni rëndësinë e parametrave të ekuacionit të regresionit duke përdorur statistikat t.

Ushtrimi:
Për një grup ndërmarrjesh që prodhojnë të njëjtin lloj produkti, funksionet e kostos konsiderohen:
y = α + βx;
y = α x β;
y = α β x;
y = α + β / x;
ku y është kostoja e prodhimit, mijë njësi.
x – prodhimi i prodhimit, mijë njësi.

Kërkohet:
1. Ndërtoni ekuacionet e regresionit në çift y nga x:

  • lineare;
  • fuqia;
  • demonstrative;
  • hiperbola barabrinjës.
2. Njehsoni koeficientin linear të korrelacionit të çiftit dhe koeficientit të përcaktimit. Nxirrni përfundime.
3. Vlerësoni rëndësinë statistikore të ekuacionit të regresionit në tërësi.
4. Vlerësoni rëndësinë statistikore të parametrave të regresionit dhe korrelacionit.
5. Kryerja e një parashikimi të kostove të prodhimit me një prodhim të parashikuar prej 195% të nivelit mesatar.
6. Vlerësoni saktësinë e parashikimit, llogaritni gabimin e parashikimit dhe intervalin e tij të besueshmërisë.
7. Vlerësoni modelin përmes gabimit mesatar të përafrimit.

Zgjidhje:

1. Ekuacioni është y = α + βx
1. Parametrat e ekuacionit të regresionit.
Vlerat mesatare

Dispersion

Devijimi standard

Koeficienti i korrelacionit

Marrëdhënia midis tiparit Y dhe faktorit X është e fortë dhe e drejtpërdrejtë
Ekuacioni i regresionit

Koeficienti i përcaktimit
R 2 = 0,94 2 = 0,89, d.m.th. në 88,9774% të rasteve, ndryshimet në x çojnë në ndryshime në y. Me fjalë të tjera, saktësia e zgjedhjes së ekuacionit të regresionit është e lartë

x y x 2 y 2 x∙y y(x) (y-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Shënim: vlerat e y(x) gjenden nga ekuacioni i regresionit që rezulton:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Vlerësimi i parametrave të ekuacionit të regresionit
Rëndësia e koeficientit të korrelacionit

Duke përdorur tabelën e Studentit gjejmë Tabela
Tabela T (n-m-1;α/2) = (11;0.05/2) = 1.796
Meqenëse Tob > Ttabl, ne hedhim poshtë hipotezën se koeficienti i korrelacionit është i barabartë me 0. Me fjalë të tjera, koeficienti i korrelacionit është statistikisht i rëndësishëm.

Analiza e saktësisë së përcaktimit të vlerësimeve të koeficientëve të regresionit





S a = 0,1712
Intervalet e besimit për variablin e varur

Le të llogarisim kufijtë e intervalit në të cilin do të përqendrohen 95% e vlerave të mundshme të Y me një numër të pakufizuar vëzhgimesh dhe X = 1
(-20.41;56.24)
Testimi i hipotezave në lidhje me koeficientët e një ekuacioni të regresionit linear
1) t-statistikat


Konfirmohet rëndësia statistikore e koeficientit të regresionit a

Rëndësia statistikore e koeficientit të regresionit b nuk është konfirmuar
Intervali i besimit për koeficientët e ekuacionit të regresionit
Le të përcaktojmë intervalet e besimit të koeficientëve të regresionit, të cilët me një besueshmëri prej 95% do të jenë si më poshtë:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
ku t = 1.796
2) F-statistikat


Fkp = 4,84
Meqenëse F > Fkp, koeficienti i përcaktimit është statistikisht i rëndësishëm

Çfarë është regresioni?

Konsideroni dy ndryshore të vazhdueshme x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Le t'i vendosim pikat në një komplot shpërndarjeje dydimensionale dhe të themi se kemi lidhje lineare, nëse të dhënat përafrohen me një vijë të drejtë.

Nëse besojmë se y varet nga x, dhe ndryshimet në y shkaktohen pikërisht nga ndryshimet në x, mund të përcaktojmë vijën e regresionit (regresion yx), i cili përshkruan më së miri marrëdhënien lineare midis këtyre dy variablave.

Përdorimi statistikor i fjalës regresion vjen nga fenomeni i njohur si regresion në mesatare, që i atribuohet Sir Francis Galton (1889).

Ai tregoi se megjithëse baballarët e gjatë priren të kenë djem të gjatë, gjatësia mesatare e djemve është më e shkurtër se ajo e baballarëve të tyre të gjatë. Gjatësia mesatare e djemve "regresoi" dhe "u zhvendos prapa" drejt gjatësisë mesatare të të gjithë baballarëve në popullatë. Kështu, mesatarisht, baballarët e gjatë kanë djem më të shkurtër (por ende mjaft të gjatë), dhe baballarët e shkurtër kanë djem më të gjatë (por ende mjaft të shkurtër).

Linja e regresionit

Një ekuacion matematik që vlerëson një vijë të regresionit linear të thjeshtë (në çift):

x quhet ndryshore e pavarur ose parashikues.

Y- variabla e varur ose ndryshorja e përgjigjes. Kjo është vlera që ne presim y(mesatarisht) nëse e dimë vlerën x, d.m.th. është "vlera e parashikuar" y»

  • a- anëtar (kryqëzimi) i lirë i vijës së vlerësimit; ky është kuptimi Y, Kur x=0(Fig.1).
  • b- pjerrësia ose pjerrësia e vijës së vlerësuar; paraqet shumën me të cilën Y rritet mesatarisht nëse rritemi x për një njësi.
  • a Dhe b quhen koeficientë regresioni të vijës së vlerësuar, megjithëse ky term shpesh përdoret vetëm për b.

Regresioni linear në çift mund të zgjerohet për të përfshirë më shumë se një ndryshore të pavarur; në këtë rast njihet si regresioni i shumëfishtë.

Fig.1. Vija e regresionit linear që tregon ndërprerjen a dhe pjerrësinë b (sasia Y rritet kur x rritet me një njësi)

Metoda e katrorëve më të vegjël

Ne kryejmë analizën e regresionit duke përdorur një mostër vëzhgimesh ku a Dhe b- vlerësimet e mostrave të parametrave të vërtetë (të përgjithshëm), α dhe β, të cilët përcaktojnë vijën e regresionit linear në popullatë (popullata e përgjithshme).

Metoda më e thjeshtë për përcaktimin e koeficientëve a Dhe bështë Metoda e katrorëve më të vegjël(MNC).

Përshtatja vlerësohet duke parë mbetjet (distanca vertikale e secilës pikë nga vija, p.sh. mbetje = vëzhguar y- parashikoi y, Oriz. 2).

Linja e përshtatjes më të mirë zgjidhet në mënyrë që shuma e katrorëve të mbetjeve të jetë minimale.

Oriz. 2. Vija e regresionit linear me mbetje të paraqitura (vija vertikale me pika) për secilën pikë.

Supozimet e regresionit linear

Pra, për secilën vlerë të vëzhguar, mbetja është e barabartë me diferencën dhe vlera e parashikuar përkatëse mund të jetë pozitive ose negative.

Ju mund të përdorni mbetjet për të testuar supozimet e mëposhtme pas regresionit linear:

  • Mbetjet zakonisht shpërndahen me një mesatare prej zero;

Nëse supozimet e linearitetit, normalitetit dhe/ose variancës konstante janë të dyshimta, ne mund të transformojmë ose dhe të llogarisim një vijë të re regresioni për të cilën këto supozime plotësohen (për shembull, të përdorim një transformim logaritmik, etj.).

Vlerat anormale (të jashtme) dhe pikat e ndikimit

Një vëzhgim "ndikues", nëse hiqet, ndryshon një ose më shumë vlerësime të parametrave të modelit (dmth. pjerrësia ose ndërprerja).

Një vëzhgim i jashtëm (një vëzhgim që nuk është në përputhje me shumicën e vlerave në një grup të dhënash) mund të jetë një vëzhgim "ndikues" dhe mund të zbulohet lehtësisht vizualisht duke inspektuar një grafik shpërhapjeje me dy variacione ose grafik të mbetur.

Si për pikat e jashtme, ashtu edhe për vëzhgimet (pikat) "ndikues", përdoren modele, si me përfshirjen e tyre ashtu edhe pa ato, dhe vëmendje i kushtohet ndryshimeve në vlerësime (koeficientët e regresionit).

Kur kryeni një analizë, nuk duhet të hiqni automatikisht pikat e jashtme ose pikat e ndikimit, pasi thjesht injorimi i tyre mund të ndikojë në rezultatet e marra. Gjithmonë studioni arsyet e këtyre dallimeve dhe analizoni ato.

Hipoteza e regresionit linear

Kur ndërtohet regresioni linear, testohet hipoteza zero se pjerrësia e përgjithshme e vijës së regresionit β është e barabartë me zero.

Nëse pjerrësia e vijës është zero, nuk ka lidhje lineare midis dhe: ndryshimi nuk ndikon

Për të testuar hipotezën zero se pjerrësia e vërtetë është zero, mund të përdorni algoritmin e mëposhtëm:

Llogaritni statistikën e testit të barabartë me raportin , i cili i nënshtrohet një shpërndarjeje me shkallë lirie, ku gabimi standard i koeficientit


,

- vlerësimi i dispersionit të mbetjeve.

Në mënyrë tipike, nëse arrihet niveli i rëndësisë, hipoteza zero refuzohet.


ku është pika e përqindjes së shpërndarjes me shkallë lirie, e cila jep probabilitetin e një testi të dyanshëm

Ky është intervali që përmban pjerrësinë e përgjithshme me një probabilitet prej 95%.

Për mostrat e mëdha, të themi, mund të përafrojmë një vlerë prej 1.96 (d.m.th., statistikat e testimit do të priren të shpërndahen normalisht)

Vlerësimi i cilësisë së regresionit linear: koeficienti i përcaktimit R 2

Për shkak të marrëdhënies lineare dhe ne presim që të ndryshojë si , dhe e quajmë atë variacion që është për shkak ose shpjegohet me regresion. Variacioni i mbetur duhet të jetë sa më i vogël që të jetë e mundur.

Nëse kjo është e vërtetë, atëherë shumica e variacionit do të shpjegohet me regresion, dhe pikat do të qëndrojnë afër vijës së regresionit, d.m.th. rreshti i përshtatet mirë të dhënave.

Përqindja e variancës totale që shpjegohet me regresion quhet koeficienti i përcaktimit, zakonisht shprehet si përqindje dhe shënohet R 2(në regresionin linear të çiftuar kjo është sasia r 2, katrori i koeficientit të korrelacionit), ju lejon të vlerësoni subjektivisht cilësinë e ekuacionit të regresionit.

Diferenca paraqet përqindjen e variancës që nuk mund të shpjegohet me regresion.

Nuk ka asnjë test formal për të vlerësuar ne duhet të mbështetemi në gjykimin subjektiv për të përcaktuar mirësinë e përshtatjes së linjës së regresionit.

Zbatimi i një linje regresioni për parashikimin

Ju mund të përdorni një linjë regresioni për të parashikuar një vlerë nga një vlerë në fund të intervalit të vëzhguar (kurrë mos e ekstrapoloni përtej këtyre kufijve).

Ne parashikojmë mesataren e vëzhguesve që kanë një vlerë të veçantë duke e futur atë vlerë në ekuacionin e vijës së regresionit.

Pra, nëse parashikojmë si Përdorni këtë vlerë të parashikuar dhe gabimin e tij standard për të vlerësuar një interval besimi për mesataren e vërtetë të popullsisë.

Përsëritja e kësaj procedure për vlera të ndryshme ju lejon të ndërtoni kufijtë e besimit për këtë linjë. Ky është brezi ose zona që përmban vijën e vërtetë, për shembull në nivelin 95% të besimit.

Plane të thjeshta regresioni

Modelet e thjeshta të regresionit përmbajnë një parashikues të vazhdueshëm. Nëse ka 3 vëzhgime me vlera parashikuese P, të tilla si 7, 4 dhe 9, dhe dizajni përfshin një efekt të rendit të parë P, atëherë matrica e projektimit X do të jetë

dhe ekuacioni i regresionit duke përdorur P për X1 është

Y = b0 + b1 P

Nëse një dizajn i thjeshtë regresioni përmban një efekt të rendit më të lartë në P, siç është një efekt kuadratik, atëherë vlerat në kolonën X1 në matricën e projektimit do të ngrihen në fuqinë e dytë:

dhe ekuacioni do të marrë formën

Y = b0 + b1 P2

Metodat e kodimit të kufizuara nga Sigma dhe të mbiparametizuara nuk zbatohen për dizajne të thjeshta regresioni dhe modele të tjera që përmbajnë vetëm parashikues të vazhdueshëm (sepse thjesht nuk ka parashikues kategorikë). Pavarësisht nga metoda e zgjedhur e kodimit, vlerat e ndryshoreve të vazhdueshme rriten në përputhje me rrethanat dhe përdoren si vlera për ndryshoret X. Në këtë rast, nuk kryhet rikodim. Përveç kësaj, kur përshkruani planet e regresionit, mund të mos merrni parasysh matricën e projektimit X dhe të punoni vetëm me ekuacionin e regresionit.

Shembull: Analiza e thjeshtë e regresionit

Ky shembull përdor të dhënat e paraqitura në tabelë:

Oriz. 3. Tabela e të dhënave fillestare.

Të dhënat e përpiluara nga një krahasim i regjistrimeve të 1960 dhe 1970 në 30 qarqe të zgjedhura rastësisht. Emrat e qarqeve paraqiten si emra vëzhgimi. Informacioni në lidhje me secilën variabël është paraqitur më poshtë:

Oriz. 4. Tabela e specifikimeve të variablave.

Problemi i kërkimit

Për këtë shembull, do të analizohet korrelacioni ndërmjet shkallës së varfërisë dhe shkallës që parashikon përqindjen e familjeve që janë nën kufirin e varfërisë. Prandaj, ndryshoren 3 (Pt_Poor) do ta trajtojmë si variabël të varur.

Mund të parashtrojmë një hipotezë: ndryshimet në madhësinë e popullsisë dhe përqindja e familjeve që janë nën kufirin e varfërisë janë të lidhura. Duket e arsyeshme të pritet që varfëria të çojë në migrim jashtë, kështu që do të kishte një korrelacion negativ midis përqindjes së njerëzve nën kufirin e varfërisë dhe ndryshimit të popullsisë. Prandaj, ne do ta trajtojmë variablin 1 (Pop_Chng) si një ndryshore parashikuese.

Shiko rezultatet

Koeficientët e regresionit

Oriz. 5. Koeficientët e regresionit të Pt_Poor në Pop_Chng.

Në kryqëzimin e rreshtit Pop_Chng dhe kolonës Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

koeficienti i pa standardizuar për regresionin e Pt_Poor në Pop_Chng është -0.40374. Kjo do të thotë se për çdo njësi ulje të popullsisë, ka një rritje të shkallës së varfërisë prej .40374. Kufijtë e sipërm dhe të poshtëm (të parazgjedhur) 95% të besimit për këtë koeficient të pa standardizuar nuk përfshijnë zero, kështu që koeficienti i regresionit është i rëndësishëm në nivelin p.

Shpërndarja e ndryshueshme

Koeficientët e korrelacionit mund të mbivlerësohen ose nënvlerësohen ndjeshëm nëse në të dhëna janë të pranishme vlera të mëdha të jashtme. Le të studiojmë shpërndarjen e ndryshores së varur Pt_Poor sipas rretheve. Për ta bërë këtë, le të ndërtojmë një histogram të ndryshores Pt_Poor.

Siç mund ta shihni, shpërndarja e kësaj variabli ndryshon dukshëm nga shpërndarja normale. Megjithatë, edhe pse edhe dy qarqe (dy kolonat djathtas) kanë një përqindje më të lartë të familjeve që janë nën kufirin e varfërisë sesa pritej në një shpërndarje normale, ato duket se janë "brenda kufirit".

Oriz. 7. Histogrami i ndryshores Pt_Poor.

Ky gjykim është disi subjektiv. Rregulli i përgjithshëm është që të dhënat e jashtme duhet të merren parasysh nëse vëzhgimi (ose vëzhgimet) nuk bien brenda intervalit (mesatarja ± 3 herë devijimi standard). Në këtë rast, ia vlen të përsëritet analiza me dhe pa pika të jashtme për t'u siguruar që ato të mos kenë një efekt të madh në korrelacionin midis anëtarëve të popullsisë.

Scatterplot

Nëse një nga hipotezat është a priori për marrëdhënien midis variablave të dhënë, atëherë është e dobishme ta testoni atë në grafikun e scatterplot-it përkatës.

Oriz. 8. Diagrami i shpërndarjes.

Skaterploti tregon një korrelacion të qartë negativ (-.65) midis dy variablave. Ai gjithashtu tregon intervalin 95% të besimit për vijën e regresionit, d.m.th., ka një probabilitet 95% që vija e regresionit të shtrihet midis dy kthesave të ndërprera.

Kriteret e rëndësisë

Oriz. 9. Tabela që përmban kriteret e rëndësisë.

Testi për koeficientin e regresionit Pop_Chng konfirmon se Pop_Chng është i lidhur fort me Pt_Poor, p.<.001 .

Fundi

Ky shembull tregoi se si të analizohet një dizajn i thjeshtë regresioni. U prezantuan edhe interpretimet e koeficientëve të regresionit të pa standardizuar dhe të standardizuar. Diskutohet rëndësia e studimit të shpërndarjes së përgjigjes së një variabli të varur dhe demonstrohet një teknikë për përcaktimin e drejtimit dhe forcës së marrëdhënies midis një parashikuesi dhe një ndryshoreje të varur.

Analiza e korrelacionit.

Ekuacioni i regresionit të çiftuar.

Duke përdorur metodën grafike.

Kjo metodë përdoret për të përshkruar vizualisht formën e lidhjes midis treguesve ekonomikë të studiuar. Për ta bërë këtë, një grafik vizatohet në një sistem koordinativ drejtkëndor, vlerat individuale të karakteristikës rezultante Y vizatohen përgjatë boshtit të ordinatave dhe vlerat individuale të karakteristikës së faktorit X vizatohen përgjatë boshtit të abshisës.

Bashkësia e pikave të karakteristikave rezultante dhe faktoriale quhet fushë korrelacioni.

Bazuar në fushën e korrelacionit, mund të hipotezojmë (për popullatën) se marrëdhënia midis të gjitha vlerave të mundshme të X dhe Y është lineare.

Ekuacioni i regresionit linear është y = bx + a + ε

Këtu ε është një gabim i rastësishëm (devijim, shqetësim).

Arsyet për ekzistencën e një gabimi të rastësishëm:

1. Mospërfshirja e variablave të rëndësishëm shpjegues në modelin e regresionit;

2. Grumbullimi i variablave. Për shembull, funksioni i konsumit total është një përpjekje për të shprehur përgjithësisht agregatin e vendimeve individuale të shpenzimeve. Ky është vetëm një përafrim i marrëdhënieve individuale që kanë parametra të ndryshëm.

3. Përshkrimi i gabuar i strukturës së modelit;

4. Specifikimi i pasaktë funksional;

5. Gabimet në matje.

Meqenëse devijimet ε i për çdo vëzhgim specifik i janë të rastësishme dhe vlerat e tyre në mostër janë të panjohura, atëherë:

1) nga vëzhgimet x i dhe y i mund të merren vetëm vlerësime të parametrave α dhe β

2) Vlerësimet e parametrave α dhe β të modelit të regresionit janë respektivisht vlerat a dhe b, të cilat janë të rastësishme në natyrë, sepse korrespondojnë me një mostër të rastësishme;

Atëherë ekuacioni i regresionit vlerësues (i ndërtuar nga të dhënat e mostrës) do të ketë formën y = bx + a + ε, ku e i janë vlerat e vëzhguara (vlerësimet) e gabimeve ε i, dhe a dhe b janë, përkatësisht, vlerësime të parametrat α dhe β të modelit të regresionit që duhen gjetur.

Për të vlerësuar parametrat α dhe β - përdoret metoda e katrorëve më të vegjël (metoda e katrorëve më të vegjël). Metoda e katrorëve më të vegjël siguron vlerësimet më të mira (të qëndrueshme, efikase dhe të paanshme) të parametrave të ekuacionit të regresionit.

Por vetëm nëse plotësohen premisa të caktuara në lidhje me termin e rastësishëm (ε) dhe variablin e pavarur (x).

Formalisht, kriteri OLS mund të shkruhet si më poshtë:

S = ∑(y i - y * i) 2 → min

Sistemi i ekuacioneve normale.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Për të dhënat tona, sistemi i ekuacioneve ka formën

15a + 186,4 b = 17,01

186,4 a + 2360,9 b = 208,25

Nga ekuacioni i parë shprehim A dhe zëvendësojeni në ekuacionin e dytë:

Ne marrim koeficientët empirik të regresionit: b = -0.07024, a = 2.0069

Ekuacioni i regresionit (ekuacioni empirik i regresionit):

y = -0,07024 x + 2,0069

Koeficientët e regresionit empirik a Dhe b janë vetëm vlerësime të koeficientëve teorikë β i, dhe vetë ekuacioni pasqyron vetëm prirjen e përgjithshme në sjelljen e variablave në shqyrtim.

Për të llogaritur parametrat e regresionit, ne do të ndërtojmë një tabelë llogaritëse (Tabela 1)

1. Parametrat e ekuacionit të regresionit.

Mjetet e mostrës.

Ndryshimet e mostrës:

Devijimi standard

1.1. Koeficienti i korrelacionit

Kovarianca.

Ne llogarisim treguesin e afërsisë së lidhjes. Ky tregues është koeficienti i korrelacionit linear të mostrës, i cili llogaritet me formulën:

Koeficienti linear i korrelacionit merr vlera nga -1 në +1.

Lidhjet ndërmjet karakteristikave mund të jenë të dobëta dhe të forta (të afërta). Kriteret e tyre vlerësohen në shkallën Chaddock:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

Në shembullin tonë, marrëdhënia midis tiparit Y dhe faktorit X është e lartë dhe e anasjelltë.

Përveç kësaj, koeficienti i korrelacionit të çiftit linear mund të përcaktohet përmes koeficientit të regresionit b:

1.2. Ekuacioni i regresionit(vlerësimi i ekuacionit të regresionit).

Ekuacioni i regresionit linear është y = -0,0702 x + 2,01

Koeficientëve të një ekuacioni të regresionit linear mund t'u jepet kuptim ekonomik.

Koeficienti i regresionit b = -0,0702 tregon ndryshimin mesatar të treguesit efektiv (në njësi matëse y) me një rritje ose ulje të vlerës së faktorit x për njësi të matjes së tij. Në këtë shembull, me një rritje prej 1 njësi, y zvogëlohet mesatarisht me -0.0702.

Koeficienti a = 2.01 tregon zyrtarisht nivelin e parashikuar të y, por vetëm nëse x = 0 është afër vlerave të mostrës.

Por nëse x=0 është larg nga vlerat e mostrës së x, atëherë një interpretim i fjalëpërfjalshëm mund të çojë në rezultate të pasakta, dhe edhe nëse linja e regresionit përshkruan vlerat e vëzhguara të mostrës me mjaft saktësi, nuk ka asnjë garanci që kjo gjithashtu do të të jetë rasti kur ekstrapolohet majtas ose djathtas.

Duke zëvendësuar vlerat e duhura x në ekuacionin e regresionit, ne mund të përcaktojmë vlerat e rreshtuara (të parashikuara) të treguesit të performancës y(x) për çdo vëzhgim.

Marrëdhënia midis y dhe x përcakton shenjën e koeficientit të regresionit b (nëse > 0 - marrëdhënie direkte, përndryshe - inverse). Në shembullin tonë, lidhja është e kundërt.

1.3. Koeficienti i elasticitetit.

Nuk këshillohet përdorimi i koeficientëve të regresionit (në shembullin b) për të vlerësuar drejtpërdrejt ndikimin e faktorëve në një karakteristikë rezultante nëse ka një ndryshim në njësitë e matjes së treguesit rezultant y dhe karakteristikës së faktorit x.

Për këto qëllime, llogariten koeficientët e elasticitetit dhe koeficientët beta.

Koeficienti mesatar i elasticitetit E tregon se me çfarë përqindje mesatarisht do të ndryshojë rezultati në agregat nga vlera mesatare e tij kur faktori ndryshon x me 1% të vlerës mesatare të saj.

Koeficienti i elasticitetit gjendet me formulën:

Koeficienti i elasticitetit është më i vogël se 1. Prandaj, nëse X ndryshon me 1%, Y do të ndryshojë me më pak se 1%. Me fjalë të tjera, ndikimi i X në Y nuk është i rëndësishëm.

Koeficienti beta

Koeficienti beta tregon se me cilën pjesë të vlerës së devijimit të tij standard do të ndryshojë vlera mesatare e karakteristikës që rezulton kur karakteristika e faktorit ndryshon me vlerën e devijimit standard të saj me vlerën e variablave të pavarur të mbetur të fiksuar në një nivel konstant:

ato. një rritje në x nga devijimi standard S x do të çojë në një ulje të vlerës mesatare të Y me 0.82 devijime standarde S y.

1.4. Gabim përafrimi.

Le të vlerësojmë cilësinë e ekuacionit të regresionit duke përdorur gabimin e përafrimit absolut. Gabim mesatar i përafrimit - devijimi mesatar i vlerave të llogaritura nga ato aktuale:

Një gabim i përafrimit brenda 5%-7% tregon një përshtatje të mirë të ekuacionit të regresionit me të dhënat origjinale.

Meqenëse gabimi është më pak se 7%, ky ekuacion mund të përdoret si regresion.



Ju pëlqeu artikulli? Ndani me miqtë tuaj!