Teoria e analizës së regresionit. A) Analiza grafike e regresionit të thjeshtë linear

A) Analiza grafike e regresionit të thjeshtë linear.

Ekuacioni i thjeshtë i regresionit linear y=a+bx. Nëse ka një korrelacion midis ndryshoreve të rastësishme Y dhe X, atëherë vlera y = ý + ,

ku ý është vlera teorike e y e përftuar nga ekuacioni ý = f(x),

 – gabimi i devijimit të ekuacionit teorik ý nga të dhënat aktuale (eksperimentale).

Ekuacioni për varësinë e vlerës mesatare ý nga x, pra ý = f(x), quhet ekuacion i regresionit. Analiza e regresionit përbëhet nga katër faza:

1) vendosja e problemit dhe përcaktimi i arsyeve të lidhjes.

2) kufizimi i objektit të kërkimit, mbledhja e informacionit statistikor.

3) përzgjedhja e ekuacionit të bashkimit bazuar në analizën dhe natyrën e të dhënave të mbledhura.

4) llogaritja e vlerave numerike, karakteristikat e lidhjeve të korrelacionit.

Nëse dy ndryshore janë të lidhura në atë mënyrë që një ndryshim në një variabël korrespondon me një ndryshim sistematik në variablin tjetër, atëherë analiza e regresionit përdoret për të vlerësuar dhe zgjedhur ekuacionin për marrëdhënien ndërmjet tyre nëse këto variabla janë të njohura. Ndryshe nga analiza e regresionit, analiza e korrelacionit përdoret për të analizuar afërsinë e marrëdhënies midis X dhe Y.

Le të shqyrtojmë gjetjen e një vije të drejtë në analizën e regresionit:

Ekuacioni teorik i regresionit.

Termi "regresion i thjeshtë" tregon se vlera e një ndryshoreje vlerësohet bazuar në njohuritë për një variabël tjetër. Ndryshe nga regresioni i thjeshtë me shumë variabla, ai përdoret për të vlerësuar një variabël bazuar në njohuritë e dy, tre ose më shumë variablave. Le të shohim analizën grafike të regresionit të thjeshtë linear.

Supozoni se ka rezultate të testeve të shqyrtimit mbi produktivitetin e punës para punësimit.

	Rezultatet e përzgjedhjes (100 pikë), x	Produktiviteti (20 pikë), y

Duke vizatuar pikat në një grafik, marrim një diagramë të shpërndarjes (fushë). Ne e përdorim atë për të analizuar rezultatet e testeve të përzgjedhjes dhe produktivitetit të punës.

Duke përdorur spatterplot, le të analizojmë vijën e regresionit. Në analizën e regresionit, të paktën dy variabla specifikohen gjithmonë. Një ndryshim sistematik në një variabël shoqërohet me një ndryshim në një tjetër. Qëllimi kryesor analiza e regresionit konsiston në vlerësimin e vlerës së një ndryshoreje nëse dihet vlera e një ndryshoreje tjetër. Për një detyrë të plotë, vlerësimi i produktivitetit të punës është i rëndësishëm.

Ndryshore e pavarur në analizën e regresionit quhet një sasi që përdoret si bazë për të analizuar një variabël tjetër. Në këtë rast, këto janë rezultatet e testeve të përzgjedhjes (përgjatë boshtit X).

Ndryshore e varur quhet vlera e vlerësuar (përgjatë boshtit Y). Në analizën e regresionit, mund të ketë vetëm një variabël të varur dhe më shumë se një ndryshore të pavarur.

Për analizën e thjeshtë të regresionit, varësia mund të përfaqësohet në një sistem me dy koordinata (x dhe y), ku boshti X është ndryshorja e pavarur dhe boshti Y është ndryshorja e varur. Ne vizatojmë pikat e kryqëzimit në mënyrë që një palë vlerash të paraqiten në grafik. Orari quhet shkapërderdhje. Ndërtimi i tij është faza e dytë e analizës së regresionit, pasi e para është zgjedhja e vlerave të analizuara dhe mbledhja e të dhënave të mostrës. Kështu, analiza e regresionit përdoret për analiza statistikore. Marrëdhënia midis të dhënave të mostrës në një grafik është lineare.

Për të vlerësuar madhësinë e një ndryshoreje y bazuar në një ndryshore x, është e nevojshme të përcaktohet pozicioni i vijës që përfaqëson më mirë marrëdhënien midis x dhe y bazuar në vendndodhjen e pikave në grafikun shpërndarës. Në shembullin tonë, kjo është analiza e performancës. Vija e tërhequr përmes pikave të shpërndarjes - vija e regresionit. Një mënyrë për të ndërtuar një linjë regresioni bazuar në përvojën vizuale është metoda e lirë. Linja jonë e regresionit mund të përdoret për të përcaktuar produktivitetin e punës. Gjatë gjetjes së ekuacionit të vijës së regresionit

Shpesh përdoret testi i katrorëve më të vegjël. Vija më e përshtatshme është ajo ku shuma e devijimeve në katror është minimale

Ekuacioni matematik i vijës së rritjes paraqet ligjin e rritjes në një progresion aritmetik:

në = A – bX.

Y = A + bX– ekuacioni i dhënë me një parametër është lloji më i thjeshtë i ekuacionit të bashkimit. Është e pranueshme për vlerat mesatare. Për të shprehur më saktë marrëdhënien ndërmjet X Dhe në, futet një koeficient proporcionaliteti shtesë b, e cila tregon pjerrësinë e vijës së regresionit.

B) Ndërtimi i një linje regresioni teorik.

Procesi i gjetjes së tij konsiston në zgjedhjen dhe justifikimin e llojit të kurbës dhe llogaritjen e parametrave A, b, Me etj. Procesi i ndërtimit quhet shtrirje, dhe furnizimi i kthesave të ofruara nga mat. analiza, të ndryshme. Më shpesh, në problemet ekonomike, përdoret një familje kurbash, ekuacione që shprehen me polinome të fuqive të plota pozitive.

1)
- ekuacioni i një vije të drejtë,

2)
- ekuacioni i hiperbolës,

3)
- ekuacioni i një parabole,

ku ý janë ordinatat e vijës së regresionit teorik.

Pasi të keni zgjedhur llojin e ekuacionit, duhet të gjeni parametrat nga të cilët varet ky ekuacion. Për shembull, natyra e vendndodhjes së pikave në fushën e shpërndarjes tregoi se vija teorike e regresionit është e drejtë.

Një scatterplot ju lejon të përfaqësoni produktivitetin e punës duke përdorur analizën e regresionit. Në ekonomi, analiza e regresionit përdoret për të parashikuar shumë karakteristika që ndikojnë në produktin përfundimtar (duke marrë parasysh çmimin).

B) Kriteri i kornizave më të vogla për gjetjen e vijës së drejtë.

Një kriter që mund të aplikojmë për një vijë të përshtatshme regresioni në një grafik shpërhapjeje bazohet në zgjedhjen e vijës për të cilën shuma e gabimeve në katror është minimale.

Afërsia e pikave të shpërndarjes me vijën e drejtë matet me ordinatat e segmenteve. Devijimet e këtyre pikave mund të jenë pozitive dhe negative, por shuma e katrorëve të devijimeve të vijës teorike nga vija eksperimentale është gjithmonë pozitive dhe duhet të jetë minimale. Fakti që të gjitha pikat e shpërndarjes nuk përkojnë me pozicionin e vijës së regresionit tregon ekzistencën e një mospërputhjeje midis të dhënave eksperimentale dhe teorike. Kështu, mund të themi se asnjë linjë tjetër regresioni, përveç asaj të gjetur, nuk mund të japë një sasi më të vogël devijimesh midis të dhënave eksperimentale dhe eksperimentale. Prandaj, duke gjetur ekuacionin teorik ý dhe vijën e regresionit, ne plotësojmë kërkesën për katrorët më të vegjël.

Kjo bëhet duke përdorur ekuacionin e bashkimit
duke përdorur formula për të gjetur parametrat A Dhe b. Marrja e vlerës teorike
dhe duke treguar anën e majtë të ekuacionit me f, marrim funksionin
nga parametra të panjohur A Dhe b. Vlerat A Dhe b do të plotësojë funksionin minimal f dhe gjenden nga ekuacionet diferenciale të pjesshme
Dhe
. Kjo kusht i nevojshëm, megjithatë, për një funksion kuadratik pozitiv ky është gjithashtu një kusht i mjaftueshëm për gjetje A Dhe b.

Le të nxjerrim formulat e parametrave nga ekuacionet e derivateve të pjesshme A Dhe b:

marrim një sistem ekuacionesh:

Ku
– gabimet mesatare aritmetike.

Duke zëvendësuar vlerat numerike, gjejmë parametrat A Dhe b.

Ekziston një koncept
. Ky është faktori i përafrimit.

Nëse e < 33%, то модель приемлема для дальнейшего анализа;

Nëse e> 33%, atëherë marrim një hiperbolë, parabolë, etj. Kjo jep të drejtën e analizës në situata të ndryshme.

Përfundim: sipas kriterit të koeficientit të përafrimit, vija më e përshtatshme është ajo për të cilën

, dhe asnjë linjë tjetër regresioni për problemin tonë nuk jep një devijim minimal.

D) Gabim katror i vlerësimit, duke kontrolluar tiparitetin e tyre.

Në lidhje me një popullatë në të cilën numri i parametrave të kërkimit është më pak se 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Testi i studentit. Kjo llogarit vlerën aktuale t- kriteret:

Nga këtu

Ku – gabimi i mbetur i rrënjës-mesatare-katrore. Marrë t a Dhe t b krahasuar me kritike t k nga tabela e Studentit duke marrë parasysh nivelin e pranuar të rëndësisë ( = 0,01 = 99% ose  = 0,05 = 95%). P = f = k 1 = m– numri i parametrave të ekuacionit në studim (shkalla e lirisë). Për shembull, nëse y = a + bx; m = 2, k 2 = f 2 = fq 2 = n – (m+ 1), ku n– numri i karakteristikave të studiuara.

t a < t k < t b .

konkluzioni: duke përdorur parametrat e ekuacionit të regresionit të testuar për tipike, ndërtohet një model matematikor i komunikimit.
. Në këtë rast, parametrat e funksionit matematik të përdorur në analizë (lineare, hiperbolë, parabolë) marrin vlerat sasiore përkatëse. Përmbajtja semantike e modeleve të marra në këtë mënyrë është se ato karakterizojnë vlerën mesatare të karakteristikës që rezulton
nga shenja e faktorit X.

D) Regresioni curvilinear.

Shumë shpesh, një marrëdhënie kurvilineare ndodh kur vendoset një marrëdhënie në ndryshim midis variablave. Intensiteti i rritjes (uljes) varet nga niveli i X. Ekzistojnë lloje të ndryshme të varësisë kurvilineare. Për shembull, merrni parasysh lidhjen midis rendimentit të të korrave dhe reshjeve. Me një rritje të reshjeve në kushte të barabarta natyrore, ka një rritje intensive të rendimentit, por deri në një kufi të caktuar. Pas pikës kritike, reshjet rezulton të jenë të tepërta dhe rendimentet bien në mënyrë katastrofike. Shembulli tregon se në fillim marrëdhënia ishte pozitive dhe më pas negative. Pika kritike është niveli optimal i atributit X, i cili korrespondon me vlerën maksimale ose minimale të atributit Y.

Në ekonomi, një marrëdhënie e tillë vërehet midis çmimit dhe konsumit, produktivitetit dhe përvojës.

Varësia parabolike.

Nëse të dhënat tregojnë se një rritje në karakteristikën e faktorit çon në një rritje të karakteristikës efektive, atëherë një ekuacion i rendit të dytë (parabola) merret si ekuacion i regresionit.

. Koeficientët a,b,c gjenden nga ekuacionet diferenciale të pjesshme:

Ne marrim një sistem ekuacionesh:

Llojet e ekuacioneve curvilineare:

Ne kemi të drejtë të supozojmë se ekziston një marrëdhënie lakuar midis produktivitetit të punës dhe rezultateve të testit të përzgjedhjes. Kjo do të thotë se me rritjen e sistemit të pikëzimit, performanca do të fillojë të ulet në njëfarë niveli, kështu që modeli i drejtë mund të rezultojë të jetë lakor.

Modeli i tretë do të jetë një hiperbolë, dhe në të gjitha ekuacionet ndryshorja x do të zëvendësohet me shprehjen .

PËRFUNDIMI I REZULTATEVE

Tabela 8.3a.

Statistikat e regresionit
Shumësi R	0,998364
R-katror	0,99673
R-katrore e normalizuar	0,996321
Gabim standard	0,42405
Vëzhgimet	10

Së pari, le të shohim pjesën e sipërme të llogaritjeve, të paraqitura në tabelën 8.3a - statistikat e regresionit.

Vlera R-katror, e quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit që rezulton. Kjo cilësi shprehet me shkallën e korrespondencës ndërmjet të dhënave burimore dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

Në shumicën e rasteve, vlera R-katrore bie midis këtyre vlerave, të quajtura vlera ekstreme, d.m.th. mes zeros dhe një.

Nëse vlera e katrorit R është afër një, kjo do të thotë se modeli i ndërtuar shpjegon pothuajse të gjithë ndryshueshmërinë në variablat përkatëse. Në të kundërt, një vlerë e katrorit R afër zeros do të thotë se cilësia e modelit të ndërtuar është e dobët.

Në shembullin tonë, masa e sigurisë është 0.99673, që tregon një përshtatje shumë të mirë të linjës së regresionit me të dhënat origjinale.

Shumësi R- koeficienti i korrelacionit të shumëfishtë R - shpreh shkallën e varësisë së variablave të pavarur (X) dhe ndryshores së varur (Y).

Shumëfishi R është i barabartë me rrënjën katrore të koeficientit të përcaktimit, kjo sasi merr vlera në intervalin nga zero në një.

Në analizën e thjeshtë të regresionit linear, shumëfishi R është i barabartë me koeficientin e korrelacionit Pearson. Në të vërtetë, shumëfishi R në rastin tonë është i barabartë me koeficientin e korrelacionit Pearson nga shembulli i mëparshëm (0.998364).

Tabela 8.3b.

	Koeficientët e regresionit	Gabim standard	Shanset
t-statistika	2,694545455	0,33176878	8,121757129
Kryqëzimi Y	2,305454545	0,04668634	49,38177965
Variabli X 1

* Ofrohet një version i shkurtuar i llogaritjeve

Tani merrni parasysh pjesën e mesme të llogaritjeve, të paraqitura në tabelën 8.3b. Këtu jepet koeficienti i regresionit b (2,305454545) dhe zhvendosja përgjatë boshtit të ordinatave, d.m.th. konstante a (2,694545455).

Bazuar në llogaritjet, ne mund të shkruajmë ekuacionin e regresionit si më poshtë:

Y= x*2.305454545+2.694545455 Drejtimi i marrëdhënies ndërmjet variablave përcaktohet në bazë të shenjave (negative ose pozitive) koeficientët e regresionit

(koeficienti b). Nëse shenja në koeficienti i regresionit

(koeficienti b). Nëse shenja në- pozitive, marrëdhënia ndërmjet ndryshores së varur dhe variablit të pavarur do të jetë pozitive. Në rastin tonë, shenja e koeficientit të regresionit është pozitive, prandaj edhe marrëdhënia është pozitive.

Në tabelën 8.3c. Janë paraqitur rezultatet e derivimit të mbetjeve. Në mënyrë që këto rezultate të shfaqen në raport, duhet të aktivizoni kutinë e zgjedhjes "Reziduals" kur përdorni mjetin "Regresion".

TËRHEQJA E PJESËS SË PJESËS

Tabela 8.3c.

Të mbetura	Vëzhgimi	Parashikoi Y	Të mbetura
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Bilancet standarde

Duke përdorur këtë pjesë të raportit, ne mund të shohim devijimet e secilës pikë nga vija e ndërtuar e regresionit. Vlera më e madhe absolute

Në modelimin statistikor, analiza e regresionit është një studim që përdoret për të vlerësuar marrëdhënien midis variablave. Kjo metodë matematikore përfshin shumë teknika të tjera për modelimin dhe analizimin e variablave të shumëfishta ku fokusi është në marrëdhënien midis një ndryshoreje të varur dhe një ose më shumë variablave të pavarur. Më konkretisht, analiza e regresionit na ndihmon të kuptojmë se si ndryshon vlera tipike e një ndryshoreje të varur nëse një nga variablat e pavarur ndryshon ndërsa variablat e tjerë të pavarur mbeten fikse.

Në të gjitha rastet, vlerësimi i synuar është një funksion i variablave të pavarur dhe quhet funksion regresioni. Në analizën e regresionit, është gjithashtu me interes të karakterizohet ndryshimi në variablin e varur si funksion i regresionit, i cili mund të përshkruhet duke përdorur një shpërndarje probabiliteti.

Problemet e analizës së regresionit

Kjo metodë e hulumtimit statistikor përdoret gjerësisht për parashikime, ku përdorimi i saj ka përparësi të konsiderueshme, por ndonjëherë mund të çojë në iluzion ose marrëdhënie të rreme, prandaj rekomandohet përdorimi i saj me kujdes në këtë çështje, pasi, për shembull, korrelacioni nuk do të thotë shkakësi.

Si një metodë kërkimore statistikore, analiza e regresionit në praktikë varet nga forma e procesit të gjenerimit të të dhënave dhe nga mënyra se si ai lidhet me qasjen e regresionit. Meqenëse forma e vërtetë e procesit të gjenerimit të të dhënave është zakonisht një numër i panjohur, analiza e regresionit të të dhënave shpesh varet në një farë mase nga supozimet rreth procesit. Këto supozime ndonjëherë janë të testueshme nëse ka të dhëna të mjaftueshme në dispozicion. Modelet e regresionit janë shpesh të dobishëm edhe kur supozimet shkelen mesatarisht, megjithëse ato mund të mos funksionojnë në kulmin e efikasitetit.

Në një kuptim më të ngushtë, regresioni mund t'i referohet në mënyrë specifike vlerësimit të variablave të përgjigjes së vazhdueshme, në krahasim me variablat e përgjigjeve diskrete të përdorura në klasifikim. Rasti i ndryshores së prodhimit të vazhdueshëm quhet gjithashtu regresion metrik për ta dalluar atë nga problemet e lidhura.

Histori

Forma më e hershme e regresionit është metoda e njohur e katrorëve më të vegjël. Ajo u botua nga Lezhandre në 1805 dhe Gauss në 1809. Lezhandri dhe Gauss aplikuan metodën për problemin e përcaktimit nga vëzhgimet astronomike orbitat e trupave rreth Diellit (kryesisht kometat, por më vonë edhe planetët e vegjël të sapo zbuluar). Gauss publikoi një zhvillim të mëtejshëm të teorisë së katrorëve më të vegjël në 1821, duke përfshirë një version të teoremës Gauss-Markov.

Termi "regresion" u krijua nga Francis Galton në shekullin e 19-të për të përshkruar një fenomen biologjik. Ideja ishte që lartësia e pasardhësve nga ajo e paraardhësve të tyre priret të zmbrapset poshtë drejt mesatares normale. Për Galton, regresioni kishte vetëm këtë kuptim biologjik, por më vonë puna e tij u vazhdua nga Udney Yoley dhe Karl Pearson dhe u soll në një kontekst më të përgjithshëm statistikor. Në veprën e Yule dhe Pearson, shpërndarja e përbashkët e përgjigjes dhe variablave shpjegues supozohet të jetë Gaussian. Ky supozim u hodh poshtë nga Fischer në letrat e 1922 dhe 1925. Fisher sugjeroi që shpërndarja e kushtëzuar e variablit të përgjigjes është Gaussian, por shpërndarja e përbashkët nuk duhet të jetë. Në këtë drejtim, propozimi i Fischer është më afër formulimit të Gausit të vitit 1821. Përpara vitit 1970, ndonjëherë duheshin deri në 24 orë për të marrë rezultatin e një analize regresioni.

Metodat e analizës së regresionit vazhdojnë të jenë një fushë e kërkimit aktiv. Në dekadat e fundit, janë zhvilluar metoda të reja për regresion të fortë; regresione që përfshijnë përgjigje të ndërlidhura; metodat e regresionit që akomodojnë lloje të ndryshme të të dhënave që mungojnë; regresioni joparametrik; Metodat e regresionit Bayesian; regresionet në të cilat variablat parashikues maten me gabim; regresioni me më shumë parashikues sesa vëzhgime, dhe përfundimi shkak-pasojë me regresion.

Modelet e regresionit

Modelet e analizës së regresionit përfshijnë variablat e mëposhtëm:

Parametra të panjohur, të caktuar beta, të cilat mund të jenë skalar ose vektor.
Variablat e pavarur, X.
Variablat e varur, Y.

Fusha të ndryshme të shkencës ku përdoret analiza e regresionit përdorin terma të ndryshëm në vend të variablave të varur dhe të pavarur, por në të gjitha rastet modeli i regresionit lidh Y me një funksion të X dhe β.

Përafrimi zakonisht shkruhet si E(Y | X) = F(X, β). Për të kryer analizën e regresionit, duhet të përcaktohet lloji i funksionit f. Më rrallë, ai bazohet në njohuritë për marrëdhënien midis Y dhe X, e cila nuk mbështetet në të dhëna. Nëse një njohuri e tillë nuk është e disponueshme, atëherë zgjidhet forma fleksibël ose e përshtatshme F.

Ndryshorja e varur Y

Le të supozojmë tani se vektori i parametrave të panjohur β ka gjatësi k. Për të kryer analizën e regresionit, përdoruesi duhet të japë informacion në lidhje me variablin e varur Y:

Nëse vërehen N pika të dhënash të formës (Y, X), ku N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

Nëse vërehen saktësisht N = K dhe funksioni F është linear, atëherë ekuacioni Y = F(X, β) mund të zgjidhet saktësisht dhe jo përafërsisht. Kjo arrin në zgjidhjen e një grupi N-ekuacionesh me N-të panjohura (elementet β) që ka një zgjidhje unike për sa kohë që X është linearisht i pavarur. Nëse F është jolineare, mund të mos ketë zgjidhje, ose mund të ekzistojnë shumë zgjidhje.
Situata më e zakonshme është kur vërehen pikat e të dhënave N >. Në këtë rast, ka informacion të mjaftueshëm në të dhëna për të vlerësuar një vlerë unike për β që i përshtatet më së miri të dhënave, dhe një model regresioni ku aplikimi për të dhënat mund të shihet si një sistem i mbipërcaktuar në β.

Në rastin e fundit, analiza e regresionit ofron mjete për:

Gjetja e një zgjidhjeje për parametrat e panjohur β, e cila, për shembull, do të minimizojë distancën midis vlerës së matur dhe të parashikuar të Y.
Sipas supozimeve të caktuara statistikore, analiza e regresionit përdor informacion të tepërt për të siguruar informacion statistikor në lidhje me parametrat e panjohur β dhe vlerat e parashikuara të ndryshores së varur Y.

Numri i kërkuar i matjeve të pavarura

Konsideroni një model regresioni që ka tre parametra të panjohur: β 0 , β 1 dhe β 2 . Supozoni se eksperimentuesi bën 10 matje në të njëjtën vlerë të vektorit të ndryshores së pavarur X. Në këtë rast, analiza e regresionit nuk prodhon një grup unik vlerash. Më e mira që mund të bëni është të vlerësoni mesataren dhe devijimin standard të ndryshores së varur Y. Në mënyrë të ngjashme, duke matur dy vlera të ndryshme të X, mund të merrni të dhëna të mjaftueshme për regresion me dy të panjohura, por jo me tre ose më shumë të panjohura.

Nëse matjet e eksperimentuesit janë bërë në tre vlera të ndryshme të vektorit të ndryshores së pavarur X, atëherë analiza e regresionit do të sigurojë një grup unik vlerësimesh për tre parametrat e panjohur në β.

Në rastin e regresionit të përgjithshëm linear, deklarata e mësipërme është ekuivalente me kërkesën që matrica X T X të jetë e kthyeshme.

Supozime Statistikore

Kur numri i matjeve N është më i madh se numri i parametrave të panjohur k dhe gabimet e matjes ε i, atëherë, si rregull, informacioni i tepërt që përmbahet në matjet shpërndahet dhe përdoret për parashikime statistikore në lidhje me parametrat e panjohur. Ky informacion i tepërt quhet shkalla e regresionit të lirisë.

Supozimet Themelore

Supozimet klasike për analizën e regresionit përfshijnë:

Marrja e mostrave është përfaqësuese e parashikimit të konkluzionit.
Termi i gabimit është një ndryshore e rastësishme me një mesatare zero, e cila është e kushtëzuar nga variablat shpjegues.
Variablat e pavarur maten pa gabime.
Si variabla të pavarur (parashikues), ata janë linearisht të pavarur, domethënë nuk është e mundur të shprehet ndonjë parashikues si një kombinim linear i të tjerëve.
Gabimet janë të pakorreluara, pra matrica e kovariancës së gabimit të diagonaleve dhe çdo element jozero është varianca e gabimit.
Varianca e gabimit është konstante përgjatë vëzhgimeve (homoscedasticiteti). Nëse jo, atëherë mund të përdoren katrorët më të vegjël të peshuar ose metoda të tjera.

Këto kushte të mjaftueshme për vlerësimin e katrorëve më të vegjël kanë vetitë e kërkuara, në veçanti këto supozime nënkuptojnë se vlerësimet e parametrave do të jenë objektive, konsistente dhe efikase, veçanërisht kur merren parasysh në klasën e vlerësuesve linearë. Është e rëndësishme të theksohet se provat rrallëherë i plotësojnë kushtet. Kjo do të thotë, metoda përdoret edhe nëse supozimet nuk janë të sakta. Ndryshimet nga supozimet ndonjëherë mund të përdoren si një masë se sa i dobishëm është modeli. Shumë nga këto supozime mund të zbuten në metoda më të avancuara. Raportet e analizës statistikore zakonisht përfshijnë analizën e testeve mbi të dhënat e mostrës dhe metodologjinë për dobinë e modelit.

Për më tepër, variablat në disa raste i referohen vlerave të matura në vendndodhjet e pikave. Mund të ketë tendenca hapësinore dhe autokorrelacione hapësinore në variabla që shkelin supozimet statistikore. Regresioni i ponderuar gjeografik është metoda e vetme që merret me të dhëna të tilla.

Një tipar i regresionit linear është se ndryshorja e varur, e cila është Yi, është një kombinim linear i parametrave. Për shembull, regresioni i thjeshtë linear përdor një ndryshore të pavarur, x i, dhe dy parametra, β 0 dhe β 1 , për të modeluar n-pika.

Në regresionin linear të shumëfishtë, ekzistojnë variabla ose funksione të shumta të pavarura prej tyre.

Kur një kampion i rastësishëm merret nga një popullatë, parametrat e tij lejojnë që dikush të marrë një model të regresionit linear të mostrës.

Në këtë aspekt, më e popullarizuara është metoda e katrorëve më të vegjël. Përdoret për të marrë vlerësime të parametrave që minimizojnë shumën e mbetjeve në katror. Ky lloj minimizimi (i cili është tipik për regresionin linear) i këtij funksioni çon në një grup ekuacionesh normale dhe një grup ekuacionesh lineare me parametra, të cilët zgjidhen për të marrë vlerësimet e parametrave.

Nën supozimin e mëtejshëm se gabimi i popullsisë përhapet në përgjithësi, një studiues mund të përdorë këto vlerësime standarde të gabimit për të krijuar intervale besimi dhe për të kryer teste hipotezash rreth parametrave të tij.

Analiza e regresionit jolinear

Një shembull ku funksioni nuk është linear në lidhje me parametrat tregon se shuma e katrorëve duhet të minimizohet duke përdorur një procedurë përsëritëse. Kjo paraqet shumë ndërlikime që përcaktojnë dallimet midis metodave lineare dhe jolineare të katrorëve më të vegjël. Rrjedhimisht, rezultatet e analizës së regresionit kur përdorni një metodë jolineare janë ndonjëherë të paparashikueshme.

Llogaritja e fuqisë dhe madhësia e mostrës

Në përgjithësi nuk ka metoda të qëndrueshme në lidhje me numrin e vëzhgimeve kundrejt numrit të variablave të pavarur në model. Rregulli i parë u propozua nga Dobra dhe Hardin dhe duket si N = t^n, ku N është madhësia e kampionit, n është numri i variablave të pavarur dhe t është numri i vëzhgimeve të nevojshme për të arritur saktësinë e dëshiruar nëse modeli kishte vetëm një variabël i pavarur. Për shembull, një studiues ndërton një model regresioni linear duke përdorur një grup të dhënash që përmban 1000 pacientë (N). Nëse studiuesi vendos që pesë vëzhgime nevojiten për të përcaktuar saktë vijën (m), atëherë numri maksimal i variablave të pavarur që modeli mund të mbështesë është 4.

Metoda të tjera

Megjithëse parametrat e modelit të regresionit zakonisht vlerësohen duke përdorur metodën e katrorëve më të vegjël, ka metoda të tjera që përdoren shumë më rrallë. Për shembull, këto janë metodat e mëposhtme:

Metodat Bayesian (për shembull, regresioni linear Bayesian).
Regresioni i përqindjes, përdoret për situatat ku ulja e gabimeve të përqindjes konsiderohet më e përshtatshme.
Devijimet më të vogla absolute, të cilat janë më të forta në prani të pikave të jashtme që çojnë në regresion kuantil.
Regresioni joparametrik, i cili kërkon një numër të madh vëzhgimesh dhe llogaritjesh.
Një metrikë e të mësuarit në distancë që mësohet për të gjetur një metrikë kuptimplotë të distancës në një hapësirë të caktuar hyrëse.

Software

Të gjitha paketat kryesore të softuerit statistikor kryejnë analizë të regresionit të katrorëve më të vegjël. Regresioni i thjeshtë linear dhe analiza e regresionit të shumëfishtë mund të përdoren në disa aplikacione të tabelave, si dhe në disa kalkulatorë. Megjithëse shumë paketa softuerike statistikore mund të kryejnë lloje të ndryshme të regresionit joparametrik dhe të fuqishëm, këto metoda janë më pak të standardizuara; paketa të ndryshme softuerike zbatojnë metoda të ndryshme. Softueri i specializuar i regresionit është zhvilluar për përdorim në fusha të tilla si analiza e ekzaminimit dhe neuroimazhimi.

Konceptet e korrelacionit dhe regresionit janë të lidhura drejtpërdrejt. Ka shumë teknika të zakonshme llogaritëse në analizën e korrelacionit dhe regresionit. Ato përdoren për të identifikuar marrëdhëniet shkak-pasojë midis fenomeneve dhe proceseve. Megjithatë, nëse analiza e korrelacionit na lejon të vlerësojmë forcën dhe drejtimin e lidhjes stokastike, atëherë analiza e regresionit- gjithashtu një formë varësie.

Regresioni mund të jetë:

a) në varësi të numrit të dukurive (variablave):

E thjeshtë (regresioni ndërmjet dy variablave);

Shumëfish (regresioni ndërmjet ndryshores së varur (y) dhe disa variablave shpjegues (x1, x2...xn);

b) në varësi të formës:

Linear (shfaqet nga një funksion linear dhe ka marrëdhënie lineare midis variablave që studiohen);

Jolineare (shfaqet nga një funksion jolinear; marrëdhënia ndërmjet variablave që studiohen është jolineare);

c) nga natyra e marrëdhënies midis variablave të përfshirë në konsideratë:

Pozitive (një rritje në vlerën e variablit shpjegues çon në një rritje të vlerës së ndryshores së varur dhe anasjelltas);

Negative (me rritjen e vlerës së variablit shpjegues, vlera e ndryshores së shpjeguar zvogëlohet);

d) sipas llojit:

Direkte (në këtë rast, shkaku ka ndikim të drejtpërdrejtë në efekt, d.m.th. variablat e varur dhe shpjegues lidhen drejtpërdrejt me njëri-tjetrin);

Indirekte (ndryshorja shpjeguese ka një efekt indirekt përmes një të treti ose një numri variablash të tjerë në variablin e varur);

False (regresioni i pakuptimtë) - mund të lindë me një qasje sipërfaqësore dhe formale ndaj proceseve dhe dukurive në studim. Një shembull i një të pakuptimtë është një regresion që vendos një lidhje midis një uljeje të sasisë së alkoolit të konsumuar në vendin tonë dhe një rënie në shitjen e pluhurit larës.

Gjatë kryerjes së analizës së regresionit, zgjidhen detyrat kryesore të mëposhtme:

1. Përcaktimi i formës së varësisë.

2. Përkufizimi i funksionit të regresionit. Për ta bërë këtë, përdoret një ekuacion matematik i një lloji ose tjetër, i cili lejon, së pari, të përcaktojë prirjen e përgjithshme të ndryshimit në variablin e varur dhe, së dyti, të llogarisë ndikimin e ndryshores shpjeguese (ose disa ndryshoreve) në ndryshorja e varur.

3. Vlerësimi i vlerave të panjohura të ndryshores së varur. Marrëdhënia matematikore që rezulton (ekuacioni i regresionit) ju lejon të përcaktoni vlerën e ndryshores së varur si brenda intervalit të vlerave të specifikuara të variablave shpjegues ashtu edhe përtej tij. Në rastin e fundit, analiza e regresionit vepron si një mjet i dobishëm në parashikimin e ndryshimeve në proceset dhe fenomenet socio-ekonomike (me kusht që tendencat dhe marrëdhëniet ekzistuese të ruhen). Në mënyrë tipike, gjatësia e periudhës kohore për të cilën kryhet parashikimi zgjidhet të jetë jo më shumë se gjysma e intervalit kohor gjatë të cilit janë kryer vëzhgimet e treguesve fillestarë. Është e mundur të kryhet si një parashikim pasiv, duke zgjidhur problemin e ekstrapolimit, ashtu edhe një aktiv, duke arsyetuar sipas skemës së njohur "nëse..., atëherë" dhe duke zëvendësuar vlera të ndryshme në një ose më shumë variabla të regresionit shpjegues. .

Për ndërtimi i regresionit Një metodë e veçantë e quajtur Metoda e katrorëve më të vegjël. Kjo metodë ka përparësi ndaj metodave të tjera të zbutjes: një përcaktim matematikor relativisht i thjeshtë i parametrave të kërkuar dhe një justifikim i mirë teorik nga një këndvështrim probabilistik.

Kur zgjidhni një model regresioni, një nga kërkesat thelbësore për të është sigurimi i thjeshtësisë më të madhe të mundshme, duke ju lejuar të merrni një zgjidhje me saktësi të mjaftueshme. Prandaj, për të vendosur marrëdhënie statistikore, së pari, si rregull, ne konsiderojmë një model nga klasa e funksioneve lineare (si më e thjeshta nga të gjitha klasat e mundshme të funksioneve):

ku bi, b2...bj janë koeficientët që përcaktojnë ndikimin e variablave të pavarur xij në vlerën yi; ai - anëtar i lirë; ei - devijimi i rastësishëm, i cili pasqyron ndikimin e faktorëve të pa llogaritur në variablin e varur; n - numri i variablave të pavarur; N është numri i vëzhgimeve dhe kushti (N . n+1) duhet të plotësohet.

Modeli linear mund të përshkruajë një klasë shumë të gjerë problemesh të ndryshme. Megjithatë, në praktikë, veçanërisht në sistemet socio-ekonomike, ndonjëherë është e vështirë të përdoren modele lineare për shkak të gabimeve të mëdha të përafrimit. Prandaj, shpesh përdoren funksione jolineare të regresionit të shumëfishtë që mund të linearizohen. Këtu përfshihet, për shembull, funksioni i prodhimit (funksioni i fuqisë Cobb-Douglas), i cili ka gjetur zbatim në studime të ndryshme socio-ekonomike. Duket si:

ku b 0 është faktori i normalizimit, b 1 ...b j janë koeficientë të panjohur, e i është një devijim i rastësishëm.

Duke përdorur logaritmet natyrore, ju mund ta transformoni këtë ekuacion në formë lineare:

Modeli që rezulton lejon përdorimin e procedurave standarde të regresionit linear të përshkruara më sipër. Duke ndërtuar modele të dy llojeve (shtesë dhe shumëzues), ju mund të zgjidhni më të mirën dhe të kryeni kërkime të mëtejshme me gabime më të vogla përafrimi.

Ekziston një sistem i zhvilluar mirë për zgjedhjen e funksioneve të përafërta - metoda e kontabilitetit në grup të argumenteve(MGUA).

Korrektësia e modelit të zgjedhur mund të gjykohet nga rezultatet e studimit të mbetjeve, të cilat janë ndryshimet midis vlerave të vëzhguara y i dhe vlerave përkatëse y i parashikuar duke përdorur ekuacionin e regresionit. Në këtë rast për të kontrolluar përshtatshmërinë e modelit llogaritur Gabim mesatar i përafrimit:

Modeli konsiderohet adekuat nëse e është brenda jo më shumë se 15%.

Veçanërisht theksojmë se në lidhje me sistemet socio-ekonomike nuk plotësohen gjithmonë kushtet bazë për përshtatshmërinë e modelit klasik të regresionit.

Pa u ndalur në të gjitha arsyet e pamjaftueshmërisë që lind, do të përmendim vetëm multikolineariteti- problemi më i vështirë i zbatimit efektiv të procedurave të analizës së regresionit në studimin e varësive statistikore. Nën multikolineariteti kuptohet se ka një lidhje lineare ndërmjet variablave shpjegues.

Ky fenomen:

a) shtrembëron kuptimin e koeficientëve të regresionit gjatë interpretimit të tyre kuptimplotë;

b) zvogëlon saktësinë e vlerësimit (shpërndarja e vlerësimeve rritet);

c) rrit ndjeshmërinë e vlerësimeve të koeficientëve ndaj të dhënave të mostrës (rritja e madhësisë së kampionit mund të ndikojë shumë në vlerësimet).

Ekzistojnë teknika të ndryshme për reduktimin e multikolinearitetit. Mënyra më e arritshme është eliminimi i njërës prej dy variablave nëse koeficienti i korrelacionit ndërmjet tyre tejkalon një vlerë të barabartë në vlerë absolute me 0.8. Cili nga variablat për të mbajtur vendoset në bazë të konsideratave thelbësore. Pastaj koeficientët e regresionit llogariten përsëri.

Përdorimi i një algoritmi të regresionit hap pas hapi ju lejon të përfshini në mënyrë sekuenciale një variabël të pavarur në model dhe të analizoni rëndësinë e koeficientëve të regresionit dhe shumëkolinearitetin e variablave. Së fundi, në marrëdhënien në studim mbeten vetëm ato variabla që ofrojnë rëndësinë e nevojshme të koeficientëve të regresionit dhe ndikimin minimal të multikolinearitetit.

Analiza e regresionit është një metodë e modelimit të të dhënave të matura dhe studimit të vetive të tyre. Të dhënat përbëhen nga çifte vlerash të ndryshores së varur (ndryshore e përgjigjes) dhe ndryshores së pavarur (ndryshore shpjeguese). Një model regresioni është një funksion i ndryshores së pavarur dhe parametrave me një ndryshore të rastësishme të shtuar.

Analiza e korrelacionit dhe analiza e regresionit janë seksione të ndërlidhura të statistikave matematikore dhe synojnë të studiojnë varësinë statistikore të një numri sasish duke përdorur të dhënat e mostrës; disa prej të cilave janë të rastësishme. Me varësinë statistikore, sasitë nuk janë të lidhura funksionalisht, por përcaktohen si variabla të rastësishëm nga një shpërndarje e përbashkët probabiliteti.

Studimi i varësisë së variablave të rastësishëm çon në modele regresioni dhe analizë regresioni bazuar në të dhënat e mostrës. Teoria e probabilitetit dhe statistikat matematikore përfaqësojnë vetëm një mjet për studimin e varësisë statistikore, por nuk synojnë të krijojnë një marrëdhënie shkakësore. Idetë dhe hipotezat për një marrëdhënie shkakësore duhet të sillen nga një teori tjetër që lejon një shpjegim kuptimplotë të fenomenit që studiohet.

Të dhënat numerike zakonisht kanë marrëdhënie eksplicite (të njohura) ose të nënkuptuara (të fshehura) me njëra-tjetrën.

Treguesit që përftohen me metoda të llogaritjes direkte, d.m.th., të llogaritur duke përdorur formula të njohura më parë, janë të lidhura qartë. Për shembull, përqindjet e përfundimit të planit, nivelet, peshat specifike, devijimet në shumë, devijimet në përqindje, normat e rritjes, normat e rritjes, indekset, etj.

Lidhjet e llojit të dytë (të nënkuptuara) janë të panjohura paraprakisht. Sidoqoftë, është e nevojshme të jeni në gjendje të shpjegoni dhe parashikoni (parashikoni) fenomene komplekse për t'i menaxhuar ato. Prandaj, specialistët, me ndihmën e vëzhgimeve, përpiqen të identifikojnë varësitë e fshehura dhe t'i shprehin ato në formën e formulave, domethënë të modelojnë matematikisht fenomene ose procese. Një mundësi e tillë ofrohet nga analiza korrelacion-regresion.

Modelet matematikore ndërtohen dhe përdoren për tre qëllime të përgjithshme:

* për shpjegim;
* për parashikim;
* për menaxhim.

Duke përdorur metodat e analizës së korrelacionit dhe regresionit, analistët matin afërsinë e lidhjeve midis treguesve duke përdorur koeficientin e korrelacionit. Në këtë rast zbulohen lidhje që janë të ndryshme në fortësi (të forta, të dobëta, të moderuara etj.) dhe të ndryshme në drejtim (të drejtpërdrejtë, të kundërt). Nëse lidhjet rezultojnë të rëndësishme, atëherë do të ishte e këshillueshme që të gjenim shprehjen e tyre matematikore në formën e një modeli regresioni dhe të vlerësoni rëndësinë statistikore të modelit.

Analiza e regresionit quhet metoda kryesore e statistikave moderne matematikore për identifikimin e lidhjeve të nënkuptuara dhe të mbuluara midis të dhënave vëzhguese.

Deklarata e problemit të analizës së regresionit është formuluar si më poshtë.

Ekziston një grup rezultatesh vëzhgimi. Në këtë grup, një kolonë korrespondon me një tregues për të cilin është e nevojshme të vendoset një marrëdhënie funksionale me parametrat e objektit dhe mjedisit të përfaqësuar nga kolonat e mbetura. Kërkohet: vendosja e një marrëdhënie sasiore midis treguesit dhe faktorëve. Në këtë rast, problemi i analizës së regresionit kuptohet si detyra e identifikimit të një varësie të tillë funksionale y = f (x2, x3, ..., xт), e cila përshkruan më së miri të dhënat eksperimentale të disponueshme.

Supozimet:

numri i vëzhgimeve është i mjaftueshëm për të demonstruar modele statistikore në lidhje me faktorët dhe marrëdhëniet e tyre;

të dhënat e përpunuara përmbajnë disa gabime (zhurmë) për shkak të gabimeve në matje dhe ndikimit të faktorëve të rastësishëm të pa llogaritur;

matrica e rezultateve të vëzhgimit është i vetmi informacion për objektin që studiohet që është i disponueshëm përpara fillimit të studimit.

Funksioni f (x2, x3, ..., xт), i cili përshkruan varësinë e treguesit nga parametrat, quhet ekuacion i regresionit (funksion). Termi "regresion" (regresion (latin) - tërheqje, kthim në diçka) shoqërohet me specifikat e një prej problemeve specifike të zgjidhura në fazën e formimit të metodës.

Këshillohet që zgjidhja e problemit të analizës së regresionit të ndahet në disa faza:

parapërpunimi i të dhënave;

zgjedhja e llojit të ekuacioneve të regresionit;

llogaritja e koeficientëve të ekuacionit të regresionit;

kontrollimi i përshtatshmërisë së funksionit të ndërtuar me rezultatet e vëzhgimit.

Përpunimi paraprak përfshin standardizimin e matricës së të dhënave, llogaritjen e koeficientëve të korrelacionit, kontrollimin e rëndësisë së tyre dhe përjashtimin e parametrave të parëndësishëm nga shqyrtimi.

Zgjedhja e llojit të ekuacionit të regresionit Detyra e përcaktimit të marrëdhënies funksionale që përshkruan më së miri të dhënat përfshin tejkalimin e një sërë vështirësish themelore. Në rastin e përgjithshëm, për të dhënat e standardizuara, varësia funksionale e treguesit nga parametrat mund të përfaqësohet si

y = f (x1, x2, …, xm) + e

ku f është një funksion i panjohur më parë për t'u përcaktuar;

e - gabim i përafrimit të të dhënave.

Ky ekuacion zakonisht quhet ekuacioni i regresionit të mostrës. Ky ekuacion karakterizon marrëdhënien midis variacionit të treguesit dhe variacioneve të faktorëve. Dhe matja e korrelacionit mat proporcionin e variacionit në një tregues që shoqërohet me ndryshim në faktorë. Me fjalë të tjera, korrelacioni midis një treguesi dhe faktorëve nuk mund të interpretohet si një lidhje midis niveleve të tyre dhe analiza e regresionit nuk shpjegon rolin e faktorëve në krijimin e treguesit.

Një veçori tjetër ka të bëjë me vlerësimin e shkallës së ndikimit të secilit faktor në tregues. Ekuacioni i regresionit nuk jep një vlerësim të ndikimit të veçantë të secilit faktor në tregues, një vlerësim i tillë është i mundur vetëm në rastin kur të gjithë faktorët e tjerë nuk janë të lidhur me atë që studiohet. Nëse faktori që studiohet lidhet me të tjerët që ndikojnë në tregues, atëherë do të merret një karakteristikë e përzier e ndikimit të faktorit. Kjo karakteristikë përmban si ndikimin e drejtpërdrejtë të faktorit ashtu edhe ndikimin indirekt të ushtruar nëpërmjet lidhjes me faktorë të tjerë dhe ndikimin e tyre në tregues.

Në ekuacionin e regresionit nuk rekomandohet përfshirja e faktorëve që kanë lidhje të dobët me treguesin, por janë të lidhur ngushtë me faktorë të tjerë. Faktorët që janë funksionalisht të lidhur me njëri-tjetrin nuk përfshihen në ekuacion (për ta koeficienti i korrelacionit është 1). Përfshirja e këtyre faktorëve çon në degjenerimin e sistemit të ekuacioneve për vlerësimin e koeficientëve të regresionit dhe në pasigurinë e zgjidhjes.

Funksioni f duhet të zgjidhet në mënyrë që gabimi e të jetë në një farë kuptimi minimal. Për të zgjedhur një lidhje funksionale, paraprakisht parashtrohet një hipotezë se cilës klasë mund t'i përkasë funksioni f dhe më pas zgjidhet funksioni "më i miri" në këtë klasë. Klasa e zgjedhur e funksioneve duhet të ketë njëfarë "butësie", d.m.th. Ndryshimet "të vogla" në vlerat e argumenteve duhet të shkaktojnë ndryshime "të vogla" në vlerat e funksionit.

Një rast i veçantë i përdorur gjerësisht në praktikë është një ekuacion polinomial ose linear i regresionit të shkallës së parë

Për të zgjedhur llojin e varësisë funksionale, mund të rekomandohet qasja e mëposhtme:

pikat me vlera treguese shfaqen grafikisht në hapësirën e parametrave. Me një numër të madh parametrash, është e mundur të ndërtohen pika për secilën prej tyre, duke marrë shpërndarje dydimensionale të vlerave;

bazuar në vendndodhjen e pikave dhe bazuar në një analizë të thelbit të marrëdhënies midis treguesit dhe parametrave të objektit, bëhet një përfundim për llojin e përafërt të regresionit ose opsionet e tij të mundshme;

Pas llogaritjes së parametrave, vlerësohet cilësia e përafrimit, d.m.th. të vlerësojë shkallën e ngjashmërisë ndërmjet vlerave të llogaritura dhe atyre aktuale;

nëse vlerat e llogaritura dhe ato aktuale janë afër në të gjithë zonën e detyrës, atëherë problemi i analizës së regresionit mund të konsiderohet i zgjidhur. Përndryshe, mund të provoni të zgjidhni një lloj tjetër polinomi ose një funksion tjetër analitik, si p.sh. një periodik.

Llogaritja e koeficientëve të ekuacionit të regresionit

Është e pamundur të zgjidhet pa mëdyshje një sistem ekuacionesh bazuar në të dhënat e disponueshme, pasi numri i të panjohurave është gjithmonë më i madh se numri i ekuacioneve. Për të kapërcyer këtë problem, nevojiten supozime shtesë. Mendja e shëndoshë dikton: këshillohet që koeficientët e polinomit të zgjidhen në mënyrë të tillë që të sigurohet një gabim minimal në përafrimin e të dhënave. Masa të ndryshme mund të përdoren për të vlerësuar gabimet e përafrimit. Gabimi mesatar katror i rrënjës përdoret gjerësisht si një masë e tillë. Mbi bazën e saj, është zhvilluar një metodë e veçantë për vlerësimin e koeficientëve të ekuacioneve të regresionit - metoda e katrorëve më të vegjël (LSM). Kjo metodë ju lejon të merrni vlerësime maksimale të gjasave të koeficientëve të panjohur të ekuacionit të regresionit nën opsionin e shpërndarjes normale, por mund të përdoret për çdo shpërndarje tjetër të faktorëve.

MNC bazohet në dispozitat e mëposhtme:

vlerat e gabimeve dhe faktorëve janë të pavarura, dhe për këtë arsye të pakorreluara, d.m.th. supozohet se mekanizmat për gjenerimin e interferencës nuk janë të lidhura me mekanizmin për gjenerimin e vlerave të faktorëve;

pritshmëria matematikore e gabimit e duhet të jetë e barabartë me zero (komponenti konstant përfshihet në koeficientin a0), me fjalë të tjera, gabimi është një sasi e përqendruar;

vlerësimi i mostrës së variancës së gabimit duhet të jetë minimal.

Nëse modeli linear është i pasaktë ose parametrat maten në mënyrë të pasaktë, atëherë në këtë rast metoda e katrorëve më të vegjël na lejon të gjejmë vlera të tilla të koeficientëve në të cilët modeli linear përshkruan më së miri objektin real në kuptimin e devijimit standard të zgjedhur. kriter.

Cilësia e ekuacionit të regresionit që rezulton vlerësohet nga shkalla e afërsisë midis rezultateve të vëzhgimeve të treguesit dhe vlerave të parashikuara nga ekuacioni i regresionit në pikat e dhëna në hapësirën e parametrave. Nëse rezultatet janë të afërta, atëherë problemi i analizës së regresionit mund të konsiderohet i zgjidhur. Përndryshe, duhet të ndryshoni ekuacionin e regresionit dhe të përsërisni llogaritjet për të vlerësuar parametrat.

Nëse ka disa tregues, problemi i analizës së regresionit zgjidhet në mënyrë të pavarur për secilin prej tyre.

Duke analizuar thelbin e ekuacionit të regresionit, duhet të theksohen pikat e mëposhtme. Qasja e konsideruar nuk siguron vlerësim të veçantë (të pavarur) të koeficientëve - një ndryshim në vlerën e një koeficienti sjell një ndryshim në vlerat e të tjerëve. Koeficientët e marrë nuk duhet të konsiderohen si kontribut i parametrit përkatës në vlerën e treguesit. Një ekuacion i regresionit është vetëm një përshkrim i mirë analitik i të dhënave të disponueshme dhe jo një ligj që përshkruan marrëdhënien midis parametrave dhe një treguesi. Ky ekuacion përdoret për të llogaritur vlerat e treguesit në një gamë të caktuar parametrash. Është i përshtatshmërisë së kufizuar për llogaritjet jashtë këtij diapazoni, d.m.th. mund të përdoret për zgjidhjen e problemeve të interpolimit dhe, në një masë të kufizuar, për ekstrapolim.

Arsyeja kryesore e pasaktësisë së parashikimit nuk është aq shumë pasiguria e ekstrapolimit të vijës së regresionit, por variacioni i ndjeshëm i treguesit për shkak të faktorëve që nuk janë marrë parasysh në model. Kufizimi i aftësisë së parashikimit është kushti i qëndrueshmërisë së parametrave që nuk merren parasysh në model dhe natyra e ndikimit të faktorëve të modelit të marrë parasysh. Nëse mjedisi i jashtëm ndryshon ndjeshëm, atëherë ekuacioni i përpiluar i regresionit do të humbasë kuptimin e tij.

Parashikimi i marrë duke zëvendësuar vlerën e pritur të parametrit në ekuacionin e regresionit është një pikë. Mundësia që një parashikim i tillë të realizohet është i papërfillshëm. Këshillohet të përcaktohet intervali i besueshmërisë së parashikimit. Për vlerat individuale të treguesit, intervali duhet të marrë parasysh gabimet në pozicionin e vijës së regresionit dhe devijimet e vlerave individuale nga kjo linjë.