Regresinės analizės teorija. A) Paprastos tiesinės regresijos grafinė analizė

A) Paprastos tiesinės regresijos grafinė analizė.

Paprastoji tiesinės regresijos lygtis y=a+bx. Jei yra koreliacija tarp atsitiktinių dydžių Y ir X, tada reikšmė y = ý + ,

čia ý yra teorinė y reikšmė, gauta iš lygties ý = f(x),

 – teorinės lygties ý nukrypimo nuo faktinių (eksperimentinių) duomenų paklaida.

Vidutinės reikšmės ý priklausomybės nuo x lygtis, ty ý = f(x), vadinama regresijos lygtimi. Regresijos analizė susideda iš keturių etapų:

1) problemos nustatymas ir prisijungimo priežasčių nustatymas.

2) tyrimo objekto ribojimas, statistinės informacijos rinkimas.

3) sujungimo lygties parinkimas remiantis surinktų duomenų analize ir pobūdžiu.

4) skaitinių reikšmių skaičiavimas, koreliacinių ryšių charakteristikos.

Jei du kintamieji yra susiję taip, kad vieno kintamojo pokytis atitinka sistemingą kito kintamojo pasikeitimą, tada regresinė analizė naudojama jų tarpusavio ryšio lygčiai įvertinti ir parinkti, jei šie kintamieji yra žinomi. Skirtingai nuo regresinės analizės, koreliacinė analizė naudojama X ir Y ryšio glaudumui analizuoti.

Apsvarstykite galimybę regresinėje analizėje rasti tiesią liniją:

Teorinė regresijos lygtis.

Sąvoka „paprasta regresija“ reiškia, kad vieno kintamojo reikšmė apskaičiuojama remiantis žiniomis apie kitą kintamąjį. Skirtingai nuo paprastos daugiamatės regresijos, ji naudojama kintamajam įvertinti remiantis žiniomis apie du, tris ar daugiau kintamųjų. Pažvelkime į paprastos tiesinės regresijos grafinę analizę.

Tarkime, kad yra prieš įsidarbinant ir darbo našumo atrankos testų rezultatai.

Atrankos rezultatai (100 balų), x

Produktyvumas (20 balų), m

Nubraižę taškus grafike, gauname sklaidos diagramą (lauką). Ją naudojame atrankos testų rezultatams ir darbo našumui analizuoti.

Naudodami sklaidos diagramą, išanalizuokime regresijos tiesę. Regresinėje analizėje visada nurodomi bent du kintamieji. Sistemingas vieno kintamojo pasikeitimas yra susijęs su kito kintamojo pasikeitimu. Pagrindinis tikslas regresinė analizė susideda iš vieno kintamojo vertės įvertinimo, jei kito kintamojo reikšmė yra žinoma. Norint atlikti visą užduotį, svarbus darbo našumo įvertinimas.

Nepriklausomas kintamasis regresinėje analizėje vadinamas dydis, kuris naudojamas kaip pagrindas analizuojant kitą kintamąjį. Šiuo atveju tai yra atrankos testų rezultatai (išilgai X ašies).

Priklausomas kintamasis vadinama apskaičiuotąja verte (išilgai Y ašies). Regresinėje analizėje gali būti tik vienas priklausomas kintamasis ir daugiau nei vienas nepriklausomas kintamasis.

Atliekant paprastą regresinę analizę, priklausomybę galima pavaizduoti dviejų koordinačių sistemoje (x ir y), kai X ašis yra nepriklausomas kintamasis, o Y ašis yra priklausomas kintamasis. Nubrėžiame sankirtos taškus taip, kad grafike būtų pavaizduota reikšmių pora. Tvarkaraštis vadinamas sklaida. Jo konstravimas yra antrasis regresinės analizės etapas, nes pirmasis yra analizuojamų verčių parinkimas ir imties duomenų rinkimas. Taigi statistinei analizei naudojama regresinė analizė. Ryšys tarp pavyzdinių duomenų diagramoje yra tiesinis.

Norint įvertinti kintamojo y dydį pagal kintamąjį x, būtina nustatyti tiesės, kuri geriausiai atspindi x ir y ryšį, padėtį pagal taškų vietą sklaidos diagramoje. Mūsų pavyzdyje tai yra našumo analizė. Per sklaidos taškus nubrėžta linija – regresijos linija. Vienas iš būdų sukurti regresijos liniją, pagrįstą vaizdine patirtimi, yra laisvos rankos metodas. Mūsų regresijos linija gali būti naudojama darbo našumui nustatyti. Kai randama regresijos tiesės lygtis

Dažnai naudojamas mažiausių kvadratų testas. Tinkamiausia yra ta linija, kurioje nuokrypių kvadratu suma yra minimali

Matematinė augimo linijos lygtis parodo augimo dėsnį aritmetine progresija:

adresu = AbX.

Y = A + bX– duota lygtis su vienu parametru yra paprasčiausias sujungimo lygties tipas. Tai priimtina esant vidutinėms vertėms. Norėdami tiksliau išreikšti ryšį tarp X Ir adresu, įvedamas papildomas proporcingumo koeficientas b, kuris rodo regresijos linijos nuolydį.

B) Teorinės regresijos tiesės konstravimas.

Jos radimo procesas susideda iš kreivės tipo pasirinkimo ir pagrindimo bei parametrų skaičiavimo A, b, Su ir tt Statybos procesas vadinamas išlyginimu, o kreivių tiekimas, kurį siūlo kilimėlis. analizė, įvairi. Dažniausiai ekonominiuose uždaviniuose naudojama kreivių šeima, lygtys, kurios išreiškiamos teigiamų sveikųjų skaičių laipsniais.

1)
– tiesės lygtis,

2)
– hiperbolės lygtis,

3)
– parabolės lygtis,

kur ý yra teorinės regresijos tiesės ordinatės.

Pasirinkę lygties tipą, turite rasti parametrus, nuo kurių priklauso ši lygtis. Pavyzdžiui, taškų išsidėstymo sklaidos lauke pobūdis parodė, kad teorinė regresijos linija yra tiesi.

Taškinė diagrama leidžia pavaizduoti darbo našumą naudojant regresinę analizę. Ekonomikoje regresinė analizė naudojama daugybei galutiniam produktui įtakos turinčių savybių prognozuoti (atsižvelgiant į kainodarą).

B) Mažiausių rėmelių kriterijus tiesei surasti.

Vienas iš kriterijų, kurį galėtume taikyti tinkamai regresijos linijai sklaidos diagramoje, yra pagrįstas tiesės, kurios kvadratinių klaidų suma yra minimali, parinkimu.

Sklaidos taškų artumas tiesei matuojamas atkarpų ordinatėmis. Šių taškų nuokrypiai gali būti teigiami ir neigiami, tačiau teorinės tiesės nuokrypių nuo eksperimentinės linijos kvadratų suma visada yra teigiama ir turėtų būti minimali. Tai, kad visi sklaidos taškai nesutampa su regresijos tiesės padėtimi, rodo, kad yra neatitikimas tarp eksperimentinių ir teorinių duomenų. Taigi galime teigti, kad jokia kita regresijos tiesė, išskyrus rastąją, negali duoti mažesnių nuokrypių tarp eksperimentinių ir eksperimentinių duomenų. Todėl radę teorinę lygtį ý ir regresijos tiesė, tenkiname mažiausiųjų kvadratų reikalavimą.

Tai atliekama naudojant sujungimo lygtį
naudojant formules parametrams rasti A Ir b. Atsižvelgiant į teorinę vertę
o kairę lygties pusę pažymėdami f, gauname funkciją
iš nežinomų parametrų A Ir b. Vertybės A Ir b atitiks minimalią funkciją f ir randami iš dalinių diferencialinių lygčių
Ir
. Tai būtina sąlyga, tačiau teigiamai kvadratinei funkcijai tai taip pat yra pakankama sąlyga rasti A Ir b.

Iš dalinių išvestinių lygčių išveskime parametrų formules A Ir b:



gauname lygčių sistemą:

Kur
– aritmetinių vidurkių paklaidos.

Pakeitę skaitines reikšmes, randame parametrus A Ir b.

Yra koncepcija
. Tai yra apytikslis koeficientas.

Jeigu e < 33%, то модель приемлема для дальнейшего анализа;

Jeigu e> 33%, tada imame hiperbolę, parabolę ir kt. Tai suteikia teisę atlikti analizę įvairiose situacijose.

Išvada: pagal aproksimacijos koeficiento kriterijų tinkamiausia tiesė, kuriai

, ir jokia kita mūsų problemos regresijos linija neduoda minimalaus nuokrypio.

D) Kvadratinė vertinimo paklaida, tikrinant jų tipiškumą.

Kalbant apie populiaciją, kurioje tyrimo parametrų skaičius yra mažesnis nei 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Studento t testas. Taip apskaičiuojama tikroji vertė t- kriterijai:

Iš čia

Kur – liekamoji šaknies vidurkio kvadratinė paklaida. Gauta t a Ir t b palyginti su kritiniais t k iš Studento lentelės, atsižvelgiant į priimtą reikšmingumo lygį ( = 0,01 = 99% arba  = 0,05 = 95%). P = f = k 1 = m– tiriamos lygties parametrų skaičius (laisvės laipsnis). Pavyzdžiui, jei y = a + bx; m = 2, k 2 = f 2 = p 2 = n – (m+1), kur n– tirtų charakteristikų skaičius.

t a < t k < t b .

Išvada: naudojant tipiškumo patikrintos regresijos lygties parametrus, sukuriamas matematinis komunikacijos modelis
. Šiuo atveju analizėje naudojami matematinės funkcijos parametrai (tiesinė, hiperbolė, parabolė) gauna atitinkamas kiekybines reikšmes. Tokiu būdu gautų modelių semantinis turinys yra tas, kad jie apibūdina gautos charakteristikos vidutinę reikšmę
iš faktoriaus ženklo X.

D) Kreivinė regresija.

Gana dažnai kreivinis ryšys atsiranda, kai tarp kintamųjų nustatomas kintantis ryšys. Didėjimo (sumažėjimo) intensyvumas priklauso nuo X lygio. Yra įvairių tipų kreivinės priklausomybės. Pavyzdžiui, apsvarstykite ryšį tarp derliaus ir kritulių. Padidėjus kritulių kiekiui vienodomis gamtinėmis sąlygomis, intensyviai didėja derlius, bet iki tam tikros ribos. Pasibaigus kritiniam taškui, iškrenta per daug kritulių, o derlius katastrofiškai sumažėja. Pavyzdys rodo, kad iš pradžių santykiai buvo teigiami, o vėliau neigiami. Kritinis taškas yra optimalus atributo X lygis, atitinkantis didžiausią arba mažiausią atributo Y reikšmę.

Ekonomikoje toks ryšys pastebimas tarp kainos ir vartojimo, produktyvumo ir patirties.

Parabolinė priklausomybė.

Jei duomenys rodo, kad faktoriaus charakteristikos padidėjimas lemia gaunamos charakteristikos padidėjimą, tai antros eilės lygtis (parabolė) laikoma regresijos lygtimi.

. Koeficientai a,b,c randami iš dalinių diferencialinių lygčių:

Gauname lygčių sistemą:

Kreivinių lygčių tipai:

,

,

Turime teisę manyti, kad tarp darbo našumo ir atrankos testų rezultatų yra kreivinis ryšys. Tai reiškia, kad didėjant balų sistemai, našumas tam tikru lygiu pradės mažėti, todėl tiesus modelis gali pasirodyti kreivinis.

Trečiasis modelis bus hiperbolė, o visose lygtyse kintamasis x bus pakeistas išraiška .

REZULTATŲ IŠVADOS

8.3a lentelė.
Regresijos statistika
Daugiskaita R 0,998364
R kvadratas 0,99673
Normalizuotas R kvadratas 0,996321
Standartinė klaida 0,42405
Stebėjimai 10

Pirmiausia pažvelkime į viršutinę skaičiavimų dalį, pateiktą 8.3a lentelėje – regresijos statistiką.

R-kvadrato reikšmė, dar vadinama tikrumo matu, apibūdina gautos regresijos linijos kokybę. Ši kokybė išreiškiama pirminių duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikimo laipsniu. Tikrumo matas visada yra intervale.

Daugeliu atvejų R kvadrato reikšmė patenka tarp šių reikšmių, vadinamų kraštutinėmis reikšmėmis, t.y. tarp nulio ir vieneto.

Jei R kvadrato reikšmė yra artima vienetui, tai reiškia, kad sukurtas modelis paaiškina beveik visą atitinkamų kintamųjų kintamumą. Ir atvirkščiai, R kvadrato reikšmė artima nuliui reiškia, kad sukurto modelio kokybė yra prasta.

Mūsų pavyzdyje tikrumo matas yra 0,99673, o tai rodo labai gerą regresijos linijos atitikimą pradiniams duomenims.

Daugiskaita R- daugkartinis koreliacijos koeficientas R - išreiškia nepriklausomų kintamųjų (X) ir priklausomo kintamųjų (Y) priklausomybės laipsnį.

Keletas R yra lygus determinacijos koeficiento kvadratinei šaknis, šis dydis yra nuo nulio iki vieneto.

Atliekant paprastą tiesinės regresijos analizę, daugkartinis R yra lygus Pirsono koreliacijos koeficientui. Iš tiesų, kartotinis R mūsų atveju yra lygus Pirsono koreliacijos koeficientui iš ankstesnio pavyzdžio (0,998364).

8.3b lentelė.
Regresijos koeficientai Standartinė klaida Šansai
t-statistika 2,694545455 0,33176878 8,121757129
Y sankirta 2,305454545 0,04668634 49,38177965
Kintamasis X 1

* Pateikiamas sutrumpintas skaičiavimų variantas

Dabar apsvarstykite vidurinę skaičiavimų dalį, pateiktą 8.3b lentelėje. Čia pateikiamas regresijos koeficientas b (2,305454545) ir poslinkis išilgai ordinačių ašies, t.y. konstanta a (2,694545455).

Remdamiesi skaičiavimais, regresijos lygtį galime parašyti taip:

Y= x*2,305454545+2,694545455 Ryšio tarp kintamųjų kryptis nustatoma pagal ženklus (neigiamus arba teigiamus) regresijos koeficientai

(koeficientas b). Jei ženklas adresu regresijos koeficientas

(koeficientas b). Jei ženklas adresu- teigiamas, ryšys tarp priklausomo kintamojo ir nepriklausomo kintamojo bus teigiamas. Mūsų atveju regresijos koeficiento ženklas yra teigiamas, todėl ir ryšys yra teigiamas.

8.3c lentelėje. Pateikiami likučių išvedimo rezultatai. Kad šie rezultatai būtų rodomi ataskaitoje, paleidę įrankį „Regresija“ turite suaktyvinti žymės langelį „Likučiai“.

LIKUSIOJŲ ATSIĖMIMAS

8.3c lentelė.
Likučiai Stebėjimas Numatė Y Likučiai
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Standartiniai likučiai

Naudodamiesi šia ataskaitos dalimi, galime pamatyti kiekvieno taško nuokrypius nuo sukonstruotos regresijos linijos. Didžiausia absoliuti vertė

Statistiniame modeliavime regresinė analizė yra tyrimas, naudojamas santykiams tarp kintamųjų įvertinti. Šis matematinis metodas apima daugybę kitų kelių kintamųjų modeliavimo ir analizės metodų, kai dėmesys sutelkiamas į priklausomo kintamojo ir vieno ar kelių nepriklausomų kintamųjų ryšį. Tiksliau, regresinė analizė padeda suprasti, kaip keičiasi tipinė priklausomo kintamojo vertė, jei pasikeičia vienas iš nepriklausomų kintamųjų, o kiti nepriklausomi kintamieji lieka fiksuoti.

Visais atvejais tikslinis įvertis yra nepriklausomų kintamųjų funkcija ir vadinamas regresijos funkcija. Atliekant regresinę analizę, taip pat įdomu priklausomo kintamojo pokytį apibūdinti kaip regresijos funkciją, kurią galima apibūdinti naudojant tikimybių skirstinį.

Regresinės analizės problemos

Šis statistinio tyrimo metodas plačiai naudojamas prognozavimui, kur jo naudojimas turi didelį pranašumą, tačiau kartais gali sukelti iliuziją ar klaidingus ryšius, todėl šiuo klausimu rekomenduojama jį naudoti atsargiai, nes, pavyzdžiui, koreliacija nereiškia priežastinis ryšys.

Regresinė analizė, kaip statistinio tyrimo metodas, praktikoje priklauso nuo duomenų generavimo proceso formos ir nuo to, kaip ji yra susijusi su regresijos metodu. Kadangi tikroji duomenų proceso generavimo forma paprastai yra nežinomas skaičius, duomenų regresinė analizė dažnai tam tikru mastu priklauso nuo proceso prielaidų. Šias prielaidas kartais galima patikrinti, jei yra pakankamai duomenų. Regresijos modeliai dažnai yra naudingi net tada, kai prielaidos yra vidutiniškai pažeidžiamos, nors jie gali neveikti maksimaliai efektyviai.

Siauresne prasme regresija gali konkrečiai reikšti nuolatinių atsako kintamųjų įvertinimą, o ne klasifikuojant naudojamus atskirus atsako kintamuosius. Nuolatinis išvesties kintamojo atvejis taip pat vadinamas metrine regresija, siekiant atskirti jį nuo susijusių problemų.

Istorija

Ankstyviausia regresijos forma yra gerai žinomas mažiausių kvadratų metodas. Jį paskelbė Legendre 1805 m., o Gaussas 1809 m. Legendre ir Gaussas šį metodą taikė astronominių stebėjimų būdu nustatant kūnų orbitas aplink Saulę (daugiausia kometų, bet vėliau ir naujai atrastų mažųjų planetų). 1821 m. Gaussas paskelbė tolesnę mažiausių kvadratų teorijos plėtrą, įskaitant Gauso-Markovo teoremos versiją.

Terminą „regresija“ XIX amžiuje sukūrė Francisas Galtonas, norėdamas apibūdinti biologinį reiškinį. Idėja buvo ta, kad palikuonių ūgis nuo jų protėvių linkęs mažėti iki normalaus vidurkio. Galtonui regresija turėjo tik šią biologinę reikšmę, tačiau vėliau jo darbą tęsė Udney Yoley ir Karlas Pearsonas ir įtraukė į bendresnį statistinį kontekstą. Yule ir Pearsono darbuose manoma, kad bendras atsako ir aiškinamųjų kintamųjų pasiskirstymas yra Gauso. Šią prielaidą Fischeris atmetė 1922 ir 1925 m. Fišeris pasiūlė, kad sąlyginis atsako kintamojo pasiskirstymas yra Gauso, bet jungtinis pasiskirstymas nebūtinai turi būti. Šiuo atžvilgiu Fischerio pasiūlymas yra artimesnis Gauso formuluotei 1821 m. Iki 1970 m. regresinės analizės rezultato gavimas kartais užtrukdavo iki 24 valandų.

Regresinės analizės metodai ir toliau yra aktyvių tyrimų sritis. Pastaraisiais dešimtmečiais buvo sukurti nauji tvirtos regresijos metodai; regresijos, apimančios koreliuojamus atsakymus; regresijos metodai, pritaikyti įvairių tipų trūkstamiems duomenims; neparametrinė regresija; Bajeso regresijos metodai; regresijos, kuriose prognozuojamieji kintamieji matuojami su paklaida; regresija su daugiau prognozių nei stebėjimų ir priežasties ir pasekmės išvada su regresija.

Regresijos modeliai

Regresinės analizės modeliai apima šiuos kintamuosius:

  • Nežinomi parametrai, pažymėta beta versija, kuri gali būti skaliarinis arba vektorius.
  • Nepriklausomi kintamieji, X.
  • Priklausomi kintamieji, Y.

Įvairiose mokslo srityse, kuriose naudojama regresinė analizė, vietoj priklausomų ir nepriklausomų kintamųjų vartojami skirtingi terminai, tačiau visais atvejais regresijos modelis sieja Y su X ir β funkcija.

Aproksimacija paprastai rašoma E(Y | X) = F(X, β). Norint atlikti regresinę analizę, reikia nustatyti funkcijos f tipą. Rečiau jis grindžiamas žiniomis apie Y ir X ryšį, o tai nepriklauso nuo duomenų. Jeigu tokių žinių nėra, tuomet pasirenkama lanksti arba patogi F forma.

Priklausomas kintamasis Y

Tarkime, kad nežinomų parametrų vektorius β turi ilgį k. Norėdami atlikti regresinę analizę, vartotojas turi pateikti informaciją apie priklausomą kintamąjį Y:

  • Jei stebima N (Y, X) formos duomenų taškų, kur N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jei stebimas tiksliai N = K ir funkcija F yra tiesinė, tai lygtis Y = F(X, β) gali būti išspręsta tiksliai, o ne apytiksliai. Tai reiškia, kad reikia išspręsti N lygčių rinkinį su N nežinomaisiais (elementais β), kuris turi unikalų sprendimą, jei X yra tiesiškai nepriklausomas. Jei F yra netiesinis, sprendimo gali nebūti arba gali būti daug sprendimų.
  • Dažniausiai pasitaiko situacija, kai stebima N > duomenų taškų. Šiuo atveju duomenyse yra pakankamai informacijos, kad būtų galima įvertinti unikalią β vertę, kuri geriausiai atitinka duomenis, ir regresijos modelį, kuriame duomenų taikymas gali būti vertinamas kaip per daug apibrėžta β sistema.

Pastaruoju atveju regresinė analizė suteikia priemones, skirtas:

  • Rasti nežinomų parametrų β sprendimą, kuris, pavyzdžiui, sumažins atstumą tarp išmatuotos ir numatomos Y vertės.
  • Remiantis tam tikromis statistinėmis prielaidomis, regresinė analizė naudoja perteklinę informaciją, kad pateiktų statistinę informaciją apie nežinomus parametrus β ir numatomas priklausomo kintamojo Y vertes.

Reikalingas nepriklausomų matavimų skaičius

Apsvarstykite regresijos modelį, kuris turi tris nežinomus parametrus: β 0 , β 1 ir β 2 . Tarkime, kad eksperimentatorius atlieka 10 matavimų su ta pačia nepriklausomo kintamojo vektoriaus X verte. Šiuo atveju regresinė analizė nesukuria unikalaus reikšmių rinkinio. Geriausia, ką galite padaryti, tai įvertinti priklausomo kintamojo Y vidurkį ir standartinį nuokrypį. Panašiai, išmatuodami dvi skirtingas X reikšmes, galite gauti pakankamai duomenų regresijai su dviem nežinomaisiais, bet ne su trimis ar daugiau nežinomųjų.

Jei eksperimentuotojo matavimai buvo atlikti trimis skirtingomis nepriklausomo kintamojo vektoriaus X reikšmėmis, regresijos analizė pateiks unikalų trijų nežinomų parametrų įverčių rinkinį β.

Bendrosios tiesinės regresijos atveju aukščiau pateiktas teiginys yra lygiavertis reikalavimui, kad matrica X T X būtų apverčiama.

Statistinės prielaidos

Kai matavimų skaičius N yra didesnis už nežinomų parametrų skaičių k ir matavimo paklaidas ε i , tada, kaip taisyklė, matavimuose esanti perteklinė informacija išplatinama ir naudojama statistinėms prognozėms dėl nežinomų parametrų. Ši perteklinė informacija vadinama regresiniu laisvės laipsniu.

Pagrindinės prielaidos

Klasikinės regresinės analizės prielaidos yra šios:

  • Mėginių ėmimas reprezentuoja išvadų numatymą.
  • Klaidos terminas yra atsitiktinis dydis, kurio vidurkis yra nulis, kuris priklauso nuo aiškinamųjų kintamųjų.
  • Nepriklausomi kintamieji matuojami be klaidų.
  • Kaip nepriklausomi kintamieji (prognozatoriai), jie yra tiesiškai nepriklausomi, tai yra, neįmanoma išreikšti jokio prognozuotojo kaip kitų tiesinės kombinacijos.
  • Klaidos yra nekoreliuojamos, tai yra, įstrižainių ir kiekvieno nulinio elemento klaidų kovariacijos matrica yra klaidos dispersija.
  • Klaidos dispersija stebint yra pastovi (homoscedastiškumas). Jei ne, tada galima naudoti svertinius mažiausius kvadratus arba kitus metodus.

Šios pakankamos sąlygos mažiausių kvadratų įvertinimui turi reikiamas savybes, ypač šios prielaidos reiškia, kad parametrų įvertinimai bus objektyvūs, nuoseklūs ir veiksmingi, ypač kai į juos bus atsižvelgta tiesinių įverčių klasėje. Svarbu pažymėti, kad įrodymai retai tenkina sąlygas. Tai yra, metodas naudojamas, net jei prielaidos nėra teisingos. Skirtumas nuo prielaidų kartais gali būti naudojamas kaip modelio naudingumo matas. Daugelį šių prielaidų galima sušvelninti naudojant pažangesnius metodus. Į statistinės analizės ataskaitas paprastai įtraukiama imties duomenų testų analizė ir modelio naudingumo metodika.

Be to, kai kuriais atvejais kintamieji nurodo reikšmes, išmatuotas taškų vietose. Gali būti kintamųjų erdvinių tendencijų ir erdvinių autokoreliacijų, kurios pažeidžia statistines prielaidas. Geografinė svertinė regresija yra vienintelis metodas, nagrinėjantis tokius duomenis.

Linijinės regresijos ypatybė yra ta, kad priklausomasis kintamasis, kuris yra Yi, yra tiesinis parametrų derinys. Pavyzdžiui, paprasta tiesinė regresija naudoja vieną nepriklausomą kintamąjį x i ir du parametrus β 0 ir β 1 n-taškams modeliuoti.

Daugialypės tiesinės regresijos atveju yra keli nepriklausomi kintamieji arba jų funkcijos.

Kai iš populiacijos paimama atsitiktinė imtis, jos parametrai leidžia gauti imties tiesinės regresijos modelį.

Šiuo aspektu populiariausias yra mažiausių kvadratų metodas. Jis naudojamas norint gauti parametrų įverčius, kurie sumažina likučių kvadratų sumą. Toks šios funkcijos sumažinimas (būdingas tiesinei regresijai) lemia normaliųjų lygčių rinkinį ir tiesinių lygčių rinkinį su parametrais, kurie išsprendžiami norint gauti parametrų įverčius.

Darant prielaidą, kad populiacijos paklaida paprastai plinta, tyrėjas gali naudoti šiuos standartinių klaidų įverčius, kad sukurtų pasikliautinuosius intervalus ir atliktų hipotezės testus apie jos parametrus.

Netiesinė regresinė analizė

Pavyzdys, kai funkcija nėra tiesinė parametrų atžvilgiu, rodo, kad kvadratų suma turėtų būti sumažinta naudojant iteracinę procedūrą. Tai sukelia daug komplikacijų, kurios apibrėžia skirtumus tarp tiesinių ir netiesinių mažiausių kvadratų metodų. Vadinasi, regresinės analizės rezultatai, naudojant netiesinį metodą, kartais būna nenuspėjami.

Galios ir imties dydžio apskaičiavimas

Paprastai nėra nuoseklių metodų, susijusių su stebėjimų skaičiumi ir nepriklausomų modelio kintamųjų skaičiumi. Pirmąją taisyklę pasiūlė Dobra ir Hardinas ir ji atrodo taip: N = t^n, kur N yra imties dydis, n yra nepriklausomų kintamųjų skaičius, o t yra stebėjimų skaičius, kurio reikia norint pasiekti norimą tikslumą, jei modelis turėtų tik vienas nepriklausomas kintamasis. Pavyzdžiui, tyrėjas sukuria tiesinės regresijos modelį naudodamas duomenų rinkinį, kuriame yra 1000 pacientų (N). Jei tyrėjas nusprendžia, kad norint tiksliai apibrėžti tiesę (m), reikia penkių stebėjimų, didžiausias nepriklausomų kintamųjų, kuriuos modelis gali palaikyti, skaičius yra 4.

Kiti metodai

Nors regresijos modelio parametrai paprastai įvertinami naudojant mažiausių kvadratų metodą, yra ir kitų metodų, kurie naudojami daug rečiau. Pavyzdžiui, tai yra šie metodai:

  • Bajeso metodai (pavyzdžiui, Bajeso tiesinė regresija).
  • Procentinė regresija, naudojama situacijose, kai manoma, kad tikslingiau sumažinti procentines paklaidas.
  • Mažiausi absoliutūs nuokrypiai, kurie yra patikimesni, kai yra nuokrypių, lemiančių kvantinę regresiją.
  • Neparametrinė regresija, kuriai reikia daug stebėjimų ir skaičiavimų.
  • Nuotolinio mokymosi metrika, kuri išmokoma rasti prasmingą atstumo metriką tam tikroje įvesties erdvėje.

Programinė įranga

Visi pagrindiniai statistikos programinės įrangos paketai atlieka mažiausių kvadratų regresijos analizę. Kai kuriose skaičiuoklių programose ir kai kuriuose skaičiuotuvuose galima naudoti paprastą tiesinę regresiją ir daugybinę regresijos analizę. Nors daugelis statistinės programinės įrangos paketų gali atlikti įvairaus tipo neparametrinę ir patikimą regresiją, šie metodai yra mažiau standartizuoti; skirtingi programinės įrangos paketai įgyvendina skirtingus metodus. Sukurta specializuota regresijos programinė įranga, skirta naudoti tokiose srityse kaip tyrimo analizė ir neurovaizdavimas.

Koreliacijos ir regresijos sąvokos yra tiesiogiai susijusios. Yra daug bendrų koreliacinės ir regresinės analizės skaičiavimo metodų. Jie naudojami priežasties ir pasekmės ryšiams tarp reiškinių ir procesų nustatyti. Tačiau jei koreliacinė analizė leidžia įvertinti stochastinio ryšio stiprumą ir kryptį, tada regresinė analizė- taip pat priklausomybės forma.

Regresija gali būti:

a) priklausomai nuo reiškinių (kintamųjų) skaičiaus:

Paprasta (regresija tarp dviejų kintamųjų);

Keli (regresija tarp priklausomo kintamojo (y) ir kelių aiškinamųjų kintamųjų (x1, x2...xn);

b) priklausomai nuo formos:

Tiesinis (rodomas tiesine funkcija, o tarp tiriamų kintamųjų yra tiesinių ryšių);

Netiesinis (rodomas netiesine funkcija; ryšys tarp tiriamų kintamųjų yra netiesinis);

c) dėl ryšio tarp kintamųjų, įtrauktų į atlygį, pobūdžio:

Teigiamas (aiškinamojo kintamojo reikšmės padidėjimas lemia priklausomo kintamojo vertės padidėjimą ir atvirkščiai);

Neigiamas (didėjant aiškinamojo kintamojo reikšmei, paaiškinamo kintamojo reikšmė mažėja);

d) pagal tipą:

Tiesioginis (šiuo atveju priežastis turi tiesioginę įtaką poveikiui, t. y. priklausomi ir aiškinamieji kintamieji yra tiesiogiai susiję vienas su kitu);

Netiesioginis (aiškinamasis kintamasis daro netiesioginį poveikį priklausomam kintamajam per trečią ar daugybę kitų kintamųjų);

Klaidinga (nesąmonė regresija) – gali atsirasti paviršutiniškai ir formaliai žiūrint į tiriamus procesus ir reiškinius. Nesąmoningo pavyzdys – regresija, nustatanti ryšį tarp sumažėjusio mūsų šalyje suvartojamo alkoholio kiekio ir sumažėjusio skalbimo miltelių pardavimo.

Atliekant regresinę analizę, išsprendžiamos šios pagrindinės užduotys:

1. Priklausomybės formos nustatymas.

2. Regresijos funkcijos apibrėžimas. Tam naudojama vieno ar kito tipo matematinė lygtis, kuri leidžia, pirma, nustatyti bendrą priklausomo kintamojo kitimo tendenciją ir, antra, apskaičiuoti aiškinamojo kintamojo (ar kelių kintamųjų) įtaką priklausomas kintamasis.

3. Priklausomo kintamojo nežinomų reikšmių įvertinimas. Gautas matematinis ryšys (regresijos lygtis) leidžia nustatyti priklausomo kintamojo vertę tiek nurodytų aiškinamųjų kintamųjų verčių intervale, tiek už jo ribų. Pastaruoju atveju regresinė analizė veikia kaip naudinga priemonė prognozuojant socialinių ir ekonominių procesų ir reiškinių pokyčius (su sąlyga, kad išlaikomos esamos tendencijos ir ryšiai). Paprastai prognozavimo laikotarpio trukmė pasirenkama ne daugiau kaip pusė laiko intervalo, per kurį buvo atlikti pradinių rodiklių stebėjimai. Galima atlikti ir pasyvią prognozę, sprendžiant ekstrapoliacijos problemą, ir aktyvią, samprotaujant pagal gerai žinomą „jei..., tai“ schemą ir įvairias reikšmes pakeičiant į vieną ar daugiau aiškinamųjų regresijos kintamųjų. .



regresinė konstrukcija specialus metodas, vadinamas mažiausių kvadratų metodas. Šis metodas turi pranašumų prieš kitus išlyginimo būdus: gana paprastas matematinis reikalingų parametrų nustatymas ir geras teorinis pagrindimas tikimybiniu požiūriu.

Renkantis regresijos modelį, vienas esminių jam keliamų reikalavimų – užtikrinti kuo didesnį paprastumą, leidžiantį gauti pakankamai tiksliai sprendimą. Todėl, norėdami nustatyti statistinius ryšius, pirmiausia, kaip taisyklė, laikome modelį iš tiesinių funkcijų klasės (kaip paprasčiausią iš visų galimų funkcijų klasių):

čia bi, b2...bj yra koeficientai, lemiantys nepriklausomų kintamųjų xij įtaką reikšmei yi; ai – laisvas narys; ei - atsitiktinis nuokrypis, kuris atspindi neapskaitytų veiksnių įtaką priklausomam kintamajam; n - nepriklausomų kintamųjų skaičius; N yra stebėjimų skaičius ir turi būti įvykdyta sąlyga (N . n+1).

Linijinis modelis gali apibūdinti labai plačią įvairių problemų klasę. Tačiau praktikoje, ypač socialinėse ir ekonominėse sistemose, kartais sunku naudoti tiesinius modelius dėl didelių aproksimavimo klaidų. Todėl dažnai naudojamos netiesinės daugybinės regresijos funkcijos, kurias galima tiesinti. Tai apima, pavyzdžiui, gamybos funkciją (Cobb-Douglas galios funkciją), kuri buvo pritaikyta įvairiuose socialiniuose ir ekonominiuose tyrimuose. Tai atrodo taip:

kur b 0 – normalizavimo koeficientas, b 1 ...b j – nežinomi koeficientai, e i – atsitiktinis nuokrypis.

Naudodami natūralius logaritmus, šią lygtį galite paversti tiesine forma:

Gautas modelis leidžia naudoti aukščiau aprašytas standartines tiesinės regresijos procedūras. Sudarydami dviejų tipų modelius (adityvus ir dauginamasis), galite pasirinkti geriausią ir atlikti tolesnius tyrimus su mažesnėmis aproksimavimo paklaidomis.

Yra gerai išvystyta apytikslių funkcijų pasirinkimo sistema - grupinio argumentų apskaitos metodas(MGUA).

Pasirinkto modelio teisingumą galima spręsti pagal likučių tyrimo rezultatus, kurie yra skirtumai tarp stebimų verčių y i ir atitinkamų verčių y i, numatytų naudojant regresijos lygtį. Šiuo atveju patikrinti modelio tinkamumą apskaičiuotas vidutinė apytikslė paklaida:

Modelis laikomas tinkamu, jei e yra ne daugiau kaip 15%.

Ypač pabrėžiame, kad socialinių ir ekonominių sistemų atžvilgiu ne visada tenkinamos pagrindinės klasikinio regresijos modelio adekvatumo sąlygos.

Neapsistodami ties visomis iškylančio netinkamumo priežastimis, tik įvardinsime daugiakolineariškumas- sunkiausia efektyvaus regresinės analizės procedūrų taikymo statistinių priklausomybių tyrime problema. Pagal daugiakolineariškumas suprantama, kad tarp aiškinamųjų kintamųjų yra tiesinis ryšys.

Šis reiškinys:

a) iškraipo regresijos koeficientų reikšmę juos interpretuodamas prasmingai;

b) sumažina vertinimo tikslumą (padidėja vertinimų sklaida);

c) padidina koeficientų įverčių jautrumą imties duomenims (imties dydžio padidinimas gali labai paveikti įverčius).

Yra įvairių būdų, kaip sumažinti daugiakolineariškumą. Labiausiai prieinamas būdas yra pašalinti vieną iš dviejų kintamųjų, jei koreliacijos koeficientas tarp jų viršija vertę, lygią absoliučiai 0,8. Kurį iš kintamųjų pasilikti, sprendžiama remiantis esminiais sumetimais. Tada vėl apskaičiuojami regresijos koeficientai.

Laipsniško regresijos algoritmo naudojimas leidžia nuosekliai įtraukti į modelį vieną nepriklausomą kintamąjį ir analizuoti regresijos koeficientų reikšmę bei kintamųjų daugiakolineariškumą. Galiausiai tiriamame ryšyje lieka tik tie kintamieji, kurie suteikia reikiamą regresijos koeficientų reikšmę ir minimalią daugiakolineariškumo įtaką.

Regresinė analizė – tai išmatuotų duomenų modeliavimo ir jų savybių tyrimo metodas. Duomenys susideda iš priklausomo kintamojo (atsakymo kintamojo) ir nepriklausomo kintamojo (aiškinamojo kintamojo) reikšmių porų. Regresijos modelis yra nepriklausomo kintamojo ir parametrų su pridėtu atsitiktiniu dydžiu funkcija.

Koreliacinė analizė ir regresinė analizė yra susijusios matematinės statistikos skyriai ir yra skirti daugelio dydžių statistinei priklausomybei tirti naudojant imties duomenis; kai kurie iš jų yra atsitiktiniai. Esant statistinei priklausomybei, dydžiai nėra funkciškai susiję, bet yra apibrėžiami kaip atsitiktiniai dydžiai pagal bendrą tikimybių skirstinį.

Atsitiktinių dydžių priklausomybės tyrimas lemia regresijos modelius ir regresinę analizę, pagrįstą imties duomenimis. Tikimybių teorija ir matematinė statistika yra tik statistinės priklausomybės tyrimo įrankis, tačiau nesiekia nustatyti priežastinio ryšio. Idėjos ir hipotezės apie priežastinį ryšį turi būti paimtos iš kitos teorijos, leidžiančios prasmingai paaiškinti tiriamą reiškinį.

Skaitiniai duomenys paprastai turi aiškius (žinomus) arba numanomus (paslėptus) ryšius vienas su kitu.

Rodikliai, kurie gaunami tiesioginiais skaičiavimo metodais, t. y. apskaičiuojami pagal anksčiau žinomas formules, yra aiškiai susiję. Pavyzdžiui, plano įvykdymo procentai, lygiai, specifiniai svoriai, sumos nuokrypiai, procentų nuokrypiai, augimo tempai, augimo tempai, indeksai ir kt.

Antrojo tipo (numanomos) jungtys iš anksto nežinomos. Tačiau norint juos valdyti, būtina mokėti paaiškinti ir numatyti (prognozuoti) sudėtingus reiškinius. Todėl specialistai, pasitelkę stebėjimus, siekia nustatyti paslėptas priklausomybes ir jas išreikšti formulių pavidalu, tai yra matematiškai modeliuoti reiškinius ar procesus. Vieną iš tokių galimybių suteikia koreliacinė regresinė analizė.

Matematiniai modeliai yra sukurti ir naudojami trims bendriems tikslams:

  • * už paaiškinimą;
  • * prognozavimui;
  • * valdymui.

Naudodami koreliacinės ir regresinės analizės metodus, analitikai matuoja ryšių tarp rodiklių glaudumą naudodami koreliacijos koeficientą. Tokiu atveju atrandamos skirtingo stiprumo (stiprios, silpnos, vidutinės ir kt.) ir skirtingos krypties (tiesioginės, atvirkštinės) jungtys. Jeigu ryšiai pasirodytų reikšmingi, tuomet būtų patartina rasti jų matematinę išraišką regresijos modelio forma ir įvertinti modelio statistinį reikšmingumą.

Regresinė analizė vadinama pagrindiniu šiuolaikinės matematinės statistikos metodu, leidžiančiu nustatyti numanomus ir užslėptus ryšius tarp stebėjimo duomenų.

Regresinės analizės problemos teiginys suformuluotas taip.

Yra stebėjimo rezultatų rinkinys. Šiame rinkinyje vienas stulpelis atitinka rodiklį, kuriam būtina nustatyti funkcinį ryšį su objekto ir aplinkos parametrais, kuriuos reprezentuoja likę stulpeliai. Būtina: nustatyti kiekybinį rodiklio ir veiksnių ryšį. Šiuo atveju regresinės analizės problema suprantama kaip uždavinys nustatyti tokią funkcinę priklausomybę y = f (x2, x3, ..., xт), kuri geriausiai apibūdina turimus eksperimentinius duomenis.

Prielaidos:

stebėjimų skaičius yra pakankamas, kad būtų galima parodyti statistinius veiksnius ir jų ryšius;

apdorojamuose duomenyse yra tam tikrų paklaidų (triukšmo) dėl matavimo klaidų ir neatsižvelgtų atsitiktinių veiksnių įtakos;

stebėjimo rezultatų matrica yra vienintelė informacija apie tiriamą objektą, kuri turima iki tyrimo pradžios.

Funkcija f (x2, x3, ..., xт), nusakanti rodiklio priklausomybę nuo parametrų, vadinama regresijos lygtimi (funkcija). Terminas „regresija“ (regresija (lot.) - atsitraukti, sugrįžti prie kažko) yra susijęs su vienos iš specifinių problemų, išspręstų metodo formavimo etape, specifika.

Regresinės analizės uždavinio sprendimą patartina suskirstyti į kelis etapus:

išankstinis duomenų apdorojimas;

regresijos lygčių tipo pasirinkimas;

regresijos lygties koeficientų skaičiavimas;

sukonstruotos funkcijos adekvatumo stebėjimo rezultatams tikrinimas.

Išankstinis apdorojimas apima duomenų matricos standartizavimą, koreliacijos koeficientų apskaičiavimą, jų reikšmingumo patikrinimą ir nereikšmingų parametrų pašalinimą iš svarstymo.

Regresijos lygties tipo pasirinkimas Norint nustatyti funkcinį ryšį, kuris geriausiai apibūdina duomenis, reikia įveikti keletą esminių sunkumų. Bendruoju atveju standartizuotiems duomenims funkcinė indikatoriaus priklausomybė nuo parametrų gali būti pavaizduota kaip

y = f (x1, x2, …, xm) + e

kur f yra anksčiau nežinoma funkcija, kurią reikia nustatyti;

e – duomenų aproksimacijos klaida.

Ši lygtis paprastai vadinama imties regresijos lygtimi. Ši lygtis apibūdina ryšį tarp rodiklio kitimo ir veiksnių kitimo. O koreliacijos matas matuoja rodiklio kitimo proporciją, susijusią su veiksnių svyravimais. Kitaip tariant, rodiklio ir veiksnių koreliacija negali būti interpretuojama kaip ryšys tarp jų lygių, o regresinė analizė nepaaiškina veiksnių vaidmens kuriant rodiklį.

Kitas bruožas yra susijęs su kiekvieno veiksnio įtakos rodikliui laipsnio įvertinimu. Regresijos lygtis nepateikia kiekvieno veiksnio atskiros įtakos rodikliui toks vertinimas galimas tik tuo atveju, kai visi kiti veiksniai nėra susiję su tiriamuoju. Jei tiriamas veiksnys yra susijęs su kitais, turinčiais įtakos rodikliui, tada bus gauta mišri faktoriaus įtakos charakteristika. Ši charakteristika apima tiek tiesioginę veiksnio įtaką, tiek netiesioginę įtaką, daromą per ryšį su kitais veiksniais ir jų įtaką rodikliui.

Nerekomenduojama į regresijos lygtį įtraukti veiksnius, kurie yra silpnai susiję su rodikliu, bet yra glaudžiai susiję su kitais veiksniais. Veiksniai, kurie yra funkciškai susiję vienas su kitu, į lygtį neįtraukiami (jiems koreliacijos koeficientas yra 1). Tokių veiksnių įtraukimas veda prie regresijos koeficientų įvertinimo lygčių sistemos išsigimimo ir sprendimo neapibrėžtumo.

Funkcija f turi būti parinkta taip, kad paklaida e tam tikra prasme būtų minimali. Norint pasirinkti funkcinį ryšį, iš anksto iškeliama hipotezė, kuriai klasei gali priklausyti funkcija f, tada parenkama „geriausia“ šios klasės funkcija. Pasirinkta funkcijų klasė turi turėti tam tikrą „glotnumą“, t.y. „maži“ argumentų reikšmių pokyčiai turėtų sukelti „mažus“ funkcijų reikšmių pokyčius.

Ypatingas atvejis, plačiai naudojamas praktikoje, yra pirmojo laipsnio daugianario arba tiesinės regresijos lygtis

Norint pasirinkti funkcinės priklausomybės tipą, galima rekomenduoti tokį metodą:

taškai su indikatorių reikšmėmis grafiškai rodomi parametrų erdvėje. Turint daug parametrų, kiekvienam iš jų galima konstruoti taškus, gaunant dvimačius reikšmių skirstinius;

remiantis taškų išsidėstymu ir remiantis rodiklio ir objekto parametrų ryšio esmės analize, daroma išvada apie apytikslį regresijos tipą arba galimus jo variantus;

Apskaičiavus parametrus, įvertinama aproksimacijos kokybė, t.y. įvertinti apskaičiuotų ir faktinių verčių panašumo laipsnį;

jei apskaičiuotos ir faktinės vertės yra artimos visoje užduočių srityje, regresinės analizės problema gali būti laikoma išspręsta. Kitu atveju galite pabandyti pasirinkti kitokį daugianario tipą arba kitą analitinę funkciją, pavyzdžiui, periodinę.

Regresijos lygties koeficientų skaičiavimas

Neįmanoma vienareikšmiškai išspręsti lygčių sistemos remiantis turimais duomenimis, nes nežinomųjų skaičius visada yra didesnis už lygčių skaičių. Norint išspręsti šią problemą, reikia papildomų prielaidų. Sveikas protas diktuoja: polinomo koeficientus patartina parinkti taip, kad būtų užtikrinta minimali duomenų aproksimacijos paklaida. Apytikslėms paklaidoms įvertinti gali būti naudojamos įvairios priemonės. Kaip tokia priemonė plačiai naudojama vidutinė kvadratinė paklaida. Jos pagrindu sukurtas specialus regresijos lygčių koeficientų įvertinimo metodas – mažiausių kvadratų metodas (LSM). Šis metodas leidžia gauti maksimalų nežinomų regresijos lygties koeficientų tikimybės įverčius pagal normalaus pasiskirstymo parinktį, tačiau jis gali būti naudojamas bet kokiam kitam veiksnių pasiskirstymui.

MNC grindžiamas šiomis nuostatomis:

klaidų ir veiksnių reikšmės yra nepriklausomos, todėl nekoreliuojamos, t.y. daroma prielaida, kad trukdžių generavimo mechanizmai nėra susiję su faktorių verčių generavimo mechanizmu;

paklaidos e matematinis lūkestis turi būti lygus nuliui (pastovioji dedamoji įtraukiama į koeficientą a0), kitaip tariant, paklaida yra centruotas dydis;

imties paklaidos dispersijos įvertinimas turėtų būti minimalus.

Jei tiesinis modelis yra netikslus arba parametrai išmatuoti netiksliai, tai šiuo atveju mažiausių kvadratų metodas leidžia rasti tokias koeficientų reikšmes, kurioms esant tiesinis modelis geriausiai apibūdina realų objektą pasirinkto standartinio nuokrypio prasme. kriterijus.

Gautos regresijos lygties kokybė vertinama pagal rodiklio stebėjimų rezultatų ir regresijos lygties nuspėjamų verčių artumo laipsnį tam tikruose parametrų erdvės taškuose. Jei rezultatai artimi, regresinės analizės problema gali būti laikoma išspręsta. Priešingu atveju turėtumėte pakeisti regresijos lygtį ir pakartoti skaičiavimus, kad įvertintumėte parametrus.

Jei yra keli rodikliai, regresinės analizės problema sprendžiama atskirai kiekvienam iš jų.

Analizuojant regresijos lygties esmę, reikėtų atkreipti dėmesį į šiuos dalykus. Nagrinėjamas metodas nenumato atskiro (nepriklausomo) koeficientų vertinimo - vieno koeficiento vertės pasikeitimas reiškia kitų verčių pasikeitimą. Gauti koeficientai neturėtų būti laikomi atitinkamo parametro indėliu į rodiklio reikšmę. Regresijos lygtis yra tik geras turimų duomenų analitinis aprašymas, o ne dėsnis, apibūdinantis ryšį tarp parametrų ir rodiklio. Ši lygtis naudojama rodiklio reikšmėms apskaičiuoti tam tikrame parametrų diapazone. Jis yra ribotai tinkamas skaičiavimams už šio diapazono ribų, t.y. ji gali būti naudojama sprendžiant interpoliacijos problemas ir ribotai – ekstrapoliacijai.

Pagrindinė prognozės netikslumo priežastis yra ne tiek regresijos tiesės ekstrapoliacijos neapibrėžtumas, kiek reikšmingas rodiklio kitimas dėl veiksnių, į kuriuos modelyje neatsižvelgta. Prognozavimo galimybių apribojimas yra parametrų, į kuriuos neatsižvelgta modelyje, stabilumo sąlyga ir modelio veiksnių, į kuriuos atsižvelgiama, įtakos pobūdis. Jei išorinė aplinka smarkiai pasikeis, tada sudaryta regresijos lygtis neteks prasmės.

Prognozė, gauta regresijos lygtyje pakeitus parametro laukiamą reikšmę, yra taškas. Tikimybė, kad tokia prognozė išsipildys, yra nereikšminga. Patartina nustatyti prognozės pasikliautinąjį intervalą. Atskirų rodiklio verčių intervale turėtų būti atsižvelgiama į regresijos linijos padėties klaidas ir atskirų verčių nukrypimus nuo šios linijos.



Ar jums patiko straipsnis? Pasidalinkite su draugais!