Kriterijaus aproksimacijos klaida. Regresinio modeliavimo rezultatų statistinio patikimumo įvertinimas Fišerio F testu

5. Naudojant F testą, nustatyta, kad gauta suporuota regresijos lygtis, kaip visuma, yra statistiškai nereikšminga, ir nepakankamai apibūdina tiriamą mėnesinės pensijos reikšmės y ir pragyvenimo išlaidų x ryšio reiškinį.

6. Sukurtas ekonometrinis daugkartinės tiesinės regresijos modelis, susiejantis sąlyginės įmonės y grynųjų pajamų dydį su kapitalo apyvarta x1 ir panaudotu kapitalu x2

7. Skaičiuojant elastingumo koeficientus parodoma, kad kapitalo apyvartai pasikeitus 1%, įmonės grynųjų pajamų dydis pakinta 0,0008%, o panaudotam kapitalui kintant 1%, įmonės grynųjų pajamų dydis. keičiasi 0,56 proc.

8. Taikant t-testą, buvo įvertintas regresijos koeficientų statistinis reikšmingumas. Nustatyta, kad aiškinamasis kintamasis x 1 yra statistiškai nereikšmingas ir gali būti pašalintas iš regresijos lygties, tuo tarpu aiškinamasis kintamasis x 2 yra. statistiškai reikšmingas.

9. Taikant F testą nustatyta, kad gauta suporuota regresijos lygtis kaip visuma yra statistiškai reikšminga, ir adekvačiai apibūdina tiriamą sąlyginės įmonės y grynųjų pajamų vertės ir kapitalo apyvartos x 1 ryšio reiškinį. ir panaudotas kapitalas x 2.

10. Apskaičiuota vidutinė statistinių duomenų aproksimavimo tiesinės dauginės regresijos lygtimi paklaida, kuri sudarė 29,8%. Parodyta, dėl kurio stebėjimo statistinėje duomenų bazėje šios paklaidos dydis viršija leistiną reikšmę.

14. Suporuotos regresijos modelio kūrimas nenaudojant EXCEL.

Naudojant 3.5 lentelėje pateiktą statistinę medžiagą, būtina:

2. Įvertinti ryšio glaudumą naudojant koreliacijos ir determinacijos rodiklius.

3. Naudodami elastingumo koeficientą, nustatykite ryšio laipsnį tarp faktoriaus charakteristikos ir gaunamos.

4. Nustatykite vidutinę aproksimacijos paklaidą.

5. Įvertinti modeliavimo statistinį patikimumą naudojant Fišerio F testą.

3.5 lentelė. Pradiniai duomenys.

Piniginių pajamų, skirtų santaupoms indėliams, paskoloms, sertifikatams didinti ir užsienio valiutai įsigyti, dalis bendroje vidutinių grynųjų pinigų pajamoje vienam gyventojui, proc.

Vidutinis mėnesinis priskaičiuotas darbo užmokestis, c.u.

Kalužskaja

Kostromskaja

Orlovskaja

Riazanė

Smolenskaja

Norėdami nustatyti porinės tiesinės regresijos lygties nežinomus parametrus b 0 , b 1, naudojame standartinę normaliųjų lygčių sistemą, kurios formą

(3.7)

Norint išspręsti šią sistemą, pirmiausia reikia nustatyti Sx 2 ir Sxy reikšmes. Šios reikšmės nustatomos iš šaltinio duomenų lentelės, ją papildant atitinkamais stulpeliais (3.6 lentelė).

3.6 lentelė. Regresijos koeficientų skaičiavimo link.

Tada sistema (3.7) įgauna formą

Išreiškę b 0 iš pirmosios lygties ir pakeisdami gautą išraišką į antrąją lygtį, gauname:

Atlikdami daugybą po termino ir atidarę skliaustus, gauname:

Galiausiai suporuota tiesinės regresijos lygtis, jungianti gyventojų piniginių pajamų dalies, skirtos santaupoms y padidinti, vertę su vidutiniu mėnesiniu sukauptu darbo užmokesčiu x, yra tokia:

Taigi, sudarydami porinės tiesinės regresijos lygtį, nustatome tiesinės koreliacijos koeficientą pagal priklausomybę:

kur yra atitinkamų parametrų standartinių nuokrypių vertės.

Norėdami apskaičiuoti tiesinės koreliacijos koeficientą iš priklausomybės (3.9), atliekame tarpinius skaičiavimus.

Rastų parametrų reikšmes pakeisdami į išraišką (3.9), gauname

.

Gauta tiesinės koreliacijos koeficiento reikšmė rodo, kad yra silpnas atvirkštinis statistinis ryšys tarp gyventojų piniginių pajamų dalies, skirtos santaupoms y didinti, ir vidutinio mėnesinio priskaičiuoto darbo užmokesčio x dydžio.

Determinacijos koeficientas yra , o tai reiškia, kad tik 9,6 % paaiškinama regresuojant aiškinamąjį kintamąjį x ant y. Atitinkamai, reikšmė 1, lygi 90,4%, apibūdina kintamojo y dispersijos dalį, kurią sukelia visų kitų aiškinamųjų kintamųjų, į kuriuos neatsižvelgta ekonometriniame modelyje, įtaka.

Tamprumo koeficientas yra

Vadinasi, vidutiniam mėnesiniam priskaičiuotam darbo užmokesčiui kintant 1 proc., 1 proc. mažėja ir gyventojų piniginių pajamų, skirtų santaupoms didinti, dalis, o didėjant darbo užmokesčiui mažėja ir gyventojų grynųjų pinigų dalis. gyventojų, siekiančių didinti santaupas. Ši išvada prieštarauja sveikam protui ir gali būti paaiškinta tik sugeneruoto matematinio modelio neteisingumu.

Apskaičiuokime vidutinę aproksimacijos paklaidą.

3.7 lentelė. Vidutinės aproksimacijos paklaidos apskaičiavimo link.

Gauta reikšmė viršija (12...15)%, kas rodo apskaičiuotų duomenų vidutinio nuokrypio nuo faktinių duomenų, kuriais remiantis buvo sudarytas ekonometrinis modelis, reikšmingumą.

Statistinio modeliavimo patikimumas bus atliktas remiantis Fišerio F testu. Fišerio kriterijaus F calc teorinė vertė nustatoma iš koeficiento ir liekamųjų dispersijų verčių santykio, apskaičiuoto vienam laisvės laipsniui pagal formulę

čia n yra stebėjimų skaičius;

m – aiškinamųjų kintamųjų skaičius (nagrinėjamam pavyzdžiui m m =1).

Kritinė reikšmė F crit nustatoma iš statistinių lentelių, o reikšmingumo lygiui a = 0,05 yra lygus 10,13. Kadangi F apskaičiavo

15. Daugialypės regresijos modelio kūrimas nenaudojant EXCEL.

Naudodami statistinę medžiagą, pateiktą 3.8 lentelėje, turite:

1. Sukonstruoti tiesinę dauginės regresijos lygtį ir paaiškinti jos parametrų ekonominę reikšmę.

2. Pateikite lyginamąjį veiksnių ir gauto požymio ryšio glaudumo įvertinimą, naudodami vidutinius (bendruosius) elastingumo koeficientus.

3. Įvertinti regresijos koeficientų statistinį reikšmingumą naudojant t-testą ir nulinę hipotezę apie lygties nereikšmiškumą naudojant F-testą.

4. Įvertinkite lygties kokybę nustatydami vidutinę aproksimacijos paklaidą.

3.8 lentelė. Pradiniai duomenys.

Grynosios pajamos, milijonai JAV dolerių

Kapitalo apyvarta, milijonai JAV dolerių

Panaudotas kapitalas, mln JAV dolerių

Daugialypės tiesinės regresijos lygties nežinomiems parametrams b 0 , b 1 , b 2 nustatyti naudojame standartinę normaliųjų lygčių sistemą, kurios formą

(3.11)

Norint išspręsti šią sistemą, pirmiausia reikia nustatyti dydžių Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2 reikšmes. Šios reikšmės nustatomos iš šaltinio duomenų lentelės, ją papildant atitinkamais stulpeliais (3.9 lentelė).

3.9 lentelė. Regresijos koeficientų skaičiavimo link.

Tada sistema (3.11) įgauna formą

Norėdami išspręsti šią sistemą, naudosime Gauso metodą, kuris susideda iš nuoseklaus nežinomųjų pašalinimo: pirmąją sistemos lygtį padalinkite iš 10, tada gautą lygtį padauginkite iš 370,6 ir atimkite ją iš antrosios sistemos lygties, tada padauginkite gautą lygtį iš 158,20 ir atimkite ją iš trečiosios sistemos lygties. Kartodami nurodytą algoritmą transformuotoms antrajai ir trečiajai sistemos lygtims, gauname:

Þ Þ

Þ .

Po transformacijos turime:

Tada galutinė grynųjų pajamų priklausomybė nuo kapitalo apyvartos ir kapitalo, naudojama tiesinės daugkartinės regresijos lygties forma, yra tokia:

Iš gautos ekonometrinės lygties aišku, kad didėjant panaudotam kapitalui grynosios pajamos didėja ir, atvirkščiai, didėjant kapitalo apyvartai, grynosios pajamos mažėja. Be to, kuo didesnis regresijos koeficientas, tuo didesnė aiškinamojo kintamojo įtaka priklausomam kintamajam. Nagrinėjamame pavyzdyje regresijos koeficiento reikšmė yra didesnė už koeficiento reikšmę, todėl panaudotas kapitalas turi žymiai didesnę įtaką grynosioms pajamoms nei kapitalo apyvarta. Norėdami kiekybiškai įvertinti šią išvadą, nustatysime dalinio elastingumo koeficientus.

Rezultatų analizė taip pat rodo, kad panaudotas kapitalas turi didesnę įtaką grynosioms pajamoms. Taigi, ypač padidinus naudojamą kapitalą 1%, grynosios pajamos padidėja 1,17%. Tuo pačiu metu, kapitalo apyvartai padidėjus 1 proc., grynosios pajamos mažėja 0,5 proc.

Fišerio kriterijaus F teorinė vertė skaičiuot.

Kritinės reikšmės F crit reikšmė nustatoma iš statistinių lentelių ir, kai reikšmingumo lygis a = 0,05, yra lygus 4,74. Kadangi F calc > F crit, nulinė hipotezė atmetama ir gauta regresijos lygtis pripažįstama statistiškai reikšminga.

Vertinant regresijos koeficientų ir t kriterijaus statistinį reikšmingumą, reikia palyginti šių koeficientų skaitines vertes su jų atsitiktinių paklaidų dydžiu ir pagal ryšį:

Darbo formulė teorinei t statistikos vertei apskaičiuoti yra tokia:

, (3.13)

kur poros koreliacijos koeficientai ir daugkartinės koreliacijos koeficientai apskaičiuojami iš priklausomybių:

Tada teorinės (apskaičiuotos) t statistikos reikšmės yra atitinkamai lygios:

Kadangi kritinė t statistikos reikšmė, nustatyta iš statistinių lentelių, kai reikšmingumo lygis a = 0,05 lygus t crit = 2,36, absoliučia reikšme yra didesnė nei = - 1,798, tada nulinė hipotezė neatmetama ir aiškinamasis kintamasis x 1 yra statistiškai nereikšmingas ir jį galima neįtraukti į regresijos lygtį. Ir atvirkščiai, antrajam regresijos koeficientui > t crit (3,3 > 2,36), o aiškinamasis kintamasis x 2 yra statistiškai reikšmingas.

Apskaičiuokime vidutinę aproksimacijos paklaidą.

3.10 lentelė. Vidutinės aproksimacijos paklaidos apskaičiavimo link.

Tada vidutinė aproksimacijos paklaida yra

Gauta vertė neviršija leistinos ribos, lygios (12…15)%.

16. Matavimo teorijos raidos istorija

TI pirmiausia buvo sukurta kaip psichofizinių matavimų teorija. Pokario leidiniuose amerikiečių psichologas S.S. Stevensas sutelkė dėmesį į matavimo skales. XX amžiaus antroje pusėje. TI taikymo sritis sparčiai plečiasi. Vienas iš šeštojo dešimtmečio JAV išleistų „Psichologijos mokslų enciklopedijos“ tomų vadinosi „Psichologiniai matavimai“. Šio leidinio autoriai išplėtė TI taikymo sritį nuo psichofizikos iki psichologijos apskritai. Šio rinkinio straipsnyje „Matavimo teorijos pagrindai“ pristatymas buvo abstraktaus matematinio lygmens, nenurodant jokios konkrečios taikymo srities. Jame buvo akcentuojamas „empirinių sistemų homomorfizmas su ryšiais į skaitinius“ (čia nereikia gilintis į šiuos matematinius terminus), matematinis pateikimo sudėtingumas, palyginti su S. S. darbais, išaugo. Stevensas.

Viename iš pirmųjų vidaus straipsnių apie TI (60-ųjų pabaigoje) buvo nustatyta, kad balai, kuriuos ekspertai skiria vertindami tyrimo objektus, paprastai matuojami eilės skale. 70-ųjų pradžioje pasirodę darbai labai išplėtė TI naudojimo sritį. Ji buvo pritaikyta pedagoginei kokybei (matuojant studentų žinių kokybę), sisteminiams tyrimams, įvairioms ekspertinio vertinimo teorijos problemoms spręsti, gaminių kokybės rodikliams agreguoti, sociologiniuose tyrimuose ir kt.

Kaip dvi pagrindinės TI problemos, kartu su konkrečių duomenų matavimo skalės tipo nustatymu, buvo iškelta duomenų analizės algoritmų paieška, kurios rezultatas nesikeičia esant jokiai leistinai skalės transformacijai (t. y. yra nekintamas). Į šią transformaciją eilinės skalės geografijoje yra Boforto skalės vėjai („ramus“, „lengvas vėjas“, „vidutinio stiprumo vėjas“ ir kt.), žemės drebėjimo stiprumo skalė. Akivaizdu, kad negalima teigti, kad 2 balų žemės drebėjimas (lempa siūbavo po lubomis) yra lygiai 5 kartus silpnesnis už 10 balų žemės drebėjimą (visiškas visko sunaikinimas žemės paviršiuje).

Medicinoje eilinės skalės yra hipertenzijos stadijų skalė (pagal Myasnikovas), širdies nepakankamumo laipsnių skalė (pagal Strazhesko-Vasilenko-Lang), vainikinių arterijų nepakankamumo sunkumo skalė (pagal Fogelsoną) ir kt. . Visos šios svarstyklės pastatytos pagal tokią schemą: liga nenustatyta; pirmasis ligos etapas; antrasis etapas; trečioji stadija... Kartais išskiriamos 1a, 16 ir tt stadijos. Kiekviena stadija turi tik jai būdingą medicininę charakteristiką. Apibūdinant neįgalumo grupes, skaičiai vartojami priešinga tvarka: sunkiausia yra pirmoji invalidumo grupė, tada antra, lengviausia – trečia.

Namų numeriai matuojami ir eilės skalėje – jie parodo, kokia tvarka namai išsidėstę palei gatvę. Tomų numeriai rašytojo surinktuose kūriniuose arba bylų numeriai įmonės archyve dažniausiai siejami su jų kūrimo chronologine tvarka.

Vertinant produktų ir paslaugų kokybę, eilės skalės populiarios vadinamojoje kokybinėje (pažodinis vertimas – kokybės matavimas). Būtent, produkcijos vienetas vertinamas kaip tinkamas arba netinkamas. Norint atlikti išsamesnę analizę, naudojama trijų gradacijų skalė: yra reikšmingų defektų - yra tik nedideli defektai - defektų nėra. Kartais naudojamos keturios gradacijos: yra kritinių defektų (dėl kurių neįmanoma naudoti) - yra reikšmingų defektų - yra tik smulkūs defektai - defektų nėra. Panašią reikšmę turi ir produktų klasifikavimas – aukščiausios kokybės, pirmas, antras,...

Vertinant poveikį aplinkai, pirmas, bendriausias vertinimas dažniausiai būna eilinis, pvz.: gamtinė aplinka stabili – gamtinė aplinka yra prislėgta (degraduota). Aplinkos medicinos skalė panaši: nėra ryškaus poveikio žmogaus sveikatai – pastebimas neigiamas poveikis sveikatai.

Eilės skalė naudojama ir kitose srityse. Ekonometrijoje tai pirmiausia įvairūs ekspertinio vertinimo metodai.

Visos matavimo skalės skirstomos į dvi grupes – kokybinių charakteristikų skales ir kiekybinių charakteristikų skales. Eilės skalė ir įvardijimo skalė yra pagrindinės kokybinių požymių skalės, todėl daugelyje konkrečių sričių kokybinės analizės rezultatai gali būti laikomi šių skalių matavimais. Kiekybinių charakteristikų skalės – tai intervalų, santykių, skirtumų, absoliučios skalės. Naudojant intervalo skalę, matuojamas potencialios energijos dydis arba tiesės taško koordinatė. Tokiais atvejais skalėje negalima pažymėti nei natūralios kilmės, nei natūralaus matavimo vieneto. Tyrėjas turi pats nustatyti atskaitos tašką ir pasirinkti matavimo vienetą. Priimtinos transformacijos intervalo skalėje yra tiesinės didėjančios transformacijos, t.y. tiesinės funkcijos. Temperatūros skalės pagal Celsijų ir Farenheitą yra sujungtos būtent tokia priklausomybe: °C = 5/9 (°F - 32), kur °C yra temperatūra (laipsniais) pagal Celsijaus skalę, o °F yra temperatūra pagal Celsijaus skalę. Farenheito skalė.

Iš kiekybinių skalių moksle ir praktikoje labiausiai paplitusios santykio skalės. Jie turi natūralų atskaitos tašką – nulį, t.y. nėra kiekio, bet nėra natūralaus matavimo vieneto. Dauguma fizinių vienetų matuojami santykio skalėje: kūno masė, ilgis, krūvis, taip pat kainos ekonomikoje. Priimtinos transformacijos santykio skalėje yra panašios (keičiant tik skalę). Kitaip tariant, linijinės didėjančios transformacijos be laisvo termino, pavyzdžiui, kainų konvertavimas iš vienos valiutos į kitą fiksuotu kursu. Tarkime, palyginsime dviejų investicinių projektų ekonominį efektyvumą naudodami kainas rubliais. Tegul pirmasis projektas pasirodo geresnis nei antrasis. Dabar pereikime prie Kinijos valiutos – juanio, naudodami fiksuotą perskaičiavimo kursą. Akivaizdu, kad pirmasis projektas vėl turėtų būti pelningesnis nei antrasis. Tačiau skaičiavimo algoritmai automatiškai neužtikrina šios sąlygos įvykdymo, todėl būtina patikrinti, ar ji įvykdyta. Tokio vidutinių verčių testo rezultatai aprašyti toliau.

Skirtumų skalė turi natūralų matavimo vienetą, bet neturi natūralaus atskaitos taško. Laikas matuojamas skirtumų skalėje, jei metai (arba diena – nuo ​​vidurdienio iki vidurdienio) laikomi natūraliu matavimo vienetu, o bendruoju atveju – intervalų skalėje. Esant dabartiniam žinių lygiui, neįmanoma nurodyti natūralaus atspirties taško. Skirtingi autoriai skirtingai apskaičiuoja pasaulio sukūrimo datą, taip pat ir Kristaus gimimo akimirką.

Tik absoliučios skalės matavimo rezultatai yra skaičiai įprasta to žodžio prasme, pavyzdžiui, žmonių skaičius kambaryje. Absoliučiam mastui leidžiama tik tapatybės transformacija.

Kuriant atitinkamą žinių sritį, skalės tipas gali keistis. Taigi, iš pradžių temperatūra buvo matuojama eilės skale (šalčiau – šilčiau). Tada – pagal intervalą (Celsijaus, Farenheito, Reaumur skalės). Galiausiai, atradus absoliutų nulį, temperatūra gali būti laikoma matuojama santykio skalėje (Kelvino skalė). Pažymėtina, kad kartais tarp specialistų kyla nesutarimų dėl to, kokios skalės turėtų būti naudojamos tam tikroms tikroms išmatuotoms vertėms įvertinti. Kitaip tariant, matavimo procesas taip pat apima skalės tipo nustatymą (kartu su tam tikros rūšies skalės pasirinkimo pagrindimu). Be išvardintų šešių pagrindinių svarstyklių tipų, kartais naudojamos ir kitos svarstyklės.

17. Nekintamieji algoritmai ir vidutinės reikšmės.

Suformuluokime pagrindinį reikalavimą duomenų analizės algoritmams TI: išvados, padarytos remiantis duomenimis, išmatuotais tam tikro tipo skalėje, neturi keistis, kai šių duomenų matavimo skalė yra leistina. Kitaip tariant, išvados turi būti nekintamos pagal galiojančias masto transformacijas.

Taigi vienas iš pagrindinių matavimo teorijos tikslų yra kovoti su tyrėjo subjektyvumu priskiriant skaitines reikšmes realiems objektams. Taigi atstumai gali būti matuojami aršinais, metrais, mikronais, myliomis, parsekais ir kitais matavimo vienetais. Masė (svoris) – pudais, kilogramais, svarais ir kt. Prekių ir paslaugų kainos gali būti nurodytos juaniais, rubliais, tengėmis, grivinomis, latais, kronomis, markėmis, JAV doleriais ir kitomis valiutomis (priklausomai nuo nurodytų perskaičiavimo kursų). Pabrėžkime labai svarbų, nors ir gana akivaizdų faktą: matavimo vienetų pasirinkimas priklauso nuo tyrėjo, t.y. subjektyvus. Statistinės išvados gali būti adekvačios tikrovei tik tada, kai jos nepriklauso nuo to, kuriam matavimo vienetui tyrėjas teikia pirmenybę, kai jos yra nekintamos leistinos skalės transformacijos atžvilgiu. Iš daugelio ekonometrinių duomenų analizės algoritmų tik keli tenkina šią sąlygą. Parodykime tai palyginę vidutines reikšmes.

Tegu X 1, X 2,.., X n yra n tūrio pavyzdys. Dažnai naudojamas aritmetinis vidurkis. Aritmetinio vidurkio vartojimas yra toks įprastas, kad dažnai praleidžiamas antrasis termino žodis ir kalbama apie vidutinį atlyginimą, vidutines pajamas ir kitus konkrečių ekonominių duomenų vidurkius, o „vidurkiu“ reiškia aritmetinį vidurkį. Ši tradicija gali lemti klaidingas išvadas. Parodykime tai pasitelkę hipotetinės įmonės darbuotojų vidutinio atlyginimo (vidutinių pajamų) apskaičiavimo pavyzdį. Iš 100 dirbančiųjų tik 5 turi jį viršijantį atlyginimą, o likusių 95 atlyginimas gerokai mažesnis už aritmetinį vidurkį. Priežastis akivaizdi – vieno žmogaus – generalinio direktoriaus – atlyginimas viršija 95 darbuotojų – žemos ir aukštos kvalifikacijos darbuotojų, inžinierių ir biuro darbuotojų – atlyginimą. Situacija primena aprašytą žinomoje istorijoje apie ligoninę, kurioje guli 10 pacientų, iš kurių 9 – 40°C temperatūra, o vienas jau nukentėjo, guli morge su 0° temperatūra. C. Tuo tarpu vidutinė temperatūra ligoninėje yra 36°C – geriau ir būti negali!

Taigi aritmetinis vidurkis gali būti naudojamas tik gana homogeniškoms populiacijoms (be didelių nuokrypių viena ar kita kryptimi). Kokie vidurkiai turėtų būti naudojami darbo užmokesčiui apibūdinti? Gana natūralu naudoti medianą – 50 ir 51 darbuotojų aritmetinį vidurkį, jei jų atlyginimai išdėstyti nemažėjančia tvarka. Pirmiausia – 40 žemos kvalifikacijos darbuotojų atlyginimai, o paskui – nuo ​​41 iki 70 – aukštos kvalifikacijos darbuotojų atlyginimai. Vadinasi, mediana patenka būtent į juos ir yra lygi 200. 50 darbuotojų atlyginimas neviršija 200, o 50 - mažiausiai 200, taigi mediana rodo „centrą“, aplink kurį didžioji dalis tirtų reikšmių ​yra sugrupuoti. Kita vidutinė reikšmė yra režimas, dažniausiai pasitaikanti reikšmė. Nagrinėjamu atveju tai yra žemos kvalifikacijos darbuotojų darbo užmokestis, t.y. 100. Taigi atlyginimui apibūdinti turime tris vidutines reikšmes – režimą (100 vnt.), medianą (200 vnt.) ir aritmetinį vidurkį (400 vnt.).

Pajamų ir darbo užmokesčio pasiskirstymui realiame gyvenime galioja tas pats modelis: režimas yra mažesnis už medianą, o mediana yra mažesnė už aritmetinį vidurkį.

Kodėl ekonomikoje naudojami vidurkiai? Paprastai skaičių rinkinį pakeisti vienu skaičiumi, kad populiacijas būtų galima palyginti naudojant vidurkius. Tegu, pavyzdžiui, Y 1, Y 2,..., Y n ekspertinių vertinimų rinkinys, „duotas“ vienam ekspertizės objektui (pvz., vienas iš įmonės strateginės plėtros variantų), Z 1 , Z 2,..., Z n -antrasis (kita šios raidos versija). Kaip šios populiacijos palyginamos? Akivaizdu, kad lengviausias būdas yra vidutinės vertės.

Kaip apskaičiuoti vidurkius? Yra įvairių tipų vidurkių: aritmetinis vidurkis, mediana, režimas, geometrinis vidurkis, harmoninis vidurkis, kvadratinis vidurkis. Prisiminkime, kad bendrą vidutinės vertės sampratą įvedė vienas XIX amžiaus pirmosios pusės prancūzų matematikas. Akademikas O. Koši. Tai yra taip: vidutinė reikšmė yra bet kuri funkcija Ф(Х 1, Х 2,..., Х n), kad visoms galimoms argumentų reikšmėms šios funkcijos reikšmė būtų ne mažesnė už mažiausią skaičiai X 1, Х 2,... , X n , ir ne daugiau kaip didžiausias šių skaičių. Visi aukščiau išvardyti vidurkių tipai yra Koši vidurkiai.

Esant priimtinam skalės transformavimui, vidurkio reikšmė akivaizdžiai pasikeičia. Tačiau išvados apie tai, kurios populiacijos vidurkis didesnis, o kurios mažesnis, neturėtų keistis (pagal išvadų nekintamumo reikalavimą, priimtą kaip pagrindinį TI reikalavimą). Suformuluokime atitinkamą matematinę problemą ieškant vidutinio dydžio reikšmių tipo, kurių palyginimo rezultatas yra stabilus leistinų skalės transformacijų atžvilgiu.

Tegu Ф(Х 1 Х 2 ,..., Х n) yra Koši vidurkis. Tegul pirmosios aibės vidurkis yra mažesnis už antrosios populiacijos vidurkį: tada, pagal TI, norint, kad vidurkių palyginimo rezultatas būtų stabilus, būtina, kad bet kuriai leistinai transformacijai g iš leistinų transformacijų grupės Atitinkama skalė tiesa, kad transformuotų verčių vidurkis iš pirmosios populiacijos taip pat yra mažesnis nei antrojo rinkinio transformuotų verčių vidurkis. Be to, suformuluota sąlyga turi būti teisinga bet kurioms dviem aibėms Y 1, Y 2,...,Y n ir Z 1, Z 2,..., Z n ir, prisiminkime, bet kuriai leistinai transformacijai. Vidutines vertes, kurios atitinka suformuluotą sąlygą, vadiname leistinomis (atitinkamoje skalėje). TI teigimu, tik tokie vidurkiai gali būti naudojami analizuojant ekspertų nuomones ir kitus nagrinėjamoje skalėje išmatuotus duomenis.

Naudojant matematinę teoriją, sukurtą aštuntajame dešimtmetyje, galima apibūdinti priimtinų vidurkių tipą pagrindinėse skalėse. Akivaizdu, kad duomenims, matuojamiems pavadinimų skalėje, kaip vidurkis tinka tik režimas.

18. Vidutinės reikšmės eilės skalėje

Panagrinėkime ekspertų nuomonių apdorojimą, išmatuotą eilės skale. Šis teiginys yra teisingas.

Teorema1 . Iš visų Koši vidurkių tik variacijų eilučių nariai (eilės statistika) yra priimtini vidurkiai eilės skalėje.

1 teorema galioja su sąlyga, kad vidurkis Ф(Х 1 Х 2 ,..., Х n) yra tolydi (virš kintamųjų aibės) ir simetrinė funkcija. Pastaroji reiškia, kad perstačius argumentus funkcijos Ф(Х 1 Х 2 ,..., Х n) reikšmė nekinta. Ši sąlyga yra gana natūrali, nes vidutinę reikšmę randame visumai (aibei), o ne sekai. Rinkinys nesikeičia priklausomai nuo to, kokia tvarka išvardijame jo elementus.

Visų pirma pagal 1 teoremą mediana gali būti naudojama kaip vidurkis duomenims, išmatuotiems eilės skalėje (jei imties dydis nelyginis). Jei tūris yra lygus, reikia naudoti vieną iš dviejų pagrindinių variacijų serijos terminų – kaip kartais vadinama, kairioji mediana arba dešinioji mediana. Galima naudoti ir madą – ji visada yra variacijų serijos narė. Bet jūs niekada negalite apskaičiuoti aritmetinio vidurkio, geometrinio vidurkio ir pan.

Ši teorema yra teisinga.

2 teorema. Tegul Y 1, Y 2,...,Y m yra nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai su pasiskirstymo funkcija F(x), o Z 1, Z 2,..., Zn yra nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai su funkcijų skirstiniais H(x), o pavyzdžiai Y 1, Y 2,...,Y m ir Z 1, Z 2,..., Z n yra nepriklausomi vienas nuo kito ir MY X > MZ X. Kad bet kurios griežtai didėjančios tolydžios funkcijos g, atitinkančios sąlygą |g i |>X, įvykio tikimybė būtų linkusi į 1 ties min(m, n), būtina ir pakanka, kad nelygybė F(x) būtų tenkinama visoms x< Н(х), причем существовало число х 0 , для которого F(x 0)

Pastaba. Sąlyga su viršutine riba yra grynai intramatematinio pobūdžio. Tiesą sakant, funkcija g yra savavališka leistina transformacija eilės skalėje.

Pagal 2 teoremą aritmetinis vidurkis gali būti naudojamas ir eilės skalėje, jei lyginamos imtys iš dviejų skirstinių, kurios tenkina teoremoje pateiktą nelygybę. Paprasčiau tariant, viena iš paskirstymo funkcijų visada turi būti aukščiau už kitą. Paskirstymo funkcijos negali susikirsti, joms leidžiama tik liesti viena kitą. Ši sąlyga įvykdyta, pavyzdžiui, jei paskirstymo funkcijos skiriasi tik poslinkiu:

F(x) = Н(x + ∆)

kai kurioms ∆.

Paskutinė sąlyga įvykdoma, jei naudojant tą patį matavimo prietaisą išmatuojamos dvi tam tikro dydžio reikšmės, kuriose paklaidų pasiskirstymas nekinta pereinant nuo vienos atitinkamo dydžio vertės matavimo prie kitos.

Vidurkis pagal Kolmogorovą

Kelių aukščiau išvardytų vidurkių apibendrinimas yra Kolmogorovo vidurkis. Skaičiams X 1, X 2,..., X n Kolmogorovo vidurkis apskaičiuojamas pagal formulę

G((F(X l) + F(X 2)+...F(X n))/n),

kur F yra griežtai monotoniška funkcija (t. y. griežtai didėjanti arba griežtai mažėjanti),

G yra atvirkštinė F funkcija.

Tarp Kolmogorovo vidurkių yra daug gerai žinomų personažų. Taigi, jei F(x) = x, tai Kolmogorovo vidurkis yra aritmetinis vidurkis, jei F(x) = lnx, tai geometrinis vidurkis, jei F(x) = 1/x, tai harmoninis vidurkis, jei F( x) = x 2, tada vidutinis kvadratas ir kt. Kolmogorovo vidurkis yra ypatingas Koši vidurkio atvejis. Kita vertus, tokie populiarūs vidurkiai kaip mediana ir režimas negali būti pateikiami kaip Kolmogorovo vidurkiai. Monografijoje įrodomi šie teiginiai.

Teorema3 . Jei galioja tam tikros intramatematinės dėsningumo sąlygos intervalo skalėje, iš visų Kolmogorovo vidurkių leistinas tik aritmetinis vidurkis. Taigi temperatūrų (Celsijaus) arba atstumų geometrinis vidurkis arba vidutinis kvadratas yra beprasmis. Aritmetinis vidurkis turi būti naudojamas kaip vidurkis. Taip pat galite naudoti medianą arba režimą.

4 teorema. Jei galioja tam tikros intramatematinės dėsningumo sąlygos santykio skalėje, iš visų Kolmogorovo vidurkių leistini tik galios vidurkiai, kurių F(x) = x c ir geometrinis vidurkis.

komentuoti. Geometrinis vidurkis yra galios vidurkio riba, kai c > 0.

Ar yra Kolmogorovo vidurkių, kurių negalima naudoti santykio skalėje? Žinoma, yra. Pavyzdžiui, F(x) = e x.

Panašiai kaip vidutinės reikšmės, galima tirti ir kitas statistines charakteristikas – sklaidos, ryšio, atstumo rodiklius ir kt. Nesunku parodyti, pavyzdžiui, kad koreliacijos koeficientas nekinta su jokia leistina transformacija intervalų dubenyje, kaip ir dispersijų santykis, dispersija nesikeičia skirtumų skalėje, variacijos koeficientas koeficientų skalė ir kt.

Aukščiau pateikti vidutinių verčių rezultatai yra plačiai naudojami ne tik ekonomikoje, vadyboje, ekspertinių vertinimų teorijoje ar sociologijoje, bet ir inžinerijoje, pavyzdžiui, analizuojant jutiklių agregavimo metodus automatizuotose aukštakrosnių procesų valdymo sistemose. TI turi didelę praktinę reikšmę sprendžiant standartizacijos ir kokybės vadybos problemas, ypač kokybinėje srityje, kur gauta įdomių teorinių rezultatų. Taigi, pavyzdžiui, bet koks atskirų gaminių kokybės rodiklių svorio koeficientų pasikeitimas lemia gaminių užsakymo pasikeitimą pagal svertinio vidurkio rodiklį (šią teoremą įrodė prof. V. V. Podinovskis). Vadinasi, aukščiau pateikta trumpa informacija apie TI ir jos metodus tam tikra prasme apjungia ekonomikos, sociologijos ir inžinerijos mokslus ir yra tinkamas aparatas sudėtingoms problemoms, kurios anksčiau nebuvo tinkamos efektyviai analizuoti, spręsti, be to, atsiveria kelias realistiškų modelių kūrimui ir prognozės problemos sprendimui.

22. Porinė tiesinė regresija

Dabar pereikime prie išsamesnio paprasčiausio porinės tiesinės regresijos atvejo tyrimo. Tiesinė regresija apibūdinama paprasčiausiu funkciniu ryšiu tiesinės lygties forma ir pasižymi skaidria modelio parametrų (lygties koeficientų) interpretacija. Dešinė lygties pusė leidžia mums gauti teorines (apskaičiuotas) gauto (paaiškinamo) kintamojo reikšmes, remiantis pateiktomis regresoriaus (aiškinamojo kintamojo) reikšmėmis. Šios reikšmės kartais dar vadinamos prognozuotomis (ta pačia prasme), t.y. gautas iš teorinių formulių. Tačiau, iškeliant hipotezę apie priklausomybės prigimtį, lygties koeficientai vis tiek lieka nežinomi. Paprastai tariant, apytiksles šių koeficientų vertes galima gauti naudojant įvairius metodus.

Tačiau svarbiausias ir labiausiai paplitęs iš jų yra mažiausių kvadratų metodas (OLS). Jis pagrįstas (kaip jau buvo paaiškinta) reikalavimu sumažinti gautos charakteristikos tikrųjų verčių kvadratinių nuokrypių nuo apskaičiuotųjų (teorinių) sumą. Vietoj teorinių verčių (kad jas gautumėte), dešiniąsias regresijos lygties puses pakeiskite nuokrypių kvadratų suma ir raskite dalines šios funkcijos išvestines (tikrųjų verčių nuokrypių kvadratų suma). gautos charakteristikos iš teorinių). Šios dalinės išvestinės imamos ne kintamųjų x ir y, o parametrų a ir b atžvilgiu. Dalinės išvestinės nustatomos lygios nuliui ir po paprastų, bet sudėtingų transformacijų gaunama normaliųjų lygčių sistema parametrams nustatyti. Koeficientas kintamajam x, t.y. b vadinamas regresijos koeficientu, jis parodo vidutinį rezultato pokytį koeficientui pasikeitus vienu vienetu. Parametras a gali neturėti ekonominės interpretacijos, ypač jei šio koeficiento ženklas yra neigiamas.

Vartojimo funkcijai tirti naudojama porinė tiesinė regresija. Regresijos koeficientas vartojimo funkcijoje naudojamas daugikliui apskaičiuoti. Beveik visada regresijos lygtis papildoma ryšio glaudumo rodikliu. Paprasčiausiu tiesinės regresijos atveju šis ryšio glaudumo rodiklis yra tiesinės koreliacijos koeficientas. Bet kadangi linijinės koreliacijos koeficientas apibūdina ryšio tarp bruožų tiesine forma glaudumą, tiesinės koreliacijos koeficiento absoliučios vertės artumas nuliui dar nėra rodiklis, rodantis, kad tarp požymių nėra ryšio.

Esant kitokiam modelio specifikacijos pasirinkimui, taigi ir priklausomybės tipui, tikrasis ryšys gali pasirodyti gana artimas vienybei. Bet tiesinės funkcijos pasirinkimo kokybė nustatoma naudojant tiesinės koreliacijos koeficiento kvadratą - determinacijos koeficientą. Jis apibūdina efektyvaus požymio y dispersijos proporciją, paaiškinamą bendros efektyvaus požymio dispersijos regresija. Reikšmė, papildanti determinacijos koeficientą iki 1, apibūdina dispersijos dalį, kurią sukelia kitų, modelyje neatsižvelgta, įtakos (liekamoji dispersija).

Suporuota regresija pavaizduota lygtimi, susiejančia du šios formos kintamuosius y ir x:

kur y yra priklausomas kintamasis (rezultatinis požymis), o x yra nepriklausomas kintamasis (aiškinamasis kintamasis arba atributo faktorius). Yra tiesinė ir netiesinė regresija. Tiesinė regresija apibūdinama tokios formos lygtimi:

y = a+ bx + .

Netiesinė regresija savo ruožtu gali būti netiesinė į analizę įtrauktų aiškinamųjų kintamųjų atžvilgiu, bet tiesinė įvertintų parametrų atžvilgiu. O gal regresija yra netiesinė vertinamų parametrų atžvilgiu. Regresijos, kuri aiškinamuosiuose kintamuosiuose yra netiesinė, bet įvertinamuose parametruose tiesinė, pavyzdžiai yra įvairaus laipsnio daugianario priklausomybės (polinomai) ir lygiakraštė hiperbolė.

Netiesinė apskaičiuotų parametrų regresija yra galios priklausomybė nuo parametro (parametras yra eksponente), eksponentinė priklausomybė, kai parametras yra eksponento bazėje, ir eksponentinė priklausomybė, kai visa tiesinė priklausomybė yra visiškai eksponente. Atkreipkite dėmesį, kad visais šiais trimis atvejais atsitiktinė dedamoji (atsitiktinė liekana)  yra įtraukta į dešinę lygties pusę kaip veiksnys, o ne kaip suma, t.y. dauginama! Vidutinis apskaičiuotų gautos charakteristikos verčių nuokrypis nuo faktinių apibūdinamas vidutine aproksimacijos paklaida. Jis išreiškiamas procentais ir neturėtų viršyti 7-8%. Ši vidutinė aproksimacijos paklaida yra tiesiog faktinių ir apskaičiuotų verčių skirtumų santykinių dydžių vidurkis, išreikštas procentais.

Svarbus yra vidutinis elastingumo koeficientas, kuris yra svarbi daugelio ekonominių reiškinių ir procesų charakteristika. Jis apskaičiuojamas kaip tam tikro funkcinio ryšio išvestinės vertės ir vidutinės x reikšmės santykio su vidutine y verte sandauga. Tamprumo koeficientas parodo, kiek vidutiniškai procentais pasikeis rezultatas y nuo jo vidutinės reikšmės, kai veiksnys x pasikeis 1% nuo jo (faktoriaus x) vidutinės reikšmės.

Dispersijos analizės problemos yra glaudžiai susijusios su porine regresija ir daugybine regresija (kai veiksnių yra daug) ir likutine dispersija. Dispersijos analizė tiria priklausomo kintamojo dispersiją. Šiuo atveju visa kvadratinių nuokrypių suma yra padalinta į dvi dalis. Pirmasis narys yra nuokrypių kvadratu suma dėl regresijos arba paaiškinama (fakcinė). Antrasis narys yra likutinė kvadratinių nuokrypių suma, nepaaiškinta faktorine regresija.

Dispersijos dalis, paaiškinama regresija bendroje gautos charakteristikos y dispersijoje, apibūdinama determinacijos koeficientu (indeksu), kuris yra ne kas kita, kaip regresijos nukrypimų kvadratų sumos ir bendros nuokrypių kvadratų sumos santykis. (pirmasis terminas visai sumai).

Kai modelio parametrai (nežinomųjų koeficientai) nustatomi mažiausiųjų kvadratų metodu, tai iš esmės randami kai kurie atsitiktiniai dydžiai (įverčių gavimo procese). Ypač svarbus yra regresijos koeficiento įvertinimas, kuris yra tam tikra atsitiktinio dydžio forma. Šio atsitiktinio dydžio savybės priklauso nuo lygtyje (modelyje) esančio liekamojo nario savybių. Suporuotame tiesinės regresijos modelyje aiškinamąjį kintamąjį x apsvarstykite kaip neatsitiktinį egzogeninį kintamąjį. Tai tik reiškia, kad kintamojo x reikšmės visuose stebėjimuose gali būti laikomos iš anksto nustatytomis ir niekaip nesusijusiomis su tiriama priklausomybe. Taigi tikroji paaiškinamo kintamojo reikšmė susideda iš dviejų komponentų: neatsitiktinės ir atsitiktinės komponentės (liekamojo termino).

Kita vertus, mažiausių kvadratų metodu (OLS) nustatytas regresijos koeficientas yra lygus kintamųjų x ir y kovariacijos dalijimo iš kintamojo x dispersijos koeficientui. Todėl jame taip pat yra atsitiktinis komponentas. Juk kovariacija priklauso nuo kintamojo y reikšmių, kur kintamojo y reikšmės priklauso nuo atsitiktinio likutinio nario  reikšmių. Be to, nesunku parodyti, kad kintamųjų x ir y kovariacija yra lygi apskaičiuoto regresijos koeficiento beta () ir kintamojo x dispersijos sandaugai, pridėjus kintamųjų x ir  kovariaciją. Taigi regresijos koeficiento beta įvertis yra lygus pačiam nežinomam regresijos koeficientui, pridėtam prie kintamųjų x ir  kovariacijos dalijimo iš kintamojo x dispersijos koeficiento. Tie. regresijos koeficiento b įvertis, gautas iš bet kurios imties, pateikiamas kaip dviejų dėmenų suma: pastovioji vertė, lygi tikrajai koeficiento reikšmei  (beta), ir atsitiktinės dedamosios, priklausančios nuo kintamųjų x ir  kovariacijos. .

23. Matematinės Gauss-Markov sąlygos ir jų taikymas.

Kad regresinė analizė, pagrįsta įprastine OLS, gautų geriausius rezultatus, atsitiktinis terminas turi atitikti keturias Gauss-Markov sąlygas.

Atsitiktinio nario matematinis lūkestis lygus nuliui, t.y. tai nešališka. Jei regresijos lygtis apima pastovųjį narį, natūralu, kad šis reikalavimas yra įvykdytas, nes tai yra pastovus terminas ir turi būti atsižvelgta į bet kokią sisteminę kintamojo y verčių tendenciją, kuri, priešingai, turėtų negali būti įtraukti į regresijos lygties aiškinamuosius kintamuosius.

Atsitiktinio nario dispersija yra pastovi visiems stebėjimams.

Imtį sudarančių atsitiktinių dydžių reikšmių kovariacija turi būti lygi nuliui, t.y. nėra sistemingo ryšio tarp atsitiktinio termino verčių bet kuriuose dviejuose konkrečiuose stebėjimuose. Atsitiktiniai nariai turi būti nepriklausomi vienas nuo kito.

Atsitiktinio nario pasiskirstymo dėsnis turi būti nepriklausomas nuo aiškinamųjų kintamųjų.

Be to, daugelyje programų aiškinamieji kintamieji nėra stochastiniai, t.y. neturi atsitiktinio komponento. Bet kurio nepriklausomo kintamojo vertė kiekviename stebėjime turi būti laikoma egzogenine, visiškai nulemta išorinių priežasčių, į kurias neatsižvelgta regresijos lygtyje.

Kartu su nurodytomis Gauss-Markov sąlygomis taip pat daroma prielaida, kad atsitiktinis narys turi normalųjį skirstinį. Jis galioja labai plačiomis sąlygomis ir yra pagrįstas vadinamąja centrine ribos teorema (CLT). Šios teoremos esmė yra ta, kad jei atsitiktinis kintamasis yra bendras daugelio kitų atsitiktinių dydžių sąveikos rezultatas, iš kurių nė vienas neturi vyraujančios įtakos šio bendro rezultato elgsenai, tada gautas atsitiktinis kintamasis bus aprašytas. apytiksliai normaliu pasiskirstymu. Toks artumas normaliajam skirstiniui leidžia naudoti normalųjį skirstinį ir Stjudento skirstinį, kuris tam tikra prasme yra jo apibendrinimas, norint gauti įverčius, kurie pastebimai skiriasi nuo įprasto daugiausia dėl vadinamųjų „uodegų, “ t.y. mažiems imčių dydžiams. Taip pat svarbu, kad jei atsitiktinis narys yra normaliai pasiskirstęs, tai regresijos koeficientai taip pat bus normaliai pasiskirstę.

Nustatyta regresijos kreivė (regresijos lygtis) leidžia išspręsti vadinamosios taško prognozės problemą. Tokiuose skaičiavimuose tam tikra x reikšmė paimama už tiriamo stebėjimo intervalo ribų ir pakeičiama į dešinę regresijos lygties pusę (ekstrapoliacijos procedūra). Nes Regresijos koeficientų įverčiai jau žinomi, tuomet galima apskaičiuoti paaiškinamo kintamojo y reikšmę, atitinkančią paimtą x reikšmę. Natūralu, kad atsižvelgiant į prognozės (prognozės) reikšmę, skaičiavimai atliekami į priekį (į ateities verčių sritį).

Tačiau kadangi koeficientai buvo nustatyti su tam tikra paklaida, įdomu yra ne efektyvaus požymio taškinis įvertinimas (taško prognozė), o žinojimas apie ribas, kuriose su tam tikra tikimybe gali atsirasti efektyvusis požymis, atitinkantis paimtą faktoriaus x reikšmę, bus melas.

Norėdami tai padaryti, apskaičiuojama standartinė paklaida (standartinis nuokrypis). Jį galima gauti pagal ką tik pasakytą dvasią taip. Laisvojo termino a išraiška iš įverčių per vidutines reikšmes pakeičiama tiesinės regresijos lygtimi. Tada paaiškėja, kad standartinė paklaida priklauso nuo vidutinio efektyvaus koeficiento y paklaidos ir adityviai nuo regresijos koeficiento b paklaidos. Paprasčiausiai šios standartinės paklaidos kvadratas yra lygus vidutinės reikšmės y paklaidos kvadratui ir regresijos koeficiento paklaidos kvadrato sandaugai su koeficiento x nuokrypiu ir jo vidurkiu. Be to, pirmasis narys pagal statistikos dėsnius yra lygus bendrosios visumos dispersijos dalijimo iš imties dydžio (tūrio) koeficientui.

Vietoj nežinomos dispersijos, imties dispersija naudojama kaip įvertinimas. Atitinkamai, regresijos koeficiento paklaida apibrėžiama kaip koeficientas, padalijus imties dispersiją iš koeficiento x dispersijos. Galite gauti standartinę paklaidą (standartinį nuokrypį) ir kitus aspektus, kurie labiau nepriklauso nuo tiesinės regresijos modelio. Tam naudojama vidutinės paklaidos ir ribinės paklaidos sąvoka bei ryšys tarp jų.

Tačiau net ir gavus standartinę paklaidą, išlieka klausimas, kokiose ribose bus numatoma vertė. Kitaip tariant, apie matavimo paklaidos intervalą, natūralia prielaida daugeliu atvejų, kad šio intervalo vidurį duoda apskaičiuota (vidutinė) efektyvaus koeficiento y reikšmė. Čia į pagalbą ateina centrinės ribos teorema, kuri tiksliai nurodo, su kokia tikimybe nežinomas dydis yra šiame pasikliautinajame intervale.

Iš esmės standartinė paklaidos formulė, nepriklausomai nuo to, kaip ir kokia forma ji gaunama, apibūdina regresijos linijos padėties paklaidą. Standartinė paklaida pasiekia minimumą, kai faktoriaus x reikšmė sutampa su faktoriaus vidutine reikšme.

24. Statistinis hipotezių tikrinimas ir tiesinės regresijos reikšmingumo įvertinimas Fišerio kriterijumi.

Suradus tiesinės regresijos lygtį, įvertinama tiek lygties visumos, tiek atskirų jos parametrų reikšmė. Regresijos lygties, kaip visumos, reikšmingumą galima įvertinti naudojant įvairius kriterijus. Gana įprastas ir efektyvus yra Fišerio F testo naudojimas. Šiuo atveju iškeliama nulinė hipotezė, kad regresijos koeficientas lygus nuliui, t.y. b=0, todėl faktorius x neturi įtakos rezultatui y. Prieš nedelsiant apskaičiuojant F testą, atliekama dispersinė analizė. Centrinę vietą jame užima bendros kintamojo y kvadratinių nuokrypių nuo vidutinės vertės y sumos išskaidymas į dvi dalis - „paaiškinta“ ir „nepaaiškinama“:

Bendrą gautos charakteristikos y atskirų verčių kvadratinių nuokrypių sumą nuo vidutinės vertės y lemia daugelio veiksnių įtaka.

Visą priežasčių rinkinį sąlyginai suskirstykime į dvi grupes: tiriamąjį veiksnį x ir kitus veiksnius. Jei veiksnys rezultatui įtakos neturi, tai regresijos linija grafike yra lygiagreti OX ir y=y ašiai. Tada visa gautos charakteristikos dispersija atsiranda dėl kitų veiksnių įtakos ir bendra kvadratinių nuokrypių suma sutaps su likutine. Jei kiti veiksniai rezultatui įtakos neturi, tai y yra funkciškai susijęs su x, o likutinė kvadratų suma lygi nuliui. Šiuo atveju nuokrypių kvadratu suma, paaiškinama regresija, yra tokia pati kaip visa kvadratų suma. Kadangi ne visi koreliacijos lauko taškai yra regresijos tiesėje, jų sklaida visada atsiranda kaip sąlygota faktoriaus x įtakos, t.y. y regresija x ir sukelta kitų priežasčių (nepaaiškinamas pokytis). Regresijos linijos tinkamumas prognozavimui priklauso nuo to, kiek visos požymio y pokyčio sudaro paaiškintas pokytis.

Akivaizdu, kad jei nuokrypių kvadratu suma dėl regresijos yra didesnė už likutinę kvadratų sumą, tai regresijos lygtis yra statistiškai reikšminga ir koeficientas x turi reikšmingos įtakos rezultatui. Tai prilygsta faktui, kad determinacijos koeficientas artėja prie vienybės. Bet kokia kvadratinių nuokrypių suma yra susijusi su laisvės laipsnių skaičiumi, t.y. charakteristikos nepriklausomo kitimo laisvės skaičius. Laisvės laipsnių skaičius siejamas su populiacijos vienetų skaičiumi arba su iš jo nustatytų konstantų skaičiumi. Kalbant apie nagrinėjamą problemą, laisvės laipsnių skaičius turėtų parodyti, kiek nepriklausomų nuokrypių iš n galimų [(y 1 -y), (y 2 -y),...(y n -y)] reikia sudaryti duotąją kvadratų sumą. Taigi bendrai kvadratų sumai ∑(y-y sr) 2, (n-1) reikalingi nepriklausomi nuokrypiai, nes n vienetų populiacijoje, paskaičiavus vidutinį lygį, laisvai kinta tik (n-1) nuokrypių skaičius. Skaičiuojant kvadratų ∑(y-y avg) 2 paaiškinamąją arba koeficientinę sumą, naudojamos gautos charakteristikos y* teorinės (apskaičiuotos) reikšmės, rastos išilgai regresijos linijos: y(x)=a+bx.

Dabar grįžkime prie bendros efektyviojo koeficiento kvadratinių nuokrypių nuo šios vertės vidurkio sumos išplėtimo. Šią sumą sudaro dvi dalys, jau apibrėžtos aukščiau: nuokrypių kvadratų suma, paaiškinama regresija, ir kita suma, vadinama likutine kvadratinių nuokrypių suma. Su šiuo skilimu susijusi dispersinė analizė, kuri tiesiogiai atsako į esminį klausimą: kaip įvertinti regresijos lygties kaip visumos ir atskirų jos parametrų reikšmę? Tai taip pat iš esmės lemia šio klausimo prasmę. Regresijos lygties, kaip visumos, reikšmingumui įvertinti naudojamas Fišerio kriterijus (F-testas). Pagal Fišerio siūlomą metodą iškeliama nulinė hipotezė: regresijos koeficientas lygus nuliui, t.y. reikšmėb=0. Tai reiškia, kad faktorius X neturi įtakos rezultatui Y.

Prisiminkime, kad beveik visada statistinio tyrimo metu gauti taškai nėra tiksliai regresijos tiesėje. Jie yra išsibarstę, daugiau ar mažiau nutolę nuo regresijos linijos. Tokia sklaida atsiranda dėl kitų veiksnių, kurie skiriasi nuo aiškinamojo faktoriaus X, į kuriuos neatsižvelgiama regresijos lygtyje. Skaičiuojant paaiškinamąją arba faktorių kvadratinių nuokrypių sumą, naudojamos gautos charakteristikos teorinės reikšmės, rastos iš regresijos linijos.

Tam tikram kintamųjų Y ir X verčių rinkiniui apskaičiuota vidutinės vertės Y vertė tiesine regresija yra tik vieno parametro - regresijos koeficiento - funkcija. Pagal tai koeficiento kvadratinių nuokrypių suma turi laisvės laipsnių skaičių, lygų 1. O likutinės kvadratinių nuokrypių sumos laisvės laipsnių skaičius tiesinėje regresijoje yra n-2.

Vadinasi, kiekvieną pradinio išsiplėtimo kvadratinių nuokrypių sumą padalijus iš jos laisvės laipsnių skaičiaus, gauname vidutinius kvadratinius nuokrypius (vieno laisvės laipsnio dispersiją). Toliau, padalijus faktoriaus dispersiją iš vieno laisvės laipsnio iš likutinės dispersijos iš vieno laisvės laipsnio, gauname nulinės hipotezės tikrinimo kriterijų, vadinamąjį F santykį arba to paties pavadinimo kriterijų. Būtent, jei nulinė hipotezė yra teisinga, faktorius ir liekamosios dispersijos yra tiesiog lygūs vienas kitam.

Atmesti nulinę hipotezę, t.y. priimant priešingą hipotezę, kuri išreiškia tiriamo ryšio reikšmingumo (buvimo) faktą, o ne tik atsitiktinį veiksnių, imituojančių iš tikrųjų neegzistuojantį ryšį, sutapimą, būtina naudoti kritinių verčių lenteles. nurodytų santykių. Naudojant lenteles nustatoma Fišerio kriterijaus kritinė (ribinė) reikšmė. Jis taip pat vadinamas teoriniu. Tada jie, lygindami su atitinkama empirine (faktine) kriterijaus verte, apskaičiuota pagal stebėjimo duomenis, patikrina, ar tikroji santykio reikšmė neviršija kritinės reikšmės iš lentelių.

Tai daroma išsamiau taip. Pasirinkite duotą nulinės hipotezės buvimo tikimybės lygį ir iš lentelių raskite kritinę F kriterijaus reikšmę, kuriai esant dar gali atsirasti atsitiktinis dispersijų nukrypimas 1 laisvės laipsniu, t.y. didžiausia tokia vertė. Tada apskaičiuota F santykio reikšmė laikoma patikima (t. y. išreiškiančia skirtumą tarp faktinių ir liekamųjų dispersijų), jei šis santykis yra didesnis už pateiktą lentelėje. Tada nulinė hipotezė atmetama (netiesa, kad ryšio požymių nėra) ir, priešingai, prieiname prie išvados, kad ryšys yra ir jis reikšmingas (jis neatsitiktinis, reikšmingas).

Jei ryšio reikšmė pasirodo mažesnė už pateiktą lentelėje, tada nulinės hipotezės tikimybė yra didesnė už nurodytą lygį (kuris buvo pasirinktas iš pradžių) ir nulinės hipotezės negalima atmesti be pastebimo pavojaus gauti neteisingą išvadą apie santykių buvimą. Atitinkamai regresijos lygtis laikoma nereikšminga.

Paties F kriterijaus reikšmė yra susijusi su determinacijos koeficientu. Be visos regresijos lygties reikšmingumo įvertinimo, taip pat įvertinama ir atskirų regresijos lygties parametrų reikšmė. Šiuo atveju regresijos koeficiento standartinė paklaida nustatoma naudojant empirinį faktinį standartinį nuokrypį ir empirinę dispersiją laisvės laipsniui. Tada Stjudento skirstinys naudojamas regresijos koeficiento reikšmingumui patikrinti ir apskaičiuoti jo pasikliautinuosius intervalus.

Regresijos ir koreliacijos koeficientų reikšmės įvertinimas Stjudento t testu atliekamas lyginant šių dydžių reikšmes ir standartinę paklaidą. Tiesinės regresijos parametrų paklaidos dydis ir koreliacijos koeficientas nustatomas pagal šias formules:

čia S yra vidutinis kvadratinis liekamasis mėginio nuokrypis,

r xy – koreliacijos koeficientas.

Atitinkamai, regresijos tiesės nuspėjamos standartinės paklaidos reikšmė apskaičiuojama pagal formulę:

Atitinkami regresijos ir koreliacijos koeficientų verčių santykiai su jų standartine paklaida sudaro vadinamąją t statistiką, o atitinkamos lentelės (kritinės) reikšmės ir jos faktinės vertės palyginimas leidžia priimti arba atmesti nulį. hipotezė. Bet tada, norint apskaičiuoti pasikliautinąjį intervalą, didžiausia kiekvieno rodiklio paklaida randama kaip t statistikos lentelės reikšmės sandauga iš atitinkamo rodiklio vidutinės atsitiktinės paklaidos. Tiesą sakant, mes iš tikrųjų tai užrašėme šiek tiek kitaip, aukščiau. Tada gaunamos pasikliautinųjų intervalų ribos: apatinė riba – iš atitinkamų koeficientų (faktiškai vidurkio) atėmus atitinkamą ribinę paklaidą, o viršutinė – sudedant (sudėdama).

Taikant tiesinę regresiją ∑(y x -y vid.) 2 =b 2 ∑(x-x vid.) 2. Tai lengva patikrinti pagal tiesinės koreliacijos koeficiento formulę: r 2 xy = b 2 *σ 2 x /σ 2 y

čia σ 2 y yra visuminė požymio y dispersija;

σ 2 x - charakteristikos y sklaida dėl koeficiento x. Atitinkamai, nuokrypių kvadratu suma dėl tiesinės regresijos bus tokia:

∑(y x -y vid.) 2 =b 2 ∑(x-x vid.) 2 .

Kadangi tam tikram stebėjimų kiekiui x ir y tiesinės regresijos kvadratų koeficiento suma priklauso tik nuo vienos regresijos koeficiento b konstantos, tai ši kvadratų suma turi vieną laisvės laipsnį. Panagrinėkime atributo y skaičiuojamosios reikšmės turinio pusę t.y. y x. Reikšmė y x nustatoma pagal tiesinės regresijos lygtį: y x ​​= a + bx.

Parametras a gali būti apibrėžtas kaip a=y-bx. Pakeitę parametro a išraišką tiesiniame modelyje, gauname: y x =y-bx+bx avg =y-b(x-x avg).

Tam tikram kintamųjų y ir x rinkiniui apskaičiuota y x reikšmė tiesinėje regresijoje yra tik vieno parametro – regresijos koeficiento – funkcija. Atitinkamai, koeficiento kvadratinių nuokrypių suma turi laisvės laipsnių skaičių, lygų 1.

Yra lygybė tarp suminės, koeficiento ir liekamosios kvadratų sumų laisvės laipsnių skaičiaus. Likutinės kvadratų sumos laisvės laipsnių skaičius tiesinėje regresijoje yra (n-2). Laisvės laipsnių skaičius bendrai kvadratų sumai nustatomas pagal vienetų skaičių, o kadangi naudojame vidurkį, apskaičiuotą iš imties duomenų, prarandame vieną laisvės laipsnį, t.y. (n-1). Taigi, turime dvi lygybes: sumoms ir laisvės laipsnių skaičiui. Ir tai, savo ruožtu, sugrąžina mus prie palyginamų dispersijų pagal laisvės laipsnį, kurių santykis suteikia Fisher kriterijų.

25. Atskirų regresijos lygties parametrų ir koeficientų reikšmingumo įvertinimas naudojant Stjudento testą.

27. Tiesinė ir netiesinė regresija ir jų tyrimo metodai.

Tiesinė regresija ir jos tyrimo bei vertinimo metodai nebūtų tokie svarbūs, jei be šio labai svarbaus, bet visgi paprasčiausio atvejo jų pagalba negautume įrankio sudėtingesnėms netiesinėms priklausomybėms analizuoti. Netiesines regresijas galima suskirstyti į dvi labai skirtingas klases. Pirmoji ir paprastesnė yra netiesinių priklausomybių klasė, kurioje yra netiesiškumas aiškinamųjų kintamųjų atžvilgiu, bet kurios išlieka tiesinės į juos įtrauktuose ir vertinamuose parametruose. Tai apima įvairaus laipsnio daugianarius ir lygiakraštę hiperbolę.

Tokią netiesinę kintamųjų, įtrauktų į paaiškinimą, regresiją, tiesiog transformuojant (pakeičiant) kintamuosius, galima lengvai redukuoti iki įprastos tiesinės regresijos naujiems kintamiesiems. Todėl parametrų įvertinimas šiuo atveju atliekamas tiesiog mažiausiaisiais kvadratais, nes priklausomybės parametruose yra tiesinės. Taigi svarbų vaidmenį ekonomikoje vaidina netiesinė priklausomybė, aprašyta lygiakrašte hiperbole:

Jo parametrai yra gerai įvertinti mažiausiųjų kvadratų metodu, o ši priklausomybė pati apibūdina specifinių žaliavų, kuro, medžiagų sąnaudų ryšį su produkcijos apimtimi, prekių apyvartos laiku ir visų šių veiksnių ryšį su prekybos apimtimi. apyvarta. Pavyzdžiui, Phillipso kreivė apibūdina netiesinį ryšį tarp nedarbo lygio ir darbo užmokesčio augimo procento.

Visiškai kitokia situacija yra su regresija, kuri vertinamuose parametruose yra netiesinė, pavyzdžiui, pavaizduota laipsnio funkcija, kurioje pats laipsnis (jo eksponentas) yra parametras arba priklauso nuo parametro. Tai taip pat gali būti eksponentinė funkcija, kai laipsnio pagrindas yra parametras ir eksponentinė funkcija, kurioje vėlgi rodiklyje yra parametras arba parametrų derinys. Ši klasė savo ruožtu yra padalinta į du poklasius: vienas apima išoriškai netiesinį, bet iš esmės vidinį linijinį. Tokiu atveju modelį galite perkelti į linijinę formą naudodami transformacijas. Tačiau jei modelis iš vidaus yra netiesinis, tai jo negalima redukuoti iki tiesinės funkcijos.

Taigi tik tie modeliai, kurie regresinėje analizėje yra iš esmės netiesiniai, laikomi tikrai netiesiniais. Visi kiti, kuriuos galima redukuoti į tiesinius per transformacijas, tokiomis nelaikomi, o būtent jie dažniausiai nagrinėjami ekonometriniuose tyrimuose. Kartu tai nereiškia, kad ekonometrijoje neįmanoma ištirti iš esmės netiesinių priklausomybių. Jei modelio parametrai yra iš vidaus netiesiniai, tada parametrams įvertinti naudojamos iteracinės procedūros, kurių sėkmė priklauso nuo lygties tipo, skirto iteracinio metodo ypatybėms.

Grįžkime prie priklausomybių, sumažintų iki tiesinių. Jei jie yra netiesiniai tiek parametrais, tiek kintamaisiais, pavyzdžiui, formos y = a, padauginta iš X laipsnio, kurio eksponentas yra parametras -  (beta):

Akivaizdu, kad tokį ryšį galima lengvai konvertuoti į tiesinę lygtį paprastu logaritmu.

Įvedus naujus logaritmus žyminčius kintamuosius, gaunama tiesinė lygtis. Tada regresijos įvertinimo procedūra susideda iš naujų kiekvieno stebėjimo kintamųjų apskaičiavimo, imant pradinių reikšmių logaritmus. Tada įvertinama naujų kintamųjų regresinė priklausomybė. Norėdami pereiti prie pradinių kintamųjų, turėtumėte paimti antilogaritmą, tai yra, iš tikrųjų grįžti prie pačių laipsnių, o ne jų eksponentų (juk logaritmas yra eksponentas). Panašiai galima nagrinėti ir eksponentinių ar eksponentinių funkcijų atvejį.

Esant reikšmingai netiesinei regresijai, neįmanoma taikyti įprastos regresijos vertinimo procedūros, nes atitinkamo ryšio negalima paversti tiesiniu. Bendra veiksmų schema yra tokia:

1. Priimamos kai kurios tikėtinos pradinės parametrų reikšmės;

2. Numatytos Y vertės apskaičiuojamos iš faktinių X verčių, naudojant šias parametrų reikšmes;

3. Visiems imties stebėjimams apskaičiuojami likučiai ir tada liekanų kvadratų suma;

4. Nedideli vieno ar kelių parametrų įverčių pakeitimai;

5. Apskaičiuojamos naujos prognozuojamos Y reikšmės, likučiai ir likučių kvadratų suma;

6. Jei likučių kvadratų suma yra mažesnė nei anksčiau, tai nauji parametrų įverčiai yra geresni už ankstesnius ir turėtų būti naudojami kaip naujas atskaitos taškas;

7. 4, 5 ir 6 žingsniai kartojami dar kartą, kol pasidaro nebeįmanomi parametrų įverčių keitimai, dėl kurių pasikeistų kvadratų likučių suma;

8. Daroma išvada, kad likučių kvadratų suma yra sumažinta, o galutiniai parametrų įverčiai yra mažiausių kvadratų įverčiai.

Tarp netiesinių funkcijų, kurias galima sumažinti iki tiesinės formos, galios funkcija plačiai naudojama ekonometrijoje. Jame esantis parametras b turi aiškią interpretaciją, nes tai yra elastingumo koeficientas. Modeliuose, kurių apskaičiuoti parametrai yra netiesiniai, bet gali būti redukuojami į tiesinę formą, transformuotoms lygtims taikomi mažiausi kvadratai. Praktiškai naudoti logaritmus ir atitinkamai eksponentus galima tada, kai gautas ženklas neturi neigiamų reikšmių. Tiriant funkcijų ryšius naudojant gauto požymio logaritmą, ekonometrijoje vyrauja galios dėsnio priklausomybės (paklausos ir pasiūlos kreivės, gamybos funkcijos, absorbcijos kreivės, apibūdinančios ryšį tarp produktų darbo intensyvumo, gamybos masto, priklausomybės). BNP dėl užimtumo lygio, Engelio kreivės).

28. Atvirkštinis modelis ir jo panaudojimas

Kartais naudojamas vadinamasis atvirkštinis modelis, kuris viduje yra netiesinis, tačiau jame, skirtingai nei lygiakraštėje hiperbolėje, transformuojamas ne aiškinamasis kintamasis, o gaunamas požymis Y. Todėl atvirkštinis modelis pasirodo būti viduje netiesinis ir OLS reikalavimas netenkinamas tikrosioms gauto atributo Y reikšmėms ir jų atvirkštinėms reikšmėms. Netiesinės regresijos koreliacijos tyrimas nusipelno ypatingo dėmesio. Bendruoju atveju antrojo laipsnio parabolė, kaip ir aukštesnės eilės daugianariai, tiesiškai įgauna dauginės regresijos lygties formą. Jei tiesinė regresijos lygtis, kuri yra netiesinė paaiškinamo kintamojo atžvilgiu, įgyja tiesinės porinės regresijos lygties formą, tada ryšio glaudumui įvertinti galima naudoti tiesinės koreliacijos koeficientą.

Jei regresijos lygties transformacijos į tiesinę formą yra susietos su priklausomu kintamuoju (rezultatine charakteristika), tai tiesinės koreliacijos koeficientas, pagrįstas transformuotomis charakteristikų reikšmėmis, duoda tik apytikslį santykio įvertinimą ir skaičiais nesutampa su koreliacijos indeksas. Reikėtų nepamiršti, kad skaičiuojant koreliacijos indeksą, naudojamos gautos charakteristikos Y nuokrypių kvadratų sumos, o ne jų logaritmai. Koreliacijos indekso reikšmingumo vertinimas atliekamas taip pat, kaip ir koreliacijos koeficiento patikimumo (reikšmingumo) įvertinimas. Pats koreliacijos indeksas, kaip ir nustatymo indeksas, naudojamas bendrai netiesinės regresijos lygties reikšmingumui patikrinti naudojant Fisher F testą.

Atkreipkite dėmesį, kad galimybė sudaryti netiesinius modelius, tiek redukuojant juos į tiesinę formą, tiek naudojant netiesinę regresiją, viena vertus, padidina regresinės analizės universalumą. Kita vertus, tai gerokai apsunkina tyrėjo užduotis. Jei apsiribosime porine regresine analize, stebėjimus Y ir X galime pavaizduoti kaip sklaidos diagramą. Dažnai kelios skirtingos netiesinės funkcijos apytiksliai atitinka stebėjimus, jei jie yra tam tikroje kreivėje. Tačiau daugkartinės regresinės analizės atveju tokio grafiko sudaryti negalima.

Svarstant alternatyvius modelius su tuo pačiu priklausomo kintamojo apibrėžimu, atrankos procedūra yra gana paprasta. Galima įvertinti regresiją, pagrįstą visomis tikėtinomis funkcijomis, kurias galima įsivaizduoti, ir pasirinkti funkciją, kuri labiausiai paaiškina priklausomo kintamojo pokyčius. Akivaizdu, kad kai tiesinė funkcija paaiškina maždaug 64 % y dispersijos, o hiperbolinė funkcija paaiškina 99,9 %, akivaizdu, kad reikėtų pasirinkti pastarąją. Tačiau kai skirtingi modeliai naudoja skirtingas funkcines formas, modelių pasirinkimo problema tampa žymiai sudėtingesnė.

29. Box-Cox testo naudojimas.

Apskritai, svarstant alternatyvius modelius su tuo pačiu priklausomo kintamojo apibrėžimu, pasirinkimas yra paprastas. Labiausiai pagrįsta regresiją įvertinti pagal visas tikėtinas funkcijas, sutelkiant dėmesį į funkciją, kuri labiausiai paaiškina priklausomo kintamojo pokytį. Jei determinacijos koeficientas vienu atveju matuoja dispersijos proporciją, paaiškintą regresija, o kitu atveju – šio priklausomo kintamojo logaritmo dispersijos proporciją, paaiškintą regresija, tada pasirinkimas daromas nesunkiai. Kitas dalykas, kai šios dviejų modelių vertės yra labai artimos ir pasirinkimo problema tampa žymiai sudėtingesnė.

Tada turėtų būti taikoma standartinė Box-Cox testo procedūra. Jei jums tiesiog reikia palyginti modelius naudojant efektyvųjį koeficientą ir jo logaritmą priklausomo kintamojo varianto forma, tada naudojama Zarembka testo versija. Jame siūloma pakeisti stebėjimo skalę Y, kuri leidžia tiesiogiai palyginti vidutinę kvadratinę paklaidą (MSE) tiesiniuose ir logaritminiuose modeliuose. Atitinkama procedūra apima šiuos veiksmus:

    Apskaičiuojamas pavyzdyje esančių Y verčių geometrinis vidurkis, kuris sutampa su Y logaritmo aritmetinio vidurkio eksponentu;

    Stebėjimai Y perskaičiuojami taip, kad jie būtų padalinti iš pirmajame žingsnyje gautos vertės;

    Regresija apskaičiuojama tiesiniam modeliui, naudojant mastelio Y vertes, o ne pradines Y vertes, o logaritminiam modeliui naudojant mastelio Y verčių logaritmą. Dviejų regresijų RMSE vertės dabar yra palyginamos modelis su mažesne kvadratinių nuokrypių suma geriau atitinka tikrąjį stebimų verčių ryšį;

    Norint patikrinti, ar kuris nors iš modelių netinka žymiai geriau, galima naudoti pusės stebėjimų skaičiaus sandaugą ir standartinio nuokrypio reikšmių santykio logaritmą perskaičiuotose regresijose, o tada paimti absoliuti šios vertės vertė.

30. Veiksnių tarpusavio koreliacijos ir daugiakolineariškumo sampratos.

34. MNC pagrindai ir jo taikymo pagrįstumas.

Dabar pažiūrėkime į OLS pagrindus, jos taikymo pagrįstumą (įskaitant daugybines regresijos problemas) ir svarbiausias įverčių, gautų naudojant OLS, savybes. Pradėkime nuo to, kad kartu su analitine priklausomybe nuo dešinės regresijos lygties pusės, atsitiktinis narys taip pat vaidina svarbų vaidmenį. Šis atsitiktinis komponentas yra nepastebimas dydis. Patys regresijos parametrų ir koreliacijos rodiklių statistiniai testai yra pagrįsti nepatikrintomis prielaidomis apie šios atsitiktinės daugkartinės regresijos komponento pasiskirstymą. Šios prielaidos yra tik preliminarios. Tik sukonstruojus regresijos lygtį patikrinama, ar atsitiktinių likučių (atsitiktinio komponento empirinių analogų) įverčiai turi a priori prisiimtų savybių. Iš esmės, įvertinus modelio parametrus, apskaičiuojami skirtumai tarp teorinių ir faktinių gauto požymio verčių, kad būtų galima įvertinti patį atsitiktinį komponentą. Svarbu nepamiršti, kad tai tik pavyzdinis tam tikros lygties nežinomos liekanos įgyvendinimas.

Regresijos koeficientai, gauti iš normaliųjų lygčių sistemos, yra pavyzdiniai ryšio stiprumo įverčiai. Akivaizdu, kad jie turi praktinę reikšmę tik tada, kai yra nešališki. Prisiminkite, kad šiuo atveju likučių vidurkis yra lygus nuliui, arba, kas yra tas pats, įverčio vidurkis yra lygus pačiam apskaičiuotam parametrui. Tada likučiai nebus kaupiami per daug imties įverčių, o pats rastas regresijos parametras gali būti laikomas daugelio nešališkų įverčių vidurkiu.

Be to, įverčiai turėtų turėti mažiausią dispersiją, t.y. būti veiksmingi ir tada tampa įmanoma pereiti nuo praktiškai netinkamų taškinių įverčių prie intervalo įvertinimo. Galiausiai, pasikliautinieji intervalai yra naudingi, kai tikimybė gauti įvertinimą tam tikru atstumu nuo tikrosios (nežinomos) parametro reikšmės yra artima vienetui. Tokie įverčiai vadinami nuosekliais, o nuoseklumo savybei būdingas jų tikslumo padidėjimas didėjant imties dydžiui.

Tačiau nuoseklumo sąlyga neįvykdoma automatiškai ir labai priklauso nuo šių dviejų svarbių reikalavimų įvykdymo. Pirma, patys likučiai turi būti stochastiniai su ryškiausiu atsitiktinumu, t.y. visos aiškiai funkcinės priklausomybės turi būti konkrečiai įtrauktos į daugkartinės regresijos analitinį komponentą, be to, likučių reikšmės turi būti paskirstytos nepriklausomai viena nuo kitos skirtingiems pavyzdžiams (nėra likučių autokoreliacijos). Antrasis, ne mažiau svarbus reikalavimas, kad kiekvieno nuokrypio (likutinė) dispersija būtų vienoda visoms X kintamųjų reikšmėms (homoscedastiškumas). Tie. homoskedastiškumas išreiškiamas visų stebėjimų dispersijos pastovumu:

Priešingai, heteroskedastiškumas yra tokios skirtingų stebėjimų dispersijos pastovumo pažeidimas. Tokiu atveju a priori (prieš stebėjimus) tikimybė gauti labai nukrypstančias vertes su skirtingais atsitiktinių terminų teoriniais pasiskirstymais skirtingiems stebėjimams imtyje bus gana didelė.

Likučių autokoreliacija arba koreliacijos tarp dabartinių ir ankstesnių (vėlesnių) stebėjimų liekanų buvimas nustatomas pagal įprasto tiesinės koreliacijos koeficiento reikšmę. Jei jis labai skiriasi nuo nulio, likučiai yra autokoreliuojami, todėl tikimybės tankio funkcija (likučių pasiskirstymas) priklauso nuo stebėjimo taško ir nuo likutinių verčių pasiskirstymo kituose stebėjimo taškuose. Likučių autokoreliaciją patogu nustatyti naudojant turimą statistinę informaciją, jei yra stebėjimų eilės tvarka pagal faktorių X. Likučių autokoreliacijos nebuvimas užtikrina regresijos koeficientų įverčių nuoseklumą ir efektyvumą.

35. Homoscedastiškumas ir heteroskedastiškumas, likučių autokoreliacija, apibendrinti mažiausi kvadratai (GLM).

Visų X kintamųjų verčių likučių dispersijų vienodumas arba homoskedastiškumas taip pat būtinas norint gauti nuoseklius regresijos parametrų įverčius naudojant OLS. Neįvykdžius homoskedastikos sąlygos, atsiranda vadinamasis heteroskedastiškumas. Tai gali sukelti šališkus regresijos koeficientų įverčius. Heteroskedastiškumas daugiausia paveiks regresijos koeficiento įverčių efektyvumo sumažėjimą. Šiuo atveju ypač sunku naudoti regresijos koeficiento standartinės paklaidos formulę, kurią naudojant daroma prielaida, kad bet kurioms faktoriaus reikšmėms lieka vienoda likučių sklaida. Kalbant apie regresijos koeficientų įverčių nešališkumą, tai pirmiausia priklauso nuo likučių nepriklausomumo ir pačių veiksnių verčių.

Gana aiškus, nors ir ne griežtas ir įgūdžių reikalaujantis būdas homoskedastiškumui patikrinti – grafiškai ištirti likučių priklausomybės nuo vidutinio apskaičiuoto (teorinio) rezultatinio požymio pobūdį arba atitinkamus koreliacijos laukus. Analitiniai heteroskedastiškumo tyrimo ir vertinimo metodai yra griežtesni. Jei pastebimas didelis heteroskedastiškumas, vietoj OLS patartina naudoti generalizuotą OLS (GLM).

Be daugkartinės regresijos reikalavimų, kylančių naudojant OLS, taip pat būtina laikytis į modelį įtrauktų kintamųjų sąlygų. Tai, visų pirma, apima reikalavimus, susijusius su modelio faktorių skaičiumi tam tikram stebėjimų kiekiui (nuo 1 iki 7). Priešingu atveju regresijos parametrai bus statistiškai nereikšmingi. Atitinkamų skaitinių metodų taikymo efektyvumo požiūriu diegiant LSM būtina, kad stebėjimų skaičius viršytų įvertintų parametrų skaičių (lygčių sistemoje lygčių skaičius yra didesnis už ieškomų skaičių). kintamieji).

Reikšmingiausias ekonometrijos pasiekimas – reikšmingas nežinomų parametrų įvertinimo metodų tobulinimas ir nagrinėjamų poveikių statinio reikšmingumo nustatymo kriterijų tobulinimas. Šiuo atžvilgiu tradicinio OLS naudojimo negalėjimas arba netikslumas dėl vienokiu ar kitokiu pasireiškimo heteroskedastiškumu lėmė apibendrinto OLS (GLM) sukūrimą. Tiesą sakant, tai apima modelio koregavimą, jo specifikacijų keitimą ir pradinių duomenų transformavimą, kad būtų užtikrintas nešališkas, efektyvus ir nuoseklus regresijos koeficientų įvertinimas.

Daroma prielaida, kad likučių vidurkis yra lygus nuliui, bet jų sklaida nebėra pastovi, o proporcinga K i reikšmėms, kur šios reikšmės yra proporcingumo koeficientai, kurie skiriasi skirtingoms dydžių vertėms. faktorius x. Taigi būtent šie koeficientai (K i reikšmės) apibūdina dispersijos nevienalytiškumą. Natūralu, kad manoma, kad pats dispersijos dydis, kuris yra bendras šių proporcingumo koeficientų veiksnys, nežinomas.

Pradinis modelis, įtraukus šiuos koeficientus į daugkartinės regresijos lygtį, ir toliau išlieka heteroskedastinis (tiksliau, tai yra modelio likutinės vertės). Tegul šie likučiai (likučiai) nėra automatiškai koreliuojami. Įveskime naujus kintamuosius, gautus i-ojo stebėjimo metu užfiksuotus pradinius modelio kintamuosius padalijus iš proporcingumo koeficientų K i kvadratinės šaknies. Tada gauname naują lygtį transformuotuose kintamuosiuose, kuriose liekanos bus homoskedastinės. Patys nauji kintamieji yra svertiniai seni (originalūs) kintamieji.

Todėl tokiu būdu gautos naujosios lygties parametrų įvertinimas su homoskedastiniais likučiais bus sumažintas iki svertinio mažiausių kvadratų metodo (iš esmės tai yra OLS metodas). Naudojant vietoj pačių regresijos kintamųjų, jų nuokrypių nuo vidurkių, regresijos koeficientų išraiškos įgauna paprastą ir standartizuotą (vienodą) formą, kuri OLS ir OLS atveju šiek tiek skiriasi nuo pataisos koeficiento 1/K skaitiklyje ir regresijos koeficientą pateikiančios trupmenos vardiklis.

Reikia turėti omenyje, kad transformuoto (koreguoto) modelio parametrai labai priklauso nuo to, kokia sąvoka remiamasi proporcingumo koeficientams K i. Dažnai manoma, kad likučiai yra tiesiog proporcingi faktorių reikšmėms. Modelis įgauna paprasčiausią formą, kai pripažįstama hipotezė, kad paklaidos yra proporcingos paskutinio veiksnio reikšmėms. Tada OLS leidžia padidinti stebėjimų svorį su mažesnėmis transformuotų kintamųjų reikšmėmis nustatant regresijos parametrus, palyginti su standartinio OLS veikimu su pradiniais šaltinio kintamaisiais. Tačiau šie nauji kintamieji jau turi kitokį ekonominį turinį.

Hipotezė apie likučių proporcingumą faktoriaus dydžiui gali turėti realų pagrindą. Tegul tvarkomas tam tikras nepakankamai homogeniškas duomenų rinkinys, pavyzdžiui, įtraukiant dideles ir mažas įmones vienu metu. Tada didelės koeficiento tūrinės vertės gali atitikti tiek didelę gautos charakteristikos sklaidą, tiek didelę likutinių verčių sklaidą. Be to, OLS naudojimas ir atitinkamas perėjimas prie santykinių verčių ne tik sumažina faktoriaus kitimą, bet ir sumažina klaidų dispersiją. Taigi paprasčiausias atvejis, kai atsižvelgiama į ir koreguojamas heteroskedastiškumas regresijos modeliuose, realizuojamas naudojant OLS.

Aukščiau pateiktas požiūris į OLS diegimą svertinio OLS pavidalu yra gana praktiškas – jis tiesiog įgyvendinamas ir turi skaidrią ekonominę interpretaciją. Žinoma, tai nėra pats bendriausias požiūris, o matematinės statistikos, kuri yra teorinis ekonometrijos pagrindas, kontekste mums siūlomas daug griežtesnis metodas, įgyvendinantis OLS pačia bendriausia forma. Jame reikia žinoti paklaidos vektoriaus kovariacijos matricą (likutinį stulpelį). Ir tai paprastai yra nesąžininga praktinėse situacijose ir gali būti neįmanoma rasti šios matricos kaip tokios. Todėl, paprastai kalbant, reikia kažkaip įvertinti reikiamą matricą, kad tokį įvertinimą panaudotume atitinkamose formulėse, o ne pačią matricą. Taigi aprašyta OMNC įgyvendinimo versija yra vienas iš tokių įvertinimų. Jis kartais vadinamas prieinamais apibendrintais mažiausiais kvadratais.

Taip pat reikėtų atsižvelgti į tai, kad determinacijos koeficientas negali būti tinkamas tinkamumo kokybės matas naudojant OLS. Grįžtant prie OLS naudojimo, taip pat pastebime, kad standartinių nuokrypių (standartinių paklaidų) panaudojimo White formoje metodas (vadinamosios nuoseklios standartinės paklaidos, esant heteroskedastiškumui) yra pakankamai bendro pobūdžio. Šis metodas taikomas, jei paklaidos vektoriaus kovariacijos matrica yra įstrižainė. Jei yra likučių (klaidų) autokoreliacija, kai kovariacijos matricoje ir už pagrindinės įstrižainės yra nulinių elementų (koeficientų), tai reikėtų naudoti bendresnį standartinės klaidos metodą Neve West formoje. Yra reikšmingas apribojimas: nuliniai elementai, be pagrindinės įstrižainės, randami tik gretimose įstrižainėse, nutolusiose nuo pagrindinės įstrižainės ne daugiau kaip tam tikru atstumu.

Iš to, kas išdėstyta pirmiau, aišku, kad būtina turėti galimybę patikrinti duomenis dėl heteroskedastiškumo. Šiam tikslui skirti toliau pateikti testai. Jie patikrina pagrindinę hipotezę apie likučių dispersijų lygybę su alternatyvia hipoteze (apie šių hipotezių nelygybę). Be to, heteroskedastiškumo pobūdžiui yra a priori struktūrinių apribojimų. Goldfeld-Quandt teste dažniausiai naudojama prielaida, kad paklaidos dispersija (likutinė) tiesiogiai priklauso nuo kokio nors nepriklausomo kintamojo reikšmės. Šio testo naudojimo schema yra tokia. Pirma, duomenys išdėstomi mažėjančia nepriklausomo kintamojo, kuriam įtariamas heteroskedastiškumas, tvarka. Šis sutvarkytas duomenų rinkinys pašalina vidutiniškai keletą stebėjimų, kur žodis „keli“ reiškia maždaug ketvirtadalį (25 %) visų stebėjimų. Toliau atliekamos dvi nepriklausomos regresijos pirmoje iš likusių (po pašalinimo) vidutinių stebėjimų ir paskutinių dviejų iš šių likusių vidutinių stebėjimų. Po to sudaromos dvi atitinkamos liekanos. Galiausiai sudaroma Fišerio F statistika ir jei tiriama hipotezė yra teisinga, tada F iš tikrųjų yra Fišerio skirstinys su atitinkamais laisvės laipsniais. Tada didelė šios statistikos reikšmė reiškia, kad tikrinama hipotezė turi būti atmesta. Be pašalinimo žingsnio šio testo galia sumažėja.

Breusch-Pagan testas naudojamas tais atvejais, kai a priori daroma prielaida, kad dispersijos priklauso nuo kai kurių papildomų kintamųjų. Pirmiausia atliekama įprastinė (standartinė) regresija ir gaunamas liekanų vektorius. Tada sudaromas dispersijos įvertis. Toliau atliekama likučių kvadratinio vektoriaus, padalinto iš empirinės dispersijos (dispersijos įvertinimo), regresija. Jai (regresijai) randama paaiškinta variacijos dalis. Ir šiai paaiškintai variacijos daliai, padalintai per pusę, sudaroma statistika. Jei nulinė hipotezė yra teisinga (netiesa heteroskedastiškumas), tada ši reikšmė turi pasiskirstymą ei- kvadratas. Jei testas, priešingai, atskleidžia heteroskedastiškumą, tada pradinis modelis transformuojamas dalijant likučių vektoriaus komponentus iš atitinkamų stebimų nepriklausomų kintamųjų vektoriaus komponentų.

36. Standartinio nuokrypio metodas balta forma.

Galima padaryti tokias išvadas. Naudojant OLS, esant heteroskedastiškumui, sumažinama svertinių kvadratinių nuokrypių suma. Turimos OLS naudojimas yra susijęs su poreikiu turėti daug stebėjimų, viršijančių įvertintų parametrų skaičių. Palankiausias OLS naudojimo atvejis yra toks, kai paklaida (likučiai) yra proporcinga vienam iš nepriklausomų kintamųjų ir gauti įverčiai yra nuoseklūs. Jei vis dėlto modelyje su heteroskedastiškumu reikia naudoti ne OLS, o standartinį OLS, tada norint gauti nuoseklius įverčius, galima naudoti White arba Nevier-West formos klaidų įvertinimus.

Analizuojant laiko eilutes dažnai reikia atsižvelgti į statistinę stebėjimų priklausomybę skirtingais laiko momentais. Šiuo atveju nesusijusių klaidų prielaida netenkinama. Panagrinėkime paprastą modelį, kuriame klaidos sudaro pirmos eilės autoregresinį procesą. Šiuo atveju paklaidos tenkina paprastą pasikartojimo ryšį, kurio dešinėje vienas iš terminų yra nepriklausomų normaliai paskirstytų atsitiktinių dydžių seka, kurios vidurkis nulinis ir pastovi dispersija. Antrasis terminas yra parametro (autoregresijos koeficiento) ir likučių verčių ankstesniu momentu sandauga. Pati klaidų verčių (likučių) seka sudaro stacionarų atsitiktinį procesą. Stacionariam atsitiktiniam procesui būdingas jo charakteristikų pastovumas laikui bėgant, ypač vidurkis ir dispersija. Šiuo atveju mus dominančią kovariacijos matricą (jos sąlygas) galima lengvai parašyti naudojant parametro galias.

Žinomo parametro autoregresinio modelio įvertinimas atliekamas naudojant OLS. Šiuo atveju užtenka tiesiog redukuoti pradinį modelį paprasta transformacija į modelį, kurio paklaidos tenkina standartinio regresijos modelio sąlygas. Tai labai reta, bet vis tiek yra situacija, kai žinomas autoregresijos parametras. Todėl paprastai reikia atlikti įvertinimą naudojant nežinomą autoregresinį parametrą. Tokiam vertinimui dažniausiai naudojamos trys procedūros. Cochrane-Orcutt metodas, Hildreth-Lu procedūra ir Durbin metodas.

Apskritai šios išvados yra teisingos. Laiko eilučių analizei reikia pataisyti įprastą OLS, nes šiuo atveju klaidos dažniausiai yra koreliuojamos. Dažnai šios klaidos sudaro pirmos eilės stacionarų autoregresyvų procesą. Pirmos eilės autoregresijos OLS įverčiai yra nešališki, nuoseklūs, bet neveiksmingi. Turėdamas žinomą autoregresijos koeficientą, OLS redukuoja iki paprastų pradinės sistemos transformacijų (pataisymų), o vėliau iki standartinio OLS taikymo. Jei, kaip dažniausiai būna, autoregresinis koeficientas nežinomas, tai OLS galimos kelios procedūros, kurias sudaro nežinomo parametro (koeficiento) įvertinimas, po kurio taikomos tos pačios transformacijos kaip ir ankstesniu žinomo atveju. parametras.

37. Breuscho-Pagan testo, Goldfeldt-Quandt testo samprata

Koreliacijos ir determinacijos rodikliai

Tiesinė poros regresija

Remiantis pagalbiniais duomenimis, kurie paskaičiuoti lentelėje. 2, apskaičiuojame ryšio glaudumo rodiklį.

Šis rodiklis yra imties tiesinės koreliacijos koeficientas, apskaičiuotas pagal formulę.

Remiantis koreliacijos koeficiento skaičiavimo rezultatais, galime daryti išvadą, kad ryšys tarp faktoriaus ir gaunamos charakteristikos yra tiesioginis ir stiprus (pagal Chaddock skalę).

Koreliacijos koeficiento kvadratas vadinamas determinacijos koeficientu, kuris parodo gauto požymio kitimo proporciją, paaiškintą faktoriaus požymio kitimu.

Paprastai aiškinant determinacijos koeficientą jis išreiškiamas procentais.

R2 = 0,8472 = 0,7181

tie. 71,81 % atvejų pasikeitus faktoriaus charakteristikai, pasikeičia ir atsiradusi charakteristika. Regresijos lygties pasirinkimo tikslumas yra gana didelis. Likę 28,19 % Y pokyčio paaiškinami veiksniais, į kuriuos modelyje neatsižvelgta.

Galios poros regresija

Naudodamiesi koreliacijos koeficientu, nustatome galios poros regresijos gautų ir faktorinių charakteristikų ryšio glaudumą:

Pakeitę žinomus duomenis, gauname:

Nustatymo indikatorius.

tie. 69% atvejų pasikeitus faktoriaus charakteristikai, pasikeičia ir atsiradusi charakteristika. Regresijos lygties pritaikymo tikslumas yra vidutinis. Likę 31 % Y pokyčio paaiškinami veiksniais, į kuriuos modelyje neatsižvelgta.

Vidutinė apytikslė paklaida

Tiesinė poros regresija

Įvertinkime regresijos lygties kokybę naudodami absoliučios aproksimacijos paklaidą. Vidutinė apytikslė paklaida - vidutinis apskaičiuotų verčių nuokrypis nuo faktinių:

Galios poros regresija

Vidutinė apytikslė paklaida - vidutinis apskaičiuotų verčių nuokrypis nuo faktinių:

Apytikslė 5–7 % paklaida rodo gerą regresijos lygties atitikimą pradiniams duomenims.

Kadangi paklaida yra didesnė nei 7%, šios lygties nepatartina naudoti kaip regresijos.

Regresinio modeliavimo rezultatų statistinio patikimumo įvertinimas Fišerio F testu

Tiesinė poros regresija

Determinacijos koeficientas R2 naudojamas tiesinės regresijos lygties, kaip visumos, reikšmingumui patikrinti.

Regresijos modelio reikšmingumo testavimas atliekamas naudojant Fišerio F testą, kurio apskaičiuotoji reikšmė randama kaip tiriamo rodiklio pradinės stebėjimų serijos dispersijos ir nešališko liekamosios sekos dispersijos įverčio santykis. šiam modeliui.

Jei apskaičiuota vertė su k 1 =(m) ir k 2 =(n-m-1) laisvės laipsniais yra didesnė už lentelėje pateiktą reikšmę tam tikru reikšmingumo lygiu, tai modelis laikomas reikšmingu.

Suporuotos tiesinės regresijos statistinis reikšmingumas vertinamas naudojant šį algoritmą:

kur m = 1 porinei regresijai.

Kadangi faktinė F vertė >

Galios poros regresija

Panašiai kaip tiesinė poros regresija, įvertinsime galios poros regresiją

čia m – faktorių skaičius modelyje.

1. Pateikiama nulinė hipotezė, kad lygtis kaip visuma yra statistiškai nereikšminga: H 0: R 2 =0 reikšmingumo lygyje b.

2. Nustatykite tikrąją F kriterijaus reikšmę:

kur m = 1 porinei regresijai.

3. Lentelėje pateikta reikšmė nustatoma pagal Fisher skirstymo lenteles tam tikram reikšmingumo lygiui, atsižvelgiant į tai, kad laisvės laipsnių skaičius bendrai kvadratų sumai (didesnė dispersija) yra 1, o likutinės laisvės laipsnių skaičius. kvadratų suma (mažesnė dispersija) tiesinėje regresijoje yra n-2 .

F lentelė yra didžiausia galima kriterijaus reikšmė, veikiant atsitiktiniams veiksniams esant tam tikram laisvės laipsniui ir reikšmingumo lygiui b. Reikšmingumo lygis b – teisingos hipotezės atmetimo tikimybė, jei ji yra teisinga. Paprastai b yra lygus 0,05 arba 0,01.

4. Jei tikroji F testo vertė yra mažesnė už lentelės reikšmę, jie sako, kad nėra jokios priežasties atmesti nulinę hipotezę.

Priešingu atveju nulinė hipotezė atmetama ir su tikimybe (1-b) priimama alternatyvi hipotezė apie lygties kaip visumos statistinį reikšmingumą.

Kriterijaus lentelės reikšmė su laisvės laipsniais:

k 1 =1 ir k 2 =8, F lentelė = 5,32

Kadangi faktinė vertė F > F lentelė, determinacijos koeficientas yra statistiškai reikšmingas (rastas regresijos lygties įvertis yra statistiškai patikimas).

Remiantis analizės rezultatais, darome išvadą, kad tiek tiesinės poros regresijos, tiek galios poros regresijos determinacijos koeficientai yra statistiškai reikšmingi.

Kadangi tiesinė poros regresija turi didesnį determinacijos koeficientą (rodomąjį), manome, kad ji adekvačiai apibūdina ryšį tarp faktoriaus ir gaunamos charakteristikos.

Aproksimacijos klaida yra viena iš dažniausiai iškylančių problemų taikant tam tikrus šaltinio duomenų aproksimavimo metodus. Yra įvairių tipų aproksimavimo klaidų:

Klaidos, susijusios su šaltinio duomenų klaidomis;

Klaidos, susijusios su aproksimavimo modelio ir apytikslių duomenų struktūros neatitikimu.

„Excel“ turi gerai išvystytą linijinę duomenų apdorojimo ir aproksimavimo funkciją, kurioje naudojama sudėtinga matematika. Kad susidarytume idėją apie tai, pereikime (per F1) į aprašomąją šios raidos dalį, kurią pateikiame su santrumpos ir kai kuriais žymėjimo pakeitimais.

Skaičiuoja serijos statistiką naudodama mažiausius kvadratus, kad apskaičiuotų tiesę, kuri geriausiai atitinka turimus duomenis. Funkcija grąžina masyvą, aprašantį gautą eilutę. Kadangi ji grąžina reikšmių masyvą, funkcija turi būti nurodyta kaip masyvo formulė.

Tiesios linijos lygtis yra tokia:

y=a+b1*x1+b2*x2+...bn*xn

Sintaksė:

LINEST(y;x;konst;statistika)

Masyvas y – žinomos y reikšmės.

Masyvas x – žinomos x reikšmės. X masyve gali būti vienas ar daugiau kintamųjų rinkinių.

Const yra loginė reikšmė, nurodanti, ar fiktyvus terminas a turi būti 0.

Jei argumentas const yra TRUE, 1 arba praleistas, tada a vertinamas kaip įprasta. Jei argumentas const yra FALSE arba 0, tada a yra 0.

Statistika yra Būlio reikšmė, nurodanti, ar reikia grąžinti papildomą regresijos statistiką. Jei statistinis argumentas yra TRUE arba 1, tada LINEST pateikia papildomą regresijos statistiką. Jei statistika yra FALSE, 0 arba praleista, tada LINEST pateikia tik koeficientus ir pertrauką.

Papildoma regresijos statistika:

se1,se2,...,sen - standartinės klaidų reikšmės koeficientams b1,b2,...,bn.

jūra - standartinė konstantos a paklaidos vertė (jūra = #N/A, jei const yra FALSE).

r2 yra determinizmo koeficientas. Palyginamos tikrosios y vertės ir vertės, gautos iš linijos lygties; Remiantis palyginimo rezultatais, apskaičiuojamas determinizmo koeficientas, normalizuotas nuo 0 iki 1. Jei jis lygus 1, tai yra visiška koreliacija su modeliu, t.y. nėra skirtumo tarp tikrosios ir numatomos y verčių. Priešingu atveju, jei determinacijos koeficientas yra 0, regresijos lygtis nepavyksta nuspėti y reikšmių. Norėdami gauti informacijos apie tai, kaip apskaičiuojamas r2, žr. šio skyriaus pabaigoje esančias pastabas.

sey yra standartinė y įvertinimo klaida.

F-statistinė arba F-stebėta reikšmė. F-statistika naudojama norint nustatyti, ar pastebėtas ryšys tarp priklausomo ir nepriklausomo kintamųjų atsirado dėl atsitiktinumo, ar ne.

df – laisvės laipsniai. Laisvės laipsniai yra naudingi ieškant F kritinių verčių statistinėje lentelėje. Norėdami nustatyti modelio patikimumo lygį, palyginkite lentelės reikšmes su F-statistika, kurią grąžino funkcija LINEST.

ssreg yra kvadratų regresinė suma.

ssresid yra likutinė kvadratų suma.

Žemiau esančiame paveikslėlyje parodyta tvarka, kuria pateikiama papildoma regresijos statistika.

Pastabos

Pasirinktą informaciją iš funkcijos galima gauti naudojant INDEX funkciją, pavyzdžiui:

Y pertrauka (laisvas terminas):

INDEX(EILUTE(y,x),2)

Aproksimacijos tikslumas naudojant tiesę, apskaičiuotą funkcija LINEST, priklauso nuo duomenų sklaidos laipsnio. Kuo duomenys arčiau tiesės, tuo tikslesnis modelis, kurį naudoja funkcija LINEST. Funkcija LINEST naudoja mažiausius kvadratus, kad nustatytų geriausią duomenų atitikimą.

Atlikdama regresinę analizę, Microsoft Excel kiekvienam taškui apskaičiuoja skirtumo tarp numatomos y reikšmės ir tikrosios y reikšmės kvadratą. Šių kvadratinių skirtumų suma vadinama likutine kvadratų suma. Tada „Microsoft Excel“ apskaičiuoja skirtumų tarp faktinių y reikšmių ir vidutinės y vertės kvadratų sumą, kuri vadinama bendra kvadratų suma (kvadratų regresinė suma + likutinė kvadratų suma). Kuo mažesnė likutinė kvadratų suma, palyginti su visa kvadratų suma, tuo didesnis determinacijos koeficientas r2, kuris parodo, kaip regresijos lygtis paaiškina ryšius tarp kintamųjų.

Atminkite, kad regresijos lygties nuspėjamos y reikšmės gali būti neteisingos, jei jos nepatenka į y verčių diapazoną, kuris buvo naudojamas lygčiai apibrėžti.

1 pavyzdys Nuolydis ir Y kirtis

LINEST((1;9;5;7);(0;4;2;3)) lygus (2;1), nuolydis = 2 ir y-kirtimas = 1.

Naudojant F ir R2 statistiką

Galite naudoti F statistiką, kad nustatytumėte, ar rezultatas su didele r2 reikšme atsirado dėl atsitiktinumo. Jei stebimas F yra didesnis nei F kritinis, tada tarp kintamųjų yra ryšys. F-kritinę vertę galima gauti iš F-kritinių verčių lentelės bet kurioje matematinės statistikos žinyne. Norėdami rasti šią vertę naudodami vienpusį testą, nustatykite Alfa reikšmę (Alfa reikšmė naudojama norint nurodyti tikimybę, kad bus padaryta klaidinga išvada, kad yra stiprus ryšys), lygią 0,05, o laisvės laipsnių skaičių ( paprastai žymimi v1 ir v2), įdėkime v1 = k = 4 ir v2 = n - (k + 1) = 11 - (4 + 1) = 6, kur k yra kintamųjų skaičius, o n yra duomenų taškų skaičius . Iš atskaitos lentelės F-kritinis lygis yra 4,53. Stebėta F reikšmė yra 459,753674 (ši vertė buvo gauta pavyzdyje, kurį praleidome), o tai yra pastebimai didesnė nei F-kritinė vertė 4,53. Todėl gauta regresijos lygtis yra naudinga norint numatyti norimą rezultatą.

Rusijos Federacijos žemės ūkio ministerija

Švietimas iš federalinio valstybės biudžeto

aukštojo profesinio mokymo įstaiga

„Permės valstybinė žemės ūkio akademija

pavadintas akademiko D. N. Pryanishnikovo vardu.

Finansų, kredito ir ekonominės analizės katedra

„Ekonometrijos“ disciplinos testas – 10


    Aproksimacinės klaidos ir jų apibrėžimas…………………………………….3

    Analitinis laiko eilučių ir tam naudojamų funkcijų derinimo metodas……………………………………………………………..4

    Praktinė dalis…………………………………………………………………………………………………..

    1. 1 užduotis……………………………………………………… 11

      2 užduotis………………………………………………….………………19

Literatūros sąrašas………………………………………………………………………………………………………………..

  1. Aproksimacinės klaidos ir jų apibrėžimas.

Vidutinė apytikslė paklaida yra vidutinis apskaičiuotų duomenų nuokrypis nuo faktinių duomenų. Jis nustatomas kaip modulio procentas.

Faktinės gautos charakteristikos reikšmės skiriasi nuo teorinių. Kuo mažesnis šis skirtumas, tuo teorinės vertės priartėja prie empirinių duomenų, tai yra geriausia modelio kokybė. Kiekvieno stebėjimo gautos charakteristikos faktinių ir apskaičiuotų verčių nuokrypių dydis rodo apytikslę paklaidą. Jų skaičius atitinka gyventojų skaičių. Kai kuriais atvejais apytikslė paklaida gali būti lygi nuliui. Palyginimui naudojamos nuokrypių vertės, išreikštos faktinių verčių procentais.

Kadangi tai gali būti teigiama arba neigiama reikšmė, kiekvieno stebėjimo apytikslės paklaidos paprastai nustatomos procentais modulo. Nukrypimai gali būti laikomi absoliučia aproksimacijos paklaida ir santykine aproksimacijos paklaida. Siekiant bendrai įvertinti modelio kokybę pagal kiekvieno stebėjimo santykinius nuokrypius, vidutinė aproksimacijos paklaida nustatoma kaip paprastas aritmetinis vidurkis.

Vidutinė apytikslė paklaida apskaičiuojama pagal formulę:

Galimas ir kitas vidutinės aproksimacijos paklaidos apibrėžimas:

Jei A £ 10-12%, tai galime kalbėti apie gerą modelio kokybę.

  1. Analitinis laiko eilutės ir tam naudojamų funkcijų derinimo metodas.

Pažangesnis būdas nustatyti pagrindinę dinamikos serijos vystymosi tendenciją yra analitinis derinimas. Tiriant bendrąją tendenciją taikant analitinio derinimo metodą, daroma prielaida, kad tam tikromis matematinėmis funkcijomis dinamikos eilės lygių pokyčius galima išreikšti skirtingu aproksimacijos tikslumu. Lygties tipą lemia konkretaus reiškinio vystymosi dinamikos pobūdis. Praktiškai, naudojant esamas laiko eilutes, jie nustato formą ir randa funkcijos y=f(t) parametrus, o tada analizuoja nukrypimų nuo tendencijos elgesį. Dažniausiai niveliavimui naudojamos šios priklausomybės: tiesinė, parabolinė ir eksponentinė. Daugeliu atvejų laiko eilučių modeliavimas naudojant polinomus arba eksponentinę funkciją neduoda patenkinamų rezultatų, nes laiko eilutėje yra pastebimų periodinių svyravimų, susijusių su bendra tendencija. Tokiais atvejais turėtų būti naudojama harmonikų analizė (Furier serijos harmonikos). Pageidautina naudoti šį metodą, nes jis nustato dėsnį, pagal kurį galima gana tiksliai numatyti serijų lygių reikšmes.

Analitinio laiko eilutės derinimo tikslas – nustatyti analitinę arba grafinę priklausomybę y=f(t). Funkcija y=f(t) parenkama taip, kad ji pateiktų prasmingą tiriamo proceso paaiškinimą. Tai gali būti įvairios funkcijos.

y=f(t) formos lygčių sistemos polinomų parametrams įvertinti mažiausių kvadratų metodais

(spustelėti)

Grafinis n eilės daugianario vaizdavimas

1. Jei eilučių lygių pokyčiui būdingas tolygus lygių padidėjimas (sumažėjimas), kai absoliutūs grandinės padidėjimai yra artimi dydžiui, raidos tendencija apibūdinama tiesine lygtimi.

2. Jeigu išanalizavus dinaminės tendencijos tipą nustatoma kreivinė priklausomybė, su maždaug pastoviu pagreičiu, tai trendo forma išreiškiama antros eilės parabolės lygtimi.

3. Jeigu dinamikos eilės lygiai geometrine progresija didėja, t.y. grandinės augimo koeficientai yra daugiau ar mažiau pastovūs, dinamikos eilutės sulygiuotos naudojant eksponentinę funkciją.

Pasirinkę lygties tipą, turite nustatyti lygties parametrus. Dažniausias lygties parametrų nustatymo būdas yra mažiausių kvadratų metodas, kai sprendiniu imamas mažiausias kvadratinių nuokrypių tarp teorinio (sulyginto pagal pasirinktą lygtį) ir empirinio lygmenų sumos taškas.

Tiesus lygiavimas (nustatantis tendencijos liniją) turi išraišką: yt=a0+a1t

t laiko simbolis;

a 0 ir a1 yra norimos eilutės parametrai.

Tiesės parametrai randami išsprendus lygčių sistemą:

Lygčių sistema supaprastinama, jei t reikšmės parenkamos taip, kad jų suma būtų lygi Σt = 0, t.y. laiko skaičiavimo pradžia perkeliama į nagrinėjamo laikotarpio vidurį. Jei prieš perkeliant atskaitos tašką t = 1, 2, 3, 4..., tai po perkėlimo:

jei serijos lygių skaičius nelyginis t = -4 -3 -2 -1 0 +1 +2 +3 +4

jei serijos lygių skaičius lygus t = -7 -5 -3 -1 +1 +3 +5 +7

Taigi ∑t nelyginiam laipsniui visada bus lygus nuliui.

Panašiai 2 eilės parabolės parametrai randami sprendžiant lygčių sistemą:

Suderinimas pagal vidutinį absoliutų augimą arba vidutinį augimo tempą:

Δ-vidutinis absoliutus padidėjimas;

K-vidutinis augimo tempas;

Y0 yra pradinis eilutės lygis;

Уn yra galutinis eilutės lygis;

t – lygio eilės skaičius, pradedant nuo nulio.

Sudarius regresijos lygtį, įvertinamas jos patikimumas. Pasirinktos regresijos lygties, lygties parametrų ir koreliacijos koeficiento reikšmingumas turi būti įvertintas taikant kritinius vertinimo metodus:

Fišerio F testas, Stjudento t testas, šiuo atveju apskaičiuotos kriterijų reikšmės lyginamos su lentelėse pateiktomis (kritinėmis) reikšmėmis tam tikru reikšmingumo lygiu ir laisvės laipsnių skaičiumi. Ffact > Ftheor – regresijos lygtis yra adekvati.

n – stebėjimų skaičius (serijos lygiai), m – regresijos lygties (modelio) parametrų skaičius.

Regresijos lygties adekvatumas (viso modelio kokybė) tikrinamas naudojant vidutinę aproksimacijos paklaidą, kurios reikšmė neturi viršyti 10-12% (rekomenduojama).

Patikrinkime hipotezę H 0 apie atskirų regresijos koeficientų lygybę nuliui (jei alternatyva nelygi H 1), esant reikšmingumo lygiui b = 0,05.

Jei pagrindinė hipotezė pasirodo neteisinga, priimame alternatyvią. Šiai hipotezei patikrinti naudojamas Stjudento t testas.

Iš stebėjimo duomenų rasta t kriterijaus reikšmė (taip pat vadinama stebimais arba faktiniais) lyginama su lentelėse (kritine) verte, nustatyta iš Studentų pasiskirstymo lentelių (kurios paprastai pateikiamos statistikos ar ekonometrijos vadovėlių ir seminarų pabaigoje).

Lentelės reikšmė nustatoma priklausomai nuo reikšmingumo lygio (b) ir laisvės laipsnių skaičiaus, kuris tiesinės poros regresijos atveju yra lygus (n-2), n – stebėjimų skaičius.

Jei tikroji t-testo reikšmė yra didesnė už lentelėje pateiktą reikšmę (modulo), tada pagrindinė hipotezė atmetama ir laikoma, kad su tikimybe (1-b) parametras arba statistinė charakteristika populiacijoje reikšmingai skiriasi nuo nulio. .

Jeigu tikroji t-testo reikšmė mažesnė už lentelės reikšmę (modulo), tai nėra pagrindo atmesti pagrindinę hipotezę, t.y. parametras arba statistinė charakteristika populiacijoje reikšmingai nesiskiria nuo nulio esant reikšmingumo lygiui b.

t crit (n-m-1;b/2) = (30;0,025) = 2,042

Nuo 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

Nuo 0,56 val< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Regresijos lygties koeficientų pasitikėjimo intervalas.

Nustatykime regresijos koeficientų pasikliautinius intervalus, kurie su 95% patikimumu bus tokie:

  • (b – t crit S b ; b + t crit S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Kadangi taškas 0 (nulis) yra pasikliautinojo intervalo viduje, koeficiento b intervalo įvertinimas yra statistiškai nereikšmingas.

  • (a - t crit S a ; a + t crit S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Su 95% tikimybe galima teigti, kad šio parametro reikšmė bus rastame intervale.

Kadangi taškas 0 (nulis) yra pasikliautinojo intervalo viduje, koeficiento a intervalo įvertinimas yra statistiškai nereikšmingas.

2) F-statistika. Fisherio kriterijus.

Determinacijos koeficientas R2 naudojamas tiesinės regresijos lygties, kaip visumos, reikšmingumui patikrinti.

Regresijos modelio reikšmingumo testavimas atliekamas naudojant Fišerio F testą, kurio apskaičiuotoji reikšmė randama kaip tiriamo rodiklio pradinės stebėjimų serijos dispersijos ir nešališko liekamosios sekos dispersijos įverčio santykis. šiam modeliui.

Jei apskaičiuota vertė su k 1 =(m) ir k 2 =(n-m-1) laisvės laipsniais yra didesnė už lentelėje pateiktą reikšmę tam tikru reikšmingumo lygiu, tai modelis laikomas reikšmingu.

čia m – faktorių skaičius modelyje.

Suporuotos tiesinės regresijos statistinis reikšmingumas vertinamas naudojant šį algoritmą:

  • 1. Pateikiama nulinė hipotezė, kad lygtis kaip visuma yra statistiškai nereikšminga: H 0: R 2 =0 reikšmingumo lygyje b.
  • 2. Tada nustatykite tikrąją F kriterijaus reikšmę:

kur m = 1 porinei regresijai.

3. Lentelėje pateikta reikšmė nustatoma pagal Fisher skirstymo lenteles tam tikram reikšmingumo lygiui, atsižvelgiant į tai, kad laisvės laipsnių skaičius bendrai kvadratų sumai (didesnė dispersija) yra 1, o likutinės laisvės laipsnių skaičius. kvadratų suma (mažesnė dispersija) tiesinėje regresijoje yra n-2 .

F lentelė yra didžiausia galima kriterijaus reikšmė, veikiant atsitiktiniams veiksniams esant tam tikram laisvės laipsniui ir reikšmingumo lygiui b. Reikšmingumo lygis b – teisingos hipotezės atmetimo tikimybė, jei ji yra teisinga. Paprastai b yra lygus 0,05 arba 0,01.

4. Jei tikroji F testo vertė yra mažesnė už lentelės reikšmę, jie sako, kad nėra jokios priežasties atmesti nulinę hipotezę.

Priešingu atveju nulinė hipotezė atmetama ir su tikimybe (1-b) priimama alternatyvi hipotezė apie lygties kaip visumos statistinį reikšmingumą.

Kriterijaus lentelės reikšmė su laisvės laipsniais k 1 =1 ir k 2 =30, F lentelė = 4,17

Kadangi tikroji F vertė< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Ryšys tarp Fišerio F testo ir Stjudento t statistikos išreiškiamas lygybe:

Regresijos lygties kokybės rodikliai.

Likučių autokoreliacijos testavimas.

Svarbi sąlyga, norint sukurti kokybinį regresijos modelį naudojant OLS, yra atsitiktinių nuokrypių verčių nepriklausomybė nuo visų kitų stebėjimų nuokrypių verčių. Tai užtikrina, kad nėra jokios koreliacijos tarp bet kokių nukrypimų ir ypač tarp gretimų nukrypimų.

Autokoreliacija (serijinė koreliacija) apibrėžiama kaip koreliacija tarp stebimų rodiklių, išdėstytų laike (laiko eilutės) arba erdvėje (kryžminė eilutė). Likučių (dispersijų) autokoreliacija yra įprasta regresinėje analizėje, kai naudojami laiko eilučių duomenys, ir labai retai, kai naudojami skerspjūvio duomenys.

Ekonominėse problemose teigiama autokoreliacija yra daug dažniau nei neigiama autokoreliacija. Daugeliu atvejų teigiamą autokoreliaciją sukelia kai kurių faktorių, į kuriuos modelyje neatsižvelgta, kryptinė pastovi įtaka.

Neigiama autokoreliacija iš esmės reiškia, kad po teigiamo nuokrypio seka neigiamas ir atvirkščiai. Tokia situacija gali susidaryti, jei pagal sezoninius duomenis (žiema-vasara) vertinamas toks pat gaiviųjų gėrimų paklausos ir pajamų santykis.

Tarp pagrindinių autokoreliacijos priežasčių yra šios:

  • 1. Specifikacijos klaidos. Neatsižvelgimas į kokį nors svarbų modelio aiškinamąjį kintamąjį arba neteisingas priklausomybės formos parinkimas dažniausiai sukelia sisteminius stebėjimo taškų nukrypimus nuo regresijos linijos, o tai gali sukelti autokoreliaciją.
  • 2. Inercija. Daugelis ekonominių rodiklių (infliacija, nedarbas, BNP ir kt.) turi tam tikrą cikliškumą, susijusį su verslo veiklos bangavimu. Todėl rodiklių pokytis neįvyksta akimirksniu, o turi tam tikrą inerciją.
  • 3. Voratinklio efektas. Daugelyje gamybos ir kitų sričių ekonominiai rodikliai į ekonominių sąlygų pokyčius reaguoja su vėlavimu (laiko uždelsimu).
  • 4. Duomenų išlyginimas. Dažnai tam tikro ilgo laikotarpio duomenys gaunami apskaičiuojant duomenis per juos sudarančius intervalus. Tai gali lemti tam tikrą svyravimų, egzistavusių per nagrinėjamą laikotarpį, išlyginimą, o tai savo ruožtu gali sukelti autokoreliaciją.

Autokoreliacijos pasekmės yra panašios į heteroskedastiškumo pasekmes: regresijos koeficiento ir determinacijos koeficiento reikšmingumą lemiančios t ir F statistikos išvados greičiausiai bus neteisingos.



Ar jums patiko straipsnis? Ar jums patiko straipsnis?