Ką regresijos modelyje rodo koeficientas a1? Daugialypis ir netiesinis

Regresijos koeficientas yra absoliuti reikšmė, kuria vidutiniškai pasikeičia vienos charakteristikos vertė, kai kita susijusi charakteristika pasikeičia nurodytu matavimo vienetu. Regresijos apibrėžimas. Ryšys tarp y ir x lemia regresijos koeficiento b ženklą (jei > 0 – tiesioginis ryšys, kitu atveju – atvirkštinis). Tiesinės regresijos modelis yra dažniausiai naudojamas ir labiausiai ištirtas ekonometrijoje.

1.4. Aproksimacinė paklaida Įvertinkime regresijos lygties kokybę naudodami absoliučią aproksimacijos paklaidą. Numatomos faktorių reikšmės pakeičiamos į modelį ir gaunami tiriamo rodiklio nuspėjamieji taškiniai įverčiai. Taigi regresijos koeficientai apibūdina atskirų veiksnių reikšmingumo laipsnį veiklos rodiklio lygio didinimui.

Regresijos koeficientas

Dabar panagrinėkime 1 p. pateiktų regresinės analizės užduočių problemą. 300-301. Vienas iš matematinių tiesinės regresijos teorijos rezultatų teigia, kad įvertis N yra nešališkas įvertis su minimalia dispersija visų tiesinių nešališkų įverčių klasėje. Pavyzdžiui, galite apskaičiuoti vidutinį peršalimo ligų skaičių esant tam tikroms vidutinės mėnesio oro temperatūros vertėms rudens-žiemos laikotarpiu.

Regresijos tiesė ir regresijos lygtis

Regresijos sigma naudojama regresijos skalei sudaryti, kuri atspindi gautos charakteristikos verčių nuokrypį nuo jos vidutinės vertės, pavaizduotos regresijos tiesėje. 1, x2, x3 ir atitinkamas vidutines reikšmes y1, y2 y3, taip pat mažiausią (y - σrу/х) ir didžiausią (y + σrу/х) reikšmes (y), kad būtų sudaryta regresijos skalė. Išvada. Taigi regresijos skalė apskaičiuotų kūno svorio verčių ribose leidžia ją nustatyti esant bet kokiai kitai ūgio vertei arba įvertinti individualų vaiko vystymąsi.

Matricos formoje regresijos lygtis (RE) parašyta taip: Y=BX+U(\displaystyle Y=BX+U), kur U(\displaystyle U) yra klaidų matrica. Statistinis žodžio regresija vartojimas kilęs iš reiškinio, žinomo kaip regresija iki vidurkio, priskiriamo serui Francisui Galtonui (1889).

Porinė tiesinė regresija gali būti išplėsta įtraukiant daugiau nei vieną nepriklausomą kintamąjį; šiuo atveju ji vadinama daugybine regresija. Tiek pašaliniams, tiek „įtakingiems“ stebėjimams (taškams) naudojami modeliai tiek su jų įtraukimu, tiek be jų, atkreipiamas dėmesys į įverčių (regresijos koeficientų) pokyčius.

Dėl linijinio ryšio ir mes tikimės, kas pasikeis jam besikeičiant, ir tai vadiname svyravimais, kuriuos lemia arba paaiškinama regresija. Jei tai tiesa, tai didžioji dalis variacijos bus paaiškinta regresija, o taškai bus arti regresijos tiesės, t.y. linija gerai atitinka duomenis. Skirtumas parodo dispersijos procentą, kurio negalima paaiškinti regresija.

Šis metodas naudojamas vizualiai pavaizduoti tiriamų ekonominių rodiklių ryšio formą. Remdamiesi koreliacijos lauku, galime daryti hipotezę (visai populiacijai), kad ryšys tarp visų galimų X ir Y reikšmių yra tiesinis.

Atsitiktinės paklaidos priežastys: 1. Reikšmingų aiškinamųjų kintamųjų neįtraukimas į regresijos modelį; 2. Kintamųjų agregavimas. Normaliųjų lygčių sistema. Mūsų pavyzdyje ryšys yra tiesioginis. Norint numatyti gaunamo atributo priklausomą kintamąjį, būtina žinoti visų į modelį įtrauktų veiksnių numatomas reikšmes.

Koreliacijos ir regresijos koeficientų palyginimas

Su 95% tikimybe galime garantuoti, kad Y reikšmė neribotam stebėjimų skaičiui nepateks už rastų intervalų. Jei apskaičiuota reikšmė su lang=EN-US>n-m-1) laisvės laipsniais yra didesnė už lentelėje pateiktą reikšmę tam tikru reikšmingumo lygiu, modelis laikomas reikšmingu. Tai užtikrina, kad nėra jokios koreliacijos tarp bet kokių nukrypimų ir ypač tarp gretimų nukrypimų.

Regresijos koeficientai ir jų interpretacija

Daugeliu atvejų teigiamą autokoreliaciją sukelia kai kurių faktorių, į kuriuos modelyje neatsižvelgta, kryptinė pastovi įtaka. Neigiama autokoreliacija iš esmės reiškia, kad po teigiamo nuokrypio seka neigiamas ir atvirkščiai.

Kas yra regresija?

2. Inercija. Daugelis ekonominių rodiklių (infliacija, nedarbas, BNP ir kt.) turi tam tikrą cikliškumą, susijusį su verslo veiklos bangavimu. Daugelyje gamybos ir kitų sričių ekonominiai rodikliai į ekonominių sąlygų pokyčius reaguoja su vėlavimu (laiko uždelsimu).

Jei atliekamas preliminarus faktorinių rodiklių standartizavimas, tai b0 yra lygus vidutinei efektyvaus rodiklio vertei visumoje. Konkrečios regresijos koeficientų reikšmės nustatomos iš empirinių duomenų pagal mažiausių kvadratų metodą (sprendžiant normaliųjų lygčių sistemas).

Tiesinės regresijos lygtis yra y = bx + a + ε Čia ε yra atsitiktinė paklaida (nuokrypis, trikdymas). Kadangi paklaida didesnė nei 15%, šios lygties nepatartina naudoti kaip regresijos. Pakeitę atitinkamas x reikšmes į regresijos lygtį, galime nustatyti kiekvieno stebėjimo išlygintas (numatomas) našumo rodiklio y(x) reikšmes.

Kas yra regresija?

Apsvarstykite du nuolatinius kintamuosius x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Padėkime taškus į dvimatę sklaidos diagramą ir pasakykime, kad turime tiesinis ryšys, jei duomenys aproksimuoti tiesia linija.

Jei tuo tikėsime y priklauso nuo x, ir pokyčius y sukelia būtent pokyčiai x, galime nustatyti regresijos tiesę (regresiją yįjungta x), kuris geriausiai apibūdina tiesinį ryšį tarp šių dviejų kintamųjų.

Statistinis žodžio regresija vartojimas kilęs iš reiškinio, žinomo kaip regresija iki vidurkio, priskiriamo serui Francisui Galtonui (1889).

Jis parodė, kad nors aukšti tėvai dažniausiai turi aukštus sūnus, vidutinis sūnų ūgis yra žemesnis nei jų aukštų tėčių. Vidutinis sūnų ūgis „regresavo“ ir „pasilinko atgal“ link visų populiacijos tėvų vidutinio ūgio. Taigi vidutiniškai aukšti tėvai turi žemesnius (bet vis tiek gana aukštus) sūnus, o žemi – aukštesnius (bet vis tiek gana žemo ūgio) sūnus.

Regresijos linija

Matematinė lygtis, apskaičiuojanti paprastą (porinę) tiesinės regresijos tiesę:

x vadinamas nepriklausomu kintamuoju arba prognozuotoju.

Y- priklausomas kintamasis arba atsako kintamasis. Tai vertė, kurios mes tikimės y(vidutiniškai), jei žinome vertę x, t.y. tai yra "numatoma vertė" y»

  • a- laisvasis vertinimo linijos narys (sankirta); tai yra prasmė Y, Kada x=0(1 pav.).
  • b- numatomos linijos nuolydis arba nuolydis; tai reiškia sumą, kuria Y vidutiniškai didėja, jei didiname x vienam vienetui.
  • a Ir b vadinami įvertintos linijos regresijos koeficientais, nors šis terminas dažnai vartojamas tik b.

Porinė tiesinė regresija gali būti išplėsta įtraukiant daugiau nei vieną nepriklausomą kintamąjį; šiuo atveju jis žinomas kaip daugybinė regresija.

1 pav. Tiesinės regresijos linija, rodanti kirtimo tašką a ir nuolydį b (suma Y didėja, kai x padidėja vienu vienetu)

Mažiausio kvadrato metodas

Regresinę analizę atliekame naudodami stebėjimų imtį kur a Ir b- tikrų (bendrų) parametrų α ir β imties įverčiai, nustatantys tiesinės regresijos tiesę populiacijoje (bendroji populiacija).

Paprasčiausias koeficientų nustatymo metodas a Ir b yra mažiausių kvadratų metodas(MNC).

Tinkamumas įvertinamas žiūrint į liekanas (kiekvieno taško vertikalus atstumas nuo linijos, pvz., likutis = pastebėtas y– prognozavo y, Ryžiai. 2).

Geriausiai tinkanti linija parenkama taip, kad likučių kvadratų suma būtų minimali.

Ryžiai. 2. Tiesinės regresijos linija su kiekvieno taško likučiais (vertikalios punktyrinės linijos).

Tiesinės regresijos prielaidos

Taigi, kiekvienos stebimos vertės likutis yra lygus skirtumui, o atitinkama numatoma vertė gali būti teigiama arba neigiama.

Galite naudoti likučius, kad patikrintumėte šias tiesinės regresijos prielaidas:

  • Likučiai paprastai pasiskirsto su nuliu;

Jei tiesiškumo, normalumo ir (arba) pastovios dispersijos prielaidos yra abejotinos, galime transformuoti arba apskaičiuoti naują regresijos tiesę, kuriai šios prielaidos tenkinamos (pavyzdžiui, naudoti logaritminę transformaciją ir pan.).

Anomalinės reikšmės (išskyros) ir įtakos taškai

„Įtakingas“ stebėjimas, jei jis praleistas, pakeičia vieną ar daugiau modelio parametrų įvertinimų (ty nuolydis arba pertrauka).

Nukrypimas (stebėjimas, nesuderinamas su daugumos duomenų rinkinio verčių) gali būti „įtakingas“ stebėjimas ir gali būti lengvai aptiktas vizualiai apžiūrint dvimatį sklaidos diagramą arba likutinį diagramą.

Tiek pašaliniams, tiek „įtakingiems“ stebėjimams (taškams) naudojami modeliai tiek su jų įtraukimu, tiek be jų, atkreipiamas dėmesys į įverčių (regresijos koeficientų) pokyčius.

Atlikdami analizę neturėtumėte automatiškai atmesti nuokrypių ar įtakos taškų, nes tiesiog jų ignoravimas gali turėti įtakos gautiems rezultatams. Visada išstudijuokite šių nuokrypių priežastis ir jas analizuokite.

Tiesinės regresijos hipotezė

Konstruojant tiesinę regresiją, tikrinama nulinė hipotezė, kad bendras regresijos tiesės β nuolydis lygus nuliui.

Jei linijos nuolydis lygus nuliui, tiesinio ryšio tarp ir nėra: pokytis įtakos neturi

Norėdami patikrinti nulinę hipotezę, kad tikrasis nuolydis yra nulis, galite naudoti šį algoritmą:

Apskaičiuokite testo statistiką, lygią santykiui , kuriai priklauso pasiskirstymas su laisvės laipsniais, kur koeficiento standartinė paklaida


,

- likučių sklaidos įvertinimas.

Paprastai, jei pasiekiamas reikšmingumo lygis, nulinė hipotezė atmetama.


kur yra pasiskirstymo su laisvės laipsniais procentinis taškas, kuris suteikia dvipusio testo tikimybę

Tai yra intervalas, kuriame yra bendras nuolydis su 95% tikimybe.

Tarkime, didelių imčių atveju galime apytikslę reikšmę 1,96 (tai yra, bandymo statistika bus įprastai paskirstyta).

Tiesinės regresijos kokybės vertinimas: determinacijos koeficientas R 2

Dėl linijinio ryšio ir tikimės, kad tai pasikeis kaip , ir vadinkite tai variacija, kuri atsiranda dėl regresijos arba ja paaiškinama. Likutinis pokytis turi būti kuo mažesnis.

Jei tai tiesa, tai didžioji dalis variacijos bus paaiškinta regresija, o taškai bus arti regresijos tiesės, t.y. linija gerai atitinka duomenis.

Bendrosios dispersijos dalis, kuri paaiškinama regresija, vadinama determinacijos koeficientas, paprastai išreiškiamas procentais ir žymimas R 2(porinėje tiesinėje regresijoje tai yra kiekis r 2, koreliacijos koeficiento kvadratas), leidžia subjektyviai įvertinti regresijos lygties kokybę.

Skirtumas parodo dispersijos procentą, kurio negalima paaiškinti regresija.

Nėra oficialaus testo, kurį galėtume įvertinti, norėdami nustatyti regresijos linijos tinkamumą.

Regresijos linijos taikymas prognozei

Galite naudoti regresijos liniją, norėdami nuspėti vertę iš vertės, esančios kraštutinėje stebimo diapazono pabaigoje (niekada neekstrapoliuokite už šių ribų).

Mes prognozuojame stebimų dalykų, turinčių tam tikrą reikšmę, vidurkį, įtraukdami tą reikšmę į regresijos linijos lygtį.

Taigi, jei prognozuojame kaip Naudokite šią numatomą vertę ir jos standartinę paklaidą, kad įvertintumėte tikrojo populiacijos vidurkio pasikliautinąjį intervalą.

Kartodami šią procedūrą skirtingoms vertėms, galite nustatyti šios eilutės patikimumo ribas. Tai juosta arba sritis, kurioje yra tikroji linija, pavyzdžiui, esant 95 % patikimumo lygiui.

Paprasti regresijos planai

Paprastuose regresijos modeliuose yra vienas nenutrūkstamas prognozuotojas. Jei yra 3 stebėjimai su prognozuojančiomis reikšmėmis P, pvz., 7, 4 ir 9, o dizainas apima pirmos eilės efektą P, tada projektavimo matrica X bus

o regresijos lygtis naudojant P X1 yra

Y = b0 + b1 P

Jei paprastas regresijos projektas turi aukštesnės eilės efektą P, pvz., kvadratinį efektą, tada projektavimo matricos X1 stulpelio reikšmės bus padidintos iki antrojo laipsnio:

ir lygtis įgaus formą

Y = b0 + b1 P2

Sigma apriboti ir per daug parametrizuoti kodavimo metodai netaikomi paprastoms regresijos konstrukcijoms ir kitoms konstrukcijoms, kuriose yra tik tęstiniai prognozės (nes tiesiog nėra kategoriškų prognozių). Nepriklausomai nuo pasirinkto kodavimo metodo, nuolatinių kintamųjų reikšmės atitinkamai padidinamos ir naudojamos kaip X kintamųjų reikšmės. Šiuo atveju perkodavimas neatliekamas. Be to, aprašydami regresijos planus galite neatsižvelgti į projektavimo matricą X ir dirbti tik su regresijos lygtimi.

Pavyzdys: paprasta regresinė analizė

Šiame pavyzdyje naudojami lentelėje pateikti duomenys:

Ryžiai. 3. Pradinių duomenų lentelė.

Duomenys, surinkti palyginus 1960 ir 1970 m. surašymus atsitiktinai atrinktose 30 apskričių. Apskričių pavadinimai pateikiami kaip stebėjimo pavadinimai. Informacija apie kiekvieną kintamąjį pateikiama žemiau:

Ryžiai. 4. Kintamųjų specifikacijų lentelė.

Tyrimo problema

Šiame pavyzdyje bus analizuojama koreliacija tarp skurdo lygio ir laipsnio, numatančio šeimų, kurios yra žemiau skurdo ribos, procentą. Todėl 3 kintamąjį (Pt_Poor) laikysime priklausomu kintamuoju.

Galime iškelti hipotezę: gyventojų skaičiaus pokyčiai ir žemiau skurdo ribos esančių šeimų procentas yra susiję. Atrodo pagrįsta tikėtis, kad skurdas lemia emigraciją, todėl atsiras neigiamas ryšys tarp žemiau skurdo ribos esančių žmonių procento ir gyventojų skaičiaus kaitos. Todėl 1 kintamąjį (Pop_Chng) laikysime nuspėjamuoju kintamuoju.

Žiūrėti rezultatus

Regresijos koeficientai

Ryžiai. 5. Pt_Poor regresijos koeficientai Pop_Chng.

Pop_Chng eilutės ir stulpelio Param sankirtoje. nestandartizuotas Pt_Poor regresijos koeficientas Pop_Chng yra -0,40374. Tai reiškia, kad sumažėjus gyventojų skaičiui, skurdo lygis padidėja 0,40374. Viršutinė ir apatinė (numatytoji) 95 % pasikliovimo ribos šiam nestandartizuotam koeficientui neapima nulio, todėl regresijos koeficientas yra reikšmingas p lygiu<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Kintamasis skirstymas

Koreliacijos koeficientai gali būti gerokai pervertinti arba neįvertinti, jei duomenyse yra didelių nukrypimų. Ištirkime priklausomo kintamojo Pt_Poor pasiskirstymą pagal rajonus. Norėdami tai padaryti, sukurkime kintamojo Pt_Poor histogramą.

Ryžiai. 6. Pt_Poor kintamojo histograma.

Kaip matote, šio kintamojo pasiskirstymas labai skiriasi nuo normalaus. Tačiau, nors net dviejose apskrityse (dvi dešiniosios skiltys) yra didesnis procentas šeimų, esančių žemiau skurdo ribos, nei tikėtasi esant normaliam pasiskirstymui, atrodo, kad jos yra „ribose“.

Ryžiai. 7. Pt_Poor kintamojo histograma.

Šis sprendimas yra šiek tiek subjektyvus. Nykščio taisyklė yra ta, kad reikia atsižvelgti į nuokrypius, jei stebėjimas (ar stebėjimai) nepatenka į intervalą (vidurkis ± 3 kartus didesnis už standartinį nuokrypį). Šiuo atveju verta pakartoti analizę su iškrypimais ir be jų, siekiant užtikrinti, kad jie neturės didelės įtakos koreliacijai tarp populiacijos narių.

Taškinė diagrama

Jei viena iš hipotezių a priori yra apie ryšį tarp duotųjų kintamųjų, tai naudinga ją patikrinti atitinkamos sklaidos diagramoje.

Ryžiai. 8. Sklaidos diagrama.

Sklaidos diagrama rodo aiškią neigiamą koreliaciją (-.65) tarp dviejų kintamųjų. Tai taip pat rodo 95 % pasikliovimo intervalą regresijos linijai, ty yra 95 % tikimybė, kad regresijos linija yra tarp dviejų punktyrinių kreivių.

Reikšmingumo kriterijai

Ryžiai. 9. Lentelė su reikšmingumo kriterijais.

Pop_Chng regresijos koeficiento testas patvirtina, kad Pop_Chng yra stipriai susijęs su Pt_Poor , p<.001 .

Apatinė eilutė

Šis pavyzdys parodė, kaip analizuoti paprastą regresijos dizainą. Taip pat buvo pateiktos nestandartizuotų ir standartizuotų regresijos koeficientų interpretacijos. Aptariama priklausomo kintamojo atsako pasiskirstymo tyrimo svarba, demonstruojama santykio tarp prognozuotojo ir priklausomo kintamojo krypties ir stiprumo nustatymo technika.

Esant tiesiniam ryšiui tarp dviejų tiriamų charakteristikų, be koreliacijų skaičiavimo, naudojamas ir regresijos koeficiento skaičiavimas.

Tiesinės koreliacijos atveju kiekvienas vienos charakteristikos pokytis atitinka labai ryškų kitos charakteristikos pokytį. Tačiau koreliacijos koeficientas šį ryšį parodo tik santykiniais kiekiais – vieneto trupmenomis. Regresinės analizės pagalba ši ryšio reikšmė gaunama įvardytais vienetais. Kiekis, kuriuo pirmoji charakteristika pasikeičia vidutiniškai, kai antroji pasikeičia matavimo vienetu, vadinama regresijos koeficientu.

Skirtingai nuo koreliacinės regresijos analizės, ji suteikia platesnę informaciją, nes apskaičiuojant du regresijos koeficientus Rx/y Ir Rу/х Galima nustatyti ir pirmojo ženklo priklausomybę nuo antrojo, ir antrojo nuo pirmojo. Regresinio ryšio išreiškimas naudojant lygtį leidžia nustatyti kitos charakteristikos reikšmę pagal tam tikrą vienos charakteristikos reikšmę.

Regresijos koeficientas R yra koreliacijos koeficiento ir kiekvienai charakteristikai apskaičiuoto kvadratinių nuokrypių santykio sandauga. Jis apskaičiuojamas pagal formulę

kur R - regresijos koeficientas; SH – standartinis pirmosios charakteristikos nuokrypis, kuris kinta pasikeitus antrajai; SУ - standartinis antrosios charakteristikos nuokrypis, dėl kurio pasikeičia pirmoji charakteristika; r yra šių charakteristikų koreliacijos koeficientas; x - funkcija; y -argumentas.

Ši formulė nustato x reikšmę, kai y pasikeičia matavimo vienetu. Jei reikia atvirkštinio skaičiavimo, y reikšmę, kai x keičiasi pagal matavimo vienetą, galite rasti naudodami formulę:


Šiuo atveju aktyvus vaidmuo keičiant vieną charakteristiką kitos atžvilgiu pasikeičia, lyginant su ankstesne formule, argumentas tampa funkcija ir atvirkščiai. SX ir SY reikšmės paimamos į pavadintą išraišką.

Tarp r ir R reikšmių yra aiškus ryšys, kuris išreiškiamas tuo, kad x regresijos ant y sandauga su y regresija x yra lygi koreliacijos koeficiento kvadratui, t.y.

Rx/y * Ry/x = r2

Tai rodo, kad koreliacijos koeficientas yra abiejų tam tikros imties regresijos koeficientų verčių geometrinis vidurkis. Šia formule galima patikrinti skaičiavimų tikslumą.

Apdorojant skaitmeninę medžiagą skaičiavimo mašinose, gali būti naudojamos išsamios regresijos koeficiento formulės:

R arba


Regresijos koeficientui galima apskaičiuoti jo reprezentatyvumo paklaidą. Regresijos koeficiento paklaida lygi koreliacijos koeficiento paklaidai, padaugintai iš kvadratinių santykių santykio:

Regresijos koeficiento patikimumo kriterijus apskaičiuojamas pagal įprastą formulę:

dėl to jis yra lygus koreliacijos koeficiento patikimumo kriterijui:

tR reikšmės patikimumas nustatomas naudojant Stjudento lentelę esant  = n - 2, kur n yra stebėjimų porų skaičius.

Kreivinė regresija.

REGRESIJA, KREIVINĖ. Bet kokia netiesinė regresija, kurioje vieno kintamojo (y) pokyčių regresijos lygtis priklauso nuo t pokyčių kitame (x), yra kvadratinė, kubinė arba aukštesnės eilės lygtis. Nors matematiškai visada įmanoma gauti regresijos lygtį, kuri atitiktų kiekvieną kreivės vingį, dauguma šių trikdžių atsiranda dėl atrankos ar matavimo klaidų, o tokiu „tobulu“ pritaikymu nieko nepasiekiama. Ne visada lengva nustatyti, ar kreivinė regresija atitinka duomenų rinkinį, nors yra statistinių testų, leidžiančių nustatyti, ar kiekviena didesnė lygties galia reikšmingai padidina to duomenų rinkinio atitikimo laipsnį.

Kreivės pritaikymas atliekamas tuo pačiu mažiausiųjų kvadratų būdu kaip ir tiesių linijų montavimas. Regresijos linija turi atitikti minimalios atstumų kvadratų sumos iki kiekvieno koreliacijos lauko taško sąlygą. Šiuo atveju (1) lygtyje y reiškia apskaičiuotą funkcijos reikšmę, nustatytą naudojant pasirinkto kreivinio ryšio lygtį, pagrįstą tikrosiomis x j reikšmėmis. Pavyzdžiui, jei jungčiai apytiksliai parenkama antros eilės parabolė, tai y = a + b x + cx2, (14) ir skirtumas tarp taško, esančio kreivėje, ir nurodyto koreliacijos lauko taško su atitinkamu argumentas gali būti parašytas panašiai kaip (3) lygtis yj = yj (a + bx + cx2) (15) Šiuo atveju atstumų kvadratu suma nuo kiekvieno koreliacijos lauko taško iki naujos regresijos tiesės tuo atveju antros eilės parabolė turės tokią formą: S 2 = yj 2 = 2 (16) Remiantis minimalia šios sumos sąlyga, S 2 dalinės išvestinės a, b ir c atžvilgiu yra lygios nuliui. Atlikę reikiamas transformacijas, gauname trijų lygčių su trimis nežinomaisiais sistemą a, b ir c nustatyti. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Išspręsdami a, b ir c lygčių sistemą, randame regresijos koeficientų skaitines reikšmes. Reikšmės y, x, x2, yx, yx2, x3, x4 randamos tiesiogiai iš gamybos matavimo duomenų. Kreivinės priklausomybės ryšio glaudumo įvertinimas yra teorinis koreliacijos koeficientas xy, kuris yra dviejų dispersijų santykio kvadratinė šaknis: funkcijos apskaičiuotų verčių y" j nuokrypių vidutinis kvadratas p2 pagal rastą regresijos lygtį nuo y reikšmės aritmetinės vidutinės reikšmės Y iki funkcijos y j tikrųjų verčių vidutinių kvadratinių nuokrypių y2 nuo jos aritmetinės vidutinės reikšmės: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Koreliacijos santykio xy2 kvadratas parodo priklausomo kintamojo y bendro kintamumo dalį dėl argumento x kintamumo. . Šis rodiklis vadinamas determinacijos koeficientu. Skirtingai nuo koreliacijos koeficiento, koreliacijos koeficiento reikšmė gali būti tik teigiama nuo 0 iki 1. Visiškai nesant ryšio koreliacijos koeficientas lygus nuliui, o esant funkciniam ryšiui. lygus vienetui, o esant įvairaus glaudumo regresijos ryšiui, koreliacijos santykis įgauna reikšmes nuo nulio iki vieno . Kreivės tipo pasirinkimas turi didelę reikšmę regresinėje analizėje, nes nuo pasirinkto ryšio tipo priklauso aproksimacijos ir statistinių įverčių tikslumas. Paprasčiausias būdas pasirinkti kreivės tipą yra sudaryti koreliacijos laukus ir pasirinkti atitinkamus regresijos lygčių tipus pagal taškų vietą šiuose laukuose. Regresinės analizės metodai leidžia rasti regresijos koeficientų skaitines reikšmes sudėtingiems parametrų ryšių tipams, aprašytiems, pavyzdžiui, aukšto laipsnio polinomais. Dažnai kreivės forma gali būti nustatyta pagal nagrinėjamo proceso ar reiškinio fizinę prigimtį. Sparčiai besikeičiantiems procesams apibūdinti prasminga naudoti aukšto laipsnio polinomus, jei šių procesų parametrų svyravimo ribos yra reikšmingos. Kalbant apie metalurginio proceso tyrimus, pakanka naudoti žemesnės eilės kreives, pavyzdžiui, antros eilės parabolę. Ši kreivė gali turėti vieną ekstremumą, kurio, kaip parodė praktika, visiškai pakanka įvairioms metalurginio proceso savybėms apibūdinti. Porinio koreliacinio ryšio parametrų skaičiavimo rezultatai būtų patikimi ir turėtų praktinės vertės, jei naudojama informacija būtų gauta plačių argumentų svyravimų ribų sąlygomis, kai visi kiti proceso parametrai būtų pastovūs. Vadinasi, parametrų porinės koreliacijos tyrimo metodai gali būti naudojami sprendžiant praktines problemas tik tada, kai yra pasitikėjimo, kad funkcijai nėra kitos rimtos įtakos, išskyrus analizuojamą argumentą. Gamybos sąlygomis ilgą laiką tokiu būdu atlikti proceso neįmanoma. Tačiau jei turime informacijos apie pagrindinius proceso parametrus, turinčius įtakos jo rezultatams, tai matematiškai galime atmesti šių parametrų įtaką ir „gryna forma“ išskirti funkcijos ir mus dominančio argumento ryšį. Toks ryšys vadinamas privačiu arba individualiu. Jai nustatyti naudojamas daugialypės regresijos metodas.

Koreliacinis ryšys.

Koreliacijos koeficientas ir koreliacijos indeksas yra skaitinės charakteristikos, glaudžiai susijusios su atsitiktinio dydžio samprata, tiksliau, su atsitiktinių dydžių sistema. Todėl norint supažindinti ir apibrėžti jų reikšmę ir vaidmenį, būtina paaiškinti atsitiktinių dydžių sistemos sampratą ir kai kurias jiems būdingas savybes.

Du ar daugiau atsitiktinių dydžių, apibūdinančių tam tikrą reiškinį, vadinami atsitiktinių dydžių sistema arba kompleksu.

Kelių atsitiktinių dydžių sistema X, Y, Z, …, W paprastai žymima (X, Y, Z, …, W).

Pavyzdžiui, taškas plokštumoje apibūdinamas ne viena koordinate, o dviem, o erdvėje – net trimis.

Kelių atsitiktinių dydžių sistemos savybės neapsiriboja atskirų į sistemą įtrauktų atsitiktinių dydžių savybėmis, bet apima ir tarpusavio ryšius (priklausomybes) tarp atsitiktinių dydžių. Todėl tiriant atsitiktinių dydžių sistemą reikėtų atkreipti dėmesį į priklausomybės pobūdį ir laipsnį. Ši priklausomybė gali būti daugiau ar mažiau ryški, daugiau ar mažiau artima. O kitais atvejais atsitiktiniai dydžiai pasirodo esą praktiškai nepriklausomi.

Sakoma, kad atsitiktinis dydis Y nepriklauso nuo atsitiktinio dydžio X, jei atsitiktinio dydžio Y pasiskirstymo dėsnis nepriklauso nuo X reikšmės.

Pažymėtina, kad atsitiktinių dydžių priklausomybė ir nepriklausomybė visada yra abipusis reiškinys: jei Y nepriklauso nuo X, tai reikšmė X nepriklauso nuo Y. Atsižvelgdami į tai, galime pateikti tokį nepriklausomumo apibrėžimą. atsitiktinių dydžių.

Atsitiktiniai dydžiai X ir Y vadinami nepriklausomais, jei kiekvieno iš jų pasiskirstymo dėsnis nepriklauso nuo to, kokią reikšmę įgyja kitas. Kitu atveju dydžiai X ir Y vadinami priklausomais.

Atsitiktinio dydžio pasiskirstymo dėsnis yra bet koks ryšys, nustatantis ryšį tarp galimų atsitiktinio dydžio dydžių ir atitinkamų tikimybių.

Tikimybių teorijoje vartojama atsitiktinių dydžių „priklausomybės“ sąvoka kiek skiriasi nuo įprastos matematikoje vartojamos kintamųjų „priklausomybės“ sąvokos. Taigi matematikas „priklausomybe“ reiškia tik vieną priklausomybės tipą – visišką, standžią, vadinamąją funkcinę priklausomybę. Du dydžiai X ir Y vadinami funkciškai priklausomais, jei, žinodami vieno iš jų reikšmę, galite tiksliai nustatyti kito reikšmę.

Tikimybių teorijoje egzistuoja kiek kitoks priklausomybės tipas – tikimybinė priklausomybė. Jei reikšmė Y su reikšme X susieta tikimybine priklausomybe, tai žinant X reikšmę, neįmanoma tiksliai nurodyti Y reikšmės, tačiau galima nurodyti jos pasiskirstymo dėsnį, priklausomai nuo to, kokią reikšmę turi X reikšmė. paimtas.

Tikimybinis ryšys gali būti daugiau ar mažiau artimas; Didėjant tikimybinės priklausomybės sandarumui, ji tampa vis artimesnė funkcinei. Taigi funkcinė priklausomybė gali būti laikoma kraštutiniu, ribojančiu artimiausios tikimybinės priklausomybės atveju. Kitas kraštutinis atvejis yra visiška atsitiktinių dydžių nepriklausomybė. Tarp šių dviejų kraštutinių atvejų yra visos tikimybinės priklausomybės gradacijos – nuo ​​stipriausios iki silpniausios.

Praktikoje dažnai susiduriama su tikimybine priklausomybe tarp atsitiktinių dydžių. Jei atsitiktiniai dydžiai X ir Y yra tikimybiniame ryšyje, tai nereiškia, kad pasikeitus X reikšmei, Y reikšmė kinta visiškai apibrėžtu būdu; tai tik reiškia, kad keičiantis X reikšmei, Y reikšmė taip pat turi tendenciją keistis (padidėti arba mažėti, kai X didėja). Ši tendencija pastebima tik bendrais bruožais ir kiekvienu atskiru atveju galimi nukrypimai nuo jos.

Koreliacijos priklausomybių tyrimas yra pagrįstas tokių kintamųjų sąsajų tyrimu, kai vieno kintamojo, kuris gali būti laikomas priklausomu kintamuoju, reikšmės „vidutiniškai“ kinta priklausomai nuo kito paimtų reikšmių. kintamasis, laikomas priežastimi, palyginti su priklausomu kintamuoju. Šios priežasties veiksmas vykdomas sudėtingos įvairių veiksnių sąveikos sąlygomis, dėl kurių modelio pasireiškimas yra užtemdytas atsitiktinumo įtakos. Apskaičiuojant vidutines efektyvaus požymio reikšmes tam tikrai požymio faktoriaus verčių grupei, atsitiktinumo įtaka iš dalies pašalinama. Skaičiuojant teorinės komunikacijos linijos parametrus, jie toliau eliminuojami ir gaunamas nedviprasmiškas (formos) „y“ pokytis, pasikeitus faktoriui „x“.

Stochastiniams ryšiams tirti plačiai naudojamas dviejų lygiagrečių eilučių palyginimo metodas, analitinės grupavimo metodas, koreliacinė analizė, regresinė analizė ir kai kurie neparametriniai metodai. Apskritai, statistikos uždavinys santykių tyrimo srityje yra ne tik kiekybiškai įvertinti jų buvimą, ryšio kryptį ir stiprumą, bet ir nustatyti faktorių charakteristikų įtakos gaunamajai formai (analitinę išraišką). Jai išspręsti naudojami koreliacinės ir regresinės analizės metodai.

1 SKYRIUS. REGRESIJOS LYGTIS: TEORINIAI PAGRINDAI

1.1. Regresijos lygtis: funkcijų esmė ir rūšys

Regresija (lot. regressio – atvirkštinis judėjimas, perėjimas nuo sudėtingesnių raidos formų prie ne tokių sudėtingų) yra viena iš pagrindinių tikimybių teorijos ir matematinės statistikos sąvokų, išreiškianti atsitiktinio dydžio vidutinės reikšmės priklausomybę nuo reikšmių. kito atsitiktinio dydžio arba kelių atsitiktinių dydžių. Šią koncepciją 1886 m. pristatė Francisas Galtonas.

Teorinė regresijos linija – tai linija, aplink kurią grupuojami koreliacijos lauko taškai ir kuri nurodo pagrindinę kryptį, pagrindinę ryšio tendenciją.

Teorinė regresijos linija turėtų atspindėti efektyvaus požymio „y“ vidutinių reikšmių pokytį, kai pasikeičia veiksnio požymio „x“ reikšmės, su sąlyga, kad visos kitos priežastys, atsitiktinės veiksnio „x“ atžvilgiu. , yra visiškai atšaukti. Vadinasi, ši linija turi būti nubrėžta taip, kad koreliacijos lauko taškų nuokrypių suma nuo atitinkamų teorinės regresijos tiesės taškų būtų lygi nuliui, o šių nuokrypių kvadratų suma būtų minimali.

y=f(x) – regresijos lygtis yra statistinio ryšio tarp kintamųjų formulė.

Tiesė plokštumoje (dvimatėje erdvėje) pateikiama lygtimi y=a+b*x. Išsamiau kintamasis y gali būti išreikštas konstanta (a) ir nuolydžiu (b), padauginta iš kintamojo x. Konstanta kartais dar vadinama pertraukos terminu, o nuolydis kartais vadinamas regresija arba B koeficientu.

Svarbus regresinės analizės etapas yra funkcijos, kuria charakterizuojama priklausomybė tarp charakteristikų, tipo nustatymas. Pagrindinis pagrindas turėtų būti prasminga tiriamos priklausomybės pobūdžio ir jos mechanizmo analizė. Tuo pačiu metu ne visada įmanoma teoriškai pagrįsti kiekvieno veiksnio ir veiklos rodiklio ryšio formą, nes tiriami socialiniai ir ekonominiai reiškiniai yra labai sudėtingi, o jų lygį formuojantys veiksniai glaudžiai persipynę ir sąveikauja. vienas su kitu. Todėl, remiantis teorine analize, dažnai galima daryti pačias bendriausias išvadas dėl santykių krypties, jo kitimo galimybės tiriamoje populiacijoje, tiesinio ryšio naudojimo teisėtumo, galimo kraštutinių vertybių buvimo, t. ir tt Būtinas tokių prielaidų papildymas turėtų būti konkrečių faktinių duomenų analizė.

Apytikslę ryšio linijos idėją galima gauti remiantis empirine regresijos linija. Empirinė regresijos linija paprastai yra trūkinė ir turi daugiau ar mažiau reikšmingą lūžį. Tai paaiškinama tuo, kad kitų neįvertintų veiksnių, turinčių įtakos gaunamos charakteristikos kitimui, įtaka vidurkiu nevisiškai užgęsta dėl nepakankamai didelio stebėjimų skaičiaus, todėl empirine komunikacijos linija galima pasirinkti ir pagrįsti teorinės kreivės tipą, jei stebėjimų skaičius yra pakankamai didelis.

Vienas iš konkrečių tyrimų elementų yra įvairių priklausomybės lygčių palyginimas, remiantis kokybės kriterijų naudojimu aproksimuojant empirinius duomenis pagal konkuruojančias modelių versijas Ekonominių rodiklių ryšiams apibūdinti dažniausiai naudojami šie funkcijų tipai.

1. Linijinis:

2. Hiperbolinis:

3. Demonstracinis:

4. Parabolinis:

5. Galia:

6. Logaritminis:

7. Logistika:

Modelis su vienu aiškinamuoju ir vienu paaiškinamu kintamuoju yra suporuotas regresijos modelis. Jei naudojami du ar daugiau aiškinamųjų (veiksnių) kintamųjų, kalbame apie daugialypės regresijos modelio naudojimą. Šiuo atveju kaip parinktys gali būti pasirinktos tiesinės, eksponentinės, hiperbolinės, eksponentinės ir kitų tipų funkcijos, jungiančios šiuos kintamuosius.

Regresijos lygties parametrams a ir b rasti naudojamas mažiausių kvadratų metodas. Taikant mažiausiųjų kvadratų metodą norint rasti funkciją, kuri geriausiai atitinka empirinius duomenis, manoma, kad empirinių taškų nuokrypių nuo teorinės regresijos linijos kvadratų maišelis turėtų būti mažiausia reikšmė.

Mažiausių kvadratų kriterijų galima parašyti taip:

Vadinasi, mažiausiųjų kvadratų metodo naudojimas nustatant linijos, kuri geriausiai atitinka empirinius duomenis, parametrus a ir b, yra sumažinta iki ekstremumo problemos.

Kalbant apie vertinimus, galima padaryti tokias išvadas:

1. Mažiausių kvadratų įverčiai yra imties funkcijos, todėl jas lengva apskaičiuoti.

2. Mažiausių kvadratų įverčiai yra taškiniai teorinių regresijos koeficientų įverčiai.

3. Empirinės regresijos tiesė būtinai eina per tašką x, y.

4. Empirinės regresijos lygtis sudaroma taip, kad nuokrypių suma

.

Empirinės ir teorinės komunikacijos linijos grafinis vaizdas pateiktas 1 pav.


Parametras b lygtyje yra regresijos koeficientas. Esant tiesioginei koreliacijai regresijos koeficientas yra teigiamas, o esant atvirkštinei koreliacijai – neigiamas. Regresijos koeficientas parodo, kiek vidutiniškai pasikeičia efektyvaus požymio „y“ reikšmė, kai veiksnio požymis „x“ pasikeičia vienu. Geometriškai regresijos koeficientas yra tiesės, vaizduojančios koreliacijos lygtį, nuolydis „x“ ašies atžvilgiu (lygčiai

).

Daugiamatės statistinės analizės šaka, skirta priklausomybių rekonstrukcijai, vadinama regresine analize. Terminas „tiesinės regresijos analizė“ vartojamas, kai nagrinėjama funkcija tiesiškai priklauso nuo įvertintų parametrų (priklausomybė nuo nepriklausomų kintamųjų gali būti savavališka). Vertinimo teorija

nežinomi parametrai yra gerai išvystyti būtent tiesinės regresijos analizės atveju. Jei nėra tiesiškumo ir neįmanoma pereiti prie tiesinės problemos, tada, kaip taisyklė, negalima tikėtis gerų savybių iš įverčių. Mes parodysime metodus įvairių tipų priklausomybių atveju. Jei priklausomybė turi daugianario formą (dauginamą). Jei koreliacijos apskaičiavimas apibūdina dviejų kintamųjų ryšio stiprumą, tai regresinė analizė padeda nustatyti šio ryšio tipą ir leidžia numatyti vieno (priklausomo) kintamojo vertę remiantis kito (nepriklausomo) kintamojo verte. . Norint atlikti tiesinės regresijos analizę, priklausomas kintamasis turi turėti intervalo (arba eilės) skalę. Tuo pačiu metu dvejetainė logistinė regresija atskleidžia dichotominio kintamojo priklausomybę nuo kurio nors kito kintamojo, susijusio su bet kokia skale. Probit analizei taikomos tos pačios taikymo sąlygos. Jei priklausomasis kintamasis yra kategoriškas, bet turi daugiau nei dvi kategorijas, tuomet tinkamas metodas yra daugianominė logistinė regresija tarp kintamųjų, priklausančių intervalo skalei. Tam skirtas netiesinės regresijos metodas.

Regresijos samprata. Priklausomybė tarp kintamųjų x Ir y galima apibūdinti įvairiai. Visų pirma, bet kokia ryšio forma gali būti išreikšta bendra lygtimi, kur y traktuojamas kaip priklausomas kintamasis, arba funkcijas iš kito – nepriklausomas kintamasis x, vadinamas argumentas. Argumento ir funkcijos atitikimą galima nurodyti lentele, formule, grafiku ir pan. Iškviečiamas funkcijos keitimas, atsižvelgiant į vieno ar kelių argumentų pasikeitimą regresija. Visos priemonės, naudojamos koreliacijai apibūdinti, sudaro turinį regresinė analizė.

Regresijai išreikšti naudojamos koreliacinės lygtys arba regresijos lygtys, empirinės ir teoriškai apskaičiuotos regresijos eilutės, jų grafikai, vadinami regresijos linijomis, taip pat tiesinės ir netiesinės regresijos koeficientai.

Regresijos rodikliai išreiškia koreliacijos ryšį dvišaliu būdu, atsižvelgiant į charakteristikos vidutinių verčių pokyčius Y keičiant vertybes x iženklas X, ir, atvirkščiai, rodo charakteristikos vidutinių verčių pokytį X pagal pasikeitusias vertes y iženklas Y. Išimtis yra laiko eilutės arba laiko eilutės, rodančios charakteristikų pokyčius laikui bėgant. Tokių eilučių regresija yra vienpusė.

Egzistuoja daugybė skirtingų koreliacijų formų ir tipų. Užduotis tenka kiekvienu konkrečiu atveju nustatyti ryšio formą ir išreikšti ją atitinkama koreliacijos lygtimi, kuri leidžia numatyti galimus vienos charakteristikos pokyčius. Y remiantis žinomais pokyčiais kitoje X, susiję su pirmuoju koreliaciniu požiūriu.

12.1 Tiesinė regresija

Regresijos lygtis. Stebėjimų, atliktų konkrečiame biologiniame objekte, remiantis koreliuojamomis savybėmis, rezultatai x Ir y, gali būti pavaizduotas taškais plokštumoje, sukūrus stačiakampių koordinačių sistemą. Rezultatas yra tam tikra sklaidos diagrama, leidžianti spręsti apie skirtingų charakteristikų ryšio formą ir glaudumą. Gana dažnai šis ryšys atrodo kaip tiesi linija arba gali būti apytikslis tiesės linijos.

Linijinis ryšys tarp kintamųjų x Ir y aprašomas bendra lygtimi, kur a, b, c, d,... – lygties parametrai, lemiantys ryšius tarp argumentų x 1 , x 2 , x 3 , …, x m ir funkcijas.

Praktikoje atsižvelgiama ne į visus galimus argumentus, o tik į kai kuriuos argumentus paprasčiausiu atveju:

Tiesinės regresijos lygtyje (1) a yra laisvasis terminas ir parametras b nustato regresijos tiesės nuolydį stačiakampių koordinačių ašių atžvilgiu. Analitinėje geometrijoje šis parametras vadinamas nuolydis o biometriniuose duomenyse – regresijos koeficientas. Vizualus šio parametro vaizdas ir regresijos linijų padėtis Y Autorius X Ir X Autorius Y stačiakampėje koordinačių sistemoje pateikia 1 pav.

Ryžiai. 1 Regresijos linijos Y pagal X ir X pagal Y sistemoje

stačiakampės koordinatės

Regresijos linijos, kaip parodyta 1 pav., susikerta taške O (,), atitinkančios viena su kita koreliuojančių charakteristikų vidutines aritmetines vertes. Y Ir X. Kuriant regresijos grafikus, nepriklausomo kintamojo X reikšmės brėžiamos išilgai abscisių ašies, o priklausomo kintamojo arba funkcijos Y reikšmės brėžiamos išilgai ordinačių ašies, einančios per tašką O (,. ) atitinka pilną (funkcinį) ryšį tarp kintamųjų Y Ir X, kai koreliacijos koeficientas . Kuo stipresnis ryšys tarp Y Ir X, kuo regresijos tiesės yra arčiau AB, ir, atvirkščiai, kuo silpnesnis ryšys tarp šių dydžių, tuo regresijos tiesės yra toliau nuo AB. Jei tarp charakteristikų nėra ryšio, regresijos linijos yra viena kitai stačiu kampu ir .

Kadangi regresijos rodikliai išreiškia koreliacijos ryšį dvišališkai, regresijos lygtis (1) turėtų būti parašyta taip:

Pirmoji formulė nustato vidutines reikšmes, kai pasikeičia charakteristika X vienam matavimo vienetui, antrajam - vidutinės vertės, kai keičiasi vienu atributo matavimo vienetu Y.

Regresijos koeficientas. Regresijos koeficientas parodo, kiek vidutiniškai yra vienos charakteristikos reikšmė y pasikeičia, kai kito matas, koreliuojamas su, pasikeičia vienu Yženklas X. Šis rodiklis nustatomas pagal formulę

Čia yra vertybės s padaugintas iš klasių intervalų dydžio λ , jei jie buvo rasti iš variacijų eilučių arba koreliacijos lentelių.

Regresijos koeficientą galima apskaičiuoti neskaičiuojant standartinių nuokrypių s y Ir s x pagal formulę

Jei koreliacijos koeficientas nežinomas, regresijos koeficientas nustatomas taip:

Regresijos ir koreliacijos koeficientų ryšys. Palyginus (11.1) (11 tema) ir (12.5) formules, matome: jų skaitiklis turi tą pačią reikšmę, o tai rodo ryšį tarp šių rodiklių. Šis santykis išreiškiamas lygybe

Taigi koreliacijos koeficientas lygus geometriniam koeficientų vidurkiui b yx Ir b xy. (6) formulė leidžia, pirma, remiantis žinomomis regresijos koeficientų reikšmėmis b yx Ir b xy nustatyti regresijos koeficientą R xy, antra, patikrinkite šio koreliacijos rodiklio skaičiavimo teisingumą R xy tarp skirtingų savybių X Ir Y.

Kaip ir koreliacijos koeficientas, regresijos koeficientas apibūdina tik tiesinį ryšį ir yra kartu su pliuso ženklu, reiškiančiu teigiamą ryšį, ir su minuso ženklu – neigiamu ryšiu.

Tiesinės regresijos parametrų nustatymas. Yra žinoma, kad nuokrypių kvadratų suma yra variantas x i nuo vidurkio yra mažiausia reikšmė, t.y. ši teorema sudaro mažiausių kvadratų metodo pagrindą. Dėl tiesinės regresijos [žr formulė (1)] šios teoremos reikalavimą tenkina tam tikra lygčių sistema, vadinama normalus:

Bendras šių lygčių sprendimas parametrų atžvilgiu a Ir b veda prie šių rezultatų:

;

;

, iš kur ir.

Atsižvelgiant į dvipusį ryšį tarp kintamųjų Y Ir X, parametro nustatymo formulė A turėtų būti išreikšta taip:

Ir . (7)

Parametras b, arba regresijos koeficientas, nustatomas pagal šias formules:

Empirinės regresijos eilučių konstravimas. Jei yra daug stebėjimų, regresinė analizė pradedama sudaryti empirines regresijos eilutes. Empirinės regresijos eilutės susidaro apskaičiuojant iš vienos kintančios charakteristikos verčių X kito vidutinės vertės, koreliuojamos su Xženklas Y. Kitaip tariant, empirinės regresijos eilučių konstravimas yra susijęs su grupės vidurkių paieška pagal atitinkamas charakteristikų Y ir X vertes.

Empirinės regresijos eilutė yra dviguba skaičių serija, kurią galima pavaizduoti plokštumos taškais, o tada, sujungus šiuos taškus tiesių atkarpomis, galima gauti empirinę regresijos liniją. Empirinės regresijos eilutės, ypač jų grafikai, vadinamos regresijos linijos, suteikia aiškų supratimą apie koreliacijos tarp skirtingų charakteristikų formą ir glaudumą.

Empirinės regresijos eilučių lygiavimas. Empirinės regresijos eilučių grafikai, kaip taisyklė, yra ne lygios, o laužytos linijos. Tai paaiškinama tuo, kad kartu su pagrindinėmis priežastimis, lemiančiomis bendrą koreliuojamų charakteristikų kintamumo modelį, jų dydžiui įtakos turi daugybė antrinių priežasčių, sukeliančių atsitiktinius regresijos mazgų svyravimus. Norint nustatyti pagrindinę koreliuotų charakteristikų konjuguoto kitimo tendenciją (tendenciją), būtina laužytas linijas pakeisti lygiomis, sklandžiai einančiomis regresijos linijomis. Nutrūkusių linijų pakeitimo lygiomis procesas vadinamas empirinių eilučių derinimas Ir regresijos linijos.

Grafinio derinimo metodas. Tai paprasčiausias metodas, nereikalaujantis skaičiavimo darbo. Jo esmė susiveda į štai ką. Empirinės regresijos eilutė pavaizduota kaip grafikas stačiakampėje koordinačių sistemoje. Tada vizualiai nubrėžiami regresijos vidurio taškai, išilgai kurių liniuote arba raštu nubrėžiama ištisinė linija. Šio metodo trūkumas akivaizdus: jis neatmeta atskirų tyrėjo savybių įtakos empirinės regresijos tiesių derinimo rezultatams. Todėl tais atvejais, kai reikia didesnio tikslumo pakeičiant laužytas regresijos linijas lygiosiomis, naudojami kiti empirinių eilučių derinimo būdai.

Slenkančio vidurkio metodas.Šio metodo esmė yra nuoseklus aritmetinių vidurkių skaičiavimas iš dviejų ar trijų gretimų empirinės serijos narių. Šis metodas yra ypač patogus tais atvejais, kai empirinė serija yra vaizduojama daugybe terminų, todėl dviejų iš jų - kraštutinių - praradimas, kuris yra neišvengiamas naudojant šį derinimo būdą, nepadarys pastebimos įtakos jos struktūrai.

Mažiausio kvadrato metodas.Šį metodą XIX amžiaus pradžioje pasiūlė A.M. Legenda ir, nepriklausomai nuo jo, K. Gaussas. Tai leidžia tiksliausiai suderinti empirines serijas. Šis metodas, kaip parodyta aukščiau, yra pagrįstas prielaida, kad nuokrypių kvadratų suma yra variantas x i nuo jų vidurkio yra minimali reikšmė, t.y. Iš čia ir kilęs metodo pavadinimas, kuris naudojamas ne tik ekologijoje, bet ir technologijoje. Mažiausių kvadratų metodas yra objektyvus ir universalus, jis naudojamas labai įvairiais atvejais ieškant regresijos eilučių empirinių lygčių ir nustatant jų parametrus.

Mažiausių kvadratų metodo reikalavimas yra tas, kad teoriniai regresijos linijos taškai turi būti gauti taip, kad empiriniams stebėjimams būtų gauta kvadratinių nuokrypių nuo šių taškų suma. y i buvo minimalus, t.y.

Pagal matematinės analizės principus apskaičiavus šios išraiškos minimumą ir jį tam tikru būdu transformavus, galima gauti sistemą, vadinamą. normalios lygtys, kuriame nežinomos reikšmės yra būtini regresijos lygties parametrai, o žinomi koeficientai nustatomi pagal charakteristikų empirines reikšmes, dažniausiai jų verčių sumas ir jų kryžminius sandaugius.

Daugkartinė tiesinė regresija. Ryšys tarp kelių kintamųjų paprastai išreiškiamas daugialypės regresijos lygtimi, kuri gali būti linijinis Ir netiesinis. Paprasčiausia daugialypė regresija išreiškiama lygtimi su dviem nepriklausomais kintamaisiais ( x, z):

Kur a– laisvasis lygties narys; b Ir c– lygties parametrai. Norint rasti (10) lygties parametrus (naudojant mažiausių kvadratų metodą), naudojama tokia normaliųjų lygčių sistema:

Dinaminė serija. Eilučių lygiavimas. Savybių pokyčiai laikui bėgant formuoja vadinamuosius laiko eilutės arba dinamikos serija. Būdingas tokių eilučių bruožas yra tas, kad nepriklausomas kintamasis X čia visada yra laiko veiksnys, o priklausomas kintamasis Y yra kintantis požymis. Priklausomai nuo regresijos eilutės, ryšys tarp kintamųjų X ir Y yra vienpusis, nes laiko veiksnys nepriklauso nuo charakteristikų kintamumo. Nepaisant šių savybių, dinamikos eilutes galima palyginti su regresijos eilėmis ir apdoroti tais pačiais metodais.

Kaip ir regresijos eilutės, taip ir empirinės dinamikos eilutės turi ne tik pagrindinių, bet ir daugybės antrinių (atsitiktinių) veiksnių, kurie užgožia pagrindinę charakteristikų kintamumo tendenciją, kuri statistikos kalboje vadinama. tendencija.

Laiko eilučių analizė prasideda nuo tendencijos formos nustatymo. Norėdami tai padaryti, laiko eilutė vaizduojama kaip linijinis grafikas stačiakampėje koordinačių sistemoje. Šiuo atveju laiko taškai (metai, mėnesiai ir kiti laiko vienetai) brėžiami išilgai abscisių ašies, o priklausomo kintamojo Y reikšmės brėžiamos išilgai ordinačių ašies, jei tarp kintamųjų X yra tiesinis ryšys ir Y (tiesinė tendencija), mažiausių kvadratų metodas yra tinkamiausias laiko eilutėms sulyginti yra regresijos lygtis, kuri yra priklausomo kintamojo Y eilės dalių nuokrypiai nuo nepriklausomo kintamojo eilučių aritmetinio vidurkio. kintamasis X:

Čia yra tiesinės regresijos parametras.

Dinaminių eilučių skaitinės charakteristikos. Pagrindinės apibendrinančios skaitinės dinamikos eilučių charakteristikos apima geometrinis vidurkis ir jam artimą aritmetinį vidurkį. Jie apibūdina vidutinį greitį, kuriuo priklausomo kintamojo reikšmė kinta per tam tikrą laikotarpį:

Dinamikos eilučių narių kintamumo įvertinimas yra standartinis nuokrypis. Renkantis regresijos lygtis laiko eilutėms aprašyti, atsižvelgiama į tendencijos formą, kuri gali būti tiesinė (arba redukuota į tiesinę) ir netiesinė. Regresijos lygties pasirinkimo teisingumas paprastai vertinamas pagal empiriškai pastebėtų ir apskaičiuotų priklausomo kintamojo verčių panašumą. Tikslesnis šios problemos sprendimas yra dispersinės regresinės analizės metodas (12 tema, 4 pastraipa).

Laiko eilučių koreliacija. Dažnai tenka palyginti lygiagrečių laiko eilučių, susijusių tarpusavyje tam tikromis bendromis sąlygomis, dinamiką, pavyzdžiui, norint išsiaiškinti ryšį tarp žemės ūkio produkcijos ir gyvulių skaičiaus augimo per tam tikrą laikotarpį. Tokiais atvejais santykio tarp kintamųjų X ir Y charakteristika yra koreliacijos koeficientas R xy (esant tiesinei tendencijai).

Yra žinoma, kad laiko eilučių tendenciją paprastai slepia priklausomo kintamojo Y eilučių svyravimai. Dėl to iškyla dvejopa problema: išmatuoti priklausomybę tarp lyginamų eilučių, neatmetant tendencijos, ir išmatuoti priklausomybę tarp gretimų tos pačios serijos narių, neįskaitant tendencijos. Pirmuoju atveju ryšio tarp lyginamų laiko eilučių glaudumo rodiklis yra koreliacijos koeficientas(jei ryšys linijinis), antroje – autokoreliacijos koeficientas. Šie rodikliai turi skirtingas reikšmes, nors apskaičiuojami naudojant tas pačias formules (žr. 11 temą).

Nesunku pastebėti, kad autokoreliacijos koeficiento reikšmę įtakoja priklausomo kintamojo eilučių narių kintamumas: kuo mažiau serijos nariai nukrypsta nuo tendencijos, tuo didesnis autokoreliacijos koeficientas ir atvirkščiai.



Ar jums patiko straipsnis? Pasidalinkite su draugais!