Regresijos koeficientas kintamajam x. Duomenų analizės pagrindai

Regresijos lygties koeficientų skaičiavimas

Lygčių sistema (7.8), pagrįsta turima ED, negali būti vienareikšmiškai išspręsta, nes nežinomųjų skaičius visada yra didesnis už lygčių skaičių. Norint išspręsti šią problemą, reikia papildomų prielaidų. Sveikas protas diktuoja: polinomo koeficientus patartina parinkti taip, kad būtų užtikrinta minimali ED aproksimacijos paklaida. Apytikslėms paklaidoms įvertinti gali būti naudojamos įvairios priemonės. Kaip tokia priemonė plačiai naudojama vidutinė kvadratinė paklaida. Jos pagrindu sukurtas specialus regresijos lygčių koeficientų įvertinimo metodas – mažiausių kvadratų metodas (LSM). Šis metodas leidžia gauti maksimalų nežinomų regresijos lygties koeficientų tikimybės įverčius pagal normalaus pasiskirstymo parinktį, tačiau jis gali būti naudojamas bet kokiam kitam veiksnių pasiskirstymui.

MNC grindžiamas šiomis nuostatomis:

· klaidų reikšmių ir veiksnių reikšmės yra nepriklausomos, todėl nekoreliuojamos, t.y. daroma prielaida, kad trukdžių generavimo mechanizmai nėra susiję su faktorių verčių generavimo mechanizmu;

· matematinė paklaidos ε tikėtis turi būti lygi nuliui (pastovioji dedamoji įtraukiama į koeficientą a 0), kitaip tariant, paklaida yra centruotas dydis;

· imties paklaidos dispersijos įvertinimas turi būti minimalus.

Panagrinėkime OLS naudojimą standartizuotų reikšmių tiesinei regresijai. Centruotiems kiekiams u j koeficientas a 0 yra lygus nuliui, tada tiesinės regresijos lygtys

. (7.9)

Čia buvo įvestas specialus ženklas „^“, žymintis rodiklio reikšmes, apskaičiuotas naudojant regresijos lygtį, priešingai nei vertės, gautos iš stebėjimo rezultatų.

Taikant mažiausių kvadratų metodą, nustatomos tokios regresijos lygties koeficientų reikšmės, kurios suteikia besąlyginį išraiškos minimumą

Minimalus randamas prilyginus nuliui visas išraiškos (7.10) dalines išvestines, perimtas nežinomus koeficientus ir sprendžiant lygčių sistemą

(7.11)

Nuosekliai atliekant transformacijas ir naudojant anksčiau įvestus koreliacijos koeficientų įverčius

. (7.12)

Taigi, gavosi T–1 tiesinės lygtys, kurios leidžia vienareikšmiškai apskaičiuoti reikšmes a 2, a 3, …, a t.

Jei tiesinis modelis yra netikslus arba parametrai išmatuoti netiksliai, tai šiuo atveju mažiausių kvadratų metodas leidžia rasti tokias koeficientų reikšmes, kurioms esant tiesinis modelis geriausiai apibūdina realų objektą pasirinkto standartinio nuokrypio prasme. kriterijus.

Kai yra tik vienas parametras, tampa tiesinės regresijos lygtis

Koeficientas a 2 randama iš lygties

Tada, atsižvelgiant į tai r 2.2= 1, reikalingas koeficientas

a 2 = r y ,2 . (7.13)

Ryšys (7.13) patvirtina anksčiau teiginį, kad koreliacijos koeficientas yra tiesinio ryšio tarp dviejų standartizuotų parametrų matas.

Pakeičiant rastą koeficiento reikšmę a 2į išraišką w, atsižvelgiant į centruotų ir normalizuotų dydžių savybes, gauname šios funkcijos mažiausią reikšmę, lygią 1– r 2 m,2. 1 vertė – r 2 m.,2 vadinama likutine atsitiktinio dydžio dispersija y atsitiktinio dydžio atžvilgiu u 2. Jis apibūdina paklaidą, kuri gaunama pakeičiant indikatorių parametro υ= funkcija a 2 ir 2. Tik su | r y,2| = 1, liekamoji dispersija yra lygi nuliui, todėl aproksimuojant indikatorių tiesine funkcija nėra klaidų.

Pereinama nuo įcentruotų ir normalizuotų indikatoriaus ir parametrų verčių

galima gauti už pradines vertes

Ši lygtis taip pat yra tiesinė koreliacijos koeficiento atžvilgiu. Nesunku pastebėti, kad tiesinės regresijos centravimas ir normalizavimas leidžia sumažinti lygčių sistemos matmenį vienu, t.y. supaprastinti koeficientų nustatymo problemos sprendimą, o patiems koeficientams suteikti aiškią reikšmę.

Mažiausių kvadratų naudojimas netiesinėms funkcijoms praktiškai nesiskiria nuo nagrinėjamos schemos (tik koeficientas a0 pirminėje lygtyje nėra lygus nuliui).

Pavyzdžiui, tarkime, kad reikia nustatyti parabolinės regresijos koeficientus

Pavyzdžio klaidų dispersija

Remdamiesi juo galime gauti tokią lygčių sistemą

Po transformacijų lygčių sistema įgis formą

Atsižvelgdami į standartizuotų dydžių momentų savybes, rašome

Netiesinės regresijos koeficientų nustatymas pagrįstas tiesinių lygčių sistemos sprendimu. Norėdami tai padaryti, galite naudoti universalius skaitmeninių metodų paketus arba specializuotus paketus statistiniams duomenims apdoroti.

Didėjant regresijos lygties laipsniui, didėja ir koeficientams nustatyti naudojamų parametrų pasiskirstymo momentų laipsnis. Taigi antrojo laipsnio regresijos lygties koeficientams nustatyti naudojami parametrų pasiskirstymo momentai iki ketvirto laipsnio imtinai. Yra žinoma, kad riboto ED imties momentų įvertinimo tikslumas ir patikimumas smarkiai mažėja, kai didėja jų tvarka. Regresijos lygtyse nedera naudoti aukštesnio laipsnio nei antrasis daugianario.

Gautos regresijos lygties kokybė vertinama pagal rodiklio stebėjimų rezultatų ir regresijos lygties nuspėjamų verčių artumo laipsnį tam tikruose parametrų erdvės taškuose. Jei rezultatai artimi, regresinės analizės problema gali būti laikoma išspręsta. Kitu atveju turėtumėte pakeisti regresijos lygtį (pasirinkite kitokį daugianario laipsnį arba iš viso kitokio tipo lygtį) ir pakartokite skaičiavimus, kad įvertintumėte parametrus.

Jei yra keli rodikliai, regresinės analizės problema sprendžiama atskirai kiekvienam iš jų.

Analizuojant regresijos lygties esmę, reikėtų atkreipti dėmesį į šiuos dalykus. Nagrinėjamas metodas nenumato atskiro (nepriklausomo) koeficientų vertinimo - vieno koeficiento vertės pasikeitimas reiškia kitų verčių pasikeitimą. Gauti koeficientai neturėtų būti laikomi atitinkamo parametro indėliu į rodiklio reikšmę. Regresijos lygtis yra tik geras esamo ED analitinis aprašymas, o ne dėsnis, apibūdinantis ryšį tarp parametrų ir rodiklio. Ši lygtis naudojama rodiklio reikšmėms apskaičiuoti tam tikrame parametrų pokyčių diapazone. Jis yra ribotai tinkamas skaičiavimams už šio diapazono ribų, t.y. jis gali būti naudojamas interpoliacijos problemoms spręsti ir, ribotai, ekstrapoliacijai.



Pagrindinė prognozės netikslumo priežastis yra ne tiek regresijos tiesės ekstrapoliacijos neapibrėžtumas, kiek reikšmingas rodiklio kitimas dėl veiksnių, į kuriuos modelyje neatsižvelgta. Prognozavimo galimybių apribojimas yra parametrų, į kuriuos neatsižvelgta modelyje, stabilumo sąlyga ir modelio veiksnių, į kuriuos atsižvelgiama, įtakos pobūdis. Jei išorinė aplinka smarkiai pasikeis, tada sudaryta regresijos lygtis neteks prasmės. Į regresijos lygtį negalite pakeisti veiksnių, kurie labai skiriasi nuo pateiktų ED. Rekomenduojama neviršyti trečdalio parametrų kitimo diapazono, viršijančio tiek didžiausią, tiek mažiausią koeficiento reikšmes.

Prognozė, gauta regresijos lygtyje pakeitus parametro laukiamą reikšmę, yra taškas. Tikimybė, kad tokia prognozė išsipildys, yra nereikšminga. Patartina nustatyti prognozės pasikliautinąjį intervalą. Atskirų rodiklio verčių intervale turėtų būti atsižvelgiama į regresijos linijos padėties klaidas ir atskirų verčių nukrypimus nuo šios linijos. Vidutinė paklaida prognozuojant x faktoriaus rodiklį y bus

Kur yra vidutinė populiacijos regresijos tiesės padėties paklaida ties x = x k;

– rodiklio nuokrypio nuo regresijos tiesės dispersijos vertinimas populiacijoje;

x k– numatoma faktoriaus vertė.

Prognozės pasikliovimo ribos, pavyzdžiui, regresijos lygčiai (7.14), nustatomos pagal išraišką

Neigiamas laisvas terminas a 0 pradinių kintamųjų regresijos lygtyje reiškia, kad rodiklio egzistavimo sritis neapima nulinių parametrų reikšmių. Jeigu a 0 > 0, tada rodiklio egzistavimo sritis apima nulines parametrų reikšmes, o pats koeficientas apibūdina vidutinę rodiklio reikšmę, kai parametrų įtakos nėra.

7.2 problema. Sukurkite kanalo talpos regresijos lygtį pagal lentelėje nurodytą pavyzdį. 7.1.

Sprendimas. Nurodytos imties atžvilgiu analitinės priklausomybės konstravimas daugiausia buvo atliktas koreliacinės analizės rėmuose: pralaidumas priklauso tik nuo signalo ir triukšmo santykio parametro. Belieka pakeisti anksčiau apskaičiuotas parametrų reikšmes į išraišką (7.14). Talpos lygtis bus tokia

ŷ = 26,47–0,93 × 41,68 × 5,39 / 6,04 + 0,93 × 5,39 / 6,03 × X = – 8,121+0,830X.

Skaičiavimo rezultatai pateikti lentelėje. 7.5.

7.5 lentelė

N p Kanalo talpa Signalo ir triukšmo santykis Funkcijos reikšmė Klaida
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Koreliacijos priklausomybių tyrimas yra pagrįstas tokių kintamųjų sąsajų tyrimu, kai vieno kintamojo, kuris gali būti laikomas priklausomu kintamuoju, reikšmės „vidutiniškai“ kinta priklausomai nuo kito paimtų reikšmių. kintamasis, laikomas priežastimi, palyginti su priklausomu kintamuoju. Šios priežasties veiksmas vykdomas sudėtingos įvairių veiksnių sąveikos sąlygomis, dėl kurių modelio pasireiškimas yra užtemdytas atsitiktinumo įtakos. Apskaičiuojant vidutines efektyvaus požymio reikšmes tam tikrai požymio faktoriaus verčių grupei, atsitiktinumo įtaka iš dalies pašalinama. Skaičiuojant teorinės komunikacijos linijos parametrus, jie toliau eliminuojami ir gaunamas nedviprasmiškas (formos) „y“ pokytis, pasikeitus faktoriui „x“.

Stochastiniams ryšiams tirti plačiai naudojamas dviejų lygiagrečių eilučių palyginimo metodas, analitinės grupavimo metodas, koreliacinė analizė, regresinė analizė ir kai kurie neparametriniai metodai. Apskritai, statistikos uždavinys santykių tyrimo srityje yra ne tik kiekybiškai įvertinti jų buvimą, ryšio kryptį ir stiprumą, bet ir nustatyti faktorių charakteristikų įtakos gaunamajai formai (analitinę išraišką). Jai išspręsti naudojami koreliacinės ir regresinės analizės metodai.

1 SKYRIUS. REGRESIJOS LYGTIS: TEORINIAI PAGRINDAI

1.1. Regresijos lygtis: funkcijų esmė ir rūšys

Regresija (lot. regressio – atvirkštinis judėjimas, perėjimas nuo sudėtingesnių raidos formų prie ne tokių sudėtingų) yra viena iš pagrindinių tikimybių teorijos ir matematinės statistikos sąvokų, išreiškianti atsitiktinio dydžio vidutinės reikšmės priklausomybę nuo reikšmių. kito atsitiktinio dydžio arba kelių atsitiktinių dydžių. Šią koncepciją 1886 m. pristatė Francisas Galtonas.

Teorinė regresijos linija – tai linija, aplink kurią grupuojami koreliacijos lauko taškai ir kuri nurodo pagrindinę kryptį, pagrindinę ryšio tendenciją.

Teorinė regresijos linija turėtų atspindėti efektyvaus požymio „y“ vidutinių reikšmių pokytį, kai pasikeičia veiksnio požymio „x“ reikšmės, su sąlyga, kad visos kitos priežastys, atsitiktinės veiksnio „x“ atžvilgiu. , yra visiškai atšaukti. Vadinasi, ši linija turi būti nubrėžta taip, kad koreliacijos lauko taškų nuokrypių suma nuo atitinkamų teorinės regresijos tiesės taškų būtų lygi nuliui, o šių nuokrypių kvadratų suma būtų minimali.

y=f(x) – regresijos lygtis yra statistinio ryšio tarp kintamųjų formulė.

Tiesė plokštumoje (dvimatėje erdvėje) pateikiama lygtimi y=a+b*x. Išsamiau kintamasis y gali būti išreikštas konstanta (a) ir nuolydžiu (b), padauginta iš kintamojo x. Konstanta kartais dar vadinama pertraukos terminu, o nuolydis kartais vadinamas regresija arba B koeficientu.

Svarbus regresinės analizės etapas yra funkcijos, kuria charakterizuojama priklausomybė tarp charakteristikų, tipo nustatymas. Pagrindinis pagrindas turėtų būti prasminga tiriamos priklausomybės pobūdžio ir jos mechanizmo analizė. Tuo pačiu metu ne visada įmanoma teoriškai pagrįsti kiekvieno veiksnio ir veiklos rodiklio ryšio formą, nes tiriami socialiniai ir ekonominiai reiškiniai yra labai sudėtingi, o jų lygį formuojantys veiksniai glaudžiai persipynę ir sąveikauja. vienas su kitu. Todėl, remiantis teorine analize, dažnai galima daryti pačias bendriausias išvadas dėl santykių krypties, jo kitimo galimybės tiriamoje populiacijoje, tiesinio ryšio naudojimo teisėtumo, galimo kraštutinių vertybių buvimo, t. ir tt Būtinas tokių prielaidų papildymas turėtų būti konkrečių faktinių duomenų analizė.

Apytikslę ryšio linijos idėją galima gauti remiantis empirine regresijos linija. Empirinė regresijos linija paprastai yra trūkinė ir turi daugiau ar mažiau reikšmingą lūžį. Tai paaiškinama tuo, kad kitų neįvertintų veiksnių, turinčių įtakos gaunamos charakteristikos kitimui, įtaka vidurkiu nevisiškai užgęsta dėl nepakankamai didelio stebėjimų skaičiaus, todėl empirine komunikacijos linija galima pasirinkti ir pagrįsti teorinės kreivės tipą, jei stebėjimų skaičius yra pakankamai didelis.

Vienas iš konkrečių tyrimų elementų yra įvairių priklausomybės lygčių palyginimas, remiantis kokybės kriterijų naudojimu aproksimuojant empirinius duomenis pagal konkuruojančias modelių versijas Ekonominių rodiklių ryšiams apibūdinti dažniausiai naudojami šie funkcijų tipai.

1. Linijinis:

2. Hiperbolinis:

3. Demonstracinis:

4. Parabolinis:

5. Galia:

6. Logaritminis:

7. Logistika:

Modelis su vienu aiškinamuoju ir vienu paaiškinamu kintamuoju yra suporuotas regresijos modelis. Jei naudojami du ar daugiau aiškinamųjų (veiksnių) kintamųjų, kalbame apie daugialypės regresijos modelio naudojimą. Šiuo atveju kaip parinktys gali būti pasirinktos tiesinės, eksponentinės, hiperbolinės, eksponentinės ir kitų tipų funkcijos, jungiančios šiuos kintamuosius.

Regresijos lygties parametrams a ir b rasti naudojamas mažiausių kvadratų metodas. Taikant mažiausiųjų kvadratų metodą norint rasti funkciją, kuri geriausiai atitinka empirinius duomenis, manoma, kad empirinių taškų nuokrypių nuo teorinės regresijos linijos kvadratų maišelis turėtų būti mažiausia reikšmė.

Mažiausių kvadratų kriterijų galima parašyti taip:

Vadinasi, mažiausiųjų kvadratų metodo naudojimas nustatant linijos, kuri geriausiai atitinka empirinius duomenis, parametrus a ir b, yra sumažinta iki ekstremumo problemos.

Kalbant apie vertinimus, galima padaryti tokias išvadas:

1. Mažiausių kvadratų įverčiai yra imties funkcijos, todėl jas lengva apskaičiuoti.

2. Mažiausių kvadratų įverčiai yra taškiniai teorinių regresijos koeficientų įverčiai.

3. Empirinės regresijos tiesė būtinai eina per tašką x, y.

4. Empirinės regresijos lygtis sudaroma taip, kad nuokrypių suma

.

Empirinės ir teorinės komunikacijos linijos grafinis vaizdas pateiktas 1 pav.


Parametras b lygtyje yra regresijos koeficientas. Esant tiesioginei koreliacijai regresijos koeficientas yra teigiamas, o esant atvirkštinei koreliacijai – neigiamas. Regresijos koeficientas parodo, kiek vidutiniškai pasikeičia efektyvaus požymio „y“ reikšmė, kai veiksnio požymis „x“ pasikeičia vienu. Geometriškai regresijos koeficientas yra tiesės, vaizduojančios koreliacijos lygtį, nuolydis „x“ ašies atžvilgiu (lygčiai

).

Daugiamatės statistinės analizės šaka, skirta priklausomybių rekonstrukcijai, vadinama regresine analize. Terminas „tiesinės regresijos analizė“ vartojamas, kai nagrinėjama funkcija tiesiškai priklauso nuo įvertintų parametrų (priklausomybė nuo nepriklausomų kintamųjų gali būti savavališka). Vertinimo teorija

nežinomi parametrai yra gerai išvystyti būtent tiesinės regresijos analizės atveju. Jei nėra tiesiškumo ir neįmanoma pereiti prie tiesinės problemos, tada, kaip taisyklė, negalima tikėtis gerų savybių iš įverčių. Mes parodysime metodus įvairių tipų priklausomybių atveju. Jei priklausomybė turi daugianario formą (polinomą). Jei koreliacijos apskaičiavimas apibūdina dviejų kintamųjų ryšio stiprumą, tai regresinė analizė padeda nustatyti šio ryšio tipą ir leidžia numatyti vieno (priklausomo) kintamojo vertę remiantis kito (nepriklausomo) kintamojo verte. . Norint atlikti tiesinės regresijos analizę, priklausomas kintamasis turi turėti intervalo (arba eilės) skalę. Tuo pačiu metu dvejetainė logistinė regresija atskleidžia dichotominio kintamojo priklausomybę nuo kurio nors kito kintamojo, susijusio su bet kokia skale. Probit analizei taikomos tos pačios taikymo sąlygos. Jei priklausomasis kintamasis yra kategoriškas, bet turi daugiau nei dvi kategorijas, tuomet tinkamas metodas yra daugianominė logistinė regresija tarp kintamųjų, priklausančių intervalo skalei. Tam skirtas netiesinės regresijos metodas.

Regresijos koeficientai parodyti veiksnių įtakos veiklos rodikliui intensyvumą. Jei atliekamas preliminarus faktorinių rodiklių standartizavimas, tai b 0 yra lygus vidutinei efektyvaus rodiklio vertei visumoje. Koeficientai b 1, b 2, ..., b n rodo, kiek vienetų efektyvaus rodiklio lygis nukrypsta nuo jo vidutinės reikšmės, jei faktoriaus rodiklio reikšmės nuo nulio vidurkio nukrypsta vienu standartiniu nuokrypiu. Taigi regresijos koeficientai apibūdina atskirų veiksnių reikšmingumo laipsnį veiklos rodiklio lygio didinimui. Konkrečios regresijos koeficientų reikšmės nustatomos iš empirinių duomenų pagal mažiausių kvadratų metodą (sprendžiant normaliųjų lygčių sistemas).

Regresijos linija- tiesė, kuri tiksliausiai atspindi eksperimentinių taškų pasiskirstymą sklaidos diagramoje ir kurios nuolydžio statumas apibūdina ryšį tarp dviejų intervalo kintamųjų.

Regresijos linijos dažniausiai ieškoma tiesinės funkcijos (tiesinės regresijos) forma, kuri geriausiai atitinka norimą kreivę. Tai atliekama naudojant mažiausių kvadratų metodą, kai sumažinama faktiškai stebimų nukrypimų kvadratu suma nuo jų įverčių (tai reiškia, kad įverčiai naudojant tiesią liniją, kuri neva atspindi norimą regresijos ryšį):

(M – imties dydis). Šis metodas pagrįstas gerai žinomu faktu, kad suma, esanti aukščiau pateiktoje išraiškoje, įgyja mažiausią reikšmę būtent tuo atveju, kai .
57. Pagrindiniai koreliacijos teorijos uždaviniai.

Koreliacijos teorija – tai aparatas, įvertinantis ryšių tarp reiškinių, kurie yra ne tik priežasties ir pasekmės ryšiuose, glaudumą. Taikant koreliacijos teoriją, vertinami stochastiniai, bet ne priežastiniai ryšiai. Autorius kartu su M. L. Lukatskaya bandė gauti priežastinių ryšių įverčius. Tačiau klausimas apie reiškinių priežasties ir pasekmės ryšius, kaip atpažinti priežastį ir pasekmę lieka atviras ir atrodo, kad formaliuoju lygmeniu jis iš esmės neišsprendžiamas.

Koreliacijos teorija ir jos taikymas gamybos analizei.

Koreliacijos teorija, kuri yra viena iš matematinės statistikos šakų, leidžia daryti pagrįstas prielaidas apie galimas ribas, kuriose esant tam tikram patikimumo laipsniui bus tiriamas parametras, jei kiti statistiškai susiję parametrai gaus tam tikras reikšmes.

Koreliacijos teorijoje įprasta atskirti dvi pagrindinės užduotys.

Pirma užduotis koreliacijos teorija – nustatyti koreliacijos formą, t.y. regresijos funkcijos tipas (tiesinė, kvadratinė ir kt.).

Antra užduotis koreliacijos teorija – įvertinti koreliacinio ryšio glaudumą (stiprumą).

Koreliacinio ryšio (priklausomybės) Y nuo X artumas vertinamas pagal Y reikšmių sklaidos dydį aplink sąlyginį vidurkį. Didelė dispersija rodo silpną Y priklausomybę nuo X, maža dispersija rodo stiprią priklausomybę.
58. Koreliacijos lentelė ir jos skaitinės charakteristikos.

Praktikoje dėl nepriklausomų dydžių X ir Y stebėjimų, kaip taisyklė, kalbama ne su visu galimų šių dydžių verčių porų rinkiniu, o tik su ribota pavyzdžiu iš bendrosios populiacijos, o imties visumos tūris n apibrėžiamas kaip imtyje turimų porų skaičius.

Tegul reikšmė X imtyje yra x 1, x 2,....x m, kur šios reikšmės reikšmių, kurios skiriasi viena nuo kitos, skaičius ir bendru atveju kiekviena iš jų gali pakartojamas mėginyje. Tegul reikšmė Y imtyje įgauna reikšmes y 1, y 2,....y k, kur k yra skirtingų šios reikšmės reikšmių skaičius, o bendruoju atveju kiekviena iš jų taip pat gali būti pakartotas mėginyje. Šiuo atveju duomenys įvedami į lentelę, atsižvelgiant į pasireiškimo dažnumą. Tokia lentelė su sugrupuotais duomenimis vadinama koreliacijos lentele.

Pirmasis statistinio rezultatų apdorojimo etapas yra koreliacijos lentelės sudarymas.

Y\X x 1 x 2 ... x m n m
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

Pirmoje pagrindinės lentelės dalies eilutėje didėjančia tvarka pateikiamos visos pavyzdyje rasto kiekio X reikšmės. Atitinkamų eilučių ir stulpelių sankirtoje dažniai n ij (i = 1,2 ,...,m; j=1,2,...,k) lygūs poros (x i ; y i) pavyzdyje. Pavyzdžiui, dažnis n 12 reiškia poros (x 1 ;y 1) atvejų skaičių imtyje.

Taip pat n xi n ij , 1≤i≤m, yra i-osios stulpelio elementų suma, n yj n ij , 1≤j≤k, yra j-osios eilutės elementų suma ir n xi = n yj =n

Iš koreliacijos lentelės duomenų gautų formulių analogai turi tokią formą:


59. Empirinės ir teorinės regresijos tiesės.

Teorinė regresijos tiesėšiuo atveju galima apskaičiuoti pagal atskirų stebėjimų rezultatus. Norint išspręsti normaliųjų lygčių sistemą, mums reikia tų pačių duomenų: x, y, xy ir xr. Turime duomenų apie cemento gamybos apimtis ir ilgalaikio gamybinio turto apimtį 1958 metais. Iškeliamas uždavinys: ištirti cemento gamybos apimties (fizine prasme) ir ilgalaikio turto apimties ryšį. [ 1 ]

Kuo mažiau teorinės regresijos tiesė (apskaičiuota pagal lygtį) nukrypsta nuo faktinės (empirinės), tuo mažesnė vidutinė aproksimacijos paklaida.

Teorinės regresijos linijos radimo procesas apima empirinės regresijos linijos pritaikymą mažiausių kvadratų metodu.

Teorinės regresijos linijos radimo procesas vadinamas empirinės regresijos tiesės lygiavimu ir susideda iš tipo parinkimo ir pagrindimo; kreivė ir jos lygties parametrų apskaičiavimas.

Empirinė regresija sudaroma pagal analitinius arba kombinuotus grupavimo duomenis ir parodo rezultato požymio vidutinių grupės verčių priklausomybę nuo faktoriaus bruožo vidutinių verčių grupės. Empirinės regresijos grafinis vaizdas yra trūkinė linija, sudaryta iš taškų, kurių abscisės yra faktoriaus bruožo vidutinės grupės reikšmės, o ordinatės yra rezultato požymio vidutinės grupės reikšmės. Taškų skaičius yra lygus grupių skaičiui grupėje.

Empirinė regresijos linija atspindi pagrindinę nagrinėjamo ryšio tendenciją. Jei empirinės regresijos linija artėja prie tiesios linijos, galime manyti, kad tarp charakteristikų yra tiesinė koreliacija. Ir jei jungties linija artėja prie kreivės, tai gali būti dėl kreivinės koreliacijos ryšio.
60. Imties koreliacijos ir regresijos koeficientai.

Jei priklausomybė tarp grafiko charakteristikų rodo tiesinę koreliaciją, apskaičiuokite koreliacijos koeficientas r, kuri leidžia įvertinti kintamųjų ryšio glaudumą, o taip pat sužinoti, kokia charakteristikos pokyčių dalis yra dėl pagrindinės charakteristikos įtakos, o kokią – dėl kitų veiksnių įtakos. Koeficientas svyruoja nuo –1 iki +1. Jeigu r=0, tada tarp charakteristikų nėra ryšio. Lygybė r=0 rodo tik tiesinės koreliacijos priklausomybės nebuvimą, bet ne visai koreliacijos nebuvimą, tuo labiau statistinę priklausomybę. Jeigu r= ±1, tai reiškia, kad yra pilnas (funkcinis) ryšys. Šiuo atveju visos stebimos vertės yra regresijos tiesėje, kuri yra tiesi.
Praktinė koreliacijos koeficiento reikšmė nustatoma pagal jo kvadratinę reikšmę, vadinamą determinacijos koeficientu.
Regresija aproksimuota (apytiksliai aprašyta) tiesine funkcija y = kX + b. Y regresijai X, regresijos lygtis yra tokia: `y x = ryx X + b; (1). Tiesioginės Y regresijos ant X nuolydžio ryx vadinamas Y regresijos koeficientu X.

Jei (1) lygtis randama naudojant imties duomenis, tada ji vadinama imties regresijos lygtis. Atitinkamai, ryx yra Y imties regresijos koeficientas X, o b yra lygties fiktyvus imties narys. Regresijos koeficientas matuoja Y kitimą, tenkantį X vienetui. Regresijos lygties parametrai (koeficientai ryx ir b) randami naudojant mažiausių kvadratų metodą.
61. Koreliacijos koeficiento reikšmės ir koreliacijos glaudumo įvertinimas bendrojoje populiacijoje

Koreliacijos koeficientų reikšmė patikrinta naudojant Studento testą:

Kur - Koreliacijos koeficiento vidutinė kvadratinė paklaida, kuri nustatoma pagal formulę:

Jei apskaičiuota reikšmė yra didesnė už lentelės reikšmę, galime daryti išvadą, kad koreliacijos koeficiento reikšmė yra reikšminga t rasta iš Stjudento t-testo verčių lentelės. Šiuo atveju atsižvelgiama į laisvės laipsnių skaičių (V = n - 1) ir pasikliovimo lygis (ekonominiais skaičiavimais paprastai yra 0,05 arba 0,01). Mūsų pavyzdyje laisvės laipsnių skaičius yra toks: p - 1 = 40 - 1 = 39. Pasikliovimo lygiu R = 0,05; t= 2,02. Kadangi (faktinė reikšmė visais atvejais yra didesnė už t-lentelę), ryšys tarp rezultato ir faktoriaus rodiklių yra patikimas, o koreliacijos koeficientų dydis yra reikšmingas.

Koreliacijos koeficiento įvertinimas, apskaičiuotas pagal ribotą imtį, beveik visada skiriasi nuo nulio. Bet tai nereiškia, kad koreliacijos koeficientas gyventojų taip pat skiriasi nuo nulio. Reikia įvertinti koeficiento imties reikšmės reikšmingumą arba pagal statistinių hipotezių tikrinimo uždavinių formuluotę patikrinti hipotezę, kad koreliacijos koeficientas lygus nuliui. Jei hipotezė N 0, kad koreliacijos koeficientas yra lygus nuliui, bus atmestas, tada imties koeficientas yra reikšmingas, o atitinkamos reikšmės yra susietos tiesiniu ryšiu. Jei hipotezė N bus priimtas 0, tada koeficiento įvertis nėra reikšmingas, o reikšmės nėra tiesiškai susijusios viena su kita (jei dėl fizinių priežasčių veiksniai gali būti susiję, tada geriau sakyti, kad šis ryšys nebuvo nustatyta pagal turimą ED). Norint patikrinti hipotezę apie koreliacijos koeficiento įvertinimo reikšmingumą, reikia žinoti šio atsitiktinio dydžio pasiskirstymą.  reikšmės pasiskirstymas ik tirta tik ypatingam atvejui, kai atsitiktiniai dydžiai Uj Ir JK paskirstytas pagal įprastą dėsnį.

Kaip nulinės hipotezės tikrinimo kriterijus N 0 taikyti atsitiktinį kintamąjį . Jei koreliacijos koeficiento modulis yra gana toli nuo vieneto, tada reikšmė t jei nulinė hipotezė teisinga, ji paskirstoma pagal Stjudento dėsnį su n– 2 laisvės laipsniai. Konkuruojanti hipotezė N 1 atitinka teiginį, kad reikšmė  ik nelygus nuliui (didesnis arba mažesnis už nulį). Todėl kritinė sritis yra dvipusė.
62. Imties koreliacijos koeficiento apskaičiavimas ir imties tiesinės regresijos lygties sudarymas.

Imties koreliacijos koeficientas randama pagal formulę

kur yra imties standartiniai verčių nuokrypiai ir .

Imties koreliacijos koeficientas parodo tiesinio ryšio tarp ir artumą: kuo arčiau vieneto, tuo stipresnis tiesinis ryšys tarp ir.

Paprasta tiesinė regresija nustato tiesinį ryšį tarp vieno įvesties kintamojo ir vieno išvesties kintamojo. Norėdami tai padaryti, nustatoma regresijos lygtis - tai modelis, atspindintis Y reikšmių priklausomybę, priklausomą Y reikšmę nuo x reikšmių, nepriklausomo kintamojo x ir populiacijos, aprašytos niveliavimu. :

Kur A0- regresijos lygties laisvasis narys;

A1- regresijos lygties koeficientas

Tada sukuriama atitinkama tiesė, vadinama regresijos linija. Koeficientai A0 ir A1, dar vadinami modelio parametrais, parenkami taip, kad realius duomenų stebėjimus atitinkančių taškų nuokrypių iš regresijos tiesės kvadratų suma būtų minimali. Koeficientai parenkami mažiausiųjų kvadratų metodu. Kitaip tariant, paprasta tiesinė regresija apibūdina linijinį modelį, kuris geriausiai apytiksliai atitinka vieno įvesties kintamojo ir vieno išvesties kintamojo ryšį.

Regresijos samprata. Priklausomybė tarp kintamųjų x Ir y galima apibūdinti įvairiai. Visų pirma, bet kokia ryšio forma gali būti išreikšta bendra lygtimi, kur y traktuojamas kaip priklausomas kintamasis, arba funkcijas iš kito – nepriklausomas kintamasis x, vadinamas argumentas. Argumento ir funkcijos atitikimą galima nurodyti lentele, formule, grafiku ir pan. Iškviečiamas funkcijos keitimas, atsižvelgiant į vieno ar kelių argumentų pasikeitimą regresija. Visos priemonės, naudojamos koreliacijai apibūdinti, sudaro turinį regresinė analizė.

Regresijai išreikšti naudojamos koreliacinės lygtys arba regresijos lygtys, empirinės ir teoriškai apskaičiuotos regresijos eilutės, jų grafikai, vadinami regresijos linijomis, taip pat tiesinės ir netiesinės regresijos koeficientai.

Regresijos rodikliai išreiškia koreliacijos ryšį dvišaliu būdu, atsižvelgiant į charakteristikos vidutinių verčių pokyčius Y keičiant vertybes x iženklas X, ir, atvirkščiai, rodo charakteristikos vidutinių verčių pokytį X pagal pasikeitusias vertes y iženklas Y. Išimtis yra laiko eilutės arba laiko eilutės, rodančios charakteristikų pokyčius laikui bėgant. Tokių eilučių regresija yra vienpusė.

Egzistuoja daugybė skirtingų koreliacijų formų ir tipų. Užduotis apsiriboja kiekvienu konkrečiu atveju ryšio formos nustatymu ir jos išreiškimu atitinkama koreliacijos lygtimi, kuri leidžia numatyti galimus vienos charakteristikos pokyčius. Y remiantis žinomais pokyčiais kitoje X, susiję su pirmuoju koreliaciniu požiūriu.

12.1 Tiesinė regresija

Regresijos lygtis. Stebėjimų, atliktų konkrečiame biologiniame objekte, remiantis koreliuojamomis savybėmis, rezultatai x Ir y, gali būti pavaizduotas taškais plokštumoje, sukūrus stačiakampių koordinačių sistemą. Rezultatas yra tam tikra sklaidos diagrama, leidžianti spręsti apie skirtingų charakteristikų ryšio formą ir glaudumą. Gana dažnai šis ryšys atrodo kaip tiesi linija arba gali būti apytikslis tiesės linijos.

Linijinis ryšys tarp kintamųjų x Ir y aprašomas bendra lygtimi, kur a, b, c, d,... – lygties parametrai, lemiantys ryšius tarp argumentų x 1 , x 2 , x 3 , …, x m ir funkcijas.

Praktikoje atsižvelgiama ne į visus galimus argumentus, o tik į kai kuriuos argumentus paprasčiausiu atveju, tik į vieną:

Tiesinės regresijos lygtyje (1) a yra laisvasis terminas ir parametras b nustato regresijos tiesės nuolydį stačiakampių koordinačių ašių atžvilgiu. Analitinėje geometrijoje šis parametras vadinamas nuolydis o biometriniuose duomenyse – regresijos koeficientas. Vizualus šio parametro vaizdas ir regresijos linijų padėtis Y Autorius X Ir X Autorius Y stačiakampėje koordinačių sistemoje pateikia 1 pav.

Ryžiai. 1 Regresijos linijos Y pagal X ir X pagal Y sistemoje

stačiakampės koordinatės

Regresijos linijos, kaip parodyta 1 pav., susikerta taške O (,), atitinkančios viena su kita koreliuojančių požymių aritmetines vidutines vertes. Y Ir X. Kuriant regresijos grafikus, nepriklausomo kintamojo X reikšmės brėžiamos išilgai abscisių ašies, o priklausomo kintamojo arba funkcijos Y reikšmės brėžiamos išilgai ordinačių ašies, einančios per tašką O (,. ) atitinka pilną (funkcinį) ryšį tarp kintamųjų Y Ir X, kai koreliacijos koeficientas . Kuo stipresnis ryšys tarp Y Ir X, kuo regresijos tiesės yra arčiau AB, ir, atvirkščiai, kuo silpnesnis ryšys tarp šių dydžių, tuo regresijos tiesės yra toliau nuo AB. Jei tarp charakteristikų nėra ryšio, regresijos linijos yra viena kitai stačiu kampu ir .

Kadangi regresijos rodikliai išreiškia koreliacijos ryšį dvišališkai, regresijos lygtis (1) turėtų būti parašyta taip:

Pirmoji formulė nustato vidutines reikšmes, kai pasikeičia charakteristika X vienam matavimo vienetui, antrajam - vidutinės vertės, kai keičiasi vienu atributo matavimo vienetu Y.

Regresijos koeficientas. Regresijos koeficientas parodo, kiek vidutiniškai yra vienos charakteristikos reikšmė y pasikeičia, kai kito matas, koreliuojamas su, pasikeičia vienu Yženklas X. Šis rodiklis nustatomas pagal formulę

Čia yra vertybės s padaugintas iš klasių intervalų dydžio λ , jei jie buvo rasti iš variacijų eilučių arba koreliacijos lentelių.

Regresijos koeficientą galima apskaičiuoti neskaičiuojant standartinių nuokrypių s y Ir s x pagal formulę

Jei koreliacijos koeficientas nežinomas, regresijos koeficientas nustatomas taip:

Regresijos ir koreliacijos koeficientų ryšys. Palyginus (11.1) (11 tema) ir (12.5) formules, matome: jų skaitiklis turi tą pačią reikšmę, o tai rodo ryšį tarp šių rodiklių. Šis santykis išreiškiamas lygybe

Taigi koreliacijos koeficientas lygus geometriniam koeficientų vidurkiui b yx Ir b xy. (6) formulė leidžia, pirma, remiantis žinomomis regresijos koeficientų reikšmėmis b yx Ir b xy nustatyti regresijos koeficientą R xy, antra, patikrinkite šio koreliacijos rodiklio skaičiavimo teisingumą R xy tarp skirtingų savybių X Ir Y.

Kaip ir koreliacijos koeficientas, regresijos koeficientas apibūdina tik tiesinį ryšį ir yra kartu su pliuso ženklu, reiškiančiu teigiamą ryšį, ir su minuso ženklu – neigiamu ryšiu.

Tiesinės regresijos parametrų nustatymas. Yra žinoma, kad nuokrypių kvadratų suma yra variantas x i nuo vidurkio yra mažiausia reikšmė, t.y. ši teorema sudaro mažiausių kvadratų metodo pagrindą. Dėl tiesinės regresijos [žr formulė (1)] šios teoremos reikalavimą tenkina tam tikra lygčių sistema, vadinama normalus:

Bendras šių lygčių sprendimas parametrų atžvilgiu a Ir b veda prie šių rezultatų:

;

;

, iš kur ir.

Atsižvelgiant į dvipusį ryšį tarp kintamųjų Y Ir X, parametro nustatymo formulė A turėtų būti išreikšta taip:

Ir . (7)

Parametras b, arba regresijos koeficientas, nustatomas pagal šias formules:

Empirinės regresijos eilučių konstravimas. Jei yra daug stebėjimų, regresinė analizė pradedama sudaryti empirines regresijos eilutes. Empirinės regresijos eilutės sudaromas skaičiuojant pagal vienos kintančios charakteristikos reikšmes X kito vidutinės vertės, koreliuojamos su Xženklas Y. Kitaip tariant, empirinės regresijos eilučių konstravimas yra susijęs su grupės vidurkių paieška pagal atitinkamas charakteristikų Y ir X vertes.

Empirinės regresijos eilutė yra dviguba skaičių serija, kurią galima pavaizduoti plokštumos taškais, o tada, sujungus šiuos taškus tiesių atkarpomis, galima gauti empirinę regresijos liniją. Empirinės regresijos eilutės, ypač jų grafikai, vadinamos regresijos linijos, suteikia aiškų supratimą apie koreliacijos tarp skirtingų charakteristikų formą ir glaudumą.

Empirinės regresijos eilučių lygiavimas. Empirinės regresijos eilučių grafikai, kaip taisyklė, yra ne lygios, o laužytos linijos. Tai paaiškinama tuo, kad kartu su pagrindinėmis priežastimis, lemiančiomis bendrą koreliuojamų charakteristikų kintamumo modelį, jų dydžiui įtakos turi daugybė antrinių priežasčių, sukeliančių atsitiktinius regresijos mazgų svyravimus. Norint nustatyti pagrindinę koreliuotų charakteristikų konjuguoto kitimo tendenciją (tendenciją), būtina laužytas linijas pakeisti lygiomis, sklandžiai einančiomis regresijos linijomis. Nutrūkusių linijų pakeitimo lygiomis procesas vadinamas empirinių eilučių derinimas Ir regresijos linijos.

Grafinio derinimo metodas. Tai paprasčiausias metodas ir nereikalaujantis jokio skaičiavimo darbo. Jo esmė susiveda į štai ką. Empirinės regresijos eilutė pavaizduota kaip grafikas stačiakampėje koordinačių sistemoje. Tada vizualiai nubrėžiami regresijos vidurio taškai, išilgai kurių liniuote arba raštu nubrėžiama ištisinė linija. Šio metodo trūkumas akivaizdus: jis neatmeta atskirų tyrėjo savybių įtakos empirinės regresijos tiesių derinimo rezultatams. Todėl tais atvejais, kai reikia didesnio tikslumo pakeičiant laužytas regresijos linijas lygiosiomis, naudojami kiti empirinių eilučių derinimo būdai.

Slenkančio vidurkio metodas.Šio metodo esmė yra nuoseklus aritmetinių vidurkių skaičiavimas iš dviejų ar trijų gretimų empirinės serijos narių. Šis metodas yra ypač patogus tais atvejais, kai empirinė serija yra vaizduojama daugybe terminų, todėl dviejų iš jų - kraštutinių - praradimas, kuris yra neišvengiamas naudojant šį derinimo būdą, nepadarys pastebimos įtakos jos struktūrai.

Mažiausių kvadratų metodas.Šį metodą XIX amžiaus pradžioje pasiūlė A.M. Legenda ir, nepriklausomai nuo jo, K. Gaussas. Tai leidžia tiksliausiai suderinti empirines serijas. Šis metodas, kaip parodyta aukščiau, yra pagrįstas prielaida, kad nuokrypių kvadratų suma yra galimybė x i nuo jų vidurkio yra minimali reikšmė, t.y. Iš čia ir kilęs metodo pavadinimas, kuris naudojamas ne tik ekologijoje, bet ir technologijoje. Mažiausių kvadratų metodas yra objektyvus ir universalus, jis naudojamas labai įvairiais atvejais ieškant regresijos eilučių empirinių lygčių ir nustatant jų parametrus.

Mažiausių kvadratų metodo reikalavimas yra tas, kad teoriniai regresijos linijos taškai turi būti gauti taip, kad empiriniams stebėjimams būtų gauta kvadratinių nuokrypių nuo šių taškų suma. y i buvo minimalus, t.y.

Pagal matematinės analizės principus apskaičiavus šios išraiškos minimumą ir jį tam tikru būdu transformavus, galima gauti sistemą, vadinamą. normalios lygtys, kuriame nežinomos reikšmės yra būtini regresijos lygties parametrai, o žinomi koeficientai nustatomi pagal charakteristikų empirines reikšmes, dažniausiai jų verčių sumas ir jų kryžminius sandaugius.

Daugkartinė tiesinė regresija. Ryšys tarp kelių kintamųjų paprastai išreiškiamas daugialypės regresijos lygtimi, kuri gali būti linijinis Ir netiesinis. Paprasčiausia daugialypė regresija išreiškiama lygtimi su dviem nepriklausomais kintamaisiais ( x, z):

Kur a– laisvasis lygties narys; b Ir c– lygties parametrai. Norint rasti (10) lygties parametrus (naudojant mažiausių kvadratų metodą), naudojama tokia normaliųjų lygčių sistema:

Dinaminė serija. Eilučių lygiavimas. Savybių pokyčiai laikui bėgant formuoja vadinamuosius laiko eilutes arba dinamikos serija. Būdingas tokių eilučių bruožas yra tas, kad nepriklausomas kintamasis X čia visada yra laiko veiksnys, o priklausomas kintamasis Y yra kintantis požymis. Priklausomai nuo regresijos eilutės, ryšys tarp kintamųjų X ir Y yra vienpusis, nes laiko veiksnys nepriklauso nuo charakteristikų kintamumo. Nepaisant šių savybių, dinamikos eilutes galima palyginti su regresijos eilėmis ir apdoroti tais pačiais metodais.

Kaip ir regresijos eilutes, taip ir empirines dinamikos eilutes įtakoja ne tik pagrindiniai, bet ir daugybė antrinių (atsitiktinių) veiksnių, kurie užgožia pagrindinę charakteristikų kintamumo tendenciją, kuri statistikos kalboje vadinama. tendencija.

Laiko eilučių analizė prasideda nuo tendencijos formos nustatymo. Norėdami tai padaryti, laiko eilutė vaizduojama kaip linijinis grafikas stačiakampėje koordinačių sistemoje. Šiuo atveju laiko taškai (metai, mėnesiai ir kiti laiko vienetai) brėžiami išilgai abscisių ašies, o priklausomo kintamojo Y reikšmės brėžiamos išilgai ordinačių ašies, jei tarp kintamųjų X yra tiesinis ryšys ir Y (tiesinė tendencija), mažiausių kvadratų metodas yra tinkamiausias laiko eilutėms sulyginti yra regresijos lygtis, kuri yra priklausomo kintamojo Y eilės dalių nuokrypiai nuo nepriklausomo kintamojo eilučių aritmetinio vidurkio. kintamasis X:

Čia yra tiesinės regresijos parametras.

Dinaminių eilučių skaitinės charakteristikos. Pagrindinės apibendrinančios skaitinės dinamikos eilučių charakteristikos apima geometrinis vidurkis ir jam artimą aritmetinį vidurkį. Jie apibūdina vidutinį greitį, kuriuo priklausomo kintamojo reikšmė kinta per tam tikrą laikotarpį:

Dinamikos eilučių narių kintamumo įvertinimas yra standartinis nuokrypis. Renkantis regresijos lygtis laiko eilutėms aprašyti, atsižvelgiama į tendencijos formą, kuri gali būti tiesinė (arba redukuota į tiesinę) ir netiesinė. Regresijos lygties pasirinkimo teisingumas paprastai vertinamas pagal empiriškai pastebėtų ir apskaičiuotų priklausomo kintamojo verčių panašumą. Tikslesnis šios problemos sprendimas yra dispersinės regresinės analizės metodas (12 tema, 4 pastraipa).

Laiko eilučių koreliacija. Dažnai tenka palyginti lygiagrečių laiko eilučių, susijusių tarpusavyje tam tikromis bendromis sąlygomis, dinamiką, pavyzdžiui, norint išsiaiškinti ryšį tarp žemės ūkio produkcijos ir gyvulių skaičiaus augimo per tam tikrą laikotarpį. Tokiais atvejais santykio tarp kintamųjų X ir Y charakteristika yra koreliacijos koeficientas R xy (esant tiesinei tendencijai).

Yra žinoma, kad laiko eilučių tendenciją paprastai užgožia priklausomo kintamojo Y eilučių svyravimai. Dėl to iškyla dvejopa problema: išmatuoti priklausomybę tarp lyginamų eilučių, neatmetant tendencijos, ir išmatuoti priklausomybė tarp kaimyninių tos pačios serijos narių, neįskaitant tendencijos. Pirmuoju atveju ryšio tarp lyginamų laiko eilučių glaudumo rodiklis yra koreliacijos koeficientas(jei ryšys linijinis), antroje – autokoreliacijos koeficientas. Šie rodikliai turi skirtingas reikšmes, nors apskaičiuojami naudojant tas pačias formules (žr. 11 temą).

Nesunku pastebėti, kad autokoreliacijos koeficiento reikšmę įtakoja priklausomo kintamojo eilučių narių kintamumas: kuo mažiau serijos nariai nukrypsta nuo tendencijos, tuo didesnis autokoreliacijos koeficientas ir atvirkščiai.

Esant tiesiniam ryšiui tarp dviejų tiriamų charakteristikų, be koreliacijų skaičiavimo, naudojamas ir regresijos koeficiento skaičiavimas.

Tiesinės koreliacijos atveju kiekvienas vienos charakteristikos pokytis atitinka labai ryškų kitos charakteristikos pokytį. Tačiau koreliacijos koeficientas šį ryšį parodo tik santykiniais kiekiais – vieneto trupmenomis. Regresinės analizės pagalba ši ryšio reikšmė gaunama įvardytais vienetais. Kiekis, kuriuo pirmoji charakteristika pasikeičia vidutiniškai, kai antroji pasikeičia matavimo vienetu, vadinama regresijos koeficientu.

Skirtingai nuo koreliacinės regresijos analizės, ji suteikia platesnę informaciją, nes apskaičiuojant du regresijos koeficientus Rx/y Ir Rу/х Galima nustatyti ir pirmojo ženklo priklausomybę nuo antrojo, ir antrojo nuo pirmojo. Regresinio ryšio išreiškimas naudojant lygtį leidžia nustatyti kitos charakteristikos reikšmę pagal tam tikrą vienos charakteristikos reikšmę.

Regresijos koeficientas R yra koreliacijos koeficiento ir kiekvienai charakteristikai apskaičiuoto kvadratinių nuokrypių santykio sandauga. Jis apskaičiuojamas pagal formulę

kur R - regresijos koeficientas; SH – standartinis pirmosios charakteristikos nuokrypis, kuris kinta pasikeitus antrajai; SУ - standartinis antrosios charakteristikos nuokrypis, dėl kurio pasikeičia pirmoji charakteristika; r yra šių charakteristikų koreliacijos koeficientas; x - funkcija; y yra argumentas.

Ši formulė nustato x reikšmę, kai y pasikeičia matavimo vienetu. Jei reikia atvirkštinio skaičiavimo, y reikšmę, kai x keičiasi pagal matavimo vienetą, galite rasti naudodami formulę:


Šiuo atveju aktyvus vaidmuo keičiant vieną charakteristiką kitos atžvilgiu pasikeičia, lyginant su ankstesne formule, argumentas tampa funkcija ir atvirkščiai. SX ir SY reikšmės paimamos į pavadintą išraišką.

Tarp r ir R reikšmių yra aiškus ryšys, kuris išreiškiamas tuo, kad x regresijos ant y sandauga su y regresija x yra lygi koreliacijos koeficiento kvadratui, t.y.

Rx/y * Ry/x = r2

Tai rodo, kad koreliacijos koeficientas parodo abiejų tam tikros imties regresijos koeficientų verčių geometrinį vidurkį. Šia formule galima patikrinti skaičiavimų tikslumą.

Apdorojant skaitmeninę medžiagą skaičiavimo mašinose, gali būti naudojamos išsamios regresijos koeficiento formulės:

R arba


Regresijos koeficientui galima apskaičiuoti jo reprezentatyvumo paklaidą. Regresijos koeficiento paklaida lygi koreliacijos koeficiento paklaidai, padaugintai iš kvadratinių santykių santykio:

Regresijos koeficiento patikimumo kriterijus apskaičiuojamas pagal įprastą formulę:

dėl to jis yra lygus koreliacijos koeficiento patikimumo kriterijui:

tR reikšmės patikimumas nustatomas naudojant Stjudento lentelę esant  = n - 2, kur n yra stebėjimų porų skaičius.

Kreivinė regresija.

REGRESIJA, KREIVINĖ. Bet kokia netiesinė regresija, kurioje vieno kintamojo (y) pokyčių regresijos lygtis priklauso nuo t pokyčių kitame (x), yra kvadratinė, kubinė arba aukštesnės eilės lygtis. Nors matematiškai visada įmanoma gauti regresijos lygtį, kuri atitiktų kiekvieną kreivės vingį, dauguma šių trikdžių atsiranda dėl atrankos ar matavimo klaidų, o tokiu „tobulu“ pritaikymu nieko nepasiekiama. Ne visada lengva nustatyti, ar kreivinė regresija atitinka duomenų rinkinį, nors yra statistinių testų, leidžiančių nustatyti, ar kiekviena didesnė lygties galia reikšmingai padidina to duomenų rinkinio atitikimo laipsnį.

Kreivės pritaikymas atliekamas tuo pačiu mažiausiųjų kvadratų būdu kaip ir tiesių linijų montavimas. Regresijos linija turi atitikti minimalios atstumų kvadratų sumos iki kiekvieno koreliacijos lauko taško sąlygą. Šiuo atveju (1) lygtyje y reiškia apskaičiuotą funkcijos reikšmę, nustatytą naudojant pasirinkto kreivinio ryšio lygtį, pagrįstą tikrosiomis x j reikšmėmis. Pavyzdžiui, jei jungčiai apytiksliai parenkama antros eilės parabolė, tai y = a + b x + cx2, (14) ir skirtumas tarp taško, esančio kreivėje, ir nurodyto koreliacijos lauko taško su atitinkamu argumentas gali būti parašytas panašiai kaip (3) lygtis yj = yj (a + bx + cx2) (15) Šiuo atveju atstumų kvadratu suma nuo kiekvieno koreliacijos lauko taško iki naujos regresijos tiesės tuo atveju antros eilės parabolė turės tokią formą: S 2 = yj 2 = 2 (16) Remiantis minimalia šios sumos sąlyga, S 2 dalinės išvestinės a, b ir c atžvilgiu yra lygios nuliui. Atlikę reikiamas transformacijas, gauname trijų lygčių su trimis nežinomaisiais sistemą a, b ir c nustatyti. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Išspręsdami a, b ir c lygčių sistemą, randame regresijos koeficientų skaitines reikšmes. Y, x, x2, yx, yx2, x3, x4 reikšmės randamos tiesiogiai iš gamybos matavimo duomenų. Kreivinės priklausomybės ryšio glaudumo įvertinimas yra teorinis koreliacijos koeficientas xy, kuris yra dviejų dispersijų santykio kvadratinė šaknis: funkcijos apskaičiuotų verčių y" j nuokrypių vidutinis kvadratas p2 pagal rastą regresijos lygtį nuo y reikšmės aritmetinės vidutinės reikšmės Y iki funkcijos y j tikrųjų verčių vidutinių kvadratinių nuokrypių y2 nuo jos aritmetinės vidutinės reikšmės: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Koreliacijos santykio xy2 kvadratas parodo priklausomo kintamojo y bendro kintamumo dalį dėl argumento x kintamumo. . Šis rodiklis vadinamas determinacijos koeficientu. Skirtingai nuo koreliacijos koeficiento, koreliacijos koeficiento reikšmė gali būti tik teigiama nuo 0 iki 1. Visiškai nesant ryšio koreliacijos koeficientas lygus nuliui, o esant funkciniam ryšiui. lygus vienetui, o esant įvairaus glaudumo regresijos ryšiui, koreliacijos santykis įgauna reikšmes nuo nulio iki vieno . Kreivės tipo pasirinkimas turi didelę reikšmę regresinėje analizėje, nes nuo pasirinkto ryšio tipo priklauso aproksimacijos ir statistinių įverčių tikslumas. Paprasčiausias būdas pasirinkti kreivės tipą yra sudaryti koreliacijos laukus ir pasirinkti atitinkamus regresijos lygčių tipus pagal taškų vietą šiuose laukuose. Regresinės analizės metodai leidžia rasti regresijos koeficientų skaitines reikšmes sudėtingiems parametrų ryšių tipams, aprašytiems, pavyzdžiui, aukšto laipsnio polinomais. Dažnai kreivės forma gali būti nustatyta pagal nagrinėjamo proceso ar reiškinio fizinę prigimtį. Sparčiai besikeičiantiems procesams apibūdinti prasminga naudoti aukšto laipsnio polinomus, jei šių procesų parametrų svyravimo ribos yra reikšmingos. Kalbant apie metalurginio proceso tyrimus, pakanka naudoti žemesnės eilės kreives, pavyzdžiui, antros eilės parabolę. Ši kreivė gali turėti vieną ekstremumą, kurio, kaip parodė praktika, visiškai pakanka įvairioms metalurginio proceso savybėms apibūdinti. Porinio koreliacinio ryšio parametrų skaičiavimo rezultatai būtų patikimi ir turėtų praktinės vertės, jei naudojama informacija būtų gauta plačių argumentų svyravimų ribų sąlygomis, kai visi kiti proceso parametrai būtų pastovūs. Vadinasi, parametrų porinės koreliacijos tyrimo metodai gali būti naudojami sprendžiant praktines problemas tik tada, kai yra pasitikėjimo, kad funkcijai nėra kitos rimtos įtakos, išskyrus analizuojamą argumentą. Gamybos sąlygomis ilgą laiką tokiu būdu atlikti proceso neįmanoma. Tačiau jei turime informacijos apie pagrindinius proceso parametrus, turinčius įtakos jo rezultatams, tai matematiškai galime atmesti šių parametrų įtaką ir „gryna forma“ išskirti funkcijos ir mus dominančio argumento ryšį. Toks ryšys vadinamas privačiu arba individualiu. Jai nustatyti naudojamas daugialypės regresijos metodas.

Koreliacinis ryšys.

Koreliacijos koeficientas ir koreliacijos indeksas yra skaitinės charakteristikos, glaudžiai susijusios su atsitiktinio dydžio samprata, tiksliau – su atsitiktinių dydžių sistema. Todėl norint supažindinti ir apibrėžti jų reikšmę ir vaidmenį, būtina paaiškinti atsitiktinių dydžių sistemos sampratą ir kai kurias jiems būdingas savybes.

Du ar daugiau atsitiktinių dydžių, apibūdinančių tam tikrą reiškinį, vadinami atsitiktinių dydžių sistema arba kompleksu.

Kelių atsitiktinių dydžių sistema X, Y, Z, …, W paprastai žymima (X, Y, Z, …, W).

Pavyzdžiui, taškas plokštumoje apibūdinamas ne viena koordinate, o dviem, o erdvėje – net trimis.

Kelių atsitiktinių dydžių sistemos savybės neapsiriboja atskirų į sistemą įtrauktų atsitiktinių dydžių savybėmis, bet apima ir tarpusavio ryšius (priklausomybes) tarp atsitiktinių dydžių. Todėl tiriant atsitiktinių dydžių sistemą reikėtų atkreipti dėmesį į priklausomybės pobūdį ir laipsnį. Ši priklausomybė gali būti daugiau ar mažiau ryški, daugiau ar mažiau artima. O kitais atvejais atsitiktiniai dydžiai pasirodo esą praktiškai nepriklausomi.

Sakoma, kad atsitiktinis dydis Y nepriklauso nuo atsitiktinio dydžio X, jei atsitiktinio dydžio Y pasiskirstymo dėsnis nepriklauso nuo X reikšmės.

Pažymėtina, kad atsitiktinių dydžių priklausomybė ir nepriklausomybė visada yra abipusis reiškinys: jei Y nepriklauso nuo X, tai reikšmė X nepriklauso nuo Y. Atsižvelgdami į tai, galime pateikti tokį nepriklausomumo apibrėžimą. atsitiktinių dydžių.

Atsitiktiniai dydžiai X ir Y vadinami nepriklausomais, jei kiekvieno iš jų pasiskirstymo dėsnis nepriklauso nuo to, kokią reikšmę įgyja kitas. Kitu atveju dydžiai X ir Y vadinami priklausomais.

Atsitiktinio dydžio pasiskirstymo dėsnis yra bet koks ryšys, nustatantis ryšį tarp galimų atsitiktinio dydžio dydžių ir atitinkamų tikimybių.

Tikimybių teorijoje vartojama atsitiktinių dydžių „priklausomybės“ sąvoka kiek skiriasi nuo įprastos matematikoje vartojamos kintamųjų „priklausomybės“ sąvokos. Taigi matematikas „priklausomybe“ reiškia tik vieną priklausomybės rūšį – visišką, standžią, vadinamąją funkcinę priklausomybę. Du dydžiai X ir Y vadinami funkciškai priklausomais, jei, žinodami vieno iš jų reikšmę, galite tiksliai nustatyti kito reikšmę.

Tikimybių teorijoje egzistuoja kiek kitoks priklausomybės tipas – tikimybinė priklausomybė. Jei reikšmė Y su reikšme X susieta tikimybine priklausomybe, tai žinant X reikšmę, neįmanoma tiksliai nurodyti Y reikšmės, tačiau galima nurodyti jos pasiskirstymo dėsnį, priklausomai nuo to, kokią reikšmę turi X reikšmė. paimtas.

Tikimybinis ryšys gali būti daugiau ar mažiau artimas; Didėjant tikimybinės priklausomybės artumui, ji tampa vis artimesnė funkcinei. Taigi funkcinė priklausomybė gali būti laikoma kraštutiniu, ribojančiu artimiausios tikimybinės priklausomybės atveju. Kitas kraštutinis atvejis yra visiška atsitiktinių dydžių nepriklausomybė. Tarp šių dviejų kraštutinių atvejų yra visos tikimybinės priklausomybės gradacijos – nuo ​​stipriausios iki silpniausios.

Praktikoje dažnai susiduriama su tikimybine priklausomybe tarp atsitiktinių dydžių. Jei atsitiktiniai dydžiai X ir Y yra tikimybiniame ryšyje, tai nereiškia, kad pasikeitus X reikšmei, Y reikšmė kinta visiškai apibrėžtu būdu; tai tik reiškia, kad keičiantis X reikšmei, Y reikšmė taip pat turi tendenciją keistis (padidėti arba mažėti, kai X didėja). Ši tendencija pastebima tik bendrais bruožais ir kiekvienu atskiru atveju galimi nukrypimai nuo jos.



Ar jums patiko straipsnis? Pasidalinkite su draugais!