Kokiam metodų tipui priklauso regresinė analizė? Daugialypės regresijos koreliacija

Regresinė ir koreliacinė analizė yra statistinio tyrimo metodai. Tai yra dažniausiai pasitaikantys būdai parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų.

Toliau, naudodamiesi konkrečiais praktiniais pavyzdžiais, apsvarstysime šias dvi labai populiarias ekonomistų analizes. Taip pat pateiksime rezultatų gavimo pavyzdį juos derinant.

Regresinė analizė programoje Excel

Rodo kai kurių reikšmių (nepriklausomų, nepriklausomų) įtaką priklausomam kintamajam. Pavyzdžiui, kaip ekonomiškai aktyvių gyventojų skaičius priklauso nuo įmonių skaičiaus, darbo užmokesčio ir kitų parametrų. Arba: kaip BVP lygį veikia užsienio investicijos, energijos kainos ir pan.

Analizės rezultatas leidžia išryškinti prioritetus. Ir pagal pagrindinius veiksnius numatyti, planuoti prioritetinių sričių plėtrą, priimti valdymo sprendimus.

Regresija vyksta:

tiesinis (y = a + bx);
parabolinis (y = a + bx + cx 2);
eksponentinis (y = a * exp(bx));
galia (y = a*x^b);
hiperbolinis (y = b/x + a);
logaritminis (y = b * 1n(x) + a);
eksponentinis (y = a * b^x).

Pažiūrėkime į regresijos modelio kūrimo Excel programoje ir rezultatų interpretavimo pavyzdį. Paimkime tiesinį regresijos tipą.

Užduotis. 6 įmonėse buvo analizuojamas vidutinis mėnesinis atlyginimas ir išeinančių iš darbuotojų skaičius. Būtina nustatyti išeinančių iš darbuotojų skaičiaus priklausomybę nuo vidutinio darbo užmokesčio.

Linijinės regresijos modelis atrodo taip:

Y = a 0 + a 1 x 1 +…+a k x k.

Kur a yra regresijos koeficientai, x yra įtakojantys kintamieji, k yra veiksnių skaičius.

Mūsų pavyzdyje Y yra išeinančių iš darbuotojų rodiklis. Įtakos veiksnys yra darbo užmokestis (x).

„Excel“ turi integruotas funkcijas, kurios gali padėti apskaičiuoti tiesinės regresijos modelio parametrus. Tačiau „Analytics Package“ priedas tai padarys greičiau.

Suaktyviname galingą analitinį įrankį:

Suaktyvinus priedą bus galima rasti skirtuke Duomenys.

Dabar atlikime pačią regresinę analizę.

Pirmiausia atkreipiame dėmesį į R kvadratą ir koeficientus.

R kvadratas yra determinacijos koeficientas. Mūsų pavyzdyje – 0,755, arba 75,5%. Tai reiškia, kad skaičiuojami modelio parametrai paaiškina 75,5 % ryšio tarp tiriamų parametrų. Kuo didesnis determinacijos koeficientas, tuo geresnis modelis. Gerai – virš 0,8. Blogai – mažiau nei 0,5 (tokia analizė vargu ar gali būti laikoma pagrįsta). Mūsų pavyzdyje – „neblogai“.

Koeficientas 64,1428 parodo, koks bus Y, jei visi nagrinėjamo modelio kintamieji yra lygūs 0. Tai yra, analizuojamo parametro reikšmei įtakos turi ir kiti modelyje neaprašyti veiksniai.

Koeficientas -0,16285 rodo kintamojo X svorį Y. Tai reiškia, kad vidutinis mėnesinis atlyginimas pagal šį modelį įtakoja išstojusiųjų skaičių, kurio svoris yra -0,16285 (tai yra nedidelis įtakos laipsnis). „-“ ženklas rodo neigiamą poveikį: kuo didesnis atlyginimas, tuo mažiau žmonių išeina iš darbo. Kas yra sąžininga.

Koreliacijos analizė programoje Excel

Koreliacinė analizė padeda nustatyti, ar yra ryšys tarp rodiklių vienoje ar dviejose imtyse. Pavyzdžiui, tarp mašinos veikimo laiko ir remonto išlaidų, įrangos kainos ir eksploatacijos trukmės, vaikų ūgio ir svorio ir kt.

Jei ryšys yra, ar vieno parametro padidėjimas lemia kito padidėjimą (teigiama koreliacija) ar sumažėjimą (neigiama). Koreliacinė analizė padeda analitikui nustatyti, ar vieno rodiklio reikšmė gali būti naudojama prognozuojant galimą kito rodiklio vertę.

Koreliacijos koeficientas žymimas r. Varijuoja nuo +1 iki -1. Skirtingų sričių koreliacijų klasifikacija bus skirtinga. Kai koeficientas yra 0, tarp imčių nėra tiesinio ryšio.

Pažiūrėkime, kaip rasti koreliacijos koeficientą naudojant „Excel“.

Norint rasti suporuotus koeficientus, naudojama funkcija CORREL.

Tikslas: nustatyti, ar yra ryšys tarp tekinimo staklių veikimo laiko ir jos priežiūros išlaidų.

Perkelkite žymeklį į bet kurį langelį ir paspauskite fx mygtuką.

Kategorijoje „Statistika“ pasirinkite funkciją CORREL.
Argumentas „1 masyvas“ - pirmasis reikšmių diapazonas - mašinos veikimo laikas: A2:A14.
Argumentas „Array 2“ - antrasis verčių diapazonas - remonto kaina: B2:B14. Spustelėkite Gerai.

Norint nustatyti ryšio tipą, reikia pažvelgti į absoliutų koeficiento skaičių (kiekviena veiklos sritis turi savo skalę).

Kelių parametrų (daugiau nei 2) koreliacinei analizei patogiau naudoti „Duomenų analizę“ (priedas „Analysis Package“). Iš sąrašo turite pasirinkti koreliaciją ir nurodyti masyvą. Visi.

Gauti koeficientai bus rodomi koreliacijos matricoje. Kaip šitas:

Koreliacinė ir regresinė analizė

Praktikoje šie du būdai dažnai naudojami kartu.

Pavyzdys:

Dabar regresinės analizės duomenys tapo matomi.

Studijų metu studentai labai dažnai susiduria su įvairiomis lygtimis. Viena iš jų – regresijos lygtis – aptariama šiame straipsnyje. Šio tipo lygtys yra naudojamos konkrečiai matematinių parametrų ryšio charakteristikoms apibūdinti. Šis lygybės tipas naudojamas statistikoje ir ekonometrijoje.

Regresijos apibrėžimas

Matematikoje regresija reiškia tam tikrą dydį, kuris apibūdina duomenų rinkinio vidutinės vertės priklausomybę nuo kito dydžio verčių. Regresijos lygtis, kaip tam tikros charakteristikos funkcija, parodo kitos charakteristikos vidutinę reikšmę. Regresijos funkcija yra paprastos lygties y = x forma, kurioje y veikia kaip priklausomas kintamasis, o x kaip nepriklausomas kintamasis (ypatybės faktorius). Tiesą sakant, regresija išreiškiama y = f (x).

Kokie yra ryšių tarp kintamųjų tipai?

Apskritai yra du priešingi santykių tipai: koreliacija ir regresija.

Pirmajam būdinga sąlyginių kintamųjų lygybė. Šiuo atveju tiksliai nežinoma, kuris kintamasis priklauso nuo kito.

Jei tarp kintamųjų nėra lygybės, o sąlygos sako, kuris kintamasis yra aiškinamasis, o kuris priklausomas, tada galime kalbėti apie antrojo tipo ryšio buvimą. Norint sudaryti tiesinės regresijos lygtį, reikės išsiaiškinti, kokio tipo ryšys yra stebimas.

Regresijų rūšys

Šiandien yra 7 skirtingi regresijos tipai: hiperbolinė, tiesinė, daugkartinė, netiesinė, porinė, atvirkštinė, logaritminė tiesinė.

Hiperbolinis, tiesinis ir logaritminis

Tiesinės regresijos lygtis naudojama statistikoje, siekiant aiškiai paaiškinti lygties parametrus. Atrodo, kad y = c+t*x+E. Hiperbolinė lygtis turi taisyklingosios hiperbolės formą y = c + m / x + E. Logaritmiškai tiesinė lygtis išreiškia ryšį naudojant logaritminę funkciją: In y = In c + m * In x + In E.

Daugialypis ir netiesinis

Du sudėtingesni regresijos tipai yra daugybiniai ir netiesiniai. Daugialypės regresijos lygtis išreiškiama funkcija y = f(x 1, x 2 ... x c) + E. Šioje situacijoje y veikia kaip priklausomas kintamasis, o x veikia kaip aiškinamasis kintamasis. E kintamasis yra stochastinis, jis apima kitų lygties veiksnių įtaką. Netiesinės regresijos lygtis yra šiek tiek prieštaringa. Viena vertus, palyginti su rodikliais, į kuriuos atsižvelgiama, jis nėra linijinis, tačiau, kita vertus, vertinant rodiklius yra tiesinis.

Atvirkštinės ir porinės regresijos rūšys

Atvirkštinė yra funkcijos tipas, kurį reikia konvertuoti į tiesinę formą. Tradiciškiausiose taikomosiose programose ji turi funkcijos y = 1/c + m*x+E formą. Porinė regresijos lygtis rodo ryšį tarp duomenų kaip y = f (x) + E funkciją. Kaip ir kitose lygtyse, y priklauso nuo x, o E yra stochastinis parametras.

Koreliacijos samprata

Tai rodiklis, rodantis ryšį tarp dviejų reiškinių ar procesų. Ryšio stiprumas išreiškiamas koreliacijos koeficientu. Jo reikšmė svyruoja intervale [-1;+1]. Neigiamas indikatorius rodo grįžtamojo ryšio buvimą, teigiamas - tiesioginį grįžtamąjį ryšį. Jei koeficientas įgyja reikšmę, lygią 0, tada ryšio nėra. Kuo vertė artimesnė 1, tuo stipresnis ryšys tarp parametrų, kuo arčiau 0, tuo jis silpnesnis.

Metodai

Koreliacijos parametriniais metodais galima įvertinti ryšio stiprumą. Jie naudojami pasiskirstymo įvertinimo pagrindu tiriant parametrus, kurie paklūsta normaliojo pasiskirstymo dėsniui.

Tiesinės regresijos lygties parametrai būtini norint nustatyti priklausomybės tipą, regresijos lygties funkciją ir įvertinti pasirinktos ryšio formulės rodiklius. Koreliacijos laukas naudojamas kaip ryšio identifikavimo metodas. Norėdami tai padaryti, visi esami duomenys turi būti pavaizduoti grafiškai. Visi žinomi duomenys turi būti nubraižyti stačiakampėje dvimatėje koordinačių sistemoje. Taip sukuriamas koreliacijos laukas. Aprašomojo koeficiento reikšmės pažymėtos išilgai abscisių ašies, o priklausomo koeficiento reikšmės – išilgai ordinačių ašies. Jei tarp parametrų yra funkcinis ryšys, jie išrikiuojami linijos pavidalu.

Jei tokių duomenų koreliacijos koeficientas yra mažesnis nei 30%, galime kalbėti apie beveik visišką ryšio nebuvimą. Jei jis yra nuo 30% iki 70%, tai rodo, kad yra vidutiniškai artimų jungčių. 100% indikatorius rodo funkcinį ryšį.

Netiesinė regresijos lygtis, kaip ir tiesinė, turi būti papildyta koreliacijos indeksu (R).

Daugialypės regresijos koreliacija

Determinacijos koeficientas yra daugialypės koreliacijos kvadrato rodiklis. Jis kalba apie pateikto rodiklių rinkinio glaudų ryšį su tiriama charakteristika. Taip pat galima kalbėti apie parametrų įtakos rezultatui pobūdį. Daugkartinės regresijos lygtis apskaičiuojama naudojant šį rodiklį.

Norint apskaičiuoti daugialypės koreliacijos rodiklį, būtina apskaičiuoti jo indeksą.

Mažiausio kvadrato metodas

Šis metodas yra regresijos faktorių įvertinimo būdas. Jo esmė – sumažinti kvadratinių nuokrypių sumą, gautą dėl faktoriaus priklausomybės nuo funkcijos.

Naudojant tokį metodą, galima įvertinti porinę tiesinės regresijos lygtį. Šio tipo lygtis naudojama, kai tarp rodiklių aptinkamas suporuotas tiesinis ryšys.

Lygčių parametrai

Kiekvienas tiesinės regresijos funkcijos parametras turi tam tikrą reikšmę. Suporuotoje tiesinės regresijos lygtyje yra du parametrai: c ir m Parametras m parodo vidutinį funkcijos y galutinio rodiklio pokytį, jei kintamasis x sumažėja (padidėja) vienu sutartiniu vienetu. Jei kintamasis x lygus nuliui, tai funkcija lygi parametrui c. Jei kintamasis x nėra lygus nuliui, tai veiksnys c neturi ekonominės reikšmės. Vienintelė įtaka funkcijai yra ženklas prieš veiksnį c. Jei yra minusas, galime sakyti, kad rezultato pokytis yra lėtas, palyginti su faktoriumi. Jei yra pliusas, tai rodo pagreitintą rezultato pasikeitimą.

Kiekvienas parametras, kuris keičia regresijos lygties reikšmę, gali būti išreikštas lygtimi. Pavyzdžiui, veiksnys c turi formą c = y - mx.

Sugrupuoti duomenys

Yra užduočių sąlygos, kuriose visa informacija sugrupuojama pagal požymį x, tačiau tam tikrai grupei nurodomos atitinkamos vidutinės priklausomo rodiklio reikšmės. Šiuo atveju vidutinės reikšmės apibūdina, kaip keičiasi rodiklis priklausomai nuo x. Taigi sugrupuota informacija padeda rasti regresijos lygtį. Jis naudojamas kaip santykių analizė. Tačiau šis metodas turi savo trūkumų. Deja, vidutiniai rodikliai dažnai priklauso nuo išorinių svyravimų. Šie svyravimai neatspindi santykių modelio, jie tiesiog užmaskuoja jų „triukšmą“. Vidurkiai rodo santykių modelius daug blogesnius nei tiesinės regresijos lygtis. Tačiau jie gali būti naudojami kaip pagrindas ieškant lygties. Atskiros populiacijos skaičių padauginus iš atitinkamo vidurkio, galima gauti y sumą grupės viduje. Toliau reikia susumuoti visas gautas sumas ir rasti galutinį rodiklį y. Šiek tiek sunkiau atlikti skaičiavimus su sumos rodikliu xy. Jei intervalai yra maži, sąlyginai galime laikyti, kad x indikatorius visiems vienetams (grupėje) yra vienodas. Turėtumėte jį padauginti iš y sumos, kad sužinotumėte x ir y sandaugų sumą. Tada visos sumos sudedamos ir gaunama bendra suma xy.

Kelių porų regresijos lygtis: santykių svarbos įvertinimas

Kaip aptarta anksčiau, daugkartinė regresija turi y = f (x 1,x 2,…,x m)+E formos funkciją. Dažniausiai tokia lygtis naudojama sprendžiant prekės pasiūlos ir paklausos, palūkanų pajamų už perkamas akcijas problemą, tiriant gamybos kaštų funkcijos priežastis ir tipą. Ji taip pat aktyviai naudojama atliekant įvairius makroekonominius tyrimus ir skaičiavimus, tačiau mikroekonomikos lygmeniu ši lygtis naudojama kiek rečiau.

Pagrindinė daugialypės regresijos užduotis yra sukurti duomenų modelį, kuriame būtų didžiulis informacijos kiekis, siekiant toliau nustatyti, kokią įtaką kiekvienas veiksnys atskirai ir jų visuma turi modeliuojamam rodikliui ir jo koeficientams. Regresijos lygtis gali turėti daug įvairių reikšmių. Šiuo atveju ryšiui įvertinti dažniausiai naudojamos dviejų tipų funkcijos: tiesinės ir netiesinės.

Tiesinė funkcija pavaizduota taip: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Šiuo atveju a2, a m laikomi „grynaisiais“ regresijos koeficientais. Jie yra būtini norint apibūdinti vidutinį parametro y pokytį su kiekvieno atitinkamo parametro x pokyčiu (sumažėjimu arba padidėjimu) vienu vienetu, atsižvelgiant į stabilias kitų rodiklių vertes.

Netiesinės lygtys turi, pavyzdžiui, laipsnio funkcijos formą y=ax 1 b1 x 2 b2 ...x m bm. Šiuo atveju rodikliai b 1, b 2 ..... b m vadinami elastingumo koeficientais, jie parodo, kaip pasikeis rezultatas (kiek proc.), padidėjus (sumažėjus) atitinkamam rodikliui x 1 proc. su stabiliu kitų veiksnių rodikliu.

Į kokius veiksnius reikia atsižvelgti konstruojant daugybinę regresiją

Norint teisingai sudaryti daugybinę regresiją, būtina išsiaiškinti, į kuriuos veiksnius reikėtų atkreipti ypatingą dėmesį.

Būtina šiek tiek suprasti santykių tarp ekonominių veiksnių ir to, kas yra modeliuojama, prigimtį. Veiksniai, kuriuos reikės įtraukti, turi atitikti šiuos kriterijus:

Turi būti atliktas kiekybinis matavimas. Norint panaudoti veiksnį, apibūdinantį objekto kokybę, bet kuriuo atveju jam turėtų būti suteikta kiekybinė forma.
Neturėtų būti jokių veiksnių tarpusavio koreliacijos ar funkcinio ryšio. Tokie veiksmai dažniausiai sukelia negrįžtamus padarinius - įprastų lygčių sistema tampa besąlygiška, o tai reiškia jos nepatikimumą ir neaiškius įvertinimus.
Esant didžiuliam koreliacijos rodikliui, nėra galimybės išsiaiškinti izoliuotos veiksnių įtakos galutiniam rodiklio rezultatui, todėl koeficientai tampa neinterpretuojami.

Statybos metodai

Yra daugybė metodų ir metodų, paaiškinančių, kaip galite pasirinkti lygties veiksnius. Tačiau visi šie metodai yra pagrįsti koeficientų parinkimu naudojant koreliacijos rodiklį. Tarp jų yra:

Pašalinimo būdas.
Perjungimo būdas.
Pakopinė regresinė analizė.

Pirmasis metodas apima visų koeficientų filtravimą iš bendros rinkinio. Antrasis metodas apima daugelio papildomų veiksnių įvedimą. Na, trečiasis yra veiksnių, kurie anksčiau buvo naudojami lygčiai, pašalinimas. Kiekvienas iš šių metodų turi teisę egzistuoti. Jie turi savo privalumų ir trūkumų, tačiau visi jie gali savaip išspręsti nereikalingų rodiklių pašalinimo klausimą. Paprastai kiekvienu atskiru metodu gauti rezultatai yra gana artimi.

Daugiamatės analizės metodai

Tokie veiksnių nustatymo metodai yra pagrįsti atskirų tarpusavyje susijusių savybių derinių įvertinimu. Tai apima diskriminacinę analizę, formos atpažinimą, pagrindinių komponentų analizę ir klasterių analizę. Be to, yra ir faktorinė analizė, tačiau ji atsirado dėl komponentinio metodo kūrimo. Visi jie taikomi tam tikromis aplinkybėmis, atsižvelgiant į tam tikras sąlygas ir veiksnius.

Po to, kai koreliacinė analizė atskleidė statistinius ryšius tarp kintamųjų ir įvertino jų artumo laipsnį, dažniausiai pereiname prie matematinio konkrečios priklausomybės rūšies aprašymo, naudojant regresinę analizę. Tam parenkama funkcijų klasė, jungianti gautą rodiklį y ir argumentus x 1, x 2, ..., x k, parenkami informatyviausi argumentai, nežinomų parametrų reikšmių įverčiai. apskaičiuojama ryšio lygtis ir analizuojamos gautos lygties savybės.

Funkcija f(x 1, x 2,..., x k), apibūdinanti gaunamos charakteristikos y vidutinės reikšmės priklausomybę nuo pateiktų argumentų reikšmių, vadinama regresijos funkcija (lygtimi). Terminą „regresija“ (lot. -regression – atsitraukti, sugrįžti prie kažko) įvedė anglų psichologas ir antropologas F. Galtonas ir jis siejamas išskirtinai su vieno iš pirmųjų konkrečių pavyzdžių, kuriame ši sąvoka buvo pavartota, specifika. Taigi, apdorodamas statistinius duomenis, susijusius su ūgio paveldimumo analize, F. Galtonas nustatė, kad jei tėvai nuo vidutinio visų tėvų ūgio nukrypsta x coliais, tai jų sūnūs nuo vidutinio visų sūnų ūgio nukrypsta mažiau nei x. colių. Nustatyta tendencija buvo vadinama „regresija iki vidurkio“. Nuo tada statistinėje literatūroje plačiai vartojamas terminas „regresija“, nors daugeliu atvejų jis nevisiškai tiksliai apibūdina statistinės priklausomybės sąvoką.

Norint tiksliai apibūdinti regresijos lygtį, būtina žinoti efektyviojo rodiklio y pasiskirstymo dėsnį. Statistinėje praktikoje dažniausiai tenka apsiriboti tinkamų nežinomos tikrosios regresijos funkcijos aproksimacijų paieška, nes tyrėjas neturi tikslių žinių apie analizuojamo rezultatinio rodiklio y sąlyginio tikimybių pasiskirstymo dėsnį tam tikroms argumentas x.

Panagrinėkime ryšį tarp tikrosios f(x) = M(y1x), modelio regresijos? ir regresijos įvertis y. Tegul efektyvusis rodiklis y yra susietas su argumentu x ryšiu:

kur yra atsitiktinis dydis, turintis normalaus skirstinio dėsnį, o Me = 0 ir D e = y 2. Tikroji regresijos funkcija šiuo atveju yra tokia: f (x) = M(y/x) = 2x 1,5.

Tarkime, kad nežinome tikslios tikrosios regresijos lygties formos, tačiau turime devynis dvimačio atsitiktinio dydžio, susieto ryšiu yi = 2x1,5 + e, stebėjimus ir pateiktus Fig. 1

1 pav. Santykinė tiesos padėtis f (x) ir teorinė? regresijos modeliai

Taškų vieta pav. 1 leidžia apsiriboti formos tiesinių priklausomybių klase? = 0 + 1 x. Naudodami mažiausių kvadratų metodą randame regresijos lygties y = b 0 + b 1 x įvertį. Palyginimui, pav. 1 pavaizduoti tikrosios regresijos funkcijos y = 2x 1,5 grafikai, teorinės aproksimacinės regresijos funkcijos? = 0 + 1 x .

Kadangi suklydome pasirinkdami regresinės funkcijos klasę ir tai gana įprasta statistinių tyrimų praktikoje, mūsų statistinės išvados ir įverčiai pasirodys klaidingi. Ir nesvarbu, kiek padidintume stebėjimų apimtį, mūsų imties įvertis y nebus artimas tikrajai regresijos funkcijai f(x). Jei teisingai pasirinkome regresijos funkcijų klasę, tai netikslumas aprašant f(x) naudojant? galima paaiškinti tik imties apribojimais.

Siekiant geriausiai atkurti iš pirminių statistinių duomenų sąlyginę efektyvaus rodiklio y(x) reikšmę ir nežinomą regresijos funkciją f(x) = M(y/x), labiausiai tinka šie adekvatumo kriterijai (nuostolių funkcijos). dažnai naudojamas.

Mažiausio kvadrato metodas. Pagal jį stebimų efektyvaus rodiklio y verčių nuokrypio kvadratas (i = 1,2,..., n) nuo modelio reikšmių,? = f(x i), kur x i yra argumento vektoriaus reikšmė i-ajame stebėjime: ?(y i - f(x i) 2 > min. Gauta regresija vadinama vidutiniu kvadratu.

Mažiausių modulių metodas. Pagal jį stebimų efektyvaus rodiklio verčių absoliučių nuokrypių nuo modulinių verčių suma yra sumažinta iki minimumo. Ir mes gauname,? = f(x i), vidutinė absoliuti vidutinė regresija? |y i - f(x i)| >min.

Regresinė analizė – atsitiktinio dydžio y priklausomybės nuo kintamųjų x j = (j=1,2,..., k) statistinės analizės metodas, regresinėje analizėje laikomas neatsitiktiniais kintamaisiais, nepriklausomai nuo tikrojo pasiskirstymo dėsnio. iš x j.

Paprastai daroma prielaida, kad atsitiktinis dydis y turi normalaus skirstinio dėsnį su sąlygine matematine tikėtimi y, kuri yra argumentų x/ (/ = 1, 2,..., k) funkcija ir pastovi dispersija y 2 nepriklausoma. argumentų.

Apskritai linijinės regresijos analizės modelis turi tokią formą:

Y = Y k j=0 V j ts j(x 1 , x 2 . . .. ,x k)+E

kur q j yra tam tikra jo kintamųjų funkcija - x 1, x 2. . .. ,x k, E yra atsitiktinis dydis su nuliu matematiniu lūkesčiu ir dispersija y 2.

Regresinėje analizėje regresijos lygties tipas parenkamas atsižvelgiant į tiriamo reiškinio fizikinę prigimtį ir stebėjimo rezultatus.

Regresijos lygties nežinomų parametrų įverčiai dažniausiai randami taikant mažiausių kvadratų metodą. Žemiau mes kalbėsime apie šią problemą išsamiau.

Dvimatės tiesinės regresijos lygtis. Tarkime, remdamiesi tiriamo reiškinio analize, kad „vidutiniškai“ y yra tiesinė x funkcija, t. y. yra regresijos lygtis.

y = M(y/x) = 0 + 1 x)

čia M(y1x) yra sąlyginė matematinė atsitiktinio dydžio y tikėtis duotam x; ties 0 ir ties 1 – nežinomi bendrosios visumos parametrai, kurie turi būti įvertinti remiantis imčių stebėjimų rezultatais.

Tarkime, kad norint įvertinti parametrus esant 0 ir 1, n dydžio imtis paimama iš dvimatės populiacijos (x, y), kur (x, y,) yra i-ojo stebėjimo rezultatas (i = 1). , 2,..., n) . Šiuo atveju regresinės analizės modelis turi tokią formą:

y j = 0 + 1 x+e j .

kur e j yra nepriklausomi normaliai pasiskirstę atsitiktiniai dydžiai, kurių matematiniai lūkesčiai nuliniai ir dispersija y 2, ty M e j. = 0;

D e j .= y 2 visiems i = 1, 2,..., n.

Pagal mažiausių kvadratų metodą, kaip nežinomų parametrų įverčius 0 ir 1, reikėtų paimti tokias imties charakteristikų vertes b 0 ir b 1, kurios sumažintų gautų verčių kvadratinių nuokrypių sumą. charakteristika i iš sąlyginio matematinio lūkesčio? i

Rinkodaros ypatybių įtakos įmonės pelnui nustatymo metodiką nagrinėsime septyniolikos tipinių įmonių, kurių vidutiniai dydžiai ir ekonominės veiklos rodikliai, pavyzdžiu.

Sprendžiant problemą buvo atsižvelgta į šias charakteristikas, kurios anketinės apklausos metu buvo įvardytos kaip reikšmingiausios (svarbiausios):

* inovacinė įmonės veikla;

* gaminamos produkcijos asortimento planavimas;

* kainų politikos formavimas;

* ryšiai su visuomene;

* pardavimo sistema;

* darbuotojų skatinimo sistema.

Remiantis faktorių palyginimo sistema, buvo sudarytos gretumo kvadratinės matricos, kuriose skaičiuojamos santykinių prioritetų reikšmės kiekvienam veiksniui: įmonės inovacinei veiklai, gaminių asortimento planavimui, kainų politikos formavimui, reklamai. , viešieji ryšiai, pardavimų sistema, darbuotojų skatinimo sistema.

Veiksnio „ryšys su visuomene“ prioritetų įverčiai buvo gauti atlikus įmonių specialistų apklausą. Priimamos šios žymos: > (geresnis), > (geresnis arba tas pats), = (tas pats),< (хуже или одинаково), <

Toliau buvo išspręsta visapusiško įmonės rinkodaros lygio vertinimo problema. Skaičiuojant rodiklį buvo nustatytas nagrinėjamų dalinių charakteristikų reikšmingumas (svoris) ir išspręsta dalinių rodiklių tiesinės konvoliucijos problema. Duomenų apdorojimas buvo atliktas naudojant specialiai sukurtas programas.

Toliau apskaičiuojamas kompleksinis įmonės marketingo lygio įvertinimas – marketingo koeficientas, kuris įrašomas į 1 lentelę. Be to, lentelėje pateikiami visą įmonę apibūdinantys rodikliai. Lentelėje esantys duomenys bus naudojami regresinei analizei atlikti. Gautas požymis yra pelnas. Kartu su marketingo koeficientu kaip faktorių rodikliai buvo naudojami šie rodikliai: bendrosios produkcijos apimtis, ilgalaikio turto savikaina, darbuotojų skaičius, specializacijos koeficientas.

1 lentelė. Pradiniai duomenys regresinei analizei

Pagal lentelės duomenis ir remiantis faktoriais, turinčiais reikšmingiausias koreliacijos koeficientų reikšmes, buvo sudarytos pelno priklausomybės nuo veiksnių regresinės funkcijos.

Regresijos lygtis mūsų atveju bus tokia:

Kiekybinę aukščiau aptartų veiksnių įtaką pelno dydžiui rodo regresijos lygties koeficientai. Jie parodo, kiek tūkstančių rublių pasikeičia jo vertė, kai faktoriaus charakteristika pasikeičia vienu vienetu. Kaip matyti iš lygties, rinkodaros komplekso koeficiento padidėjimas vienu vienetu padidina pelną 1547,7 tūkst. Tai rodo, kad rinkodaros veiklos tobulinimas turi didžiulį potencialą gerinti įmonių ekonominius rezultatus.

Tiriant rinkodaros efektyvumą įdomiausias ir svarbiausias veiksnys yra faktorius X5 – marketingo koeficientas. Remiantis statistikos teorija, esamos dauginės regresijos lygties pranašumas yra galimybė įvertinti atskirą kiekvieno veiksnio, įskaitant ir rinkodaros veiksnį, įtaką.

Regresinės analizės rezultatai pritaikomi plačiau nei skaičiuojant lygties parametrus. Kriterijus, pagal kurį įmonės priskiriamos santykinai geresnėms arba santykinai blogesnėms, grindžiamas santykiniu rezultato rodikliu:

kur Y facti yra tikroji i-osios įmonės vertė, tūkstančiai rublių;

Y apskaičiuotas - i-osios įmonės pelno suma, gauta skaičiuojant naudojant regresijos lygtį

Kalbant apie sprendžiamą problemą, reikšmė vadinama „efektyvumo koeficientu“. Įmonės veikla gali būti laikoma efektyvia tais atvejais, kai koeficiento reikšmė yra didesnė už vienetą. Tai reiškia, kad tikrasis pelnas yra didesnis nei vidutinis imties pelnas.

Faktinės ir numatomos pelno vertės pateiktos lentelėje. 2.

2 lentelė. Gautos charakteristikos analizė regresijos modelyje

Lentelės analizė rodo, kad mūsų atveju 3, 5, 7, 9, 12, 14, 15, 17 įmonių veiklą nagrinėjamu laikotarpiu galima laikyti sėkminga.

Regresinė analizė yra vienas populiariausių statistinio tyrimo metodų. Jis gali būti naudojamas nepriklausomų kintamųjų įtakos priklausomam kintamajam laipsniui nustatyti. „Microsoft Excel“ turi įrankius, skirtus tokio tipo analizei atlikti. Pažiūrėkime, kas jie yra ir kaip juos naudoti.

Tačiau norėdami naudoti funkciją, leidžiančią atlikti regresinę analizę, pirmiausia turite suaktyvinti analizės paketą. Tik tada šiai procedūrai reikalingi įrankiai atsiras „Excel“ juostelėje.

Dabar, kai einame į skirtuką "Duomenys", ant juostelės įrankių dėžėje "Analizė" pamatysime naują mygtuką - "Duomenų analizė".

Regresinės analizės tipai

Yra keletas regresijos tipų:

parabolinis;
raminantis;
logaritminis;
eksponentinis;
parodomasis;
hiperbolinis;
tiesinė regresija.

Išsamiau apie paskutinio tipo regresinės analizės atlikimą Excel programoje kalbėsime vėliau.

Linijinė regresija programoje Excel

Žemiau, kaip pavyzdys, pateikiama lentelė, kurioje parodyta vidutinė paros oro temperatūra lauke ir parduotuvės klientų skaičius atitinkamą darbo dieną. Naudodami regresinę analizę išsiaiškinkime, kaip oro sąlygos oro temperatūros pavidalu gali paveikti mažmeninės prekybos įmonės lankomumą.

Bendroji tiesinės regresijos lygtis yra tokia: Y = a0 + a1x1 +...+akhk. Šioje formulėje Y reiškia kintamąjį, veiksnių, kuriuos bandome tirti, įtaką. Mūsų atveju tai yra pirkėjų skaičius. Reikšmė x yra įvairūs veiksniai, turintys įtakos kintamajam. Galimybės a yra regresijos koeficientai. Tai yra, jie yra tie, kurie lemia konkretaus veiksnio reikšmę. Indeksas k reiškia bendrą tų pačių veiksnių skaičių.

Analizės rezultatų analizė

Regresinės analizės rezultatai rodomi lentelės pavidalu nustatymuose nurodytoje vietoje.

Vienas iš pagrindinių rodiklių yra R kvadratas. Tai rodo modelio kokybę. Mūsų atveju šis koeficientas yra 0,705 arba apie 70,5%. Tai yra priimtinas kokybės lygis. Mažesnė nei 0,5 priklausomybė yra blogai.

Kitas svarbus indikatorius yra ląstelės sankirtoje "Y sankryža" ir stulpelis "Šansai". Tai rodo, kokią reikšmę Y turės, o mūsų atveju tai yra pirkėjų skaičius, o visi kiti veiksniai lygūs nuliui. Šioje lentelėje ši vertė yra 58,04.

Reikšmė grafiko sankirtoje „Kintamasis X1“ Ir "Šansai" rodo Y priklausomybės nuo X lygį. Mūsų atveju tai yra parduotuvės klientų skaičiaus priklausomybės nuo temperatūros lygis. 1,31 koeficientas laikomas gana dideliu įtakos rodikliu.

Kaip matote, naudojant Microsoft Excel yra gana paprasta sukurti regresijos analizės lentelę. Tačiau tik apmokytas žmogus gali dirbti su išvesties duomenimis ir suprasti jų esmę.

Savo darbuose, datuojamuose 1908 m. Jis tai apibūdino naudodamas nekilnojamąjį turtą parduodančio agento darbo pavyzdį. Savo įrašuose namų pardavimo specialistas stebėjo įvairius įvesties duomenis apie kiekvieną konkretų pastatą. Remiantis aukciono rezultatais, buvo nustatyta, kuris veiksnys turėjo didžiausią įtaką sandorio kainai.

Daugelio sandorių analizė davė įdomių rezultatų. Galutinei kainai įtakos turėjo daug veiksnių, kartais vedančių prie paradoksalių išvadų ir net akivaizdžių „iškrypimų“, kai namas su dideliu pradiniu potencialu buvo parduodamas sumažinta kaina.

Antrasis tokios analizės taikymo pavyzdys – kuriam buvo patikėtas darbuotojo atlyginimo nustatymas. Užduoties sudėtingumas slypi tame, kad reikėjo ne visiems paskirstyti fiksuotą sumą, o griežtą jos atitikimą konkrečiam atliekamam darbui. Atsiradus daugeliui problemų su praktiškai panašiais sprendimais, reikėjo jas detaliau išnagrinėti matematiniu lygmeniu.

Reikšminga vieta skirta skyriui „Regresinė analizė“, kuriame buvo apjungti praktiniai metodai, naudojami priklausomybėms, patenkančioms į regresijos sąvoką, tirti. Šie ryšiai stebimi tarp duomenų, gautų iš statistinių tyrimų.

Tarp daugelio uždavinių, kuriuos reikia išspręsti, pagrindiniai tikslai yra trys: bendrosios regresijos lygties nustatymas; Nežinomų parametrų, kurie yra regresijos lygties dalis, įverčių sudarymas; statistinės regresijos hipotezių tikrinimas. Tirdami ryšį, atsirandantį tarp dydžių poros, gautos atliekant eksperimentinius stebėjimus ir sudarančios (x1, y1), ..., (xn, yn) tipo eilutę (aibę), jie remiasi regresijos teorijos nuostatas ir daryti prielaidą, kad vienam dydžiui Y yra tam tikras tikimybių skirstinys, o kitas X išlieka fiksuotas.

Rezultatas Y priklauso nuo kintamojo X reikšmės šią priklausomybę galima nustatyti įvairiais šablonais, o gautų rezultatų tikslumą įtakoja stebėjimų pobūdis ir analizės tikslas. Eksperimentinis modelis grindžiamas tam tikromis prielaidomis, kurios yra supaprastintos, bet tikėtinos. Pagrindinė sąlyga – parametras X yra kontroliuojamas dydis. Jo vertės nustatomos prieš pradedant eksperimentą.

Jei eksperimento metu naudojama nekontroliuojamų kintamųjų pora XY, tai taip pat atliekama regresinė analizė, tačiau rezultatams interpretuoti naudojami metodai, kurių metu tiriamas tiriamų atsitiktinių dydžių ryšys Matematinės statistikos metodai nėra abstrakti tema. Jie randa pritaikymą gyvenime įvairiose žmogaus veiklos srityse.

Mokslinėje literatūroje minėtam metodui apibrėžti plačiai vartojamas terminas tiesinė regresinė analizė. Kintamajam X naudojamas terminas regresorius arba prognozuotojas, o priklausomi Y kintamieji taip pat vadinami kriterijų kintamaisiais. Ši terminija atspindi tik matematinę kintamųjų priklausomybę, bet ne priežasties ir pasekmės ryšį.

Regresinė analizė yra labiausiai paplitęs metodas, naudojamas įvairių stebėjimų rezultatams apdoroti. Šiuo metodu tiriamos fizinės ir biologinės priklausomybės. Jis įgyvendinamas tiek ekonomikos, tiek technologijų srityse. Daugelyje kitų sričių naudojami regresinės analizės modeliai. Su šiuo tyrimo metodu glaudžiai bendradarbiauja dispersinė analizė ir daugiamatė statistinė analizė.