Mažiausių kvadratų pasirinkimas. Duomenys ir aproksimacija y = k x

Paprastųjų mažiausių kvadratų (OLS) metodas- matematinis metodas, naudojamas įvairiems uždaviniams spręsti, pagrįstas tam tikrų funkcijų kvadratinių nuokrypių nuo norimų kintamųjų sumos sumažinimu. Jis gali būti naudojamas „išspręsti“ per daug apibrėžtas lygčių sistemas (kai lygčių skaičius viršija nežinomųjų skaičių), ieškant sprendinių įprastų (ne per daug apibrėžtų) netiesinių lygčių sistemų atveju, apytiksliai apytiksliai apytiksliai nustatyti kai kurių lygčių reikšmes. funkcija. OLS yra vienas iš pagrindinių regresinės analizės metodų, leidžiančių įvertinti nežinomus regresijos modelių parametrus iš imties duomenų.

Enciklopedinis „YouTube“.

    1 / 5

    ✪ Mažiausių kvadratų metodas. Tema

    ✪ Mažiausių kvadratų metodas, 1/2 pamoka. Linijinė funkcija

    ✪ Ekonometrija. 5 paskaita. Mažiausių kvadratų metodas

    ✪ Mitin I.V. – fizinių rezultatų apdorojimas. eksperimentas – Mažiausių kvadratų metodas (4 paskaita)

    ✪ Ekonometrija: 2 mažiausių kvadratų metodo esmė

    Subtitrai

Istorija

Iki pat XIX amžiaus pradžios. mokslininkai neturėjo tam tikrų taisyklių, kaip išspręsti lygčių sistemą, kurioje nežinomųjų skaičius yra mažesnis už lygčių skaičių; Iki tol buvo naudojamos privačios technikos, kurios priklausė nuo lygčių tipo ir skaičiuoklių sąmojingumo, todėl skirtingi skaičiuotuvai, remdamiesi tais pačiais stebėjimų duomenimis, priėjo prie skirtingų išvadų. Gaussas (1795) pirmasis panaudojo metodą, o Legendre (1805) savarankiškai atrado ir paskelbė jį šiuolaikiniu pavadinimu (pranc. Méthode des moindres quarrés). Laplasas šį metodą susiejo su tikimybių teorija, o amerikiečių matematikas Adrainas (1808) svarstė jo tikimybių teorinius pritaikymus. Metodas buvo plačiai paplitęs ir patobulintas tolesnių Encke, Besselio, Hanseno ir kitų tyrimų.

Mažiausių kvadratų metodo esmė

Leiskite x (\displaystyle x)- rinkinys n (\displaystyle n) nežinomi kintamieji (parametrai), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- funkcijų rinkinys iš šio kintamųjų rinkinio. Užduotis yra pasirinkti tokias reikšmes x (\displaystyle x), kad šių funkcijų reikšmės būtų kuo artimesnės tam tikroms reikšmėms y i (\displaystyle y_(i)). Iš esmės mes kalbame apie per daug apibrėžtos lygčių sistemos „sprendimą“. f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) nurodyta didžiausio kairiosios ir dešiniosios sistemos dalių artumo prasme. Mažiausių kvadratų metodo esmė yra pasirinkti kaip „artumo matą“ kairiosios ir dešiniosios kraštinių nuokrypių kvadratų sumą. | f i (x) − y i |

(\displaystyle |f_(i)(x)-y_(i)|).

. Taigi MNC esmė gali būti išreikšta taip: x (\displaystyle x)∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rodyklė dešinėn \min _(x)) Jei lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, naudojant įvairius skaitinio optimizavimo metodus. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei norimų kintamųjų, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors „optimalų“ vektorių. vektorių maksimalaus artumo prasme y (\displaystyle y) Ir f (x) (\displaystyle f(x)) arba maksimalus nuokrypio vektoriaus artumas

e (\displaystyle e)

iki nulio (artumas suprantamas euklido nuotolio prasme).

Pavyzdys – tiesinių lygčių sistema,

Visų pirma, mažiausių kvadratų metodas gali būti naudojamas tiesinių lygčių sistemai „išspręsti“. A x = b (\displaystyle Ax=b) Kur A (\displaystyle A) stačiakampio dydžio matrica

m × n , m > n (\displaystyle m\times n,m>n) x (\displaystyle x)(t.y. matricos A eilučių skaičius yra didesnis nei ieškomų kintamųjų). Bendruoju atveju tokia lygčių sistema neturi sprendimo. Todėl šią sistemą galima „išspręsti“ tik pasirinkus tokį vektorių vektorių maksimalaus artumo prasme sumažinti „atstumą“ tarp vektorių A x (\displaystyle Axe) b (\displaystyle b). Norėdami tai padaryti, galite taikyti sistemos lygčių kairiosios ir dešiniosios pusės skirtumų kvadratų sumos sumažinimo kriterijų, ty

(A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rodyklė dešinėn \min ).

. Nesunku parodyti, kad išsprendus šią minimalizavimo problemą galima išspręsti šią lygčių sistemą

A T A x = A T b ⇒ x = (AT A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rodyklė dešinėn x=(A^(T)A)^(-1)A^ (T)b) n (\displaystyle n) OLS regresinėje analizėje (apytikslis duomenų) Jei lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, naudojant įvairius skaitinio optimizavimo metodus. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei norimų kintamųjų, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors „optimalų“ vektorių. Tebūnie x (\displaystyle x) kai kurių kintamųjų reikšmės Jei lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, naudojant įvairius skaitinio optimizavimo metodus. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei norimų kintamųjų, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors „optimalų“ vektorių. vektorių maksimalaus artumo prasme x (\displaystyle x) apytikslis pagal kokią nors žinomą funkciją kai kurių nežinomų parametrų ribose sumažinti „atstumą“ tarp vektorių ty iš tikrųjų raskite geriausias parametrų vertes sumažinti „atstumą“ tarp vektorių, maksimaliai aproksimuojant reikšmes f (x, b) (\displaystyle f(x,b)) prie faktinių verčių Jei lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, naudojant įvairius skaitinio optimizavimo metodus. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei norimų kintamųjų, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors „optimalų“ vektorių.. Tiesą sakant, tai susiję su per daug apibrėžtos lygčių sistemos „išsprendimu“ sumažinti „atstumą“ tarp vektorių:

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Regresinėje analizėje ir ypač ekonometrijoje naudojami tikimybiniai kintamųjų priklausomybės modeliai.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Visų pirma, mažiausių kvadratų metodas gali būti naudojamas tiesinių lygčių sistemai „išspręsti“. ε t (\displaystyle \varepsilon _(t))- vadinamasis atsitiktinių klaidų modeliai.

Atitinkamai, stebimų verčių nuokrypiai Jei lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, naudojant įvairius skaitinio optimizavimo metodus. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei norimų kintamųjų, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors „optimalų“ vektorių. iš modelio f (x, b) (\displaystyle f(x,b)) jau daroma prielaida pačiame modelyje. Mažiausių kvadratų metodo (paprastojo, klasikinio) esmė – rasti tokius parametrus sumažinti „atstumą“ tarp vektorių, kurioje nuokrypių kvadratų suma (klaidos; regresijos modeliams jos dažnai vadinamos regresijos likučiais) e t (\displaystyle e_(t)) bus minimalus:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Visų pirma, mažiausių kvadratų metodas gali būti naudojamas tiesinių lygčių sistemai „išspręsti“. R S S (\displaystyle RSS)– Anglų kalba Likutinė kvadratų suma apibrėžiama taip:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\suma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Bendru atveju ši problema gali būti išspręsta skaitmeninio optimizavimo (miniminimo) metodais. Šiuo atveju jie kalba apie netiesiniai mažieji kvadratai(NLS arba NLLS – angl. Non-linear Least Squares). Daugeliu atvejų galima gauti analitinį sprendimą. Norint išspręsti minimizavimo problemą, reikia rasti stacionarius funkcijos taškus R S S (b) (\displaystyle RSS(b)), skiriant jį pagal nežinomus parametrus sumažinti „atstumą“ tarp vektorių, prilygindami išvestines nuliui ir išsprendę gautą lygčių sistemą:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\rodymo stilius \suma _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

OLS tiesinės regresijos atveju

Tegul regresijos priklausomybė yra tiesinė:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Leiskite y yra paaiškinamo kintamojo stebėjimų stulpelio vektorius ir X (\displaystyle X)- Tai (n × k) (\displaystyle ((n\times))))- faktoriaus stebėjimų matrica (matricos eilutės yra tam tikro stebėjimo faktorių reikšmių vektoriai, stulpeliai yra tam tikro faktoriaus reikšmių vektorius visuose stebėjimuose). Tiesinio modelio matricos vaizdavimas turi tokią formą:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Tada paaiškinamo kintamojo įverčių vektorius ir regresijos likučių vektorius bus lygūs

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

Atitinkamai, regresijos likučių kvadratų suma bus lygi

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Šios funkcijos diferencijavimas pagal parametrų vektorių sumažinti „atstumą“ tarp vektorių o išvestines prilyginus nuliui, gauname lygčių sistemą (matricos pavidalu):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Iššifruotoje matricos formoje ši lygčių sistema atrodo taip:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x x t 2 x t 3 k 3 x t 3 … ∑ ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2 ∑ x t k 2) ( ∑ x t k 2) ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\suma x_(t1)x_(tk)\\\suma x_(t2)x_(t1)&\suma x_(t2)^(2)&\suma x_(t2)x_(t3)&\ltaškai &\ suma x_(t2)x_(tk)\\\suma x_(t3)x_(t1)&\suma x_(t3)x_(t2)&\suma x_(t3)^(2)&\ltaškai &\suma x_ (t3)x_(tk)\\\vtaškai &\vtaškai &\vtaškai &\dtaškai &\vtaškai \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ltaškai &\sum x_(tk)^(2)\\\end(pmatrica))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vtaškai \\\sum x_(tk)y_(t)\\\end(pmatrica)),) kur visos sumos perimamos per visas galiojančias reikšmes t (\displaystyle t).

Jei į modelį įtraukta konstanta (kaip įprasta), tada x t 1 = 1 (\displaystyle x_(t1) = 1) visų akivaizdoje t (\displaystyle t), todėl lygčių sistemos matricos viršutiniame kairiajame kampe yra stebėjimų skaičius n (\displaystyle n), o likusiuose pirmosios eilutės ir pirmojo stulpelio elementuose - tiesiog kintamųjų reikšmių sumos: ∑ x t j (\displaystyle \sum x_(tj)) o pirmasis dešiniosios sistemos pusės elementas yra ∑ y t (\displaystyle \sum y_(t)).

Šios lygčių sistemos sprendimas pateikia bendrąją mažiausiųjų kvadratų įverčių formulę tiesiniam modeliui:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Analitiniais tikslais naudingas paskutinis šios formulės atvaizdas (lygčių sistemoje dalinant iš n vietoj sumų atsiranda aritmetiniai vidurkiai). Jei regresijos modelyje duomenys centre, tada šiame vaizde pirmoji matrica turi imties faktorių kovariacijos matricos reikšmę, o antroji yra faktorių kovariacijų vektorius su priklausomu kintamuoju. Jei papildomai duomenys taip pat normalizuotasį MSE (tai yra galiausiai standartizuoti), tada pirmoji matrica turi veiksnių imties koreliacijos matricos reikšmę, antrasis vektorius - veiksnių imties koreliacijų vektorius su priklausomu kintamuoju.

Svarbi modelių OLS įverčių savybė su pastoviu- sudaryta regresijos linija eina per imties duomenų svorio centrą, tai yra, lygybė yra įvykdyta:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Ypač kraštutiniu atveju, kai vienintelis regresorius yra konstanta, nustatome, kad vienintelio parametro (pačios konstantos) OLS įvertis yra lygus vidutinei paaiškinamo kintamojo vertei. Tai yra, aritmetinis vidurkis, žinomas dėl savo gerųjų savybių iš didelių skaičių dėsnių, taip pat yra mažiausių kvadratų įvertis – jis atitinka minimalios kvadratinių nukrypimų nuo jo sumos kriterijų.

Paprasčiausi ypatingi atvejai

Porinės tiesinės regresijos atveju y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), įvertinus tiesinę vieno kintamojo priklausomybę nuo kito, skaičiavimo formulės supaprastinamos (galima apsieiti ir be matricinės algebros). Lygčių sistema turi tokią formą:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Iš čia lengva rasti koeficientų įverčius:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(atvejai)))

Nepaisant to, kad bendrais atvejais pirmenybė teikiama modeliams su konstanta, kai kuriais atvejais iš teorinių svarstymų žinoma, kad konstanta a (\displaystyle a) turi būti lygus nuliui. Pavyzdžiui, fizikoje įtampos ir srovės santykis yra U = I ⋅ R (\displaystyle U=I\cdot R); Matuojant įtampą ir srovę, būtina įvertinti varžą. Šiuo atveju kalbame apie modelį y = b x (\displaystyle y=bx). Šiuo atveju vietoj lygčių sistemos turime vieną lygtį

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Todėl vieno koeficiento įvertinimo formulė turi formą

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Polinominio modelio atvejis

Jei duomenis atitinka vieno kintamojo daugianario regresijos funkcija f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), tada, suvokdamas laipsnius x i (\displaystyle x^(i)) kaip nepriklausomi veiksniai kiekvienam i (\displaystyle i) modelio parametrus galima įvertinti remiantis bendra tiesinio modelio parametrų įvertinimo formule. Norėdami tai padaryti, pakanka atsižvelgti į bendrąją formulę, kad su tokiu aiškinimu x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) vektorių maksimalaus artumo prasme x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Todėl matricos lygtys šiuo atveju bus tokios formos:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 k ) [ b t k + 1 k ] = [ ∑ n y t ∑ n t y t ⋮ ∑ n x t k y t ] .

(\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vtaškai & \vtaškai &\dtaškai &\vtaškai \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ltaškai &\ suma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vtaškai \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrica)).

Statistinės OLS įverčių savybės

  1. Visų pirma pažymime, kad tiesiniams modeliams OLS įverčiai yra tiesiniai įverčiai, kaip matyti iš aukščiau pateiktos formulės. Nešališkiems OLS įverčiams būtina ir pakanka įvykdyti svarbiausią regresinės analizės sąlygą: faktorinis-sąlyginis matematinis atsitiktinės paklaidos lūkestis turi būti lygus nuliui. Ši sąlyga visų pirma tenkinama, jei
  2. atsitiktinių klaidų matematinis lūkestis lygus nuliui, ir

faktoriai ir atsitiktinės paklaidos yra nepriklausomi atsitiktiniai  kintamieji. Antroji sąlyga – veiksnių egzogeniškumo sąlyga – yra esminė. Jei ši savybė nesilaikoma, galime manyti, kad beveik bet kokie įverčiai bus itin nepatenkinami: jie net nebus nuoseklūs (tai yra, net ir labai didelis duomenų kiekis neleidžia gauti kokybiškų įverčių šiuo atveju ). Klasikiniu atveju daroma stipresnė prielaida apie veiksnių determinizmą, o ne atsitiktinę paklaidą, kuri automatiškai reiškia, kad egzogeniškumo sąlyga yra įvykdyta. Bendru atveju, kad įverčiai būtų nuoseklūs, pakanka tenkinti egzogeniškumo sąlygą kartu su matricos konvergencija V x (\displaystyle V_(x))

į kokią nors nevienetinę matricą, kai imties dydis didėja iki begalybės.

Kad, be nuoseklumo ir nešališkumo, (paprastųjų) mažiausių kvadratų įverčiai taip pat būtų veiksmingi (geriausi tiesinių nešališkų įverčių klasėje), turi būti įvykdytos papildomos atsitiktinės paklaidos savybės: Šios prielaidos gali būti suformuluotos atsitiktinių klaidų vektoriaus kovariacijos matricai.

V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I) Šias sąlygas tenkinantis tiesinis modelis vadinamas. Klasikinės tiesinės regresijos OLS įverčiai yra nešališki, nuoseklūs ir veiksmingiausi visų tiesinių nešališkų įverčių klasėje (anglų literatūroje santrumpa kartais vartojama MĖLYNA (Geriausias tiesinis nešališkas įvertinimo įrankis) – geriausias tiesinis nešališkas įvertis; Rusų literatūroje dažniau cituojama Gauso-Markovo teorema). Kaip nesunku parodyti, koeficientų įverčių vektoriaus kovariacijos matrica bus lygi:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Efektyvumas reiškia, kad ši kovariacijos matrica yra „minimali“ (bet koks tiesinis koeficientų derinys, o ypač patys koeficientai, turi minimalią dispersiją), tai yra, linijinių nešališkų įverčių klasėje geriausi yra OLS įverčiai. Šios matricos įstrižainės elementai – koeficientų įverčių dispersijos – yra svarbūs gautų įverčių kokybės parametrai. Tačiau kovariacijos matricos apskaičiuoti neįmanoma, nes atsitiktinės paklaidos dispersija nežinoma. Galima įrodyti, kad nešališkas ir nuoseklus (klasikiniam tiesiniam modeliui) atsitiktinių paklaidų dispersijos įvertis yra dydis:

S 2 = R S S / (n − k) (\displaystyle s^(2) = RSS/(n-k)).

Pakeitę šią reikšmę į kovariacijos matricos formulę, gauname kovariacijos matricos įvertį. Gauti įvertinimai taip pat yra nešališki ir nuoseklūs. Taip pat svarbu, kad paklaidos dispersijos įvertis (taigi ir koeficientų dispersija) ir modelio parametrų įverčiai būtų nepriklausomi atsitiktiniai dydžiai, todėl galima gauti testų statistiką hipotezėms apie modelio koeficientus tikrinti.

Reikėtų pažymėti, kad jei nesilaikoma klasikinių prielaidų, OLS parametrų įvertinimai nėra patys efektyviausi ir W (\displaystyle W) yra tam tikra simetriška teigiamo apibrėžtojo svorio matrica. Įprasti mažiausi kvadratai yra ypatingas šio metodo atvejis, kai svorio matrica yra proporcinga tapatybės matricai. Kaip žinoma, simetrinėms matricoms (arba operatoriams) yra išplėtimas W = P T P (\displaystyle W=P^(T)P). Todėl nurodytą funkciją galima pavaizduoti taip e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)) ty ši funkcija gali būti pavaizduota kaip kai kurių transformuotų „likučių“ kvadratų suma. Taigi galime išskirti mažiausių kvadratų metodų klasę – LS metodus (Least Squares).

Įrodyta (Aitkeno teorema), kad apibendrintam tiesinės regresijos modeliui (kuriame atsitiktinių paklaidų kovariacijos matricai netaikomi jokie apribojimai) efektyviausi (tiesinių nešališkų įverčių klasėje) yra vadinamieji įverčiai. apibendrinti mažiausių kvadratų (GLS – generalized Least Squares)- LS metodas su svorio matrica, lygia atsitiktinių klaidų atvirkštinei kovariacijos matricai: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Galima parodyti, kad tiesinio modelio parametrų GLS įverčių formulė turi formą

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Šių įverčių kovariacijos matrica atitinkamai bus lygi

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Tiesą sakant, OLS esmė slypi tam tikroje (tiesinėje) pirminių duomenų transformacijoje (P) ir įprasto OLS pritaikyme transformuotiems duomenims. Šios transformacijos tikslas yra tas, kad transformuotų duomenų atsitiktinės paklaidos jau tenkintų klasikines prielaidas.

Svertinis OLS

Įstrižainės svorio matricos (taigi ir atsitiktinių paklaidų kovariacijos matricos) atveju turime taip vadinamą svertinį mažiausią kvadratą (WLS). Šiuo atveju modelio likučių kvadratų svertinė suma yra sumažinta, tai yra, kiekvienas stebėjimas gauna „svorį“, kuris yra atvirkščiai proporcingas šio stebėjimo atsitiktinės paklaidos dispersijai: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). Tiesą sakant, duomenys transformuojami pasveriant stebėjimus (padalijus iš sumos, proporcingos apskaičiuotam atsitiktinių klaidų standartiniam nuokrypiui), o svertiniams duomenims taikomas įprastas OLS.

ISBN 978-5-7749-0473-0 .

  • Ekonometrija. Vadovėlis / Red. Eliseeva I.I. – 2 leid. - M.: Finansai ir statistika, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Aleksandrova N.V. Matematikos terminų, sąvokų, užrašų istorija: žodynas-žinynas. - 3 leidimas - M.: LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitinas, Rusakovas V.S. Eksperimentinių duomenų analizė ir apdorojimas - 5 leidimas - 24 p.
  • Mažiausių kvadratų metodas yra matematinė procedūra, skirta sudaryti tiesinę lygtį, kuri geriausiai atitinka eilės porų rinkinį, ieškant a ir b reikšmių, koeficientų tiesės lygtyje. Mažiausių kvadratų tikslas yra sumažinti bendrą kvadrato paklaidą tarp y ir ŷ reikšmių. Jei kiekvienam taškui nustatome paklaidą ŷ, mažiausių kvadratų metodas sumažina:

    kur n = tvarkingų porų skaičius aplink liniją. kuo arčiau duomenų.

    Ši koncepcija pavaizduota paveikslėlyje

    Remiantis paveikslėliu, linija, kuri geriausiai atitinka duomenis, regresijos linija, sumažina bendrą keturių grafiko taškų kvadratinę paklaidą. Toliau pateiktame pavyzdyje parodysiu, kaip tai nustatyti naudojant mažiausius kvadratus.

    Įsivaizduokite jauną porą, kuri neseniai persikėlė kartu ir dalijasi kosmetiniu stalu vonios kambaryje. Jaunuolis ėmė pastebėti, kad pusė jo stalo nenumaldomai mažėja, nusileidžia plaukų putoms ir sojų kompleksams. Per pastaruosius kelis mėnesius vaikinas atidžiai stebėjo, kaip daugėja objektų jos pusėje nuo stalo. Žemiau esančioje lentelėje parodytas per pastaruosius kelis mėnesius susikaupusių daiktų skaičius ant merginos vonios praustuvo.

    Kadangi mūsų tikslas yra išsiaiškinti, ar prekių skaičius laikui bėgant didėja, „Mėnuo“ bus nepriklausomas kintamasis, o „Prekių skaičius“ – priklausomas kintamasis.

    Naudodami mažiausių kvadratų metodą, apskaičiuojame a reikšmes, y kirtimo tašką ir b, linijos nuolydį, nustatome lygtį, kuri geriausiai atitinka duomenis:

    a = y vid. – bx vid

    čia x avg – nepriklausomo kintamojo x vidutinė reikšmė, y avg – vidutinė nepriklausomo kintamojo y reikšmė.

    Žemiau esančioje lentelėje apibendrinami šioms lygtims reikalingi skaičiavimai.

    Mūsų vonios pavyzdžio efekto kreivė būtų pateikta pagal šią lygtį:

    Kadangi mūsų lygtis turi teigiamą 0,976 nuolydį, vaikinas turi įrodymų, kad daiktų skaičius ant stalo laikui bėgant didėja vidutiniškai po 1 prekę per mėnesį. Grafike parodyta efekto kreivė su išdėstytomis poromis.

    Numatomas prekių skaičius per ateinančius šešis mėnesius (16 mėn.) bus apskaičiuojamas taip:

    ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 elementas

    Taigi, laikas mūsų herojui imtis kokių nors veiksmų.

    Funkcija TREND programoje Excel

    Kaip tikriausiai jau atspėjote, „Excel“ turi funkciją, skirtą reikšmėms apskaičiuoti mažiausių kvadratų metodas.Ši funkcija vadinama TREND. Jo sintaksė yra tokia:

    TREND (žinomos Y reikšmės; žinomos X reikšmės; naujos X reikšmės; konstanta)

    žinomos Y reikšmės – priklausomų kintamųjų masyvas, mūsų atveju objektų skaičius lentelėje

    žinomos reikšmės X – nepriklausomų kintamųjų masyvas, mūsų atveju tai yra mėnuo

    naujos X reikšmės – naujos X reikšmės (mėnesiai), kurioms TREND funkcija grąžina tikėtiną priklausomų kintamųjų reikšmę (elementų skaičių)

    const – neprivaloma. Būlio reikšmė, nurodanti, ar konstanta b turi būti 0.

    Pavyzdžiui, paveikslėlyje parodyta funkcija TREND, naudojama norint nustatyti numatomą vonios kambario kosmetinės prekių skaičių 16-ąjį mėnesį.

    Pavyzdys.

    Eksperimentiniai duomenys apie kintamųjų reikšmes X Ir adresu pateikiami lentelėje.

    Dėl jų išlyginimo gaunama funkcija

    Naudojant mažiausių kvadratų metodas, apytiksliai apskaičiuokite šiuos duomenis tiesine priklausomybe y=kirvis+b(raskite parametrus A Ir b). Sužinokite, kuri iš dviejų eilučių geriau (mažiausių kvadratų metodo prasme) suderina eksperimentinius duomenis. Padarykite piešinį.

    Mažiausių kvadratų metodo (LSM) esmė.

    Užduotis – rasti tiesinės priklausomybės koeficientus, kuriems esant veikia dviejų kintamųjų funkcija A Ir b užima mažiausią vertę. Tai yra, duota A Ir b eksperimentinių duomenų nuokrypių kvadratu suma nuo rastos tiesės bus mažiausia. Tai yra mažiausių kvadratų metodo esmė.

    Taigi, sprendžiant pavyzdį, reikia rasti dviejų kintamųjų funkcijos ekstremumą.

    Koeficientų radimo formulės.

    Sudaroma ir išsprendžiama dviejų lygčių su dviem nežinomaisiais sistema. Funkcijos dalinių išvestinių radimas pagal kintamuosius A Ir b, šias išvestines prilyginsime nuliui.

    Gautą lygčių sistemą išsprendžiame naudodami bet kurį metodą (pvz pakeitimo būdu arba Cramerio metodas) ir gauti koeficientų radimo formules naudojant mažiausių kvadratų metodą (LSM).

    Duota A Ir b funkcija užima mažiausią vertę. Pateikiamas šio fakto įrodymas žemiau esančiame tekste puslapio pabaigoje.

    Tai visas mažiausių kvadratų metodas. Parametrų radimo formulė a yra sumos ,, ir parametras n- eksperimentinių duomenų kiekis. Rekomenduojame šių sumų vertes skaičiuoti atskirai. Koeficientas b rasta po skaičiavimo a.

    Atėjo laikas prisiminti originalų pavyzdį.

    Sprendimas.

    Mūsų pavyzdyje n=5. Lentelę užpildome, kad būtų patogiau apskaičiuoti sumas, kurios įtrauktos į reikalingų koeficientų formules.

    Ketvirtoje lentelės eilutėje esančios reikšmės gaunamos 2-os eilutės reikšmes padauginus iš 3-osios kiekvieno skaičiaus reikšmių i.

    Penktoje lentelės eilutėje esančios reikšmės gaunamos padalijus kiekvieno skaičiaus 2-os eilutės reikšmes kvadratu i.

    Paskutiniame lentelės stulpelyje pateiktos reikšmės yra reikšmių sumos visose eilutėse.

    Koeficientams rasti naudojame mažiausių kvadratų metodo formules A Ir b. Į jas pakeičiame atitinkamas vertes iš paskutinio lentelės stulpelio:

    Vadinasi, y = 0,165x+2,184- norima apytikslė tiesi linija.

    Belieka išsiaiškinti, kuri iš eilučių y = 0,165x+2,184 arba geriau aproksimuoja pradinius duomenis, tai yra, įvertina taikydamas mažiausių kvadratų metodą.

    Mažiausių kvadratų metodo klaidų įvertinimas.

    Norėdami tai padaryti, turite apskaičiuoti pirminių duomenų kvadratinių nuokrypių nuo šių eilučių sumą Ir , mažesnė reikšmė atitinka liniją, kuri geriau apytiksliai atitinka pradinius duomenis mažiausiųjų kvadratų metodo prasme.

    Nuo tada tiesiai y = 0,165x+2,184 geriau atitinka pradinius duomenis.

    Mažiausių kvadratų (LS) metodo grafinė iliustracija.

    Grafikuose viskas aiškiai matosi. Raudona linija yra rasta tiesi linija y = 0,165x+2,184, mėlyna linija yra , rožiniai taškai yra pirminiai duomenys.

    Praktikoje modeliuojant įvairius procesus – ypač ekonominius, fizinius, techninius, socialinius – plačiai naudojamas vienoks ar kitoks apytikslių funkcijų verčių apskaičiavimo iš jų žinomų verčių tam tikruose fiksuotuose taškuose metodas.

    Dažnai iškyla tokia funkcijų aproksimavimo problema:

      kai sudaromos apytikslės tiriamo proceso būdingų dydžių verčių apskaičiavimo formulės, naudojant lentelių duomenis, gautus eksperimento metu;

      skaitiniame integravime, diferencijavime, sprendžiant diferencialines lygtis ir kt.;

      jei reikia apskaičiuoti funkcijų reikšmes nagrinėjamo intervalo tarpiniuose taškuose;

      nustatant proceso būdingų dydžių vertes už nagrinėjamo intervalo ribų, ypač numatant.

    Jeigu tam tikro proceso, nurodyto lentelės modeliavimui, sukonstruosime funkciją, kuri apytiksliai apibūdina šį procesą remdamiesi mažiausių kvadratų metodu, ji bus vadinama aproksimuojančia funkcija (regresija), o pati aproksimuojančių funkcijų konstravimo problema. apytikslė problema.

    Šiame straipsnyje aptariamos MS Excel paketo galimybės sprendžiant tokio tipo problemas, be to, pateikiami lentelių funkcijų (kurios yra regresinės analizės pagrindas) regresijų konstravimo (kurimo) metodai.

    „Excel“ turi dvi regresijų kūrimo parinktis.

      Pasirinktų regresijų (tendencijų linijų) įtraukimas į diagramą, sudarytą remiantis tiriamos proceso charakteristikos duomenų lentele (galima tik tuo atveju, jei buvo sudaryta diagrama);

      Naudojant įmontuotas statistines Excel darbalapio funkcijas, leidžiančias gauti regresijas (tendencijos linijas) tiesiai iš šaltinio duomenų lentelės.

    Tendencijos linijų įtraukimas į diagramą

    Duomenų, apibūdinančių procesą ir pavaizduotą diagrama, lentelei „Excel“ yra veiksmingas regresinės analizės įrankis, leidžiantis:

      sudaryti remiantis mažiausių kvadratų metodu ir į diagramą įtraukti penkių tipų regresijas, kurios įvairaus tikslumo modeliuoja tiriamą procesą;

      pridėti sudarytą regresijos lygtį į diagramą;

      nustatyti pasirinktos regresijos atitikimo laipsnį diagramoje rodomiems duomenims.

    Remiantis diagramos duomenimis, „Excel“ leidžia gauti tiesines, daugianario, logaritminės, galios, eksponentinės regresijas, kurias nurodo lygtis:

    y = y(x)

    kur x yra nepriklausomas kintamasis, kuris dažnai paima natūraliųjų skaičių (1; 2; 3; ...) sekos reikšmes ir sukuria, pavyzdžiui, tiriamo proceso laiko (charakteristikos) skaičiavimą.

    1 . Tiesinė regresija tinka modeliuoti charakteristikas, kurių reikšmės didėja arba mažėja pastoviu greičiu. Tai paprasčiausias tiriamo proceso modelis. Jis sukonstruotas pagal lygtį:

    y = mx + b

    čia m yra tiesinės regresijos nuolydžio liestinė su x ašimi; b - tiesinės regresijos susikirtimo taško koordinatė su ordinačių ašimi.

    2 . Polinominė tendencijų linija yra naudinga apibūdinant charakteristikas, turinčias keletą skirtingų kraštutinumų (maksimų ir minimumų). Polinomo laipsnio pasirinkimą lemia tiriamos charakteristikos ekstremalių skaičius. Taigi, antrojo laipsnio daugianomas gali gerai apibūdinti procesą, kuris turi tik vieną maksimumą arba minimumą; trečiojo laipsnio daugianario - ne daugiau kaip du ekstremumai; ketvirtojo laipsnio daugianario – ne daugiau kaip trys ekstremumai ir kt.

    Šiuo atveju tendencijos linija sudaroma pagal lygtį:

    y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

    kur koeficientai c0, c1, c2,...c6 yra konstantos, kurių reikšmės nustatomos statybos metu.

    3 . Logaritminė tendencijos linija sėkmingai naudojama modeliuojant charakteristikas, kurių reikšmės iš pradžių greitai keičiasi, o vėliau palaipsniui stabilizuojasi.

    y = c ln(x) + b

    4 . Galios dėsnio tendencijos linija duoda gerų rezultatų, jei tiriamo ryšio reikšmėms būdingas nuolatinis augimo tempo pokytis. Tokios priklausomybės pavyzdys yra tolygiai pagreitinto automobilio judėjimo grafikas. Jei duomenyse yra nulio arba neigiamos reikšmės, negalite naudoti galios tendencijos linijos.

    Sukurta pagal lygtį:

    y = c xb

    kur koeficientai b, c yra konstantos.

    5 . Eksponentinė tendencijos linija turėtų būti naudojama, kai duomenų kitimo greitis nuolat didėja. Duomenims, kuriuose yra nulio arba neigiamos reikšmės, tokio tipo aproksimacija taip pat netaikoma.

    Sukurta pagal lygtį:

    y = c ebx

    kur koeficientai b, c yra konstantos.

    Pasirinkus tendencijos liniją, Excel automatiškai apskaičiuoja R2 reikšmę, kuri apibūdina aproksimacijos patikimumą: kuo R2 reikšmė arčiau vieneto, tuo tendencijos linija patikimiau aproksimuoja tiriamą procesą. Jei reikia, R2 reikšmė visada gali būti rodoma diagramoje.

    Nustatoma pagal formulę:

    Norėdami pridėti tendencijų liniją prie duomenų sekos:

      suaktyvinkite diagramą pagal duomenų seriją, t. y. spustelėkite diagramos srityje. Diagramos elementas pasirodys pagrindiniame meniu;

      Paspaudus šį elementą, ekrane pasirodys meniu, kuriame turėtumėte pasirinkti komandą Add trend line.

    Tuos pačius veiksmus galima nesunkiai įgyvendinti perkeliant pelės žymeklį ant grafiko, atitinkančio vieną iš duomenų eilučių, ir paspaudus dešinįjį pelės klavišą; Pasirodžiusiame kontekstiniame meniu pasirinkite komandą Pridėti tendencijos liniją. Ekrane atsidarys dialogo langas Trend Line su atidarytu skirtuku Tipas (1 pav.).

    Po to jums reikia:

    Skirtuke Tipas pasirinkite reikiamą tendencijos linijos tipą (pagal numatytuosius nustatymus pasirenkamas linijinis tipas). Polinomo tipui lauke Laipsnis nurodykite pasirinkto daugianario laipsnį.

    1 . Lauke Built on series pateikiamos visos atitinkamos diagramos duomenų serijos. Norėdami pridėti tendencijų liniją prie konkrečios duomenų sekos, pasirinkite jos pavadinimą lauke Sukurta serija.

    Jei reikia, eidami į skirtuką Parametrai (2 pav.), galite nustatyti šiuos tendencijos linijos parametrus:

      pakeiskite tendencijos linijos pavadinimą lauke Apytikslės (išlygintos) kreivės pavadinimas.

      Prognozės laukelyje nustatykite prognozės periodų skaičių (pirmyn arba atgal);

      diagramos srityje rodyti tendencijos linijos lygtį, kuriai reikia įjungti žymimąjį langelį „rodyti lygtį diagramoje“;

      diagramos srityje parodykite aproksimacijos patikimumo vertę R2, kuriai turėtumėte įjungti žymės langelį Įdėkite aproksimacijos patikimumo vertę diagramoje (R^2);

      nustatykite tendencijos linijos susikirtimo su Y ašimi tašką, kuriame turėtumėte įjungti žymės langelį kreivės susikirtimui su Y ašimi taške;

      Spustelėkite mygtuką Gerai, kad uždarytumėte dialogo langą.

    Norint pradėti redaguoti jau nubrėžtą tendencijų liniją, yra trys būdai:

      naudokite komandą Selected trend line iš meniu Formatas, prieš tai pasirinkę tendencijos liniją;

      kontekstiniame meniu pasirinkite komandą Format trend line, kuri iškviečiama dešiniuoju pelės klavišu spustelėjus tendencijos liniją;

      dukart spustelėkite tendencijos liniją.

    Ekrane pasirodys dialogo langas Trend Line Format (3 pav.), kuriame yra trys skirtukai: View, Type, Parameters, o paskutinių dviejų turinys visiškai sutampa su panašiais dialogo lango Trend Line skirtukais (1 pav. -2). Skirtuke Rodinys galite nustatyti linijos tipą, spalvą ir storį.

    Norėdami ištrinti jau nubrėžtą tendencijos liniją, pasirinkite norimą ištrinti tendencijos liniją ir paspauskite klavišą Delete.

    Svarstomos regresinės analizės priemonės pranašumai yra šie:

      santykinis tendencijų linijos sudarymo diagramose paprastumas nesukuriant jai duomenų lentelės;

      gana platus siūlomų tendencijų linijų tipų sąrašas, o šis sąrašas apima dažniausiai naudojamus regresijos tipus;

      gebėjimas numatyti tiriamo proceso elgesį savavališku (sveiko proto ribose) žingsnių skaičiumi pirmyn, taip pat atgal;

      gebėjimas gauti tendencijos linijos lygtį analitine forma;

      galimybė, jei reikia, gauti aproksimacijos patikimumo įvertinimą.

    Trūkumai apima šiuos dalykus:

      tendencijos linijos konstravimas atliekamas tik tuo atveju, jei yra diagrama, pagrįsta duomenų serija;

      tiriamos charakteristikos duomenų eilučių generavimo procesas, remiantis jai gautomis tendencijų linijos lygtimis, yra šiek tiek netvarkingas: reikalingos regresijos lygtys atnaujinamos su kiekvienu pradinių duomenų serijų verčių pasikeitimu, bet tik diagramos srityje. , o duomenų eilutės, sudarytos remiantis senąja tiesių lygties tendencija, išlieka nepakitusios;

      „PivotChart“ ataskaitose pakeitus diagramos arba susijusios „PivotTable“ ataskaitos rodinį, esamos tendencijų linijos neišsaugomos, o tai reiškia, kad prieš braižydami tendencijų linijas ar kitaip formatuodami „PivotChart“ ataskaitą, turėtumėte įsitikinti, kad ataskaitos išdėstymas atitinka reikalaujamus reikalavimus.

    Tendencijos linijos gali būti naudojamos papildyti duomenų serijas, pateiktas diagramose, pvz., diagramose, histogramose, plokščiose nestandartizuotose sričių diagramose, juostinėse diagramose, taškinėse diagramose, burbulinėse diagramose ir akcijų diagramose.

    Negalite pridėti tendencijų linijų prie duomenų eilučių 3D, normalizuotose, radarinėse, skritulinėse ir spurginėse diagramose.

    Naudojant „Excel“ integruotas funkcijas

    „Excel“ taip pat turi regresinės analizės įrankį, skirtą tendencijų linijoms braižyti už diagramos srities. Yra keletas statistinių darbalapio funkcijų, kurias galima naudoti šiam tikslui, tačiau visos jos leidžia atlikti tik tiesinę arba eksponentinę regresiją.

    „Excel“ turi keletą funkcijų, skirtų tiesinei regresijai sudaryti, visų pirma:

      TENDENCIJA;

    • ŠLAIDAS ir PJOVYTI.

    Taip pat kelios funkcijos, skirtos eksponentinei tendencijų linijai sudaryti, ypač:

      LGRFPRIBL.

    Reikėtų pažymėti, kad regresijų konstravimo metodai naudojant TREND ir GROWTH funkcijas yra beveik vienodi. Tą patį galima pasakyti ir apie funkcijų porą LINEST ir LGRFPRIBL. Šioms keturioms funkcijoms kuriant verčių lentelę naudojamos „Excel“ funkcijos, tokios kaip masyvo formulės, kurios šiek tiek trukdo regresijų kūrimo procesui. Taip pat atkreipkite dėmesį, kad tiesinę regresiją, mūsų nuomone, lengviausia atlikti naudojant SLOPE ir INTERCEPT funkcijas, kur pirmoji iš jų nustato tiesinės regresijos nuolydį, o antroji – atkarpą, kurią perima regresija y. - ašis.

    Integruoto funkcijų įrankio regresinei analizei pranašumai yra šie:

      gana paprastas, vienodas procesas, skirtas generuoti tiriamos charakteristikos duomenų serijas visoms integruotoms statistinėms funkcijoms, kurios apibrėžia tendencijų linijas;

      standartinė tendencijų linijų konstravimo metodika pagal sugeneruotas duomenų eilutes;

      gebėjimas numatyti tiriamo proceso elgesį reikiamu žingsnių skaičiumi pirmyn arba atgal.

    Trūkumai apima tai, kad „Excel“ neturi įmontuotų funkcijų, skirtų kurti kitų (išskyrus tiesines ir eksponencines) tendencijų linijas. Ši aplinkybė dažnai neleidžia pasirinkti pakankamai tikslaus tiriamo proceso modelio, taip pat gauti prognozes, artimas realybei. Be to, naudojant TREND ir GROWTH funkcijas, tendencijų linijų lygtys nėra žinomos.

    Pažymėtina, kad autoriai nesiekė pateikti regresinės analizės eigos iki galo. Pagrindinė jo užduotis – naudojant konkrečius pavyzdžius parodyti Excel paketo galimybes sprendžiant aproksimacijos uždavinius; parodyti, kokius veiksmingus įrankius „Excel“ turi regresijų kūrimui ir prognozavimui; iliustruoja, kaip tokias problemas gana lengvai gali išspręsti net vartotojas, neturintis plačių regresinės analizės žinių.

    Konkrečių problemų sprendimo pavyzdžiai

    Pažvelkime į konkrečių problemų sprendimą naudodami išvardytus Excel įrankius.

    1 problema

    Su automobilių transporto įmonės 1995-2002 metų pelno duomenų lentele. turite atlikti šiuos veiksmus:

      Sukurkite diagramą.

      Į diagramą įtraukite tiesines ir daugianario (kvadratinės ir kubinės) tendencijų linijas.

      Naudodami tendencijų linijų lygtis, gaukite lentelės duomenis apie įmonės pelną kiekvienai tendencijų linijai 1995–2004 m.

      Padarykite įmonės pelno prognozę 2003 ir 2004 metams.

    Problemos sprendimas

      „Excel“ darbalapio langelių diapazone A4:C11 įveskite darbalapį, parodytą pav. 4.

      Pasirinkę langelių diapazoną B4:C11, sudarome diagramą.

      Aktyvuojame sukonstruotą diagramą ir aukščiau aprašytu būdu, dialogo lange Trend Line pasirinkę trendo linijos tipą (žr. 1 pav.), į diagramą pakaitomis pridedame tiesines, kvadratines ir kubines tendencijų linijas. Tame pačiame dialogo lange atidarykite skirtuką Parametrai (žr. 2 pav.), laukelyje Apytikslės (išlygintos) kreivės pavadinimas įveskite pridedamos tendencijos pavadinimą ir lauke Forecast forward for: periods nustatykite vertė 2, nes planuojama prognozuoti pelną dvejiems metams į priekį. Norėdami diagramos srityje rodyti regresijos lygtį ir aproksimacijos patikimumo reikšmę R2, įjunkite lygties rodymo ekrane žymimuosius langelius ir diagramoje įdėkite aproksimacijos patikimumo vertę (R^2). Siekiant geresnio vizualinio suvokimo, keičiame konstruojamų tendencijų linijų tipą, spalvą ir storį, tam naudojame dialogo lango Trend Line Format skirtuką View (žr. 3 pav.). Gauta diagrama su pridėtomis tendencijų linijomis parodyta Fig. 5.

      Gauti lentelės duomenis apie įmonės pelną kiekvienai tendencijų linijai 1995–2004 m.

    Naudokime tendencijų linijos lygtis, pateiktas pav. 5. Norėdami tai padaryti, diapazono D3:F3 langeliuose įveskite tekstinę informaciją apie pasirinktos tendencijos linijos tipą: Linijinė tendencija, Kvadratinė tendencija, Kubinė tendencija. Tada įveskite tiesinės regresijos formulę langelyje D4 ir, naudodami užpildymo žymeklį, nukopijuokite šią formulę su santykinėmis nuorodomis į langelių diapazoną D5:D13. Reikėtų pažymėti, kad kiekvienas langelis su linijinės regresijos formule iš langelių diapazono D4:D13 turi kaip argumentą atitinkamą langelį iš diapazono A4:A13. Panašiai kvadratinei regresijai užpildykite langelių diapazoną E4:E13, o kubinei regresijai – langelių diapazoną F4:F13. Taigi sudaryta įmonės pelno prognozė 2003 ir 2004 metams. naudojant tris tendencijas. Gauta verčių lentelė parodyta fig. 6.

      Sukurkite diagramą.

      2 problema

      Pridėkite prie diagramos logaritmines, galios ir eksponentinės tendencijų linijas.

      Išveskite gautų tendencijų linijų lygtis, taip pat kiekvienos iš jų aproksimacijos R2 patikimumo reikšmes.

      Naudodami tendencijų linijos lygtis, gaukite lentelės duomenis apie įmonės pelną kiekvienai tendencijos linijai 1995–2002 m.

    Problemos sprendimas

    Vadovaudamiesi 1 uždavinio sprendimo metodika, gauname diagramą, prie kurios pridedamos logaritminės, galios ir eksponentinės tendencijos linijos (7 pav.). Toliau, naudodamiesi gautomis tendencijų linijos lygtimis, užpildome įmonės pelno verčių lentelę, įskaitant numatomas 2003 ir 2004 m. vertes. (8 pav.).

    Fig. 5 ir pav. matyti, kad modelis su logaritmine tendencija atitinka mažiausią aproksimacijos patikimumo reikšmę

    R2 = 0,8659

    Didžiausios R2 reikšmės atitinka modelius su daugianario tendencija: kvadratinis (R2 = 0,9263) ir kubinis (R2 = 0,933).

    3 problema

    Turėdami 1 užduotyje pateiktą automobilių transporto įmonės 1995-2002 m. pelno duomenų lentelę, turite atlikti šiuos veiksmus.

      Gaukite linijinių ir eksponentinių tendencijų linijų duomenų eilutes naudodami TREND ir GROW funkcijas.

      Naudodamiesi TREND ir GROWTH funkcijomis, sudarykite įmonės pelno prognozę 2003 ir 2004 metams.

      Sukurkite pradinių duomenų ir gautų duomenų serijų diagramą.

    Problemos sprendimas

    1 uždaviniui atlikti naudokime darbalapį (žr. 4 pav.). Pradėkime nuo funkcijos TREND:

      pasirinkite langelių diapazoną D4:D11, kuris turėtų būti užpildytas funkcijos TREND reikšmėmis, atitinkančiomis žinomus duomenis apie įmonės pelną;

      Iš meniu Įterpti iškvieskite komandą Funkcija. Pasirodžiusiame dialogo lange Funkcijų vedlys iš Statistikos kategorijos pasirinkite funkciją TREND, tada spustelėkite mygtuką Gerai. Tą pačią operaciją galima atlikti spustelėjus mygtuką (Įterpti funkciją) standartinėje įrankių juostoje.

      Pasirodžiusiame dialogo lange Funkcijos argumentai lauke Known_values_y įveskite langelių diapazoną C4:C11; lauke Known_values_x - langelių diapazonas B4:B11;

      Norėdami, kad įvesta formulė taptų masyvo formule, naudokite klavišų kombinaciją + + .

    Formulė, kurią įvedėme formulių juostoje, atrodys taip: =(TREND(C4:C11,B4:B11)).

    Dėl to langelių diapazonas D4:D11 užpildomas atitinkamomis funkcijos TREND reikšmėmis (9 pav.).

    Padaryti įmonės pelno prognozę 2003 ir 2004 metams. būtina:

      pasirinkite langelių diapazoną D12:D13, kur bus įvedamos funkcijos TREND numatytos reikšmės.

      iškvieskite funkciją TREND ir pasirodžiusiame dialogo lange Function Arguments lauke Known_values_y įveskite langelių diapazoną C4:C11; lauke Known_values_x - langelių diapazonas B4:B11; o lauke New_values_x – langelių diapazonas B12:B13.

      paverskite šią formulę į masyvo formulę naudodami klavišų kombinaciją Ctrl + Shift + Enter.

      Įvesta formulė atrodys taip: =(TREND(C4:C11;B4:B11;B12:B13)), o langelių diapazonas D12:D13 bus užpildytas numatytomis funkcijos TREND reikšmėmis (žr. 9).

    Duomenų eilutės taip pat užpildomos naudojant funkciją GROWTH, kuri naudojama netiesinių priklausomybių analizei ir veikia lygiai taip pat, kaip ir jos tiesinė atitikmuo TREND.

    10 paveiksle pateikta lentelė formulės rodymo režimu.

    Pradiniams duomenims ir gautoms duomenų serijoms diagrama parodyta pav. 11.

    4 problema

    Turėdami automobilių transporto įmonės dispečerinės paraiškų paslaugoms gavimo duomenų lentelę už laikotarpį nuo einamojo mėnesio 1 dienos iki 11 dienos, turite atlikti šiuos veiksmus.

      Gauti duomenų eilutes tiesinei regresijai: naudojant SLOPE ir INTERCEPT funkcijas; naudojant funkciją LINEST.

      Gaukite eksponentinės regresijos duomenų eilutes naudodami LGRFPRIBL funkciją.

      Naudodamiesi aukščiau pateiktomis funkcijomis, padarykite paraiškų į dispečerinę gavimo prognozę laikotarpiui nuo einamojo mėnesio 12-14 dienos.

      Sukurkite pradinių ir gautų duomenų serijų diagramą.

    Problemos sprendimas

    Atkreipkite dėmesį, kad, skirtingai nei funkcijos TREND ir GROWTH, nė viena iš aukščiau išvardytų funkcijų (SLOPE, INTERCEPT, LINEST, LGRFPRIB) nėra regresija. Šios funkcijos atlieka tik pagalbinį vaidmenį, nustatydamos būtinus regresijos parametrus.

    Tiesinės ir eksponentinės regresijos, sudarytos naudojant funkcijas SLOPE, INTERCEPT, LINEST, LGRFPRIB, jų lygčių išvaizda visada yra žinoma, priešingai nei tiesinė ir eksponentinė regresija, atitinkanti funkcijas TREND ir GROWTH.

    1 . Sukurkime tiesinę regresiją su lygtimi:

    y = mx+b

    naudojant SLOPE ir INTERCEPT funkcijas, kurių regresijos nuolydis m nustatomas funkcija SLOPE, o laisvasis terminas b – funkcija INTERCEPT.

    Norėdami tai padaryti, atliekame šiuos veiksmus:

      įveskite pradinę lentelę į langelių diapazoną A4:B14;

      parametro m reikšmė bus nustatyta langelyje C19. Iš statistikos kategorijos pasirinkite funkciją Slope; įveskite langelių diapazoną B4:B14 į žinomos_reikšmės_y lauką ir langelių diapazoną A4:A14 į lauką žinomos_reikšmės_x.

      Formulė bus įvesta langelyje C19: =SLOPE(B4:B14,A4:A14);

      Tada langelyje C4 įveskite tiesinės regresijos formulę tokia forma: =$C*A4+$D. Šioje formulėje langeliai C19 ir D19 rašomi su absoliučiomis nuorodomis (galimo kopijavimo metu langelio adresas neturėtų keistis). Absoliučios nuorodos ženklą $ galima įvesti klaviatūra arba klavišu F4, užvedus žymeklį ant langelio adreso.

    2 Naudodami užpildymo rankenėlę, nukopijuokite šią formulę į langelių diapazoną C4:C17. Gauname reikiamas duomenų eilutes (12 pav.). Atsižvelgiant į tai, kad programų skaičius yra sveikasis skaičius, lango langelio formatas skirtuke Skaičius turėtumėte nustatyti skaičių formatą su kablelio skaičiumi į 0.

    y = mx+b

    . Dabar sukurkime tiesinę regresiją, pateiktą pagal lygtį:

    naudojant funkciją LINEST.

      Norėdami tai padaryti:

      Įveskite funkciją LINEST į langelių diapazoną C20:D20 kaip masyvo formulę: =(LINEST(B4:B14,A4:A14)). Dėl to gauname parametro m reikšmę langelyje C20, o parametro b reikšmę langelyje D20;

      langelyje D4 įveskite formulę: =$C*A4+$D;

    3 nukopijuokite šią formulę naudodami užpildymo žymeklį į langelių diapazoną D4:D17 ir gaukite norimas duomenų eilutes.

    . Sudarome eksponentinę regresiją su lygtimi:

      naudojant LGRFPRIBL funkciją, ji atliekama panašiai:

      Langelių diapazone C21:D21 įvedame LGRFPRIBL funkciją kaip masyvo formulę: =( LGRFPRIBL (B4:B14,A4:A14)). Šiuo atveju parametro m reikšmė bus nustatyta langelyje C21, o parametro b reikšmė – langelyje D21;

      formulė įvedama į langelį E4: =$D*$C^A4;

    naudojant užpildymo žymeklį, ši formulė nukopijuojama į langelių diapazoną E4:E17, kuriame bus eksponentinės regresijos duomenų eilutės (žr. 12 pav.).

    Fig. 13 paveiksle parodyta lentelė, kurioje galite matyti funkcijas, kurias naudojame su reikiamais langelių diapazonais, taip pat formules. Didumas 2 R paskambino.

    determinacijos koeficientas

    Regresijos priklausomybės konstravimo uždavinys – rasti (1) modelio koeficientų m vektorių, kuriam esant koeficientas R įgyja didžiausią reikšmę.

    Visų pirma, mažiausių kvadratų metodas gali būti naudojamas tiesinių lygčių sistemai „išspręsti“. n R reikšmingumui įvertinti naudojamas Fišerio F testas, apskaičiuojamas pagal formulę

    - imties dydis (eksperimentų skaičius);

    k – modelio koeficientų skaičius. n Ir Jei F viršija tam tikrą kritinę duomenų vertę k

    Taigi R reikšmę lemia ne tik jo reikšmė, bet ir santykis tarp eksperimentų skaičiaus ir modelio koeficientų (parametrų) skaičiaus. Iš tiesų, paprasto tiesinio modelio koreliacijos koeficientas n = 2 yra lygus 1 (viena tiesė visada gali būti nubrėžta per 2 plokštumos taškus). Tačiau jei eksperimentiniai duomenys yra atsitiktiniai dydžiai, tokia R reikšme reikia pasitikėti labai atsargiai. Paprastai, norėdami gauti reikšmingą R ir patikimą regresiją, jie siekia užtikrinti, kad eksperimentų skaičius žymiai viršytų modelio koeficientų skaičių (n>k).

    Norėdami sukurti tiesinės regresijos modelį, jums reikia:

    1) parengti n eilučių ir m stulpelių sąrašą su eksperimentiniais duomenimis (stulpelis su išvesties verte Y turi būti pirmas arba paskutinis sąraše); Pavyzdžiui, paimkime duomenis iš ankstesnės užduoties, pridėdami stulpelį pavadinimu „Laikotarpio Nr.“, sunumeruokite laikotarpio skaičius nuo 1 iki 12. (tai bus reikšmės X)

    2) eikite į meniu Data/Data Analysis/Regression

    Jei meniu „Įrankiai“ trūksta elemento „Duomenų analizė“, tuomet turėtumėte eiti į elementą „Priedai“ tame pačiame meniu ir pažymėti žymimąjį laukelį „Analizės paketas“.

    3) dialogo lange „Regresija“ nustatykite:

    · įvesties intervalas Y;

    · įvesties intervalas X;

    · išvesties intervalas - viršutinis kairysis intervalo langelis, į kurį bus dedami skaičiavimo rezultatai (rekomenduojama juos įdėti į naują darbalapį);

    4) spustelėkite „Gerai“ ir analizuokite rezultatus.

    Mažiausių kvadratų (OLS) metodas leidžia įvertinti įvairius dydžius naudojant daugelio matavimų, kuriuose yra atsitiktinių paklaidų, rezultatus.

    Tarptautinių įmonių charakteristikos

    Pagrindinė šio metodo idėja yra ta, kad klaidų kvadratų suma yra laikoma problemos sprendimo tikslumo kriterijumi, kurį siekiama sumažinti. Taikant šį metodą, galima naudoti tiek skaitinius, tiek analitinius metodus.

    Visų pirma, kaip skaitmeninis įgyvendinimas, mažiausių kvadratų metodas apima kuo daugiau nežinomo atsitiktinio dydžio matavimų. Be to, kuo daugiau skaičiavimų, tuo tikslesnis bus sprendimas. Remiantis šiuo skaičiavimų rinkiniu (pradiniais duomenimis), gaunamas kitas įvertintų sprendimų rinkinys, iš kurio vėliau atrenkamas geriausias. Jei sprendinių rinkinys yra parametrizuotas, mažiausių kvadratų metodas bus sumažintas iki optimalios parametrų reikšmės.

    Kaip analitinis požiūris į LSM įgyvendinimą pradinių duomenų (matavimų) ir laukiamų sprendimų rinkinio pagrindu, nustatomas tam tikras (funkcinis), kurį galima išreikšti formule, gauta kaip tam tikra hipotezė, kurią reikia patvirtinti. Šiuo atveju mažiausiųjų kvadratų metodas yra susijęs su šios funkcijos minimumo nustatymu pirminių duomenų kvadratų klaidų rinkinyje.

    Atkreipkite dėmesį, kad tai ne pačios klaidos, o klaidų kvadratai. Kodėl? Faktas yra tas, kad dažnai matavimų nukrypimai nuo tikslios vertės yra teigiami ir neigiami. Nustatant vidurkį, paprastas sumavimas gali lemti neteisingą išvadą apie įvertinimo kokybę, nes teigiamų ir neigiamų verčių panaikinimas sumažins kelių matavimų atrankos galią. Ir, atitinkamai, vertinimo tikslumas.

    Kad taip neatsitiktų, kvadratiniai nuokrypiai sumuojami. Be to, norint suvienodinti išmatuotos vertės ir galutinio įvertinimo matmenis, išgaunama klaidų kvadratų suma

    Kai kurios MNC programos

    MNC plačiai naudojamas įvairiose srityse. Pavyzdžiui, tikimybių teorijoje ir matematinėje statistikoje metodas naudojamas norint nustatyti tokią atsitiktinio dydžio charakteristiką kaip standartinis nuokrypis, kuris nustato atsitiktinio dydžio verčių diapazono plotį.

    Jis turi daugybę programų, nes leidžia apytiksliai pateikti tam tikrą funkciją kitomis paprastesnėmis. LSM gali būti labai naudingas apdorojant stebėjimus, ir jis aktyviai naudojamas kai kuriems dydžiams įvertinti remiantis kitų matavimų rezultatais, kuriuose yra atsitiktinių klaidų. Šiame straipsnyje sužinosite, kaip „Excel“ įdiegti mažiausiųjų kvadratų skaičiavimus.

    Problemos išdėstymas naudojant konkretų pavyzdį

    Tarkime, kad yra du rodikliai X ir Y. Be to, Y priklauso nuo X. Kadangi OLS mus domina regresinės analizės požiūriu (Excel jos metodai įgyvendinami naudojant įmontuotas funkcijas), turėtume nedelsiant pereiti prie specifinė problema.

    Taigi, tegul X yra bakalėjos parduotuvės prekybos plotas, matuojamas kvadratiniais metrais, o Y – metinė apyvarta, matuojama milijonais rublių.

    Būtina numatyti, kokią apyvartą (Y) turės parduotuvė, jei joje bus tas ar kitas prekybos plotas. Akivaizdu, kad funkcija Y = f (X) didėja, nes prekybos centre parduodama daugiau prekių nei kioske.

    Keletas žodžių apie pradinių duomenų, naudojamų prognozavimui, teisingumą

    Tarkime, kad turime lentelę, sukurtą naudojant n parduotuvių duomenis.

    Matematinės statistikos duomenimis, rezultatai bus daugmaž teisingi, jei bus išnagrinėti bent 5-6 objektų duomenys. Be to, negalima naudoti „anomalių“ rezultatų. Visų pirma, elitinio mažo butiko apyvarta gali būti kelis kartus didesnė nei didelių „masmarket“ klasės mažmeninės prekybos vietų.

    Metodo esmė

    Lentelės duomenys gali būti pavaizduoti Dekarto plokštumoje taškų M 1 (x 1, y 1), ... M n (x n, y n) pavidalu. Dabar uždavinio sprendimas bus sumažintas iki aproksimacinės funkcijos y = f (x) parinkimo, kurios grafikas eina kuo arčiau taškų M 1, M 2, .. M n.

    Žinoma, galite naudoti aukšto laipsnio daugianarį, tačiau šią parinktį ne tik sunku įgyvendinti, bet ir tiesiog neteisinga, nes ji neatspindės pagrindinės tendencijos, kurią reikia aptikti. Racionaliausia išeitis – ieškoti tiesės y = ax + b, kuri geriausiai aproksimuoja eksperimentinius duomenis, tiksliau – koeficientus a ir b.

    Tikslumo įvertinimas

    Bet kokiu apytiksliu būdu ypač svarbu įvertinti jo tikslumą. Pažymėkime e i skirtumą (nuokrypį) tarp taško x i funkcinių ir eksperimentinių reikšmių, ty e i = y i - f (x i).

    Akivaizdu, kad norint įvertinti aproksimacijos tikslumą, galite naudoti nuokrypių sumą, t. y. renkantis tiesę apytiksliui X priklausomybės nuo Y pavaizdavimui, pirmenybę turėtumėte teikti tai, kurios vertė yra mažiausia. suma e i visuose nagrinėjamuose taškuose. Tačiau ne viskas taip paprasta, nes kartu su teigiamais nukrypimais bus ir neigiamų.

    Problemą galima išspręsti naudojant nuokrypių modulius arba jų kvadratus. Paskutinis metodas yra plačiausiai naudojamas. Jis naudojamas daugelyje sričių, įskaitant regresinę analizę (įdiegta Excel naudojant dvi integruotas funkcijas), ir jau seniai įrodė savo efektyvumą.

    Mažiausių kvadratų metodas

    „Excel“, kaip žinote, turi įmontuotą funkciją „AutoSum“, leidžiančią apskaičiuoti visų pasirinktame diapazone esančių verčių reikšmes. Taigi niekas netrukdys mums apskaičiuoti išraiškos reikšmės (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

    Matematiniu užrašu tai atrodo taip:

    Kadangi iš pradžių buvo nuspręsta apytiksliai naudoti tiesią liniją, turime:

    Taigi, norint rasti tiesę, kuri geriausiai apibūdina specifinę dydžių X ir Y priklausomybę, reikia apskaičiuoti dviejų kintamųjų funkcijos minimumą:

    Norėdami tai padaryti, naujų kintamųjų a ir b dalines išvestis turite prilyginti nuliui ir išspręsti primityvią sistemą, susidedančią iš dviejų lygčių su 2 formos nežinomaisiais:

    Atlikę keletą paprastų transformacijų, įskaitant padalijimą iš 2 ir manipuliavimą sumomis, gauname:

    Ją išspręsdami, pavyzdžiui, Cramerio metodu, gauname stacionarų tašką su tam tikrais koeficientais a * ir b *. Tai yra minimumas, t.y., norint nuspėti, kokią apyvartą turės parduotuvė tam tikrame plote, tinka tiesė y = a * x + b *, kuri yra nagrinėjamo pavyzdžio regresijos modelis. Žinoma, tai neleis rasti tikslaus rezultato, tačiau padės susidaryti idėją, ar konkrečios srities pirkimas parduotuvės kreditu apsipirks.

    Kaip įdiegti mažiausią kvadratų skaičių „Excel“.

    „Excel“ turi funkciją, skirtą reikšmėms apskaičiuoti naudojant mažiausius kvadratus. Jis turi tokią formą: „TREND“ (žinomos Y reikšmės; žinomos X reikšmės; naujos X reikšmės; konstanta). Taikykime savo lentelei formulę, skirtą OLS skaičiavimui programoje „Excel“.

    Norėdami tai padaryti, įveskite „=“ ženklą langelyje, kuriame turėtų būti rodomas „Excel“ skaičiavimo, naudojant mažiausiųjų kvadratų metodą, rezultatas ir pasirinkite funkciją „TREND“. Atsidariusiame lange užpildykite atitinkamus laukus, pažymėdami:

    • žinomų Y verčių diapazonas (šiuo atveju prekybos apyvartos duomenys);
    • diapazonas x 1 , …x n , t. y. prekybos ploto dydis;
    • tiek žinomos, tiek nežinomos x reikšmės, kurioms reikia sužinoti apyvartos dydį (informaciją apie jų vietą darbalapyje žr. toliau).

    Be to, formulėje yra loginis kintamasis „Const“. Jei į atitinkamą lauką įvesite 1, tai reikš, kad turėtumėte atlikti skaičiavimus, darant prielaidą, kad b = 0.

    Jei reikia sužinoti daugiau nei vienos x reikšmės prognozę, tada įvedus formulę nereikėtų spausti „Enter“, o klaviatūroje reikia įvesti kombinaciją „Shift“ + „Control“ + „Enter“.

    Kai kurios funkcijos

    Regresinė analizė gali būti prieinama net manekenams. „Excel“ formulė, skirta numatyti nežinomų kintamųjų masyvo reikšmę – TREND – gali būti naudojama net tiems, kurie niekada negirdėjo apie mažiausius kvadratus. Pakanka tik žinoti kai kurias jo darbo ypatybes. Visų pirma:

    • Jei vienoje eilutėje ar stulpelyje išdėstysite žinomų kintamojo y reikšmių diapazoną, kiekviena eilutė (stulpelis) su žinomomis x reikšmėmis bus suvokiama kaip atskiras kintamasis.
    • Jei diapazonas su žinomu x nenurodytas lange TREND, tada, kai naudojate funkciją "Excel", programa traktuos jį kaip masyvą, sudarytą iš sveikųjų skaičių, kurių skaičius atitinka diapazoną su nurodytomis vertėmis. y kintamasis.
    • Norint išvesti „numatytų“ reikšmių masyvą, tendencijos skaičiavimo išraiška turi būti įvesta kaip masyvo formulė.
    • Jei nenurodomos naujos x reikšmės, funkcija TREND laiko jas lygiomis žinomoms. Jei jie nenurodyti, 1 masyvas laikomas argumentu; 2; 3; 4;…, kuris yra proporcingas diapazonui su jau nurodytais parametrais y.
    • Diapazonas, kuriame yra naujos x reikšmės, turi turėti tokias pačias ar daugiau eilučių arba stulpelių kaip ir diapazonas, kuriame yra nurodytos y reikšmės. Kitaip tariant, jis turi būti proporcingas nepriklausomiems kintamiesiems.
    • Masyve su žinomomis x reikšmėmis gali būti keli kintamieji. Tačiau jei mes kalbame tik apie vieną, tada reikalaujama, kad diapazonai su nurodytomis x ir y reikšmėmis būtų proporcingi. Jei yra keli kintamieji, būtina, kad diapazonas su nurodytomis y reikšmėmis tilptų į vieną stulpelį arba vieną eilutę.

    PRODUKCIJOS funkcija

    Įdiegta naudojant kelias funkcijas. Vienas iš jų vadinasi „PROGNAVIMAS“. Jis panašus į „TREND“, ty pateikia skaičiavimų, naudojant mažiausių kvadratų metodą, rezultatą. Tačiau tik vienam X, kurio Y reikšmė nežinoma.

    Dabar jūs žinote „Excel“ formules, skirtas manekenams, kurios leidžia numatyti būsimą konkretaus rodiklio reikšmę pagal tiesinę tendenciją.



    Ar jums patiko straipsnis? Pasidalinkite su draugais!