Prečo sa používa metóda najmenších štvorcov? Prípad polynomického modelu

Metóda najmenších štvorcov

V záverečnej lekcii témy sa zoznámime s najznámejšou aplikáciou FNP, ktorá nachádza najširšie uplatnenie v rôznych oblastiach vedy a praktickej činnosti. Môže to byť fyzika, chémia, biológia, ekonómia, sociológia, psychológia a tak ďalej a tak ďalej. Z vôle osudu sa často musím popasovať s ekonomikou, a preto vám dnes sprostredkujem výlet do úžasnej krajiny tzv. Ekonometria=) ...Ako to nechceš?! Je to tam veľmi dobré – stačí sa rozhodnúť! ...Ale to, čo asi určite chcete, je naučiť sa riešiť problémy metóda najmenších štvorcov. A hlavne pilní čitatelia sa ich naučia riešiť nielen presne, ale aj VEĽMI RÝCHLO ;-) Ale najprv všeobecné vyjadrenie problému+ sprievodný príklad:

Predpokladajme, že v určitej tematickej oblasti sa študujú ukazovatele, ktoré majú kvantitatívne vyjadrenie. Zároveň existujú všetky dôvody domnievať sa, že ukazovateľ závisí od ukazovateľa. Tento predpoklad môže byť buď vedecká hypotéza alebo založená na základnom zdravom rozume. Nechajme však vedu bokom a preskúmajme chutnejšie oblasti – menovite obchody s potravinami. Označme podľa:

– predajná plocha predajne potravín, m2,
– ročný obrat obchodu s potravinami, milióny rubľov.

Je úplne jasné, že čím väčšia plocha predajne, tým väčší bude vo väčšine prípadov jej obrat.

Predpokladajme, že po vykonaní pozorovaní/experimentov/výpočtov/tancov s tamburínou máme k dispozícii číselné údaje:

Pri obchodoch s potravinami je myslím všetko jasné: - toto je plocha 1. predajne, - jej ročný obrat, - plocha 2. predajne, - jej ročný obrat atď. Mimochodom, vôbec nie je potrebné mať prístup k utajovaným materiálom - pomerne presné posúdenie obchodného obratu je možné získať pomocou matematická štatistika. Nenechajme sa však rozptyľovať, kurz komerčnej špionáže je už zaplatený =)

Tabuľkové údaje môžu byť tiež zapísané vo forme bodov a zobrazené v známej forme karteziánsky systém .

Odpovedzme si na dôležitú otázku: Koľko bodov je potrebných na kvalitatívnu štúdiu?

Čím väčšie, tým lepšie. Minimálna prijateľná sada pozostáva z 5-6 bodov. Okrem toho, keď je množstvo údajov malé, „anomálne“ výsledky nemožno zahrnúť do vzorky. Takže napríklad malý elitný obchod môže zarobiť rádovo viac ako „jeho kolegovia“, čím skresľuje všeobecný vzorec, ktorý musíte nájsť!



Veľmi zjednodušene povedané, musíme vybrať funkciu, harmonogram ktorý prechádza čo najbližšie k bodom . Táto funkcia sa nazýva aproximácia (aproximácia - aproximácia) alebo teoretická funkcia . Vo všeobecnosti sa tu okamžite objaví zjavný „súťažník“ - polynóm vysokého stupňa, ktorého graf prechádza VŠETKÝMI bodmi. Táto možnosť je však komplikovaná a často jednoducho nesprávna. (keďže graf sa bude neustále „zacykliť“ a zle odráža hlavný trend).

Hľadaná funkcia teda musí byť celkom jednoduchá a zároveň primerane odrážať závislosť. Ako asi tušíte, jedna z metód na nájdenie takýchto funkcií je tzv metóda najmenších štvorcov. Najprv sa pozrime na jeho podstatu všeobecne. Nech nejaká funkcia aproximuje experimentálne dáta:


Ako vyhodnotiť presnosť tejto aproximácie? Vypočítajme aj rozdiely (odchýlky) medzi experimentálnymi a funkčnými hodnotami (študujeme kresbu). Prvá myšlienka, ktorá príde na myseľ, je odhadnúť, aká veľká je suma, ale problém je v tom, že rozdiely môžu byť negatívne (Napríklad, ) a odchýlky v dôsledku takéhoto súčtu sa navzájom vyrušia. Preto ako odhad presnosti aproximácie treba brať súčet modulov odchýlky:

alebo zbalené: (ak niekto nevie: je ikona súčtu a – pomocná premenná „počítadla“, ktorá nadobúda hodnoty od 1 do ) .

Aproximáciou experimentálnych bodov s rôznymi funkciami získame rôzne hodnoty a samozrejme, ak je tento súčet menší, je táto funkcia presnejšia.

Takáto metóda existuje a je tzv metóda najmenšieho modulu. V praxi sa však výrazne rozšíril metóda najmenších štvorcov, v ktorom možné záporné hodnoty nie sú eliminované modulom, ale kvadratúrou odchýlok:



, po ktorom sú snahy zamerané na výber funkcie takej, že súčet štvorcových odchýlok bol čo najmenší. V skutočnosti odtiaľ pochádza názov metódy.

A teraz sa vrátime k ďalšiemu dôležitému bodu: ako je uvedené vyššie, vybraná funkcia by mala byť celkom jednoduchá - existuje však aj veľa takýchto funkcií: lineárne , hyperbolický , exponenciálny , logaritmický , kvadratický atď. A, samozrejme, tu by som chcel okamžite „zmenšiť pole pôsobnosti“. Ktorú triedu funkcií by som si mal vybrať pre výskum? Primitívna, ale účinná technika:

– Najjednoduchší spôsob je znázorniť body na výkrese a analyzovať ich umiestnenie. Ak majú tendenciu bežať v priamej línii, mali by ste hľadať rovnica priamky s optimálnymi hodnotami a . Inými slovami, úlohou je nájsť TAKÉ koeficienty, aby súčet kvadrátov odchýlok bol najmenší.

Ak sú body umiestnené napr hyperbola, potom je samozrejme jasné, že lineárna funkcia poskytne zlú aproximáciu. V tomto prípade hľadáme „najpriaznivejšie“ koeficienty pre rovnicu hyperboly – tie, ktoré dávajú minimálny súčet štvorcov .

Teraz si všimnite, že v oboch prípadoch hovoríme o funkcie dvoch premenných, ktorých argumenty sú vyhľadávané parametre závislosti:

A v podstate potrebujeme vyriešiť štandardný problém – nájsť minimálna funkcia dvoch premenných.

Spomeňme si na náš príklad: predpokladajme, že „ukladacie“ body majú tendenciu byť umiestnené v priamej línii a existuje každý dôvod veriť prítomnosti lineárna závislosť obrat z maloobchodných priestorov. Nájdite TAKÉTO koeficienty „a“ ​​a „be“ také, že sú to súčet kvadrátov odchýlok bol najmenší. Všetko je ako obvykle - prvé Parciálne deriváty 1. rádu. Podľa pravidlo linearity Priamo pod ikonou sumy môžete rozlišovať:

Ak chcete použiť tieto informácie na esej alebo semestrálnu prácu, budem veľmi vďačný za odkaz v zozname zdrojov, kde nájdete takéto podrobné výpočty:

Vytvorme štandardný systém:

Každú rovnicu znížime o „dve“ a navyše „rozdelíme“ súčty:

Poznámka : nezávisle analyzovať, prečo je možné „a“ a „byť“ vyňať za ikonu súčtu. Mimochodom, formálne sa to dá urobiť so sumou

Prepíšme systém do „aplikovanej“ formy:

po ktorom sa začína objavovať algoritmus na riešenie nášho problému:

Poznáme súradnice bodov? Vieme. čiastky môžeme to nájsť? Jednoducho. Urobme to najjednoduchšie sústava dvoch lineárnych rovníc o dvoch neznámych(„a“ a „byť“). Systém riešime napr. Cramerova metóda, v dôsledku čoho získame stacionárny bod. Kontrola postačujúca podmienka pre extrém, môžeme overiť, že v tomto bode je funkcia dosiahne presne minimálne. Kontrola zahŕňa dodatočné výpočty, a preto ju necháme v zákulisí (v prípade potreby je možné zobraziť chýbajúci rámTu ) . Vyvodzujeme konečný záver:

Funkcia najlepšia cesta (aspoň v porovnaní s akoukoľvek inou lineárnou funkciou) približuje experimentálne body . Zhruba povedané, jeho graf prechádza čo najbližšie k týmto bodom. V tradícii ekonometrie sa nazýva aj výsledná aproximačná funkcia párová lineárna regresná rovnica .

Uvažovaný problém má veľký praktický význam. V našej príkladnej situácii, Eq. umožňuje predpovedať, aký obchodný obrat ("Igrek") obchod bude mať jednu alebo druhú hodnotu predajnej plochy (jeden alebo iný význam „x“). Áno, výsledná predpoveď bude len predpoveďou, no v mnohých prípadoch sa ukáže ako celkom presná.

Budem analyzovať iba jeden problém so „skutočnými“ číslami, pretože v ňom nie sú žiadne ťažkosti - všetky výpočty sú na úrovni školských osnov pre 7. - 8. ročník. V 95 percentách prípadov budete vyzvaní, aby ste našli len lineárnu funkciu, ale na samom konci článku ukážem, že nájsť rovnice optimálnej hyperboly, exponenciálnej a niektorých ďalších funkcií nie je o nič ťažšie.

Vlastne ostáva už len rozdávať sľúbené dobroty – aby ste sa takéto príklady naučili riešiť nielen presne, ale aj rýchlo. Starostlivo študujeme štandard:

Úloha

Ako výsledok štúdia vzťahu medzi dvoma ukazovateľmi sa získali nasledujúce dvojice čísel:

Pomocou metódy najmenších štvorcov nájdite lineárnu funkciu, ktorá najlepšie aproximuje empirickú funkciu (skúsený)údajov. Vytvorte nákres, na ktorom zostrojíte experimentálne body a graf aproximačnej funkcie v kartézskom pravouhlom súradnicovom systéme . Nájdite súčet štvorcových odchýlok medzi empirickými a teoretickými hodnotami. Zistite, či by funkcia bola lepšia (z pohľadu metódy najmenších štvorcov) priblížiť experimentálne body.

Upozorňujeme, že význam „x“ je prirodzený a má charakteristický zmysluplný význam, o ktorom budem hovoriť o niečo neskôr; ale, samozrejme, môžu byť aj zlomkové. Okrem toho v závislosti od obsahu konkrétnej úlohy môžu byť hodnoty „X“ aj „hra“ úplne alebo čiastočne záporné. Dostali sme „netvárnu“ úlohu a začíname s ňou Riešenie:

Nájdeme koeficienty optimálnej funkcie ako riešenie systému:

Na účely kompaktnejšieho záznamu možno premennú „počítadlo“ vynechať, pretože už je jasné, že sčítanie sa vykonáva od 1 do .

Je vhodnejšie vypočítať požadované množstvá v tabuľkovej forme:


Výpočty je možné vykonávať na mikrokalkulačke, ale oveľa lepšie je použiť Excel - rýchlejšie a bez chýb; pozrite si krátke video:

Dostávame teda nasledovné systém:

Tu môžete vynásobiť druhú rovnicu 3 a odčítajte 2. od 1. rovnice člen po člene. Ale to je šťastie - v praxi systémy často nie sú darom a v takýchto prípadoch šetrí Cramerova metóda:
, čo znamená, že systém má jedinečné riešenie.

Skontrolujme to. Chápem, že to nechcete, ale prečo preskakovať chyby tam, kde ich absolútne nemožno vynechať? Nájdené riešenie dosadíme na ľavú stranu každej rovnice systému:

Získajú sa pravé strany zodpovedajúcich rovníc, čo znamená, že systém je vyriešený správne.

Požadovaná aproximačná funkcia: – od všetky lineárne funkcie Je to ona, ktorá najlepšie aproximuje experimentálne údaje.

Na rozdiel od rovno závislosť obratu predajne od jej plochy, zistená závislosť je obrátene (zásada „čím viac, tým menej“), a túto skutočnosť okamžite odhalí negatív sklon. Funkcia nám hovorí, že so zvýšením určitého ukazovateľa o 1 jednotku sa hodnota závislého ukazovateľa znižuje priemer o 0,65 jednotky. Ako sa hovorí, čím vyššia je cena pohánky, tým menej sa predáva.

Na vykreslenie aproximačnej funkcie nájdime jej dve hodnoty:

a vykonajte kreslenie:

Zostrojená priamka je tzv trendová čiara (konkrétne lineárna trendová čiara, t. j. vo všeobecnom prípade trend nemusí byť nevyhnutne priamka). Každý pozná výraz „byť v trende“ a myslím si, že tento výraz nepotrebuje ďalší komentár.

Vypočítajme súčet štvorcových odchýlok medzi empirickými a teoretickými hodnotami. Geometricky je to súčet druhých mocnín dĺžok „malinových“ segmentov (dve z nich sú také malé, že ich ani nevidno).

Zhrňme si výpočty do tabuľky:


Opäť sa dajú urobiť ručne, pre prípad uvediem príklad pre 1. bod:

ale oveľa efektívnejšie je to urobiť už známym spôsobom:

Opakujeme ešte raz: Čo znamená získaný výsledok? Od všetky lineárne funkcie y funkciu ukazovateľ je najmenší, to znamená, že vo svojej rodine je to najlepšia aproximácia. A tu, mimochodom, posledná otázka problému nie je náhodná: čo ak navrhovaná exponenciálna funkcia bolo by lepšie priblížiť experimentálne body?

Nájdite zodpovedajúci súčet štvorcových odchýlok - na rozlíšenie ich označím písmenom „epsilon“. Technika je úplne rovnaká:


A ešte raz, pre každý prípad, výpočty k 1. bodu:

V Exceli používame štandardnú funkciu EXP (syntax nájdete v Pomocníkovi programu Excel).

Záver: , čo znamená, že exponenciálna funkcia aproximuje experimentálne body horšie ako priamka .

Tu však treba poznamenať, že „horšie“ je ešte neznamená, čo je zle. Teraz som vytvoril graf tejto exponenciálnej funkcie - a tiež prechádza blízko k bodom - natoľko, že bez analytického výskumu je ťažké povedať, ktorá funkcia je presnejšia.

Toto uzatvára riešenie a vraciam sa k otázke prirodzených hodnôt argumentu. V rôznych štúdiách, zvyčajne ekonomických alebo sociologických, sa prirodzené „X“ používajú na číslovanie mesiacov, rokov alebo iných rovnakých časových intervalov. Zvážte napríklad nasledujúci problém:

K dispozícii sú nasledujúce údaje o maloobchodnom obrate predajne za prvý polrok:

Pomocou analytického priameho zarovnania stanovte objem obratu za júl.

Áno, žiadny problém: očíslujeme mesiace 1, 2, 3, 4, 5, 6 a použijeme zvyčajný algoritmus, výsledkom čoho je rovnica - jediná vec je, že pokiaľ ide o čas, zvyčajne používajú písmeno "te" (aj keď to nie je kritické). Výsledná rovnica ukazuje, že v prvom polroku sa obchodný obrat zvýšil v priemere o 27,74 jednotiek. za mesiac. Zoberme si predpoveď na júl (mesiac č. 7): d.e.

A takýchto úloh je nespočetne veľa. Tí, ktorí si to želajú, môžu využiť doplnkovú službu, a to moju Excel kalkulačka (demo verzia), ktorý rieši analyzovaný problém takmer okamžite! K dispozícii je pracovná verzia programu výmenou za alebo pre symbolický poplatok.

Na konci lekcie stručné informácie o hľadaní závislostí niektorých ďalších typov. V skutočnosti nie je veľa čo povedať, pretože základný prístup a algoritmus riešenia zostávajú rovnaké.

Predpokladajme, že usporiadanie experimentálnych bodov pripomína hyperbolu. Potom, aby ste našli koeficienty najlepšej hyperboly, musíte nájsť minimum funkcie - ktokoľvek môže vykonať podrobné výpočty a dospieť k podobnému systému:

Z formálneho technického hľadiska sa získava z „lineárneho“ systému (označme to hviezdičkou) nahradenie "x" znakom . No a čo tie sumy? vypočítajte, po ktorom sa dosiahnu optimálne koeficienty „a“ ​​a „be“ na dosah ruky.

Ak existujú všetky dôvody domnievať sa, že body sú umiestnené pozdĺž logaritmickej krivky, potom na nájdenie optimálnych hodnôt nájdeme minimum funkcie . Formálne je potrebné v systéme (*) nahradiť:

Pri vykonávaní výpočtov v Exceli použite funkciu LN. Priznám sa, že by pre mňa nebolo zvlášť ťažké vytvoriť kalkulačky pre každý z uvažovaných prípadov, ale stále by bolo lepšie, keby ste si výpočty „naprogramovali“ sami. Lekčné videá, ktoré vám pomôžu.

S exponenciálnou závislosťou je situácia trochu komplikovanejšia. Aby sme to zredukovali na lineárny prípad, vezmeme funkciu logaritmu a použijeme ju vlastnosti logaritmu:

Teraz, porovnaním výslednej funkcie s lineárnou funkciou, dospejeme k záveru, že v systéme (*) musí byť nahradené , a – . Pre pohodlie označme:

Upozorňujeme, že systém je riešený s ohľadom na a, a preto po nájdení koreňov nesmiete zabudnúť nájsť samotný koeficient.

Aby sme priblížili experimentálne body optimálna parabola , treba nájsť minimálna funkcia troch premenných . Po vykonaní štandardných akcií dostaneme nasledujúce „pracovné“ systém:

Áno, samozrejme, je tu viac súm, ale pri používaní vašej obľúbenej aplikácie nie sú žiadne ťažkosti. A nakoniec vám poviem, ako rýchlo vykonať kontrolu pomocou programu Excel a vytvoriť požadovanú trendovú čiaru: vytvorte bodový graf, vyberte ľubovoľný z bodov pomocou myši a kliknite pravým tlačidlom myši vyberte možnosť "Pridať trendovú čiaru". Ďalej vyberte typ grafu a na karte "Možnosti" aktivovať možnosť "Zobraziť rovnicu na diagrame". OK

Ako vždy chcem ukončiť článok krásnou frázou a takmer som napísal: „Buďte v trende!“ Časom však zmenil názor. A nie preto, že je to stereotypné. Neviem ako u koho, ale propagovaný americký a hlavne európsky trend sa mi veľmi nechce =) Preto prajem každému z vás, aby ste sa držali svojej línie!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Metóda najmenších štvorcov je jednou z najbežnejších a najrozvinutejších vďaka jej jednoduchosť a efektívnosť metód odhadu parametrov lineárnych ekonometrických modelov. Zároveň je potrebné pri jeho používaní dbať na určitú opatrnosť, pretože modely skonštruované pomocou neho nemusia spĺňať množstvo požiadaviek na kvalitu svojich parametrov a v dôsledku toho „dobre“ neodrážajú vzorce vývoja procesov. dosť.

Pozrime sa podrobnejšie na postup odhadu parametrov lineárneho ekonometrického modelu metódou najmenších štvorcov. Takýto model môže byť vo všeobecnosti reprezentovaný rovnicou (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t.

Počiatočný údaj pri odhade parametrov a 0 , a 1 ,..., a n je vektor hodnôt závislej premennej r= (y 1 , y 2 , ... , y T)“ a matica hodnôt nezávislých premenných

v ktorej prvý stĺpec pozostávajúci z jednotiek zodpovedá modelovému koeficientu.

Metóda najmenších štvorcov dostala svoj názov na základe základného princípu, že odhady parametrov získané na jej základe musia spĺňať: súčet štvorcov chyby modelu by mal byť minimálny.

Príklady riešenia úloh metódou najmenších štvorcov

Príklad 2.1. Obchodný podnik má sieť 12 predajní, informácie o činnosti ktorých sú uvedené v tabuľke. 2.1.

Vedenie podniku by chcelo vedieť, ako závisí veľkosť ročného obratu od predajnej plochy predajne.

Tabuľka 2.1

Číslo predajne Ročný obrat, milióny rubľov. Predajná plocha, tis. m2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Riešenie najmenších štvorcov. Označme ročný obrat tohto obchodu, milióny rubľov; - predajná plocha predajne, tisíc m2.

Obr.2.1. Bodový graf pre príklad 2.1

Na určenie tvaru funkčného vzťahu medzi premennými a zostrojíme rozptylový diagram (obr. 2.1).

Na základe rozptylového diagramu môžeme konštatovať, že ročný obrat je pozitívne závislý od maloobchodnej plochy (t. j. y sa bude zvyšovať s rastúcim ). Najvhodnejšia forma funkčného spojenia je lineárne.

Informácie pre ďalšie výpočty sú uvedené v tabuľke. 2.2. Pomocou metódy najmenších štvorcov odhadujeme parametre lineárneho jednofaktorového ekonometrického modelu

Tabuľka 2.2

t y t x 1 t y t 2 x 1t 2 x 1t r t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Priemerná 68,29 0,89

teda

Preto s nárastom maloobchodnej plochy o 1 000 m2, ak sú ostatné veci rovnaké, priemerný ročný obrat sa zvyšuje o 67,8871 milióna rubľov.

Príklad 2.2. Vedenie spoločnosti si všimlo, že ročný obrat nezávisí len od predajnej plochy predajne (pozri príklad 2.1), ale aj od priemernej návštevnosti. Príslušné informácie sú uvedené v tabuľke. 2.3.

Tabuľka 2.3

Riešenie. Označme - priemerný počet návštevníkov th obchodu za deň, tisíc ľudí.

Na určenie tvaru funkčného vzťahu medzi premennými a zostrojíme rozptylový diagram (obr. 2.2).

Na základe bodového grafu môžeme konštatovať, že ročný obrat je pozitívne závislý od priemerného počtu návštevníkov za deň (t. j. y sa bude zvyšovať s rastúcim ). Forma funkčnej závislosti je lineárna.

Ryža. 2.2. Bodový graf pre príklad 2.2

Tabuľka 2.4

t x 2t x 2t 2 y t x 2 t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Priemerná 10,65

Vo všeobecnosti je potrebné určiť parametre dvojfaktorového ekonometrického modelu

y t = a 0 + a 1 x 1 t + a 2 x 2 t + ε t

Informácie potrebné pre ďalšie výpočty sú uvedené v tabuľke. 2.4.

Odhadnime parametre lineárneho dvojfaktorového ekonometrického modelu metódou najmenších štvorcov.

teda

Odhad koeficientu =61,6583 ukazuje, že pri nezmenených ostatných okolnostiach sa pri zvýšení predajnej plochy o 1 tis. m 2 zvýši ročný obrat v priemere o 61,6583 mil. rubľov.

Odhad koeficientu = 2,2748 ukazuje, že pri ostatných nezmenených pomeroch pri náraste priemernej návštevnosti na 1 tisíc ľudí. za deň sa ročný obrat zvýši v priemere o 2,2748 milióna rubľov.

Príklad 2.3. Použitie informácií uvedených v tabuľke. 2.2 a 2.4 odhadnite parameter jednofaktorového ekonometrického modelu

kde je stredná hodnota ročného obratu tohto obchodu, milióny rubľov; - centrovaná hodnota priemerného denného počtu návštevníkov t-tej predajne, tisíc ľudí. (pozri príklady 2.1-2.2).

Riešenie.Ďalšie informácie potrebné pre výpočty sú uvedené v tabuľke. 2.5.

Tabuľka 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Suma 48,4344 431,0566

Pomocou vzorca (2.35) dostaneme

teda

http://www.cleverstudents.ru/articles/mnk.html

Príklad.

Experimentálne údaje o hodnotách premenných X A pri sú uvedené v tabuľke.

V dôsledku ich zarovnania sa získa funkcia

Použitím metóda najmenších štvorcov, aproximovať tieto údaje lineárnou závislosťou y=ax+b(nájdite parametre A A b). Zistite, ktorá z dvoch čiar lepšie (v zmysle metódy najmenších štvorcov) zarovnáva experimentálne údaje. Urobte si kresbu.

Riešenie.

V našom príklade n=5. Tabuľku vypĺňame pre pohodlie výpočtu súm, ktoré sú zahrnuté vo vzorcoch požadovaných koeficientov.

Hodnoty vo štvrtom riadku tabuľky sa získajú vynásobením hodnôt v 2. riadku hodnotami v 3. riadku pre každé číslo i.

Hodnoty v piatom riadku tabuľky sa získajú umocnením hodnôt v 2. riadku pre každé číslo i.

Hodnoty v poslednom stĺpci tabuľky sú súčty hodnôt v riadkoch.

Na zistenie koeficientov používame vzorce metódy najmenších štvorcov A A b. Do nich nahradíme zodpovedajúce hodnoty z posledného stĺpca tabuľky:

teda y = 0,165 x + 2,184- požadovaná približná priamka.

Zostáva zistiť, ktorý z riadkov y = 0,165 x + 2,184 alebo lepšie aproximuje pôvodné údaje, to znamená robí odhad pomocou metódy najmenších štvorcov.

Dôkaz.

Takže keď sa nájde A A b funkcia nadobúda najmenšiu hodnotu, je potrebné, aby v tomto bode bola matica kvadratického tvaru diferenciálu druhého rádu pre funkciu bol pozitívny jednoznačný. Ukážme to.

Rozdiel druhého rádu má tvar:

Teda

Preto má matica kvadratickej formy tvar

a hodnoty prvkov nezávisia od A A b.

Ukážme, že matica je pozitívne definitívna. Aby to bolo možné, uhlové maloletí musia byť pozitívne.

Uhlová moll prvého rádu . Nerovnosť je prísna, keďže body

Aproximácia experimentálnych údajov je metóda založená na nahradení experimentálne získaných údajov analytickou funkciou, ktorá sa v uzlových bodoch najviac zhoduje s pôvodnými hodnotami (údaje získané počas experimentu alebo experimentu). V súčasnosti existujú dva spôsoby, ako definovať analytickú funkciu:

Zostrojením n-stupňového interpolačného polynómu, ktorý prejde priamo cez všetky body dané dátové pole. V tomto prípade je aproximačná funkcia prezentovaná vo forme: interpolačného polynómu v Lagrangeovom tvare alebo interpolačného polynómu v Newtonovom tvare.

Zostrojením n-stupňového aproximačného polynómu, ktorý prejde v bezprostrednej blízkosti bodov z daného dátového poľa. Aproximačná funkcia teda vyhladzuje všetok náhodný šum (alebo chyby), ktoré môžu vzniknúť počas experimentu: namerané hodnoty počas experimentu závisia od náhodných faktorov, ktoré kolíšu podľa vlastných náhodných zákonov (chyby merania alebo prístroja, nepresnosť alebo experimentálne chyby). V tomto prípade je aproximačná funkcia určená metódou najmenších štvorcov.

Metóda najmenších štvorcov(v anglickojazyčnej literatúre Ordinary Least Squares, OLS) je matematická metóda založená na určení aproximačnej funkcie, ktorá je zostrojená v tesnej blízkosti bodov z daného poľa experimentálnych údajov. Blízkosť pôvodnej a aproximačnej funkcie F(x) je určená numerickou mierou, a to: súčet kvadrátov odchýlok experimentálnych dát od aproximačnej krivky F(x) by mal byť najmenší.

Aproximačná krivka vytvorená metódou najmenších štvorcov

Používa sa metóda najmenších štvorcov:

Riešiť preurčené sústavy rovníc, keď počet rovníc presahuje počet neznámych;

Nájsť riešenie v prípade obyčajných (nie preurčených) nelineárnych sústav rovníc;

Na aproximáciu bodových hodnôt pomocou nejakej aproximačnej funkcie.

Aproximačná funkcia pomocou metódy najmenších štvorcov je určená z podmienky minimálneho súčtu druhých mocnín odchýlok vypočítanej aproximačnej funkcie z daného poľa experimentálnych dát. Toto kritérium metódy najmenších štvorcov je napísané ako nasledujúci výraz:

Hodnoty vypočítanej aproximačnej funkcie v uzlových bodoch,

Dané pole experimentálnych údajov v uzlových bodoch.

Kvadratické kritérium má množstvo „dobrých“ vlastností, ako je diferencovateľnosť, ktorá poskytuje jedinečné riešenie aproximačného problému s polynomiálnymi aproximačnými funkciami.

V závislosti od podmienok úlohy je aproximačná funkcia polynóm stupňa m

Stupeň aproximačnej funkcie nezávisí od počtu uzlových bodov, ale jej rozmer musí byť vždy menší ako rozmer (počet bodov) daného experimentálneho dátového poľa.

∙ Ak je stupeň aproximačnej funkcie m=1, tak tabuľkovú funkciu aproximujeme priamkou (lineárna regresia).

∙ Ak je stupeň aproximačnej funkcie m=2, tak tabuľkovú funkciu aproximujeme kvadratickou parabolou (kvadratická aproximácia).

∙ Ak je stupeň aproximačnej funkcie m=3, tak tabuľkovú funkciu aproximujeme kubickou parabolou (kubickou aproximáciou).

Vo všeobecnom prípade, keď je potrebné zostrojiť aproximačný polynóm stupňa m pre dané tabuľkové hodnoty, podmienka pre minimum súčtu kvadrátov odchýlok nad všetkými uzlovými bodmi sa prepíše do tohto tvaru:

- neznáme koeficienty aproximačného polynómu stupňa m;

Počet zadaných hodnôt tabuľky.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné . Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc: otvorte zátvorky a presuňte voľné členy na pravú stranu výrazu. Výsledkom je, že výsledný systém lineárnych algebraických výrazov bude napísaný v tejto forme:

Tento systém lineárnych algebraických výrazov možno prepísať do maticovej formy:

Výsledkom bola sústava lineárnych rovníc rozmeru m+1, ktorá pozostáva z m+1 neznámych. Tento systém je možné riešiť pomocou akejkoľvek metódy na riešenie lineárnych algebraických rovníc (napríklad Gaussova metóda). V dôsledku riešenia sa nájdu neznáme parametre aproximačnej funkcie, ktoré poskytujú minimálny súčet kvadrátov odchýlok aproximačnej funkcie od pôvodných údajov, t.j. najlepšia možná kvadratická aproximácia. Malo by sa pamätať na to, že ak sa zmení čo i len jedna hodnota zdrojových údajov, všetky koeficienty zmenia svoje hodnoty, pretože sú úplne určené zdrojovými údajmi.

Aproximácia zdrojových údajov lineárnou závislosťou

(lineárna regresia)

Ako príklad uvažujme techniku ​​na určenie aproximačnej funkcie, ktorá je špecifikovaná vo forme lineárnej závislosti. V súlade s metódou najmenších štvorcov sa podmienka pre minimálny súčet štvorcových odchýlok zapisuje v nasledujúcom tvare:

Súradnice uzlov tabuľky;

Neznáme koeficienty aproximačnej funkcie, ktorá je špecifikovaná ako lineárna závislosť.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné. Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc.

Výslednú sústavu lineárnych rovníc riešime. Koeficienty aproximačnej funkcie v analytickej forme sa určujú nasledovne (Cramerova metóda):

Tieto koeficienty zabezpečujú konštrukciu lineárnej aproximačnej funkcie v súlade s kritériom minimalizácie súčtu štvorcov aproximačnej funkcie z daných tabuľkových hodnôt (experimentálne dáta).

Algoritmus na implementáciu metódy najmenších štvorcov

1. Počiatočné údaje:

Je špecifikované pole experimentálnych údajov s počtom meraní N

Je špecifikovaný stupeň aproximačného polynómu (m).

2. Algoritmus výpočtu:

2.1. Koeficienty sú určené na zostavenie sústavy rovníc s rozmermi

Koeficienty sústavy rovníc (ľavá strana rovnice)

- index čísla stĺpca štvorcovej matice sústavy rovníc

Voľné členy sústavy lineárnych rovníc (pravá strana rovnice)

- index čísla riadku štvorcovej matice sústavy rovníc

2.2. Zostavenie sústavy lineárnych rovníc s dimenziou .

2.3. Riešenie sústavy lineárnych rovníc na určenie neznámych koeficientov aproximačného polynómu stupňa m.

2.4 Určenie súčtu kvadrátov odchýlok aproximačného polynómu od pôvodných hodnôt vo všetkých uzlových bodoch

Nájdená hodnota súčtu kvadrátov odchýlok je minimálna možná hodnota.

Aproximácia pomocou iných funkcií

Treba poznamenať, že pri aproximácii pôvodných údajov metódou najmenších štvorcov sa niekedy ako aproximačná funkcia používa logaritmická funkcia, exponenciálna funkcia a mocninná funkcia.

Logaritmická aproximácia

Zoberme si prípad, keď je aproximačná funkcia daná logaritmickou funkciou tvaru:

Metóda najmenších štvorcov používa sa na odhad parametrov regresnej rovnice.
Počet riadkov (zdrojové údaje)

Jednou z metód na štúdium stochastických vzťahov medzi charakteristikami je regresná analýza.
Regresná analýza je odvodením regresnej rovnice, pomocou ktorej sa zistí priemerná hodnota náhodnej premennej (výsledkový atribút), ak je známa hodnota inej (alebo iných) premenných (faktorových atribútov). Zahŕňa nasledujúce kroky:

  1. výber formy spojenia (typ analytickej regresnej rovnice);
  2. odhad parametrov rovnice;
  3. hodnotenie kvality analytickej regresnej rovnice.
Najčastejšie sa na popis štatistického vzťahu znakov používa lineárna forma. Zameranie na lineárne vzťahy sa vysvetľuje jasnou ekonomickou interpretáciou jeho parametrov, obmedzenými variáciami premenných a skutočnosťou, že vo väčšine prípadov sa nelineárne formy vzťahov prevádzajú (logaritmovaním alebo substitúciou premenných) na lineárnu formu, aby sa mohli vykonávať výpočty. .
V prípade lineárneho párového vzťahu bude mať regresná rovnica tvar: y i =a+b·x i +u i. Parametre a a b tejto rovnice sú odhadnuté zo štatistických pozorovacích údajov x a y. Výsledkom takéhoto hodnotenia je rovnica: , kde , sú odhady parametrov a a b, je hodnota výsledného atribútu (premennej) získaná z regresnej rovnice (vypočítaná hodnota).

Najčastejšie sa používa na odhad parametrov metóda najmenších štvorcov (LSM).
Metóda najmenších štvorcov poskytuje najlepšie (konzistentné, efektívne a nezaujaté) odhady parametrov regresnej rovnice. Ale iba ak sú splnené určité predpoklady týkajúce sa náhodného člena (u) a nezávislej premennej (x) (pozri predpoklady OLS).

Problém odhadu parametrov lineárnej párovej rovnice metódou najmenších štvorcov je nasledovné: získať také odhady parametrov , , pri ktorých je súčet kvadrátov odchýlok skutočných hodnôt výslednej charakteristiky - y i od vypočítaných hodnôt - minimálny.
Formálne OLS test dá sa napísať takto: .

Klasifikácia metód najmenších štvorcov

  1. Metóda najmenších štvorcov.
  2. Metóda maximálnej pravdepodobnosti (pre normálny klasický lineárny regresný model sa postuluje normalita regresných zvyškov).
  3. Zovšeobecnená metóda najmenších štvorcov OLS sa používa v prípade autokorelácie chýb a v prípade heteroskedasticity.
  4. Metóda vážených najmenších štvorcov (špeciálny prípad OLS s heteroskedastickými rezíduami).

Ilustrujme pointu klasická metóda najmenších štvorcov graficky. Aby sme to dosiahli, zostrojíme bodový graf na základe pozorovacích údajov (x i, y i, i=1;n) v pravouhlom súradnicovom systéme (takýto bodový graf sa nazýva korelačné pole). Skúsme vybrať priamku, ktorá je najbližšie k bodom korelačného poľa. Podľa metódy najmenších štvorcov sa čiara vyberá tak, aby súčet druhých mocnín vertikálnych vzdialeností medzi bodmi korelačného poľa a touto čiarou bol minimálny.

Matematická notácia pre tento problém: .
Hodnoty y i a x i = 1...n sú nám známe; Vo funkcii S predstavujú konštanty. Premenné v tejto funkcii sú požadované odhady parametrov - , . Na nájdenie minima funkcie dvoch premenných je potrebné vypočítať parciálne derivácie tejto funkcie pre každý z parametrov a prirovnať ich k nule, t.j. .
Výsledkom je systém 2 normálnych lineárnych rovníc:
Pri riešení tohto systému nájdeme požadované odhady parametrov:

Správnosť výpočtu parametrov regresnej rovnice je možné skontrolovať porovnaním súm (môže dôjsť k určitej nezrovnalosti v dôsledku zaokrúhľovania výpočtov).
Ak chcete vypočítať odhady parametrov, môžete zostaviť tabuľku 1.
Znamienko regresného koeficientu b udáva smer vzťahu (ak b >0, vzťah je priamy, ak b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formálne je hodnota parametra a priemerná hodnota y, pričom x sa rovná nule. Ak atribút-faktor nemá a nemôže mať nulovú hodnotu, potom vyššie uvedená interpretácia parametra a nedáva zmysel.

Posúdenie blízkosti vzťahu medzi charakteristikami realizované pomocou lineárneho párového korelačného koeficientu - r x,y. Dá sa vypočítať pomocou vzorca: . Okrem toho je možné korelačný koeficient lineárnych párov určiť pomocou regresného koeficientu b: .
Rozsah prijateľných hodnôt koeficientu lineárnej párovej korelácie je od –1 do +1. Znamienko korelačného koeficientu udáva smer vzťahu. Ak r x, y > 0, potom je spojenie priame; ak r x, y<0, то связь обратная.
Ak sa tento koeficient blíži k jednotke, potom vzťah medzi charakteristikami možno interpretovať ako pomerne blízky lineárny. Ak sa jeho modul rovná jednej ê r x , y ê =1, potom je vzťah medzi charakteristikami funkčne lineárny. Ak sú znaky x a y lineárne nezávislé, potom r x, y je blízko 0.
Na výpočet r x,y môžete použiť aj tabuľku 1.

stôl 1

N pozorovaníx iy ix i ∙y i
1 x 1y 1x 1 r 1
2 x 2y 2x 2 roky 2
...
nx ny nx n y n
Stĺpec Suma∑x∑y∑xy
Priemerná hodnota
Na posúdenie kvality výslednej regresnej rovnice vypočítajte teoretický koeficient determinácie - R 2 yx:

,
kde d2 je rozptyl y vysvetlený regresnou rovnicou;
e 2 - reziduálny (nevysvetlený regresnou rovnicou) rozptyl y;
s 2 y - celkový (celkový) rozptyl y.
Koeficient determinácie charakterizuje podiel variácie (disperzie) výsledného atribútu y vysvetleného regresiou (a následne faktorom x) na celkovej variácii (disperzii) y. Koeficient determinácie R 2 yx nadobúda hodnoty od 0 do 1. Hodnota 1-R 2 yx teda charakterizuje podiel rozptylu y spôsobený vplyvom iných faktorov nezohľadnených v modeli a špecifikačných chýb.
Pri párovej lineárnej regresii je R 2 yx = r 2 yx.

Príklad.

Experimentálne údaje o hodnotách premenných X A pri sú uvedené v tabuľke.

V dôsledku ich zarovnania sa získa funkcia

Použitím metóda najmenších štvorcov, aproximovať tieto údaje lineárnou závislosťou y=ax+b(nájdite parametre A A b). Zistite, ktorá z dvoch čiar lepšie (v zmysle metódy najmenších štvorcov) zarovnáva experimentálne údaje. Urobte si kresbu.

Podstata metódy najmenších štvorcov (LSM).

Úlohou je nájsť lineárne koeficienty závislosti, pri ktorých je funkcia dvoch premenných A A b má najmenšiu hodnotu. Teda daný A A b súčet štvorcových odchýlok experimentálnych údajov od nájdenej priamky bude najmenší. Toto je celý zmysel metódy najmenších štvorcov.

Riešenie príkladu teda vedie k nájdeniu extrému funkcie dvoch premenných.

Odvodzovacie vzorce na hľadanie koeficientov.

Zostaví sa a vyrieši systém dvoch rovníc s dvoma neznámymi. Hľadanie parciálnych derivácií funkcie podľa premenných A A b, prirovnávame tieto deriváty k nule.

Výslednú sústavu rovníc riešime ľubovoľnou metódou (napr substitučnou metódou alebo Cramerova metóda) a získajte vzorce na hľadanie koeficientov pomocou metódy najmenších štvorcov (LSM).

Dané A A b funkciu má najmenšiu hodnotu. Dôkaz tejto skutočnosti je uvedený nižšie v texte na konci stránky.

To je celá metóda najmenších štvorcov. Vzorec na nájdenie parametra a obsahuje súčty ,,, a parameter n- množstvo experimentálnych údajov. Hodnoty týchto súm odporúčame vypočítať samostatne. Koeficient b zistené po výpočte a.

Je čas pripomenúť si pôvodný príklad.

Riešenie.

V našom príklade n=5. Tabuľku vypĺňame pre pohodlie výpočtu súm, ktoré sú zahrnuté vo vzorcoch požadovaných koeficientov.

Hodnoty vo štvrtom riadku tabuľky sa získajú vynásobením hodnôt v 2. riadku hodnotami v 3. riadku pre každé číslo i.

Hodnoty v piatom riadku tabuľky sa získajú umocnením hodnôt v 2. riadku pre každé číslo i.

Hodnoty v poslednom stĺpci tabuľky sú súčty hodnôt v riadkoch.

Na zistenie koeficientov používame vzorce metódy najmenších štvorcov A A b. Do nich nahradíme zodpovedajúce hodnoty z posledného stĺpca tabuľky:

teda y = 0,165 x + 2,184- požadovaná približná priamka.

Zostáva zistiť, ktorý z riadkov y = 0,165 x + 2,184 alebo lepšie aproximuje pôvodné údaje, to znamená robí odhad pomocou metódy najmenších štvorcov.

Odhad chyby metódy najmenších štvorcov.

Aby ste to dosiahli, musíte vypočítať súčet štvorcových odchýlok pôvodných údajov z týchto riadkov A , menšia hodnota zodpovedá riadku, ktorý sa lepšie približuje pôvodným údajom v zmysle metódy najmenších štvorcov.

Od , potom rovno y = 0,165 x + 2,184 lepšie sa približuje pôvodným údajom.

Grafické znázornenie metódy najmenších štvorcov (LS).

Všetko je jasne viditeľné na grafoch. Červená čiara je nájdená priamka y = 0,165 x + 2,184, modrá čiara je , ružové bodky sú pôvodné údaje.

V praxi sa pri modelovaní rôznych procesov - najmä ekonomických, fyzikálnych, technických, sociálnych - široko používa jedna alebo druhá metóda výpočtu približných hodnôt funkcií z ich známych hodnôt v určitých pevných bodoch.

Tento druh problému aproximácie funkcií často vzniká:

    pri konštrukcii približných vzorcov na výpočet hodnôt charakteristických veličín skúmaného procesu pomocou tabuľkových údajov získaných ako výsledok experimentu;

    v numerickej integrácii, diferenciácii, riešení diferenciálnych rovníc a pod.;

    v prípade potreby vypočítajte hodnoty funkcií v medziľahlých bodoch uvažovaného intervalu;

    pri určovaní hodnôt charakteristických veličín procesu mimo uvažovaného intervalu, najmä pri prognózovaní.

Ak na modelovanie určitého procesu špecifikovaného tabuľkou zostrojíme funkciu, ktorá tento proces približne opisuje na základe metódy najmenších štvorcov, bude sa nazývať aproximačná funkcia (regresia) a samotná úloha konštrukcie aproximačných funkcií sa bude nazývať aproximačný problém.

Tento článok rozoberá možnosti balíka MS Excel na riešenie tohto typu problémov, navyše poskytuje metódy a techniky na konštruovanie (vytváranie) regresií pre tabuľkové funkcie (čo je základ regresnej analýzy).

Excel má dve možnosti vytvárania regresií.

    Pridanie vybraných regresií (trendových línií) do diagramu zostaveného na základe tabuľky údajov pre skúmanú charakteristiku procesu (dostupné iba vtedy, ak bol diagram vytvorený);

    Použitie vstavaných štatistických funkcií pracovného hárka programu Excel, ktoré vám umožňujú získať regresie (trendové čiary) priamo z tabuľky zdrojových údajov.

Pridanie trendových čiar do grafu

Pre tabuľku údajov, ktorá popisuje proces a je reprezentovaná diagramom, má Excel efektívny nástroj regresnej analýzy, ktorý vám umožňuje:

    stavať na základe metódy najmenších štvorcov a pridať do diagramu päť typov regresií, ktoré modelujú skúmaný proces s rôznym stupňom presnosti;

    pridajte zostrojenú regresnú rovnicu do diagramu;

    určiť stupeň zhody vybranej regresie s údajmi zobrazenými v grafe.

Na základe údajov z grafu vám Excel umožňuje získať lineárne, polynomické, logaritmické, mocninné a exponenciálne typy regresií, ktoré sú špecifikované rovnicou:

y = y (x)

kde x je nezávislá premenná, ktorá často nadobúda hodnoty postupnosti prirodzených čísel (1; 2; 3; ...) a vytvára napríklad odpočítavanie času skúmaného procesu (charakteristiky).

1 . Lineárna regresia je vhodná na modelovanie charakteristík, ktorých hodnoty sa zvyšujú alebo znižujú konštantnou rýchlosťou. Toto je najjednoduchší model na zostavenie pre skúmaný proces. Je skonštruovaný podľa rovnice:

y = mx + b

kde m je dotyčnica sklonu lineárnej regresie k osi x; b - súradnica priesečníka lineárnej regresie so zvislou osou.

2 . Polynomická trendová čiara je užitočná na opis charakteristík, ktoré majú niekoľko odlišných extrémov (maxima a minimá). Výber stupňa polynómu je určený počtom extrémov skúmanej charakteristiky. Polynóm druhého stupňa teda môže dobre opísať proces, ktorý má len jedno maximum alebo minimum; polynóm tretieho stupňa - nie viac ako dva extrémy; polynóm štvrtého stupňa - nie viac ako tri extrémy atď.

V tomto prípade je trendová čiara vytvorená v súlade s rovnicou:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

kde koeficienty c0, c1, c2,... c6 sú konštanty, ktorých hodnoty sa určujú počas konštrukcie.

3 . Logaritmická trendová čiara sa úspešne používa pri modelovaní charakteristík, ktorých hodnoty sa spočiatku rýchlo menia a potom sa postupne stabilizujú.

y = c ln(x) + b

4 . Trendová čiara mocenského zákona dáva dobré výsledky, ak sú hodnoty skúmaného vzťahu charakterizované neustálou zmenou rýchlosti rastu. Príkladom takejto závislosti je graf rovnomerne zrýchleného pohybu auta. Ak sú v údajoch nulové alebo záporné hodnoty, nemôžete použiť silovú trendovú čiaru.

Skonštruované podľa rovnice:

y = c xb

kde koeficienty b, c sú konštanty.

5 . Exponenciálna trendová čiara by sa mala použiť vtedy, keď sa rýchlosť zmeny v údajoch neustále zvyšuje. Tento typ aproximácie tiež nie je použiteľný pre údaje obsahujúce nulové alebo záporné hodnoty.

Skonštruované podľa rovnice:

y = c ebx

kde koeficienty b, c sú konštanty.

Pri výbere trendovej čiary Excel automaticky vypočíta hodnotu R2, ktorá charakterizuje spoľahlivosť aproximácie: čím je hodnota R2 bližšie k jednotke, tým spoľahlivejšie trendová čiara aproximuje skúmaný proces. V prípade potreby môže byť hodnota R2 vždy zobrazená na grafe.

Určené podľa vzorca:

Ak chcete pridať trendovú čiaru do série údajov:

    aktivujte graf na základe série údajov, t. j. kliknite do oblasti grafu. V hlavnom menu sa objaví položka Diagram;

    po kliknutí na túto položku sa na obrazovke zobrazí ponuka, v ktorej by ste mali vybrať príkaz Pridať trendovú čiaru.

Rovnaké akcie možno jednoducho vykonať presunutím ukazovateľa myši nad graf zodpovedajúci jednému z údajových radov a kliknutím pravým tlačidlom myši; V kontextovej ponuke, ktorá sa zobrazí, vyberte príkaz Pridať čiaru trendu. Na obrazovke sa objaví dialógové okno Trendová čiara s otvorenou záložkou Typ (obr. 1).

Po tomto potrebujete:

Na karte Typ vyberte požadovaný typ trendovej čiary (štandardne je vybratý Lineárny typ). Pre typ polynómu v poli Stupeň zadajte stupeň vybratého polynómu.

1 . V poli Postavené na sérii sú uvedené všetky rady údajov v príslušnom grafe. Ak chcete pridať trendovú čiaru ku konkrétnej sérii údajov, vyberte jej názov v poli Postavené na sérii.

V prípade potreby môžete prechodom na kartu Parametre (obr. 2) nastaviť nasledujúce parametre pre trendovú čiaru:

    zmeňte názov trendovej čiary v poli Názov aproximačnej (vyhladenej) krivky.

    nastavte počet období (dopredu alebo dozadu) pre predpoveď v poli Predpoveď;

    zobraziť rovnicu trendovej čiary v oblasti diagramu, pre ktorú by ste mali zaškrtnúť políčko zobraziť rovnicu v diagrame;

    zobraziť hodnotu aproximačnej spoľahlivosti R2 v oblasti diagramu, pre ktorú by ste mali zaškrtnúť políčko Umiestniť hodnotu aproximačnej spoľahlivosti do diagramu (R^2);

    nastavte priesečník trendovej čiary s osou Y, pre ktorý by ste mali povoliť zaškrtávacie políčko pre priesečník krivky s osou Y v bode;

    Kliknutím na tlačidlo OK zatvorte dialógové okno.

Ak chcete začať upravovať už nakreslenú trendovú čiaru, existujú tri spôsoby:

    použite príkaz Vybraná trendová čiara z ponuky Formát, pričom ste predtým vybrali trendovú čiaru;

    vyberte príkaz Formátovať trendovú čiaru z kontextového menu, ktorý vyvoláte kliknutím pravým tlačidlom myši na trendovú čiaru;

    dvakrát kliknite na trendovú čiaru.

Na obrazovke sa zobrazí dialógové okno Formát čiary trendu (obr. 3), ktoré obsahuje tri karty: View, Type, Parameters a obsah posledných dvoch sa úplne zhoduje s podobnými kartami dialógového okna Trend Line (Obr. 1). -2). Na karte Zobraziť môžete nastaviť typ čiary, jej farbu a hrúbku.

Ak chcete vymazať trendovú čiaru, ktorá už bola nakreslená, vyberte trendovú čiaru, ktorá sa má vymazať, a stlačte kláves Delete.

Výhody uvažovaného nástroja regresnej analýzy sú:

    relatívna jednoduchosť vytvorenia trendovej čiary na grafoch bez vytvorenia tabuľky s údajmi;

    pomerne široký zoznam typov navrhovaných trendových čiar a tento zoznam obsahuje najbežnejšie používané typy regresie;

    schopnosť predpovedať správanie sa skúmaného procesu ľubovoľným (v medziach zdravého rozumu) počtom krokov vpred a aj vzad;

    schopnosť získať rovnicu trendovej čiary v analytickej forme;

    možnosť v prípade potreby získať posúdenie spoľahlivosti aproximácie.

Nevýhody zahŕňajú nasledovné:

    konštrukcia trendovej čiary sa vykonáva iba vtedy, ak existuje diagram zostavený zo série údajov;

    proces generovania radov údajov pre skúmanú charakteristiku na základe rovníc trendovej čiary získaných pre ňu je trochu neprehľadný: požadované regresné rovnice sa aktualizujú pri každej zmene hodnôt pôvodného radu údajov, ale iba v rámci oblasti grafu , pričom rad údajov vytvorený na základe trendu starej čiarovej rovnice zostáva nezmenený;

    V zostavách kontingenčného grafu zmena zobrazenia grafu alebo súvisiacej zostavy kontingenčnej tabuľky nezachová existujúce spojnice trendu, čo znamená, že pred nakreslením spojníc trendu alebo iným formátovaním zostavy kontingenčného grafu by ste sa mali uistiť, že rozloženie zostavy spĺňa požadované požiadavky.

Trendové čiary možno použiť na doplnenie dátových radov prezentovaných na grafoch, ako sú graf, histogram, ploché neštandardizované plošné grafy, stĺpcové grafy, bodové grafy, bublinové grafy a akciové grafy.

Trendové čiary nemôžete pridať do dátových radov v 3D, normalizovaných, radarových, koláčových a prstencových grafoch.

Používanie vstavaných funkcií Excelu

Excel má tiež nástroj na regresnú analýzu na vykresľovanie trendových čiar mimo oblasti grafu. Na tento účel je možné použiť množstvo štatistických funkcií pracovného hárka, ale všetky umožňujú iba lineárne alebo exponenciálne regresie.

Excel má niekoľko funkcií na zostavenie lineárnej regresie, najmä:

    TREND;

  • SLOPE a REZ.

Rovnako ako niekoľko funkcií na vytvorenie exponenciálnej trendovej čiary, najmä:

    LGRFPRIBL.

Treba poznamenať, že techniky konštrukcie regresií pomocou funkcií TREND a GROWTH sú takmer rovnaké. To isté možno povedať o dvojici funkcií LINEST a LGRFPRIBL. Pre tieto štyri funkcie sa pri vytváraní tabuľky hodnôt používajú funkcie Excelu, ako sú vzorce poľa, čo trochu komplikuje proces vytvárania regresií. Všimnime si tiež, že zostrojenie lineárnej regresie sa podľa nášho názoru dá najjednoduchšie vykonať pomocou funkcií SLOPE a INTERCEPT, kde prvá z nich určuje sklon lineárnej regresie a druhá určuje segment, ktorý zachytí regresia na os y.

Výhody vstavaného nástroja funkcií pre regresnú analýzu sú:

    pomerne jednoduchý, jednotný proces generovania sérií údajov skúmanej charakteristiky pre všetky vstavané štatistické funkcie, ktoré definujú trendové čiary;

    štandardná metodika na vytváranie trendových čiar na základe generovaných radov údajov;

    schopnosť predpovedať správanie sa skúmaného procesu o požadovaný počet krokov vpred alebo vzad.

Medzi nevýhody patrí skutočnosť, že Excel nemá zabudované funkcie na vytváranie iných (okrem lineárnych a exponenciálnych) typov trendových čiar. Táto okolnosť často neumožňuje vybrať dostatočne presný model skúmaného procesu, ako aj získať prognózy blízke realite. Navyše pri použití funkcií TREND a GROWTH nie sú známe rovnice trendových čiar.

Treba poznamenať, že autori si nekladli za cieľ prezentovať priebeh regresnej analýzy s rôznym stupňom úplnosti. Jeho hlavnou úlohou je ukázať na konkrétnych príkladoch možnosti balíka Excel pri riešení aproximačných úloh; demonštrovať, aké efektívne nástroje má Excel na vytváranie regresií a prognóz; ilustrujú, ako môžu byť takéto problémy relatívne jednoducho vyriešené aj používateľom, ktorý nemá rozsiahle znalosti o regresnej analýze.

Príklady riešenia konkrétnych problémov

Pozrime sa na riešenie konkrétnych problémov pomocou uvedených nástrojov Excelu.

Problém 1

S tabuľkou údajov o zisku podniku motorovej dopravy za roky 1995-2002. musíte urobiť nasledovné:

    Vytvorte diagram.

    Pridajte do grafu lineárne a polynomické (kvadratické a kubické) trendové čiary.

    Pomocou rovníc trendových čiar získajte tabuľkové údaje o ziskoch podnikov pre každú trendovú čiaru za roky 1995-2004.

    Urobte prognózu zisku podniku na roky 2003 a 2004.

Riešenie problému

    Do rozsahu buniek A4:C11 hárka programu Excel zadajte hárok zobrazený na obr. 4.

    Po výbere rozsahu buniek B4:C11 vytvoríme diagram.

    Zostrojený diagram aktivujeme a podľa vyššie popísanej metódy po výbere typu trendovej čiary v dialógovom okne Trendová čiara (viď obr. 1) do diagramu striedavo pridávame lineárne, kvadratické a kubické trendové čiary. V tom istom dialógovom okne otvorte záložku Parametre (pozri obr. 2), do poľa Názov aproximačnej (vyhladenej) krivky zadajte názov pridávaného trendu a v poli Forecast forward for: periods nastavte hodnota 2, keďže sa plánuje urobiť prognóza zisku na dva roky dopredu. Ak chcete zobraziť regresnú rovnicu a hodnotu aproximačnej spoľahlivosti R2 v oblasti diagramu, začiarknite políčka Zobraziť rovnicu na obrazovke a umiestnite do diagramu hodnotu aproximačnej spoľahlivosti (R^2). Pre lepšie vizuálne vnímanie meníme typ, farbu a hrúbku zostrojených trendových čiar, na čo nám slúži záložka Zobraziť dialógového okna Formát čiary trendu (pozri obr. 3). Výsledný diagram s pridanými trendovými čiarami je znázornený na obr. 5.

    Získať tabuľkové údaje o ziskoch podnikov pre každú trendovú čiaru za roky 1995-2004. Použime rovnice trendovej čiary uvedené na obr. 5. Za týmto účelom zadajte do buniek rozsahu D3:F3 textovú informáciu o type vybranej trendovej čiary: Lineárny trend, Kvadratický trend, Kubický trend. Potom zadajte vzorec lineárnej regresie do bunky D4 a pomocou značky výplne skopírujte tento vzorec s relatívnymi odkazmi na rozsah buniek D5:D13. Treba poznamenať, že každá bunka so vzorcom lineárnej regresie z rozsahu buniek D4:D13 má ako argument zodpovedajúcu bunku z rozsahu A4:A13. Podobne pre kvadratickú regresiu vyplňte rozsah buniek E4:E13 a pre kubickú regresiu vyplňte rozsah buniek F4:F13. Takto bola zostavená prognóza zisku podniku na roky 2003 a 2004. pomocou troch trendov. Výsledná tabuľka hodnôt je znázornená na obr. 6.

Problém 2

    Vytvorte diagram.

    Pridajte do grafu logaritmické, mocninné a exponenciálne trendové čiary.

    Odvoďte rovnice získaných trendových čiar, ako aj hodnoty spoľahlivosti aproximácie R2 pre každú z nich.

    Pomocou rovníc trendových čiar získajte tabuľkové údaje o zisku podniku pre každú trendovú čiaru za roky 1995-2002.

    Pomocou týchto trendových čiar urobte prognózu zisku spoločnosti na roky 2003 a 2004.

Riešenie problému

Podľa metodiky uvedenej pri riešení úlohy 1 získame diagram s pridanými logaritmickými, mocninnými a exponenciálnymi trendovými čiarami (obr. 7). Ďalej pomocou získaných rovníc trendových čiar vyplníme tabuľku hodnôt pre zisk podniku vrátane predpovedaných hodnôt pre roky 2003 a 2004. (obr. 8).

Na obr. 5 a obr. je vidieť, že model s logaritmickým trendom zodpovedá najnižšej hodnote spoľahlivosti aproximácie

R2 = 0,8659

Najvyššie hodnoty R2 zodpovedajú modelom s polynomickým trendom: kvadratický (R2 = 0,9263) a kubický (R2 = 0,933).

Problém 3

S tabuľkou údajov o zisku podniku motorovej dopravy za roky 1995-2002, ktorá je uvedená v úlohe 1, musíte vykonať nasledujúce kroky.

    Získajte dátové série pre lineárne a exponenciálne trendové čiary pomocou funkcií TREND a GROW.

    Pomocou funkcií TREND a GROWTH vytvorte prognózu zisku podniku na roky 2003 a 2004.

    Zostrojte diagram pre pôvodné údaje a výsledný rad údajov.

Riešenie problému

Využime pracovný list pre úlohu 1 (pozri obr. 4). Začnime funkciou TREND:

    vyberte rozsah buniek D4:D11, ktorý by mal byť vyplnený hodnotami funkcie TREND zodpovedajúcimi známym údajom o zisku podniku;

    Zavolajte príkaz Funkcia z ponuky Vložiť. V zobrazenom dialógovom okne Sprievodca funkciou vyberte funkciu TREND z kategórie Štatistika a potom kliknite na tlačidlo OK. Rovnakú operáciu je možné vykonať kliknutím na tlačidlo (Vložiť funkciu) na štandardnom paneli nástrojov.

    V zobrazenom dialógovom okne Argumenty funkcie zadajte rozsah buniek C4:C11 do poľa Známe_hodnoty_y; v poli Known_values_x - rozsah buniek B4:B11;

    Ak chcete, aby sa zadaný vzorec stal vzorcom poľa, použite kombináciu kláves + + .

Vzorec, ktorý sme zadali do riadka vzorcov, bude vyzerať takto: =(TREND(C4:C11,B4:B11)).

V dôsledku toho je rozsah buniek D4:D11 vyplnený zodpovedajúcimi hodnotami funkcie TREND (obr. 9).

Urobiť prognózu zisku podniku na roky 2003 a 2004. potrebné:

    vyberte rozsah buniek D12:D13, kde budú zadané hodnoty predpovedané funkciou TREND.

    zavolajte funkciu TREND a v zobrazenom dialógovom okne Argumenty funkcie zadajte do poľa Známe_hodnoty_y rozsah buniek C4:C11; v poli Known_values_x - rozsah buniek B4:B11; a v poli New_values_x - rozsah buniek B12:B13.

    premeňte tento vzorec na vzorec poľa pomocou kombinácie klávesov Ctrl + Shift + Enter.

    Zadaný vzorec bude vyzerať takto: =(TREND(C4:C11;B4:B11;B12:B13)) a rozsah buniek D12:D13 bude vyplnený predpovedanými hodnotami funkcie TREND (pozri obr. 9).

Dátový rad sa podobne vypĺňa pomocou funkcie GROWTH, ktorá sa používa pri analýze nelineárnych závislostí a funguje úplne rovnako ako jej lineárny náprotivok TREND.

Obrázok 10 zobrazuje tabuľku v režime zobrazenia vzorca.

Pre počiatočné dáta a získané dátové série je diagram znázornený na obr. jedenásť.

Problém 4

S tabuľkou údajov o príjme žiadostí o výkony expedičnou službou podniku motorovej dopravy za obdobie od 1. do 11. dňa aktuálneho mesiaca musíte vykonať nasledujúce úkony.

    Získajte rad údajov pre lineárnu regresiu: pomocou funkcií SLOPE a INTERCEPT; pomocou funkcie LINEST.

    Získajte sériu údajov pre exponenciálnu regresiu pomocou funkcie LGRFPRIBL.

    Pomocou vyššie uvedených funkcií vytvorte prognózu príjmu žiadostí na dispečing na obdobie od 12. do 14. dňa aktuálneho mesiaca.

    Vytvorte diagram pre pôvodný a prijatý rad údajov.

Riešenie problému

Všimnite si, že na rozdiel od funkcií TREND a GROWTH žiadna z vyššie uvedených funkcií (SLOPE, INTERCEPT, LINEST, LGRFPRIB) nie je regresia. Tieto funkcie zohrávajú len podpornú úlohu, určujúce potrebné regresné parametre.

Pre lineárne a exponenciálne regresie postavené pomocou funkcií SLOPE, INTERCEPT, LINEST, LGRFPRIB je vzhľad ich rovníc vždy známy, na rozdiel od lineárnych a exponenciálnych regresií zodpovedajúcich funkciám TREND a GROWTH.

1 . Zostavme lineárnu regresiu pomocou rovnice:

y = mx+b

pomocou funkcií SLOPE a INTERCEPT, pričom regresná strmosť m je určená funkciou SLOPE a voľný člen b funkciou INTERCEPT.

Za týmto účelom vykonávame nasledujúce akcie:

    zadajte pôvodnú tabuľku do oblasti buniek A4:B14;

    hodnota parametra m bude určená v bunke C19. Vyberte funkciu Sklon z kategórie Štatistika; zadajte rozsah buniek B4:B14 do poľa známe_hodnoty_y a rozsah buniek A4:A14 do poľa známe_hodnoty_x. Vzorec sa zadá do bunky C19: =SLOPE(B4:B14,A4:A14);

    Pomocou podobnej techniky sa určí hodnota parametra b v bunke D19. A jeho obsah bude vyzerať takto: =SEGMENT(B4:B14,A4:A14). Hodnoty parametrov m a b potrebné na zostavenie lineárnej regresie sa teda uložia do buniek C19, resp. D19;

    Ďalej zadajte vzorec lineárnej regresie do bunky C4 v tvare: =$C*A4+$D. V tomto vzorci sú bunky C19 a D19 zapísané s absolútnymi odkazmi (adresa bunky by sa pri prípadnom kopírovaní nemala meniť). Absolútny referenčný znak $ je možné zadať buď z klávesnice alebo pomocou klávesu F4 po umiestnení kurzora na adresu bunky. Pomocou rukoväte výplne skopírujte tento vzorec do rozsahu buniek C4:C17. Získame požadovaný rad údajov (obr. 12). Vzhľadom na to, že počet žiadostí je celé číslo, mali by ste na karte Číslo v okne Formát bunky nastaviť formát čísla s počtom desatinných miest na 0.

2 . Teraz zostavme lineárnu regresiu danú rovnicou:

y = mx+b

pomocou funkcie LINEST.

Pre to:

    Zadajte funkciu LINEST ako vzorec poľa v rozsahu buniek C20:D20: =(LINEST(B4:B14,A4:A14)). Výsledkom je, že získame hodnotu parametra m v ​​bunke C20 a hodnotu parametra b v bunke D20;

    do bunky D4 zadajte vzorec: =$C*A4+$D;

    skopírujte tento vzorec pomocou značky výplne do rozsahu buniek D4:D17 a získajte požadovaný rad údajov.

3 . Zostavíme exponenciálnu regresiu pomocou rovnice:

pomocou funkcie LGRFPRIBL sa vykonáva podobným spôsobom:

    V oblasti buniek C21:D21 zadáme funkciu LGRFPRIBL ako vzorec poľa: =( LGRFPRIBL (B4:B14,A4:A14)). V tomto prípade sa hodnota parametra m určí v bunke C21 a hodnota parametra b sa určí v bunke D21;

    vzorec sa zadá do bunky E4: =$D*$C^A4;

    pomocou značky výplne sa tento vzorec skopíruje do rozsahu buniek E4:E17, kde bude umiestnený rad údajov pre exponenciálnu regresiu (pozri obr. 12).

Na obr. Obrázok 13 zobrazuje tabuľku, v ktorej môžete vidieť funkcie, ktoré používame s požadovanými rozsahmi buniek, ako aj vzorce.

Rozsah R 2 volal koeficient determinácie.

Úlohou konštrukcie regresnej závislosti je nájsť vektor koeficientov m modelu (1), pri ktorom koeficient R nadobúda svoju maximálnu hodnotu.

Na posúdenie významnosti R sa používa Fisherov F test vypočítaný pomocou vzorca

Kde n- veľkosť vzorky (počet experimentov);

k je počet modelových koeficientov.

Ak F prekročí určitú kritickú hodnotu pre dáta n A k a akceptovanej pravdepodobnosti spoľahlivosti, potom sa hodnota R považuje za významnú. Tabuľky kritických hodnôt F sú uvedené v referenčných knihách o matematickej štatistike.

Význam R je teda určený nielen jeho hodnotou, ale aj vzťahom medzi počtom experimentov a počtom koeficientov (parametrov) modelu. V skutočnosti sa korelačný pomer pre n=2 pre jednoduchý lineárny model rovná 1 (vždy môžete nakresliť jednu priamku cez 2 body v rovine). Ak sú však experimentálne údaje náhodné premenné, takejto hodnote R by sa malo dôverovať s veľkou opatrnosťou. Zvyčajne sa na získanie významnej R a spoľahlivej regresie snažia zabezpečiť, aby počet experimentov výrazne prevyšoval počet modelových koeficientov (n>k).

Na zostavenie lineárneho regresného modelu potrebujete:

1) pripravte zoznam n riadkov a m stĺpcov obsahujúcich experimentálne údaje (stĺpec obsahujúci výstupnú hodnotu Y musí byť prvý alebo posledný v zozname); Zoberme si napríklad údaje z predchádzajúcej úlohy, pridajte stĺpec s názvom „Číslo obdobia“, očíslujte čísla období od 1 do 12. (toto budú hodnoty X)

2) prejdite do ponuky Údaje/Analýza údajov/Regresia

Ak položka „Analýza údajov“ v ponuke „Nástroje“ chýba, mali by ste prejsť na položku „Doplnky“ v tej istej ponuke a začiarknuť políčko „Analytický balík“.

3) v dialógovom okne "Regresia" nastavte:

· vstupný interval Y;

· vstupný interval X;

· výstupný interval - ľavá horná bunka intervalu, v ktorom budú umiestnené výsledky výpočtu (odporúča sa umiestniť ich na nový pracovný list);

4) kliknite na „OK“ a analyzujte výsledky.

100 RUR bonus za prvú objednávku

Vyberte typ práce Diplomová práca Práca v kurze Abstrakt Diplomová práca Prax Článok Správa Recenzia Testová práca Monografia Riešenie problémov Podnikateľský plán Odpovede na otázky Kreatívna práca Esej Kresba Eseje Preklad Prezentácie Písanie na stroji Ostatné Zvyšovanie jedinečnosti textu Diplomová práca Laboratórne práce Pomoc online

Zistite si cenu

Metóda najmenších štvorcov je matematická (matematicko-štatistická) technika používaná na zarovnanie časových radov, identifikáciu formy korelácie medzi náhodnými veličinami a pod. Spočíva v tom, že funkcia popisujúca tento jav je aproximovaná jednoduchšou funkciou. Navyše, tá je vybraná tak, že štandardná odchýlka (pozri Disperzia) skutočných úrovní funkcie v pozorovaných bodoch od zarovnaných bodov je najmenšia.

Napríklad podľa dostupných údajov ( xi,yi) (i = 1, 2, ..., n) je zostrojená takáto krivka r = a + bx, pri ktorej sa dosiahne minimálny súčet štvorcových odchýlok

t.j. funkcia závislá od dvoch parametrov je minimalizovaná: a- segment na zvislej osi a b- priamy sklon.

Rovnice poskytujúce potrebné podmienky na minimalizáciu funkcie S(a,b), sa volajú normálne rovnice. Ako aproximačné funkcie sa používajú nielen lineárne (zarovnanie po priamke), ale aj kvadratické, parabolické, exponenciálne a pod. M.2, kde súčet štvorcových vzdialeností ( r 1 – ȳ 1)2 + (r 2 – ȳ 2)2 .... je najmenšia a výsledná priamka najlepšie odráža trend dynamickej série pozorovaní určitého ukazovateľa v čase.

Pre nestranné odhady OLS je potrebné a postačujúce splniť najdôležitejšiu podmienku regresnej analýzy: matematické očakávanie náhodnej chyby podmienené faktormi sa musí rovnať nule. Táto podmienka je splnená najmä vtedy, ak: 1. matematické očakávanie náhodných chýb je nulové a 2. faktory a náhodné chyby sú nezávislé náhodné premenné. Prvú podmienku možno považovať za vždy splnenú pre modely s konštantou, pretože konštanta má nenulové matematické očakávanie chýb. Druhá podmienka – podmienka exogenity faktorov – je zásadná. Ak táto vlastnosť nie je splnená, potom môžeme predpokladať, že takmer všetky odhady budú mimoriadne neuspokojivé: dokonca nebudú konzistentné (to znamená, že ani veľmi veľké množstvo údajov nám v tomto prípade neumožňuje získať vysoko kvalitné odhady ).

Najbežnejšou metódou štatistického odhadu parametrov regresných rovníc je metóda najmenších štvorcov. Táto metóda je založená na množstve predpokladov týkajúcich sa povahy údajov a výsledkov modelu. Hlavnými sú jasné rozdelenie pôvodných premenných na závislé a nezávislé, nekorelácia faktorov zahrnutých do rovníc, lineárnosť vzťahu, absencia autokorelácie rezíduí, rovnosť ich matematických očakávaní na nulu a konštantu. disperzia.

Jednou z hlavných hypotéz OLS je predpoklad rovnosti rozptylov odchýlok ei, t.j. ich rozptyl okolo priemernej (nulovej) hodnoty série by mal byť stabilnou hodnotou. Táto vlastnosť sa nazýva homoskedasticita. V praxi sú rozptyly odchýlok pomerne často nerovnaké, to znamená, že sa pozoruje heteroskedasticita. Môže to byť spôsobené rôznymi dôvodmi. Môžu sa napríklad vyskytnúť chyby v zdrojových údajoch. Občasné nepresnosti v zdrojových informáciách, ako napríklad chyby v poradí čísel, môžu mať významný vplyv na výsledky. Často sa pozoruje väčší rozptyl odchýlok єi pri veľkých hodnotách závislej premennej (premenných). Ak údaje obsahujú významnú chybu, potom bude, prirodzene, veľká aj odchýlka modelovej hodnoty vypočítanej z chybných údajov. Aby sme sa zbavili tejto chyby, musíme znížiť príspevok týchto údajov k výsledkom výpočtu a priradiť im menšiu váhu ako všetkým ostatným. Táto myšlienka je implementovaná vo vážených OLS.



Páčil sa vám článok? Zdieľajte so svojimi priateľmi!