Teorija regresijske analize. A) Grafična analiza enostavne linearne regresije

A) Grafična analiza enostavne linearne regresije.

Enostavna linearna regresijska enačba y=a+bx. Če obstaja korelacija med naključnima spremenljivkama Y in X, potem je vrednost y = ý + ,

kjer je ý teoretična vrednost y, dobljena iz enačbe ý = f(x),

 – napaka odstopanja teoretične enačbe ý od dejanskih (eksperimentalnih) podatkov.

Enačba za odvisnost povprečne vrednosti ý od x, to je ý = f(x), se imenuje regresijska enačba. Regresijska analiza je sestavljena iz štirih stopenj:

1) nastavitev problema in ugotavljanje razlogov za povezavo.

2) omejitev raziskovalnega predmeta, zbiranje statističnih informacij.

3) izbira sklopitvene enačbe na podlagi analize in narave zbranih podatkov.

4) izračun numeričnih vrednosti, značilnosti korelacijskih povezav.

Če sta dve spremenljivki povezani tako, da sprememba ene spremenljivke ustreza sistematični spremembi druge spremenljivke, potem se za oceno in izbiro enačbe za razmerje med njima uporabi regresijska analiza, če sta ti spremenljivki znani. Za razliko od regresijske analize se korelacijska analiza uporablja za analizo bližine razmerja med X in Y.

Razmislimo o iskanju ravne črte v regresijski analizi:

Teoretična regresijska enačba.

Izraz "preprosta regresija" pomeni, da je vrednost ene spremenljivke ocenjena na podlagi znanja o drugi spremenljivki. Za razliko od preproste multivariatne regresije se uporablja za oceno spremenljivke na podlagi poznavanja dveh, treh ali več spremenljivk. Oglejmo si grafično analizo preproste linearne regresije.

Predpostavimo, da obstajajo rezultati presejalnih testov o predzaposlitvi in ​​produktivnosti dela.

Rezultati izbora (100 točk), x

Produktivnost (20 točk), g

Z izrisom točk na grafu dobimo raztreseni diagram (polje). Z njim analiziramo rezultate selekcijskih testov in produktivnost dela.

S pomočjo diagrama razpršitve analizirajmo regresijsko črto. Pri regresijski analizi sta vedno podani vsaj dve spremenljivki. Sistematična sprememba ene spremenljivke je povezana s spremembo druge. primarni cilj regresijska analiza sestoji iz ocenjevanja vrednosti ene spremenljivke, če je znana vrednost druge spremenljivke. Za popolno nalogo je pomembna ocena produktivnosti dela.

Neodvisna spremenljivka v regresijski analizi količina, ki se uporablja kot osnova za analizo druge spremenljivke. V tem primeru so to rezultati selekcijskih testov (vzdolž X osi).

Odvisna spremenljivka se imenuje ocenjena vrednost (vzdolž osi Y). V regresijski analizi je lahko samo ena odvisna spremenljivka in več kot ena neodvisna spremenljivka.

Za preprosto regresijsko analizo lahko odvisnost predstavimo v dvokoordinatnem sistemu (x in y), pri čemer je os X neodvisna spremenljivka, os Y pa odvisna spremenljivka. Narišemo presečišča tako, da je na grafu predstavljen par vrednosti. Urnik se imenuje graf raztrosa. Njegova konstrukcija je druga stopnja regresijske analize, saj je prva izbira analiziranih vrednosti in zbiranje vzorčnih podatkov. Tako se za statistično analizo uporablja regresijska analiza. Razmerje med vzorčnimi podatki v grafikonu je linearno.

Za oceno velikosti spremenljivke y na podlagi spremenljivke x je treba določiti položaj črte, ki najbolje predstavlja razmerje med x in y na podlagi lokacije točk na grafu razpršitve. V našem primeru je to analiza uspešnosti. Črta, narisana skozi točke sipanja – regresijska črta. Eden od načinov za izdelavo regresijske črte na podlagi vizualne izkušnje je prostoročna metoda. Našo regresijsko črto lahko uporabimo za določitev produktivnosti dela. Pri iskanju enačbe regresijske premice

Pogosto se uporablja test najmanjših kvadratov. Najprimernejša je tista črta, kjer je vsota kvadratov odstopanj minimalna

Matematična enačba premice rasti predstavlja zakon rasti v aritmetični progresiji:

pri = AbX.

Y = A + bX– dana enačba z enim parametrom je najpreprostejši tip sklopitvene enačbe. Sprejemljivo je za povprečne vrednosti. Za natančnejše izražanje razmerja med X in pri, je uveden dodaten sorazmernostni koeficient b, ki označuje naklon regresijske črte.

B) Konstrukcija teoretične regresijske premice.

Postopek iskanja je sestavljen iz izbire in utemeljitve vrste krivulje in izračunavanja parametrov A, b, z itd. Postopek gradnje se imenuje poravnava, ponudba krivulj pa ponuja mat. analiza, pestro. Najpogosteje se v ekonomskih problemih uporablja družina krivulj, enačb, ki so izražene s polinomi celih potenc.

1)
– enačba premice,

2)
– enačba hiperbole,

3)
– enačba parabole,

kjer so ý ordinate teoretične regresijske premice.

Ko izberete vrsto enačbe, morate najti parametre, od katerih je ta enačba odvisna. Na primer, narava lokacije točk v polju sipanja je pokazala, da je teoretična regresijska črta ravna.

Raztreseni grafikon vam omogoča, da predstavite produktivnost dela z uporabo regresijske analize. V ekonomiji se regresijska analiza uporablja za napovedovanje številnih značilnosti, ki vplivajo na končni izdelek (ob upoštevanju cen).

B) Kriterij najmanjših okvirjev za iskanje premice.

Eno merilo, ki bi ga lahko uporabili za ustrezno regresijsko črto v razpršilni ploskvi, temelji na izbiri črte, za katero je vsota kvadratov napak minimalna.

Bližina točk sipanja premici se meri z ordinatami segmentov. Odstopanja teh točk so lahko pozitivna in negativna, vendar je vsota kvadratov odstopanj teoretične premice od eksperimentalne premice vedno pozitivna in mora biti minimalna. Dejstvo, da vse sipane točke ne sovpadajo s položajem regresijske premice, kaže na obstoj neskladja med eksperimentalnimi in teoretičnimi podatki. Tako lahko rečemo, da nobena druga regresijska premica, razen najdene, ne more dati manjšega odstopanja med eksperimentalnimi in eksperimentalnimi podatki. Torej, ko smo našli teoretično enačbo ý in regresijska premica, izpolnimo zahtevo najmanjših kvadratov.

To se izvede z uporabo sklopitvene enačbe
uporabo formul za iskanje parametrov A in b. Če upoštevamo teoretično vrednost
in označimo levo stran enačbe z f, dobimo funkcijo
iz neznanih parametrov A in b. Vrednote A in b bo zadostil minimalni funkciji f in jih najdemo iz parcialnih diferencialnih enačb
in
. to potreben pogoj, vendar je za pozitivno kvadratno funkcijo tudi to zadosten pogoj za ugotovitev A in b.

Izpeljimo formule parametrov iz enačb parcialnih odvodov A in b:



dobimo sistem enačb:

Kje
– napake aritmetične sredine.

Če zamenjamo številske vrednosti, najdemo parametre A in b.

Obstaja koncept
. To je faktor približka.

če e < 33%, то модель приемлема для дальнейшего анализа;

če e> 33%, potem vzamemo hiperbolo, parabolo itd. To daje pravico do analize v različnih situacijah.

Sklep: po kriteriju aproksimacijskega koeficienta je najprimernejša tista premica, za katero

in nobena druga regresijska črta za naš problem ne daje minimalnega odstopanja.

D) Kvadratna napaka ocene, preverjanje njihove tipičnosti.

V zvezi s populacijo, v kateri je število raziskovalnih parametrov manjše od 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t- Študentov t-test. To izračuna dejansko vrednost t-merila:

Od tod

Kje – preostala povprečna kvadratna napaka. Prejeto t a in t b v primerjavi s kritičnim t k iz Studentove tabele ob upoštevanju sprejete stopnje pomembnosti ( = 0,01 = 99 % ali  = 0,05 = 95 %). p = f = k 1 = m– število parametrov proučevane enačbe (stopnja svobode). Na primer, če l = a + bx; m = 2, k 2 = f 2 = str 2 = n – (m+ 1), kjer n– število proučevanih značilnosti.

t a < t k < t b .

Zaključek: z uporabo parametrov regresijske enačbe, testirane na tipičnost, je zgrajen matematični model komunikacije
. V tem primeru parametri matematične funkcije, uporabljene pri analizi (linearna, hiperbola, parabola), dobijo ustrezne kvantitativne vrednosti. Pomenska vsebina tako pridobljenih modelov je v tem, da označujejo povprečno vrednost dobljene karakteristike
od znaka faktorja X.

D) Krivočrtna regresija.

Precej pogosto pride do krivolinijskega razmerja, ko se med spremenljivkami vzpostavi spremenljivo razmerje. Intenzivnost povečanja (zmanjšanja) je odvisna od stopnje X. Obstajajo različne vrste krivuljnih odvisnosti. Na primer, upoštevajte razmerje med donosom in padavinami. S povečanjem količine padavin ob enakih naravnih razmerah pride do intenzivnega povečanja pridelka, vendar do določene meje. Po kritični točki se izkaže, da je padavin preveč, pridelek pa katastrofalno upade. Primer kaže, da je bil odnos najprej pozitiven, nato pa negativen. Kritična točka je optimalna raven atributa X, ki ustreza največji ali najmanjši vrednosti atributa Y.

V ekonomiji opazimo takšno razmerje med ceno in porabo, produktivnostjo in izkušnjami.

Parabolična odvisnost.

Če podatki kažejo, da povečanje faktorske značilnosti vodi do povečanja rezultantne značilnosti, se kot regresijska enačba vzame enačba drugega reda (parabola).

. Koeficiente a,b,c najdemo iz parcialnih diferencialnih enačb:

Dobimo sistem enačb:

Vrste krivuljnih enačb:

,

,

Pravico imamo domnevati, da obstaja krivuljasta povezava med produktivnostjo dela in rezultati selekcijskih testov. To pomeni, da se bo z večanjem sistema točkovanja zmogljivost na neki ravni začela zmanjševati, zato se lahko izkaže, da je ravni model ukrivljen.

Tretji model bo hiperbola, v vseh enačbah pa bo spremenljivka x nadomeščena z izrazom .

ZAKLJUČEK REZULTATOV

Tabela 8.3a. Regresijska statistika
Regresijska statistika
množina R 0,998364
R-kvadrat 0,99673
Normaliziran R-kvadrat 0,996321
Standardna napaka 0,42405
Opažanja 10

Najprej si oglejmo zgornji del izračunov, predstavljen v tabeli 8.3a – regresijska statistika.

Vrednost R-kvadrata, imenovana tudi mera gotovosti, označuje kakovost dobljene regresijske črte. Ta kakovost je izražena s stopnjo ujemanja med izvornimi podatki in regresijskim modelom (izračunani podatki). Mera gotovosti je vedno znotraj intervala.

V večini primerov vrednost R-kvadrata pade med te vrednosti, imenovane ekstremne vrednosti, tj. med ničlo in ena.

Če je vrednost R-kvadrata blizu ena, to pomeni, da konstruirani model pojasni skoraj vso variabilnost v ustreznih spremenljivkah. Nasprotno pa vrednost R-kvadrata blizu nič pomeni, da je kakovost izdelanega modela slaba.

V našem primeru je mera gotovosti 0,99673, kar kaže na zelo dobro prileganje regresijske črte izvirnim podatkom.

množina R- multipli korelacijski koeficient R - izraža stopnjo odvisnosti neodvisne spremenljivke (X) in odvisne spremenljivke (Y).

Večkratnik R je enak kvadratnemu korenu determinacijskega koeficienta; ta količina ima vrednosti v območju od nič do ena.

Pri preprosti linearni regresijski analizi je večkratnik R enak Pearsonovemu korelacijskemu koeficientu. Dejansko je večkratnik R v našem primeru enak Pearsonovemu korelacijskemu koeficientu iz prejšnjega primera (0,998364).

Tabela 8.3b. Regresijski koeficienti
kvote Standardna napaka t-statistika
Y-križišče 2,694545455 0,33176878 8,121757129
Spremenljivka X 1 2,305454545 0,04668634 49,38177965
* Na voljo je skrajšana različica izračunov

Zdaj razmislite o srednjem delu izračunov, predstavljenih v tabeli 8.3b. Tu sta podana regresijski koeficient b (2,305454545) in premik vzdolž ordinatne osi, tj. konstanta a (2,694545455).

Na podlagi izračunov lahko regresijsko enačbo zapišemo takole:

Y= x*2,305454545+2,694545455

Smer odnosa med spremenljivkami se določi na podlagi predznakov (negativen ali pozitiven) regresijski koeficienti(koeficient b).

Če znak pri regresijski koeficient- pozitivno, razmerje med odvisno spremenljivko in neodvisno spremenljivko bo pozitivno. V našem primeru je predznak regresijskega koeficienta pozitiven, torej je tudi zveza pozitivna.

Če znak pri regresijski koeficient- negativna, razmerje med odvisno spremenljivko in neodvisno spremenljivko je negativno (inverzno).

V tabeli 8.3c. Predstavljeni so rezultati izpeljave ostankov. Da se ti rezultati prikažejo v poročilu, morate aktivirati potrditveno polje »Ostanki«, ko zaženete orodje »Regresija«.

ODZEM OSTALA

Tabela 8.3c. Ostanki
Opazovanje Napovedano Y Ostanki Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

S pomočjo tega dela poročila lahko vidimo odstopanja posamezne točke od izdelane regresijske črte. Največja absolutna vrednost

Pri statističnem modeliranju je regresijska analiza študija, ki se uporablja za vrednotenje razmerja med spremenljivkami. Ta matematična metoda vključuje številne druge metode za modeliranje in analizo več spremenljivk, kjer je poudarek na razmerju med odvisno spremenljivko in eno ali več neodvisnimi. Natančneje, regresijska analiza nam pomaga razumeti, kako se tipična vrednost odvisne spremenljivke spremeni, če se ena od neodvisnih spremenljivk spremeni, medtem ko druge neodvisne spremenljivke ostanejo fiksne.

V vseh primerih je ciljna ocena funkcija neodvisnih spremenljivk in se imenuje regresijska funkcija. Pri regresijski analizi je zanimiva tudi opredelitev spremembe odvisne spremenljivke kot funkcije regresije, ki jo lahko opišemo z verjetnostno porazdelitvijo.

Problemi regresijske analize

Ta statistična raziskovalna metoda se pogosto uporablja za napovedovanje, kjer ima njena uporaba veliko prednost, včasih pa lahko privede do iluzij ali napačnih razmerij, zato je priporočljivo, da jo pri omenjeni zadevi uporabljate previdno, saj npr. korelacija ne pomeni vzročnost.

Za regresijsko analizo je bilo razvitih veliko število metod, kot sta linearna in navadna regresija najmanjših kvadratov, ki sta parametrični. Njihovo bistvo je, da je regresijska funkcija definirana v smislu končnega števila neznanih parametrov, ki so ocenjeni iz podatkov. Neparametrična regresija omogoča, da njena funkcija leži znotraj določenega nabora funkcij, ki so lahko neskončnodimenzionalne.

Kot statistična raziskovalna metoda je regresijska analiza v praksi odvisna od oblike procesa generiranja podatkov in njegove povezave z regresijskim pristopom. Ker je prava oblika generiranja podatkovnega procesa običajno neznano število, je regresijska analiza podatkov pogosto do neke mere odvisna od predpostavk o procesu. Te predpostavke je včasih mogoče preveriti, če je na voljo dovolj podatkov. Regresijski modeli so pogosto uporabni, tudi če so predpostavke zmerno kršene, čeprav morda ne delujejo pri največji učinkovitosti.

V ožjem smislu se lahko regresija posebej nanaša na oceno zveznih spremenljivk odziva, v nasprotju z diskretnimi spremenljivkami odziva, ki se uporabljajo pri klasifikaciji. Primer zvezne izhodne spremenljivke se imenuje tudi metrična regresija, da se razlikuje od sorodnih problemov.

Zgodba

Najzgodnejša oblika regresije je znana metoda najmanjših kvadratov. Objavila sta jo Legendre leta 1805 in Gauss leta 1809. Legendre in Gauss sta metodo uporabila pri problemu določanja iz astronomskih opazovanj orbit teles okoli Sonca (predvsem kometov, pozneje pa tudi na novo odkritih manjših planetov). Gauss je leta 1821 objavil nadaljnji razvoj teorije najmanjših kvadratov, vključno z različico Gauss-Markovega izreka.

Izraz "regresija" je skoval Francis Galton v 19. stoletju za opis biološkega pojava. Ideja je bila, da se višina potomcev od višine njihovih prednikov nagiba k nazadovanju proti normalni srednji vrednosti. Za Galtona je imela regresija le ta biološki pomen, kasneje pa sta njegovo delo nadaljevala Udney Yoley in Karl Pearson ter ga pripeljala v splošnejši statistični kontekst. V delu Yulea in Pearsona se domneva, da je skupna porazdelitev odzivnih in pojasnjevalnih spremenljivk Gaussova. To predpostavko je Fischer zavrnil v dokumentih iz let 1922 in 1925. Fisher je predlagal, da je pogojna porazdelitev spremenljivke odziva Gaussova, ni pa nujno, da je skupna porazdelitev. V tem pogledu je Fischerjev predlog bližje Gaussovi formulaciji iz leta 1821. Pred letom 1970 je včasih trajalo do 24 ur, da so dobili rezultat regresijske analize.

Metode regresijske analize so še naprej področje aktivnih raziskav. V zadnjih desetletjih so bile razvite nove metode za robustno regresijo; regresije, ki vključujejo korelirane odzive; regresijske metode, ki se prilagodijo različnim vrstam manjkajočih podatkov; neparametrična regresija; metode Bayesove regresije; regresije, pri katerih so napovedne spremenljivke izmerjene z napako; regresija z več napovedovalci kot opazovanja in vzročno-posledično sklepanje z regresijo.

Regresijski modeli

Modeli regresijske analize vključujejo naslednje spremenljivke:

  • Neznani parametri, označeni kot beta, ki so lahko skalarni ali vektorski.
  • Neodvisne spremenljivke, X.
  • Odvisne spremenljivke, Y.

Različna področja znanosti, kjer se uporablja regresijska analiza, uporabljajo različne izraze namesto odvisnih in neodvisnih spremenljivk, vendar v vseh primerih regresijski model povezuje Y s funkcijo X in β.

Približek je običajno zapisan kot E(Y | X) = F(X, β). Za izvedbo regresijske analize je treba določiti vrsto funkcije f. Manj običajno temelji na znanju o razmerju med Y in X, ki se ne zanaša na podatke. Če takšno znanje ni na voljo, se izbere prilagodljiva ali priročna oblika F.

Odvisna spremenljivka Y

Predpostavimo zdaj, da ima vektor neznanih parametrov β dolžino k. Za izvedbo regresijske analize mora uporabnik zagotoviti informacije o odvisni spremenljivki Y:

  • Če opazimo N podatkovnih točk oblike (Y, X), kjer N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Če opazimo natančno N = K in je funkcija F linearna, potem lahko enačbo Y = F(X, β) rešimo natančno in ne približno. To pomeni reševanje niza N-enačb z N-neznankami (elementi β), ki ima edinstveno rešitev, dokler je X linearno neodvisen. Če je F nelinearen, morda ni rešitve ali pa obstaja veliko rešitev.
  • Najpogostejša situacija je, ko je opaziti N > podatkovnih točk. V tem primeru je v podatkih dovolj informacij za oceno edinstvene vrednosti za β, ki najbolje ustreza podatkom, in regresijski model, pri katerem je mogoče na aplikacijo podatkov gledati kot na preveč določen sistem v β.

V slednjem primeru regresijska analiza ponuja orodja za:

  • Iskanje rešitve za neznane parametre β, ki bo na primer zmanjšala razdaljo med izmerjeno in napovedano vrednostjo Y.
  • Pod določenimi statističnimi predpostavkami regresijska analiza uporablja presežne informacije, da zagotovi statistične informacije o neznanih parametrih β in predvidenih vrednostih odvisne spremenljivke Y.

Zahtevano število neodvisnih meritev

Razmislite o regresijskem modelu, ki ima tri neznane parametre: β 0 , β 1 in β 2 . Recimo, da eksperimentator opravi 10 meritev iste vrednosti vektorja neodvisne spremenljivke X. V tem primeru regresijska analiza ne ustvari edinstvenega nabora vrednosti. Najboljše, kar lahko storite, je, da ocenite povprečje in standardni odklon odvisne spremenljivke Y. Podobno lahko z merjenjem dveh različnih vrednosti X pridobite dovolj podatkov za regresijo z dvema neznankama, ne pa tudi s tremi ali več neznankami.

Če so bile meritve eksperimentatorja opravljene pri treh različnih vrednostih vektorja neodvisne spremenljivke X, potem bo regresijska analiza zagotovila edinstven niz ocen za tri neznane parametre v β.

V primeru splošne linearne regresije je zgornja izjava enakovredna zahtevi, da je matrika X T X invertibilna.

Statistične predpostavke

Kadar je število meritev N večje od števila neznanih parametrov k in merilnih napak ε i , potem se praviloma odvečne informacije, ki jih vsebujejo meritve, diseminirajo in uporabijo za statistične napovedi glede neznanih parametrov. Ta presežek informacij se imenuje regresijska stopnja svobode.

Temeljne predpostavke

Klasične predpostavke za regresijsko analizo vključujejo:

  • Vzorčenje je reprezentativno za predvidevanje sklepanja.
  • Izraz napake je naključna spremenljivka s srednjo vrednostjo nič, ki je odvisna od pojasnjevalnih spremenljivk.
  • Neodvisne spremenljivke so izmerjene brez napak.
  • Kot neodvisne spremenljivke (prediktorji) so linearno neodvisne, kar pomeni, da nobenega prediktorja ni mogoče izraziti kot linearno kombinacijo drugih.
  • Napake so nekorelirane, to je matrika kovariance napak diagonal in vsak neničelni element je varianca napake.
  • Varianca napake je med opazovanji konstantna (homoskedastičnost). Če ne, se lahko uporabijo uteženi najmanjši kvadrati ali druge metode.

Ti zadostni pogoji za oceno najmanjših kvadratov imajo zahtevane lastnosti; te predpostavke zlasti pomenijo, da bodo ocene parametrov objektivne, dosledne in učinkovite, zlasti če jih upoštevamo v razredu linearnih ocenjevalcev. Pomembno je omeniti, da dokazi le redko izpolnjujejo pogoje. To pomeni, da se metoda uporablja tudi, če predpostavke niso pravilne. Odstopanja od predpostavk se včasih lahko uporabijo kot merilo, kako uporaben je model. Mnoge od teh predpostavk je mogoče omiliti z naprednejšimi metodami. Poročila o statistični analizi običajno vključujejo analizo testov vzorčnih podatkov in metodologije za uporabnost modela.

Poleg tega se spremenljivke v nekaterih primerih nanašajo na vrednosti, izmerjene na točkah. V spremenljivkah lahko obstajajo prostorski trendi in prostorske avtokorelacije, ki kršijo statistične predpostavke. Geografsko utežena regresija je edina metoda, ki obravnava takšne podatke.

Značilnost linearne regresije je, da je odvisna spremenljivka, ki je Yi, linearna kombinacija parametrov. Na primer, preprosta linearna regresija uporablja eno neodvisno spremenljivko, x i, in dva parametra, β 0 in β 1, za modeliranje n-točk.

Pri večkratni linearni regresiji obstaja več neodvisnih spremenljivk ali njihovih funkcij.

Ko se iz populacije vzame naključni vzorec, njegovi parametri omogočajo pridobitev vzorčnega modela linearne regresije.

S tega vidika je najbolj priljubljena metoda najmanjših kvadratov. Uporablja se za pridobitev ocen parametrov, ki minimizirajo vsoto kvadratov ostankov. Ta vrsta minimizacije (ki je značilna za linearno regresijo) te funkcije vodi do niza normalnih enačb in niza linearnih enačb s parametri, ki se rešijo za pridobitev ocen parametrov.

Pod nadaljnjo predpostavko, da se populacijska napaka na splošno širi, lahko raziskovalec uporabi te standardne ocene napak za ustvarjanje intervalov zaupanja in izvedbo preizkusov hipotez o njenih parametrih.

Nelinearna regresijska analiza

Primer, kjer funkcija ni linearna glede na parametre, kaže, da je treba vsoto kvadratov minimizirati z uporabo iterativnega postopka. To uvaja številne zaplete, ki opredeljujejo razlike med linearnimi in nelinearnimi metodami najmanjših kvadratov. Posledično so rezultati regresijske analize pri uporabi nelinearne metode včasih nepredvidljivi.

Izračun moči in velikosti vzorca

Na splošno ni doslednih metod glede števila opazovanj v primerjavi s številom neodvisnih spremenljivk v modelu. Prvo pravilo sta predlagala Dobra in Hardin in je videti kot N = t^n, kjer je N velikost vzorca, n število neodvisnih spremenljivk in t število opazovanj, potrebnih za doseganje želene natančnosti, če bi model imel samo ena neodvisna spremenljivka. Na primer, raziskovalec zgradi linearni regresijski model z uporabo nabora podatkov, ki vsebuje 1000 bolnikov (N). Če se raziskovalec odloči, da je za natančno določitev črte (m) potrebnih pet opazovanj, potem je največje število neodvisnih spremenljivk, ki jih lahko podpira model, 4.

Druge metode

Čeprav so parametri regresijskega modela običajno ocenjeni z uporabo metode najmanjših kvadratov, obstajajo druge metode, ki se uporabljajo veliko manj pogosto. To so na primer naslednje metode:

  • Bayesove metode (na primer Bayesova linearna regresija).
  • Odstotna regresija, ki se uporablja v situacijah, ko je zmanjšanje odstotnih napak bolj primerno.
  • Najmanjša absolutna odstopanja, ki so močnejša v prisotnosti izstopajočih vrednosti, ki vodijo do kvantilne regresije.
  • Neparametrična regresija, ki zahteva veliko število opazovanj in izračunov.
  • Merilo učenja na daljavo, ki se nauči najti smiselno meritev razdalje v danem vhodnem prostoru.

Programska oprema

Vsi večji statistični programski paketi izvajajo regresijsko analizo najmanjših kvadratov. Preprosta linearna regresija in multipla regresijska analiza se lahko uporabljata v nekaterih aplikacijah za preglednice in nekaterih kalkulatorjih. Čeprav lahko številni paketi statistične programske opreme izvajajo različne vrste neparametrične in robustne regresije, so te metode manj standardizirane; različni programski paketi izvajajo različne metode. Specializirana programska oprema za regresijo je bila razvita za uporabo na področjih, kot sta analiza preiskav in slikanje nevronov.

Koncepta korelacije in regresije sta neposredno povezana. V korelacijski in regresijski analizi obstaja veliko običajnih računalniških tehnik. Uporabljajo se za ugotavljanje vzročno-posledičnih zvez med pojavi in ​​procesi. Vendar, če korelacijsko analizo omogoča oceno moči in smeri stohastične povezave, torej regresijska analiza– tudi oblika zasvojenosti.

Regresija je lahko:

a) odvisno od števila pojavov (spremenljivk):

Enostavno (regresija med dvema spremenljivkama);

Multipla (regresija med odvisno spremenljivko (y) in več pojasnjevalnimi spremenljivkami (x1, x2...xn);

b) odvisno od oblike:

Linearno (prikazano z linearno funkcijo in obstajajo linearni odnosi med preučevanimi spremenljivkami);

Nelinearno (prikazano z nelinearno funkcijo; razmerje med preučevanimi spremenljivkami je nelinearno);

c) glede na naravo razmerja med spremenljivkami, vključenimi v obravnavo:

Pozitivno (povečanje vrednosti pojasnjevalne spremenljivke povzroči povečanje vrednosti odvisne spremenljivke in obratno);

Negativno (z naraščanjem vrednosti pojasnjevalne spremenljivke se vrednost pojasnjevalne spremenljivke zmanjšuje);

d) po vrsti:

Neposredna (v tem primeru ima vzrok neposreden vpliv na posledico, tj. odvisna in pojasnjevalna spremenljivka sta med seboj neposredno povezani);

posredno (pojasnjevalna spremenljivka posredno vpliva prek tretje ali več drugih spremenljivk na odvisno spremenljivko);

Napačna (nesmiselna regresija) - lahko nastane s površnim in formalnim pristopom k preučevanim procesom in pojavom. Primer nesmiselne je regresija, ki ugotavlja povezavo med zmanjšanjem količine popitega alkohola pri nas in zmanjšanjem prodaje pralnih praškov.

Pri izvajanju regresijske analize se rešujejo naslednje glavne naloge:

1. Določitev oblike odvisnosti.

2. Definicija regresijske funkcije. Za to se uporablja ena ali druga matematična enačba, ki omogoča, prvič, določitev splošnega trenda spremembe odvisne spremenljivke in, drugič, izračun vpliva pojasnjevalne spremenljivke (ali več spremenljivk) na odvisna spremenljivka.

3. Ocena neznanih vrednosti odvisne spremenljivke. Nastalo matematično razmerje (regresijska enačba) vam omogoča, da določite vrednost odvisne spremenljivke znotraj intervala določenih vrednosti pojasnjevalnih spremenljivk in zunaj njega. V slednjem primeru je regresijska analiza uporabno orodje pri napovedovanju sprememb družbeno-ekonomskih procesov in pojavov (če se ohranijo obstoječi trendi in razmerja). Običajno je dolžina časovnega obdobja, za katero se izvaja napovedovanje, izbrana tako, da ne presega polovice časovnega intervala, v katerem so bila izvedena opazovanja začetnih kazalnikov. Možno je izvesti tako pasivno napoved, ki rešuje problem ekstrapolacije, kot tudi aktivno, sklepanje po dobro znani shemi "če ..., potem" in zamenjavo različnih vrednosti v eno ali več pojasnjevalnih regresijskih spremenljivk .



Za regresijska konstrukcija posebno metodo, imenovano metoda najmanjših kvadratov. Ta metoda ima prednosti pred drugimi metodami glajenja: razmeroma preprosto matematično določitev zahtevanih parametrov in dobro teoretično utemeljitev z verjetnostnega vidika.

Pri izbiri regresijskega modela je ena od bistvenih zahtev zanj čim večja enostavnost, ki vam omogoča, da dobite rešitev z zadostno natančnostjo. Zato za vzpostavitev statističnih razmerij najprej praviloma upoštevamo model iz razreda linearnih funkcij (kot najenostavnejši od vseh možnih razredov funkcij):

kjer so bi, b2...bj koeficienti, ki določajo vpliv neodvisnih spremenljivk xij na vrednost yi; ai - prost član; ei - naključni odklon, ki odraža vpliv neupoštevanih dejavnikov na odvisno spremenljivko; n - število neodvisnih spremenljivk; N je število opazovanj in mora biti izpolnjen pogoj (N . n+1).

Linearni model lahko opiše zelo širok razred različnih nalog. Vendar pa je v praksi, zlasti v družbeno-ekonomskih sistemih, včasih težko uporabiti linearne modele zaradi velikih aproksimacijskih napak. Zato se pogosto uporabljajo nelinearne funkcije večkratne regresije, ki jih je mogoče linearizirati. Sem spada na primer proizvodna funkcija (Cobb-Douglasova funkcija moči), ki je našla uporabo v različnih socialno-ekonomskih študijah. Izgleda:

kjer je b 0 normalizacijski faktor, b 1 ...b j so neznani koeficienti, e i je naključni odklon.

Z uporabo naravnih logaritmov lahko to enačbo pretvorite v linearno obliko:

Nastali model omogoča uporabo standardnih postopkov linearne regresije, opisanih zgoraj. Z izgradnjo dveh vrst modelov (aditivnih in multiplikativnih) lahko izberete najboljšega in izvedete nadaljnje raziskave z manjšimi aproksimacijskimi napakami.

Obstaja dobro razvit sistem za izbiro aproksimacijskih funkcij - metoda skupinskega obračunavanja argumentov(MGUA).

O pravilnosti izbranega modela lahko presojamo po rezultatih preučevanja ostankov, ki so razlike med opazovanimi vrednostmi y i in ustreznimi vrednostmi y i, predvidenimi z uporabo regresijske enačbe. V tem primeru preveriti ustreznost modela izračunano povprečna napaka približka:

Model velja za ustreznega, če e ni več kot 15 %.

Posebej poudarjamo, da v odnosu do družbenoekonomskih sistemov osnovni pogoji za ustreznost klasičnega regresijskega modela niso vedno izpolnjeni.

Ne da bi se ukvarjali z vsemi razlogi za neustreznost, ki se pojavlja, bomo le navedli multikolinearnost- najtežji problem učinkovite uporabe postopkov regresijske analize pri študiju statističnih odvisnosti. Spodaj multikolinearnost razume se, da obstaja linearna povezava med pojasnjevalnimi spremenljivkami.

Ta pojav:

a) izkrivlja pomen regresijskih koeficientov pri njihovi smiselni interpretaciji;

b) zmanjša natančnost ocenjevanja (poveča se razpršenost ocen);

c) poveča občutljivost ocen koeficientov na vzorčne podatke (povečanje velikosti vzorca lahko močno vpliva na ocene).

Obstajajo različne tehnike za zmanjšanje multikolinearnosti. Najbolj dostopen način je izločitev ene od obeh spremenljivk, če korelacijski koeficient med njima presega vrednost, ki je absolutno enaka 0,8. Katero od spremenljivk obdržati, se odloči na podlagi vsebinskih premislekov. Nato se ponovno izračunajo regresijski koeficienti.

Uporaba postopnega regresijskega algoritma vam omogoča, da v model zaporedno vključite eno neodvisno spremenljivko in analizirate pomembnost regresijskih koeficientov in multikolinearnosti spremenljivk. Končno ostanejo v proučevanem odnosu le tiste spremenljivke, ki zagotavljajo potrebno pomembnost regresijskih koeficientov in minimalen vpliv multikolinearnosti.

Regresijska analiza je metoda modeliranja izmerjenih podatkov in preučevanja njihovih lastnosti. Podatki so sestavljeni iz parov vrednosti odvisne spremenljivke (odzivna spremenljivka) in neodvisne spremenljivke (pojasnjevalna spremenljivka). Regresijski model je funkcija neodvisne spremenljivke in parametrov z dodano naključno spremenljivko.

Korelacijska analiza in regresijska analiza sta povezani razdelki matematične statistike in sta namenjeni preučevanju statistične odvisnosti številnih količin z uporabo vzorčnih podatkov; od katerih so nekateri naključni. Pri statistični odvisnosti količine niso funkcionalno povezane, ampak so opredeljene kot naključne spremenljivke s skupno verjetnostno porazdelitvijo.

Preučevanje odvisnosti slučajnih spremenljivk vodi do regresijskih modelov in regresijske analize na podlagi vzorčnih podatkov. Teorija verjetnosti in matematična statistika predstavljata le orodje za preučevanje statistične odvisnosti, nista pa namenjena ugotavljanju vzročne zveze. Ideje in hipoteze o vzročnem razmerju morajo izhajati iz neke druge teorije, ki omogoča smiselno razlago preučevanega pojava.

Numerični podatki imajo običajno eksplicitne (znane) ali implicitne (skrite) odnose med seboj.

Kazalniki, pridobljeni z metodami neposrednega izračuna, torej izračunani po predhodno znanih formulah, so očitno povezani. Na primer odstotki izpolnjenosti načrta, ravni, specifične uteži, odstopanja v znesku, odstopanja v odstotkih, stopnje rasti, stopnje rasti, indeksi itd.

Povezave druge vrste (implicitne) so vnaprej neznane. Za obvladovanje kompleksnih pojavov pa je treba znati pojasnjevati in napovedovati (napovedovati). Zato si strokovnjaki s pomočjo opazovanj prizadevajo prepoznati skrite odvisnosti in jih izraziti v obliki formul, torej matematično modelirati pojave ali procese. Eno takih priložnosti ponuja korelacijsko-regresijska analiza.

Matematični modeli so zgrajeni in uporabljeni za tri splošne namene:

  • * za pojasnilo;
  • * za napoved;
  • * Za vožnjo.

Z metodami korelacijske in regresijske analize analitiki merijo tesnost povezav med indikatorji s korelacijskim koeficientom. V tem primeru se odkrijejo povezave, ki so različne po moči (močne, šibke, zmerne itd.) In različne smeri (direktne, povratne). Če se povezave izkažejo za pomembne, je priporočljivo poiskati njihov matematični izraz v obliki regresijskega modela in ovrednotiti statistično pomembnost modela.

Regresijska analiza se imenuje glavna metoda sodobne matematične statistike za prepoznavanje implicitnih in prikritih povezav med opazovalnimi podatki.

Izjava problema regresijske analize je formulirana na naslednji način.

Obstaja niz rezultatov opazovanja. V tem nizu en stolpec ustreza indikatorju, za katerega je treba vzpostaviti funkcionalno razmerje s parametri objekta in okolja, ki jih predstavljajo preostali stolpci. Zahtevano: vzpostavite kvantitativno razmerje med indikatorjem in dejavniki. V tem primeru problem regresijske analize razumemo kot nalogo identifikacije takšne funkcionalne odvisnosti y = f (x2, x3, ..., xт), ki najbolje opisuje razpoložljive eksperimentalne podatke.

Predpostavke:

število opazovanj zadostuje za prikaz statističnih vzorcev glede dejavnikov in njihovih odnosov;

obdelani podatki vsebujejo nekatere napake (šum) zaradi merilnih napak in vpliva neupoštevanih naključnih dejavnikov;

matrika rezultatov opazovanja je edina informacija o preučevanem predmetu, ki je na voljo pred začetkom študije.

Funkcijo f (x2, x3, ..., xт), ki opisuje odvisnost kazalnika od parametrov, imenujemo regresijska enačba (funkcija). Izraz "regresija" (regresija (latinsko) - umik, vrnitev k nečemu) je povezan s posebnostmi enega od specifičnih problemov, rešenih na stopnji oblikovanja metode.

Rešitev problema regresijske analize je priporočljivo razdeliti na več stopenj:

predhodna obdelava podatkov;

izbira vrste regresijskih enačb;

izračun koeficientov regresijske enačbe;

preverjanje ustreznosti konstruirane funkcije rezultatom opazovanja.

Predhodna obdelava vključuje standardizacijo podatkovne matrike, izračun korelacijskih koeficientov, preverjanje njihove pomembnosti in izključitev nepomembnih parametrov iz obravnave.

Izbira vrste regresijske enačbe Naloga določanja funkcionalnega razmerja, ki najbolje opisuje podatke, vključuje premagovanje številnih temeljnih težav. V splošnem primeru lahko za standardizirane podatke funkcionalno odvisnost indikatorja od parametrov predstavimo kot

y = f (x1, x2, …, xm) + e

kjer je f prej neznana funkcija, ki jo je treba določiti;

e - napaka aproksimacije podatkov.

Ta enačba se običajno imenuje vzorčna regresijska enačba. Ta enačba označuje razmerje med variacijo indikatorja in variacijami dejavnikov. Korelacijska mera pa meri delež variacije v indikatorju, ki je povezan z variacijo dejavnikov. Z drugimi besedami, korelacije med indikatorjem in dejavniki ni mogoče interpretirati kot povezavo med njihovimi ravnmi, regresijska analiza pa ne pojasni vloge dejavnikov pri ustvarjanju indikatorja.

Druga značilnost se nanaša na oceno stopnje vpliva vsakega dejavnika na kazalnik. Regresijska enačba ne daje ocene vpliva posameznega dejavnika na kazalnik, taka ocena je možna le v primeru, ko vsi drugi dejavniki niso povezani s preučevanim. Če je dejavnik, ki se proučuje, povezan z drugimi, ki vplivajo na kazalnik, bo pridobljena mešana značilnost vpliva dejavnika. Ta značilnost vsebuje tako neposredni vpliv dejavnika kot posredni vpliv, ki se izvaja prek povezave z drugimi dejavniki in njihovega vpliva na kazalnik.

V regresijsko enačbo ni priporočljivo vključiti dejavnikov, ki so šibko povezani s kazalnikom, vendar so tesno povezani z drugimi dejavniki. V enačbo niso vključeni dejavniki, ki so med seboj funkcionalno povezani (zanje je korelacijski koeficient 1). Vključitev takšnih dejavnikov vodi v degeneracijo sistema enačb za ocenjevanje regresijskih koeficientov in v negotovost rešitve.

Funkcija f mora biti izbrana tako, da je napaka e v nekem smislu minimalna. Za izbiro funkcionalne povezave se vnaprej postavi hipoteza o tem, v kateri razred lahko spada funkcija f, nato pa se izbere »najboljša« funkcija v tem razredu. Izbrani razred funkcij mora imeti nekaj »gladkosti«, tj. "majhne" spremembe vrednosti argumentov bi morale povzročiti "majhne" spremembe vrednosti funkcij.

Poseben primer, ki se pogosto uporablja v praksi, je polinom prve stopnje ali linearna regresijska enačba

Za izbiro vrste funkcionalne odvisnosti se lahko priporoči naslednji pristop:

točke z vrednostmi indikatorjev so grafično prikazane v prostoru parametrov. Z velikim številom parametrov je mogoče konstruirati točke za vsakega od njih, tako da dobimo dvodimenzionalne porazdelitve vrednosti;

na podlagi lokacije točk in na podlagi analize bistva razmerja med indikatorjem in parametri objekta se sklepa o približni vrsti regresije ali njenih možnih možnostih;

Po izračunu parametrov se oceni kakovost aproksimacije, t.j. ovrednotiti stopnjo podobnosti med izračunanimi in dejanskimi vrednostmi;

če so izračunane in dejanske vrednosti blizu celotnega področja naloge, se lahko šteje, da je problem regresijske analize rešen. V nasprotnem primeru lahko poskusite izbrati drugo vrsto polinoma ali drugo analitično funkcijo, na primer periodično.

Izračun koeficientov regresijske enačbe

Na podlagi razpoložljivih podatkov je nemogoče enoznačno rešiti sistem enačb, saj je število neznank vedno večje od števila enačb. Za premagovanje te težave so potrebne dodatne predpostavke. Zdrava kmečka pamet narekuje: koeficiente polinoma je priporočljivo izbrati tako, da zagotovimo minimalno napako pri aproksimaciji podatkov. Za ovrednotenje aproksimacijskih napak se lahko uporabijo različni ukrepi. Koren srednje kvadratne napake se pogosto uporablja kot taka mera. Na njeni osnovi je bila razvita posebna metoda za ocenjevanje koeficientov regresijskih enačb - metoda najmanjših kvadratov (LSM). Ta metoda vam omogoča, da pridobite ocene največje verjetnosti neznanih koeficientov regresijske enačbe v okviru možnosti normalne porazdelitve, lahko pa jo uporabite za katero koli drugo porazdelitev faktorjev.

MNC temelji na naslednjih določbah:

vrednosti napak in faktorjev so neodvisne in zato nekorelirane, tj. predpostavlja se, da mehanizmi za generiranje motenj niso povezani z mehanizmom za generiranje faktorskih vrednosti;

matematično pričakovanje napake e mora biti enako nič (konstantna komponenta je vključena v koeficient a0), z drugimi besedami, napaka je centrirana količina;

vzorčna ocena variance napake mora biti minimalna.

Če je linearni model netočen ali so parametri izmerjeni netočno, nam v tem primeru metoda najmanjših kvadratov omogoča, da najdemo takšne vrednosti koeficientov, pri katerih linearni model najbolje opisuje realni objekt v smislu izbranega standardnega odklona. merilo.

Kakovost dobljene regresijske enačbe se ocenjuje s stopnjo bližine med rezultati opazovanj indikatorja in vrednostmi, ki jih napoveduje regresijska enačba na danih točkah v prostoru parametrov. Če so rezultati blizu, se lahko šteje, da je problem regresijske analize rešen. V nasprotnem primeru bi morali spremeniti regresijsko enačbo in ponoviti izračune za oceno parametrov.

Če je indikatorjev več, se problem regresijske analize rešuje za vsakega posebej.

Pri analizi bistva regresijske enačbe je treba opozoriti na naslednje točke. Obravnavani pristop ne zagotavlja ločene (neodvisne) ocene koeficientov - sprememba vrednosti enega koeficienta povzroči spremembo vrednosti drugih. Dobljenih koeficientov ne smemo obravnavati kot prispevek ustreznega parametra k vrednosti kazalnika. Regresijska enačba je le dober analitični opis razpoložljivih podatkov in ne zakon, ki opisuje razmerje med parametri in indikatorjem. Ta enačba se uporablja za izračun vrednosti indikatorja v danem obsegu sprememb parametrov. Je omejeno primeren za izračune zunaj tega območja, tj. lahko se uporablja za reševanje problemov interpolacije in v omejenem obsegu za ekstrapolacijo.

Glavni razlog za netočnost napovedi ni toliko negotovost ekstrapolacije regresijske premice, temveč precejšnja variacija kazalnika zaradi dejavnikov, ki v modelu niso bili upoštevani. Omejitev zmožnosti napovedovanja je pogoj stabilnosti parametrov, ki niso upoštevani v modelu, in narava vpliva upoštevanih faktorjev modela. Če se zunanje okolje močno spremeni, bo sestavljena regresijska enačba izgubila pomen.

Napoved, ki jo dobimo s substitucijo pričakovane vrednosti parametra v regresijsko enačbo, je točka ena. Verjetnost uresničitve takšne napovedi je zanemarljiva. Priporočljivo je določiti interval zaupanja napovedi. Za posamezne vrednosti indikatorja mora interval upoštevati napake v položaju regresijske črte in odstopanja posameznih vrednosti od te črte.



Vam je bil članek všeč? Delite s prijatelji!