Koeficienti i regresionit për ndryshoren x. Bazat e analizës së të dhënave

Llogaritja e koeficientëve të ekuacionit të regresionit

Sistemi i ekuacioneve (7.8) i bazuar në ED-në e disponueshme nuk mund të zgjidhet pa mëdyshje, pasi numri i të panjohurave është gjithmonë më i madh se numri i ekuacioneve. Për të kapërcyer këtë problem, nevojiten supozime shtesë. Mendja e shëndoshë dikton: këshillohet të zgjidhni koeficientët e polinomit në mënyrë të tillë që të sigurohet një gabim minimal në përafrimin e ED. Masa të ndryshme mund të përdoren për të vlerësuar gabimet e përafrimit. Gabimi mesatar katror i rrënjës përdoret gjerësisht si një masë e tillë. Mbi bazën e saj, është zhvilluar një metodë e veçantë për vlerësimin e koeficientëve të ekuacioneve të regresionit - metoda e katrorëve më të vegjël (LSM). Kjo metodë ju lejon të merrni vlerësime maksimale të gjasave të koeficientëve të panjohur të ekuacionit të regresionit nën opsionin e shpërndarjes normale, por mund të përdoret për çdo shpërndarje tjetër të faktorëve.

MNC bazohet në dispozitat e mëposhtme:

· Vlerat e vlerave dhe faktorëve të gabimit janë të pavarura, dhe për këtë arsye të pakorreluara, d.m.th. supozohet se mekanizmat për gjenerimin e interferencës nuk janë të lidhura me mekanizmin për gjenerimin e vlerave të faktorëve;

· Pritja matematikore e gabimit ε duhet të jetë e barabartë me zero (komponenti konstant përfshihet në koeficient a 0), me fjalë të tjera, gabimi është një sasi e përqendruar;

· Vlerësimi i mostrës së variancës së gabimit duhet të jetë minimal.

Le të shqyrtojmë përdorimin e OLS në lidhje me regresionin linear të vlerave të standardizuara. Për sasitë e përqendruara u j koeficienti a 0është e barabartë me zero, atëherë ekuacionet e regresionit linear

. (7.9)

Një shenjë e veçantë "^" është futur këtu për të treguar vlerat e treguesit të llogaritur duke përdorur ekuacionin e regresionit, në kontrast me vlerat e marra nga rezultatet e vëzhgimit.

Duke përdorur metodën e katrorëve më të vegjël, përcaktohen vlera të tilla të koeficientëve të ekuacionit të regresionit që sigurojnë një minimum të pakushtëzuar për shprehjen

Minimumi gjendet duke barazuar me zero të gjithë derivatet e pjesshëm të shprehjes (7.10), të marra mbi koeficientët e panjohur dhe duke zgjidhur sistemin e ekuacioneve

(7.11)

Kryerja e vazhdueshme e transformimeve dhe përdorimi i vlerësimeve të prezantuara më parë të koeficientëve të korrelacionit

. (7.12)

Pra, marrë T–1 ekuacione lineare, e cila ju lejon të llogaritni pa mëdyshje vlerat a 2, a 3, …, a t.

Nëse modeli linear është i pasaktë ose parametrat maten në mënyrë të pasaktë, atëherë në këtë rast metoda e katrorëve më të vegjël na lejon të gjejmë vlera të tilla të koeficientëve në të cilët modeli linear përshkruan më së miri objektin real në kuptimin e devijimit standard të zgjedhur. kriter.

Kur ka vetëm një parametër, bëhet ekuacioni i regresionit linear

Koeficienti a 2 gjendet nga ekuacioni

Pastaj, duke pasur parasysh atë r 2.2= 1, koeficienti i kërkuar

a 2 = r y ,2 . (7.13)

Marrëdhënia (7.13) konfirmon deklaratën e deklaruar më parë se koeficienti i korrelacionit është një masë e marrëdhënies lineare midis dy parametrave të standardizuar.

Zëvendësimi i vlerës së gjetur të koeficientit a 2 në një shprehje për w, duke marrë parasysh vetitë e sasive të përqendruara dhe të normalizuara, marrim vlerën minimale të këtij funksioni të barabartë me 1- r 2 vjet,2. Vlera 1 - r 2 y,2 quhet varianca e mbetur e ndryshores së rastit y në lidhje me një ndryshore të rastësishme ju 2. Karakterizon gabimin që përftohet gjatë zëvendësimit të treguesit me një funksion të parametrit υ= a 2 u 2. Vetëm me | r y, 2| = 1 varianca e mbetur është zero, dhe për këtë arsye nuk ka asnjë gabim kur përafrohet treguesi me një funksion linear.

Kalimi nga vlerat e treguesve dhe parametrave të përqendruar dhe të normalizuar

mund të merret për vlerat origjinale

Ky ekuacion është gjithashtu linear në lidhje me koeficientin e korrelacionit. Është e lehtë të shihet se përqendrimi dhe normalizimi për regresionin linear bën të mundur zvogëlimin e dimensionit të sistemit të ekuacioneve me një, d.m.th. thjeshtoni zgjidhjen e problemit të përcaktimit të koeficientëve dhe u jepni vetë koeficientëve një kuptim të qartë.

Përdorimi i katrorëve më të vegjël për funksionet jolineare praktikisht nuk është i ndryshëm nga skema e konsideruar (vetëm koeficienti a0 në ekuacionin origjinal nuk është i barabartë me zero).

Për shembull, supozoni se është e nevojshme të përcaktohen koeficientët e regresionit parabolik

Modeli i variancës së gabimit

Bazuar në të, mund të marrim sistemin e mëposhtëm të ekuacioneve

Pas transformimeve, sistemi i ekuacioneve do të marrë formën

Duke marrë parasysh vetitë e momenteve të sasive të standardizuara, shkruajmë

Përcaktimi i koeficientëve të regresionit jolinear bazohet në zgjidhjen e një sistemi ekuacionesh lineare. Për ta bërë këtë, mund të përdorni paketa universale të metodave numerike ose paketa të specializuara për përpunimin e të dhënave statistikore.

Me rritjen e shkallës së ekuacionit të regresionit, rritet edhe shkalla e momenteve të shpërndarjes së parametrave të përdorur për të përcaktuar koeficientët. Kështu, për të përcaktuar koeficientët e ekuacionit të regresionit të shkallës së dytë, përdoren momentet e shpërndarjes së parametrave deri në shkallën e katërt përfshirëse. Dihet se saktësia dhe besueshmëria e vlerësimit të momenteve nga një kampion i kufizuar ED-sh zvogëlohet ndjeshëm me rritjen e rendit të tyre. Përdorimi i polinomeve të shkallës më të lartë se i dyti në ekuacionet e regresionit është i papërshtatshëm.

Cilësia e ekuacionit të regresionit që rezulton vlerësohet nga shkalla e afërsisë midis rezultateve të vëzhgimeve të treguesit dhe vlerave të parashikuara nga ekuacioni i regresionit në pikat e dhëna në hapësirën e parametrave. Nëse rezultatet janë të afërta, atëherë problemi i analizës së regresionit mund të konsiderohet i zgjidhur. Përndryshe, duhet të ndryshoni ekuacionin e regresionit (të zgjidhni një shkallë të ndryshme polinomi ose një lloj tjetër ekuacioni fare) dhe të përsërisni llogaritjet për të vlerësuar parametrat.

Nëse ka disa tregues, problemi i analizës së regresionit zgjidhet në mënyrë të pavarur për secilin prej tyre.

Duke analizuar thelbin e ekuacionit të regresionit, duhet të theksohen pikat e mëposhtme. Qasja e konsideruar nuk siguron vlerësim të veçantë (të pavarur) të koeficientëve - një ndryshim në vlerën e një koeficienti sjell një ndryshim në vlerat e të tjerëve. Koeficientët e marrë nuk duhet të konsiderohen si kontribut i parametrit përkatës në vlerën e treguesit. Ekuacioni i regresionit është vetëm një përshkrim i mirë analitik i ED ekzistues, dhe jo një ligj që përshkruan marrëdhënien midis parametrave dhe treguesit. Ky ekuacion përdoret për të llogaritur vlerat e treguesit në një gamë të caktuar ndryshimesh të parametrave. Është i përshtatshmërisë së kufizuar për llogaritjet jashtë këtij diapazoni, d.m.th. mund të përdoret për zgjidhjen e problemeve të interpolimit dhe, në një masë të kufizuar, për ekstrapolim.



Arsyeja kryesore e pasaktësisë së parashikimit nuk është aq shumë pasiguria e ekstrapolimit të vijës së regresionit, por variacioni i ndjeshëm i treguesit për shkak të faktorëve që nuk janë marrë parasysh në model. Kufizimi i aftësisë së parashikimit është kushti i qëndrueshmërisë së parametrave që nuk merren parasysh në model dhe natyra e ndikimit të faktorëve të modelit të marrë parasysh. Nëse mjedisi i jashtëm ndryshon ndjeshëm, atëherë ekuacioni i përpiluar i regresionit do të humbasë kuptimin e tij. Është e pamundur të zëvendësohen në ekuacionin e regresionit vlera të tilla të faktorëve që ndryshojnë ndjeshëm nga ato të paraqitura në ED. Rekomandohet të mos kaloni një të tretën e diapazonit të ndryshimit të parametrit si për vlerat maksimale ashtu edhe për ato minimale të faktorit.

Parashikimi i marrë duke zëvendësuar vlerën e pritur të parametrit në ekuacionin e regresionit është një pikë. Mundësia që një parashikim i tillë të realizohet është i papërfillshëm. Këshillohet të përcaktohet intervali i besueshmërisë së parashikimit. Për vlerat individuale të treguesit, intervali duhet të marrë parasysh gabimet në pozicionin e vijës së regresionit dhe devijimet e vlerave individuale nga kjo linjë. Gabimi mesatar në parashikimin e treguesit y për faktorin x do të jetë

Ku është gabimi mesatar në pozicionin e vijës së regresionit në popullatën në x = x k;

– vlerësimi i variancës së devijimit të treguesit nga vija e regresionit në popullatë;

x k– vlera e pritur e faktorit.

Kufijtë e besimit të parashikimit, për shembull, për ekuacionin e regresionit (7.14), përcaktohen nga shprehja

Term negativ negativ a 0 në ekuacionin e regresionit për variablat origjinale do të thotë se fusha e ekzistencës së treguesit nuk përfshin vlerat e parametrave zero. Nëse a 0 > 0, atëherë fusha e ekzistencës së treguesit përfshin vlera zero të parametrave, dhe vetë koeficienti karakterizon vlerën mesatare të treguesit në mungesë të ndikimeve të parametrave.

Problemi 7.2. Ndërtoni një ekuacion regresioni për kapacitetin e kanalit bazuar në mostrën e specifikuar në tabelë. 7.1.

Zgjidhje. Në lidhje me kampionin e specifikuar, ndërtimi i varësisë analitike u krye kryesisht brenda kornizës së analizës së korrelacionit: xhiroja varet vetëm nga parametri i raportit sinjal-zhurmë. Mbetet për të zëvendësuar vlerat e parametrave të llogaritura më parë në shprehjen (7.14). Ekuacioni për kapacitetin do të marrë formën

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Rezultatet e llogaritjes janë paraqitur në tabelë. 7.5.

Tabela 7.5

N pp Kapaciteti i kanalit Raporti sinjal ndaj zhurmës Vlera e funksionit Gabim
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Studimi i varësive të korrelacionit bazohet në studimin e lidhjeve të tilla midis variablave në të cilat vlerat e një ndryshoreje, e cila mund të merret si një variabël e varur, ndryshojnë "mesatarisht" në varësi të vlerave të marra nga një tjetër. variabël, i konsideruar si shkak në raport me variablin e varur. Veprimi i këtij shkaku kryhet në kushte të ndërveprimit kompleks të faktorëve të ndryshëm, si rezultat i të cilit manifestimi i modelit errësohet nga ndikimi i rastësisë. Duke llogaritur vlerat mesatare të atributit efektiv për një grup të caktuar vlerash të faktorit-atribut, ndikimi i rastësisë eliminohet pjesërisht. Duke llogaritur parametrat e linjës teorike të komunikimit, ato eliminohen më tej dhe fitohet një ndryshim i paqartë (në formë) në "y" me një ndryshim në faktorin "x".

Për të studiuar marrëdhëniet stokastike, përdoret gjerësisht metoda e krahasimit të dy serive paralele, metoda e grupimeve analitike, analiza e korrelacionit, analiza e regresionit dhe disa metoda joparametrike. Në përgjithësi, detyra e statistikave në fushën e studimit të marrëdhënieve nuk është vetëm të përcaktojë praninë e tyre, drejtimin dhe forcën e lidhjes, por edhe të përcaktojë formën (shprehjen analitike) të ndikimit të karakteristikave të faktorëve në atë rezultante. Për ta zgjidhur atë, përdoren metodat e analizës së korrelacionit dhe regresionit.

KAPITULLI 1. EKUACIONI I REGRESIONIT: BAZET TEORIKE

1.1. Ekuacioni i regresionit: thelbi dhe llojet e funksioneve

Regresioni (lat. regressio - lëvizje e kundërt, kalimi nga format më komplekse të zhvillimit në ato më pak komplekse) është një nga konceptet bazë në teorinë e probabilitetit dhe statistikat matematikore, që shpreh varësinë e vlerës mesatare të një ndryshoreje të rastit nga vlerat. e një ndryshoreje tjetër të rastësishme ose disa ndryshoreve të rastësishme. Ky koncept u prezantua nga Francis Galton në 1886.

Vija e regresionit teorik është vija rreth së cilës grupohen pikat e fushës së korrelacionit dhe që tregon drejtimin kryesor, prirjen kryesore të lidhjes.

Linja e regresionit teorik duhet të pasqyrojë ndryshimin në vlerat mesatare të atributit efektiv "y" pasi vlerat e atributit të faktorit "x" ndryshojnë, duke iu nënshtruar anulimit të plotë të të gjitha të tjerave - të rastësishme në lidhje me faktorin. "x" - shkaqet. Rrjedhimisht, kjo vijë duhet të tërhiqet në mënyrë që shuma e devijimeve të pikave të fushës së korrelacionit nga pikat përkatëse të vijës së regresionit teorik të jetë e barabartë me zero, dhe shuma e katrorëve të këtyre devijimeve të jetë minimale.

y=f(x) - ekuacioni i regresionit është një formulë për lidhjen statistikore ndërmjet variablave.

Drejtëza në një rrafsh (në hapësirë ​​dydimensionale) jepet me ekuacionin y=a+b*x. Në mënyrë më të detajuar, ndryshorja y mund të shprehet në terma të një konstante (a) dhe një pjerrësi (b) të shumëzuar me ndryshoren x. Konstanta nganjëherë quhet edhe termi i ndërprerjes, dhe pjerrësia nganjëherë quhet regresion ose koeficient B.

Një fazë e rëndësishme e analizës së regresionit është përcaktimi i llojit të funksionit me të cilin karakterizohet varësia midis karakteristikave. Baza kryesore duhet të jetë një analizë kuptimplotë e natyrës së varësisë që studiohet dhe mekanizmit të saj. Në të njëjtën kohë, nuk është gjithmonë e mundur të vërtetohet teorikisht forma e lidhjes midis secilit prej faktorëve dhe treguesit të performancës, pasi fenomenet socio-ekonomike në studim janë shumë komplekse dhe faktorët që formojnë nivelin e tyre janë të ndërthurur ngushtë dhe ndërveprojnë. me njëri-tjetrin. Prandaj, në bazë të analizës teorike, shpesh mund të nxirren përfundimet më të përgjithshme në lidhje me drejtimin e marrëdhënies, mundësinë e ndryshimit të saj në popullsinë në studim, legjitimitetin e përdorimit të një marrëdhënie lineare, praninë e mundshme të vlerave ekstreme, etj. etj. Një plotësim i domosdoshëm i supozimeve të tilla duhet të jetë një analizë e të dhënave specifike faktike.

Një ide e përafërt e linjës së marrëdhënieve mund të merret bazuar në linjën e regresionit empirik. Linja e regresionit empirik është zakonisht një vijë e thyer dhe ka një thyerje pak a shumë domethënëse. Kjo shpjegohet me faktin se ndikimi i faktorëve të tjerë të pa llogaritur që ndikojnë në ndryshimin e karakteristikës rezultuese është shuar jo plotësisht në mesatare, për shkak të numrit të pamjaftueshëm të vëzhgimeve, prandaj, një linjë empirike komunikimi mund të përdoret për të zgjedhur dhe justifikoni llojin e kurbës teorike, me kusht që numri i vëzhgimeve të jetë mjaftueshëm i madh.

Një nga elementët e studimeve specifike është krahasimi i ekuacioneve të ndryshme të varësisë, bazuar në përdorimin e kritereve të cilësisë për përafrimin e të dhënave empirike nga versionet konkurruese të modeleve. Llojet e mëposhtme të funksioneve përdoren më shpesh për të karakterizuar marrëdhëniet e treguesve ekonomikë.

1. Linear:

2. Hiperbolik:

3. Demonstruese:

4. Parabolike:

5. Fuqia:

6. Logaritmike:

7. Logjistika:

Një model me një variabël shpjegues dhe një të shpjeguar është një model regresioni i çiftuar. Nëse përdoren dy ose më shumë variabla shpjegues (faktorë), atëherë flasim për përdorimin e një modeli regresioni të shumëfishtë. Në këtë rast, funksionet lineare, eksponenciale, hiperbolike, eksponenciale dhe lloje të tjera të funksioneve që lidhin këto variabla mund të zgjidhen si opsione.

Për të gjetur parametrat a dhe b të ekuacionit të regresionit, përdoret metoda e katrorëve më të vegjël. Kur aplikoni metodën e katrorëve më të vegjël për të gjetur një funksion që i përshtatet më së miri të dhënave empirike, besohet se çanta e katrorëve të devijimeve të pikave empirike nga vija e regresionit teorik duhet të jetë një vlerë minimale.

Kriteri i katrorëve më të vegjël mund të shkruhet si më poshtë:

Rrjedhimisht, përdorimi i metodës së katrorëve më të vegjël për të përcaktuar parametrat a dhe b të vijës që përputhet më mirë me të dhënat empirike reduktohet në një problem ekstrem.

Në lidhje me vlerësimet, mund të nxirren përfundimet e mëposhtme:

1. Vlerësuesit e katrorëve më të vegjël janë funksione të kampionit, duke i bërë të lehtë për t'u llogaritur.

2. Vlerësimet e katrorëve më të vegjël janë vlerësime pikësore të koeficientëve të regresionit teorik.

3. Vija e regresionit empirik kalon detyrimisht nëpër pikën x, y.

4. Ekuacioni i regresionit empirik është ndërtuar në atë mënyrë që shuma e devijimeve

.

Një paraqitje grafike e linjës empirike dhe teorike të komunikimit është paraqitur në Figurën 1.


Parametri b në ekuacion është koeficienti i regresionit. Në prani të një korrelacioni të drejtpërdrejtë, koeficienti i regresionit është pozitiv, dhe në rastin e një korrelacioni të anasjelltë, koeficienti i regresionit është negativ. Koeficienti i regresionit tregon se sa ndryshon mesatarisht vlera e atributit efektiv "y" kur atributi i faktorit "x" ndryshon me një. Gjeometrikisht, koeficienti i regresionit është pjerrësia e vijës së drejtë që përshkruan ekuacionin e korrelacionit në lidhje me boshtin "x" (për ekuacionin

).

Dega e analizës statistikore multivariate që i kushtohet rindërtimit të varësive quhet analiza e regresionit. Termi "analizë e regresionit linear" përdoret kur funksioni në shqyrtim varet në mënyrë lineare nga parametrat e vlerësuar (varësia nga variablat e pavarur mund të jetë arbitrare). Teoria e vlerësimit

parametrat e panjohur janë zhvilluar mirë veçanërisht në rastin e analizës së regresionit linear. Nëse nuk ka linearitet dhe është e pamundur të kalohet në një problem linear, atëherë, si rregull, nuk mund të presim veti të mira nga vlerësimet. Ne do të demonstrojmë qasje në rastin e varësive të llojeve të ndryshme. Nëse varësia ka formën e një polinomi (polinomi). Nëse llogaritja e korrelacionit karakterizon forcën e marrëdhënies midis dy variablave, atëherë analiza e regresionit shërben për të përcaktuar llojin e kësaj marrëdhënieje dhe bën të mundur parashikimin e vlerës së një ndryshoreje (të varur) bazuar në vlerën e një ndryshoreje tjetër (të pavarur). . Për të kryer analizën e regresionit linear, ndryshorja e varur duhet të ketë një shkallë intervali (ose rendore). Në të njëjtën kohë, regresioni binar logjistik zbulon varësinë e një ndryshoreje dikotomike nga një variabël tjetër që lidhet me çdo shkallë. Të njëjtat kushte aplikimi vlejnë për analizën probit. Nëse ndryshorja e varur është kategorike, por ka më shumë se dy kategori, atëherë regresioni logjistik multinomial është një metodë e përshtatshme për të analizuar marrëdhëniet jolineare midis variablave që i përkasin një shkalle intervali. Metoda e regresionit jolinear është projektuar për këtë qëllim.

Koeficientët e regresionit tregojnë intensitetin e ndikimit të faktorëve në treguesin e performancës. Nëse kryhet standardizimi paraprak i treguesve të faktorëve, atëherë b 0 është e barabartë me vlerën mesatare të treguesit efektiv në agregat. Koeficientët b 1, b 2, ..., b n tregojnë me sa njësi niveli i treguesit të performancës devijon nga vlera mesatare e tij nëse vlerat e treguesit të faktorit devijojnë nga mesatarja zero me një devijim standard. Kështu, koeficientët e regresionit karakterizojnë shkallën e rëndësisë së faktorëve individualë për rritjen e nivelit të treguesit të performancës. Vlerat specifike të koeficientëve të regresionit përcaktohen nga të dhënat empirike sipas metodës së katrorëve më të vegjël (si rezultat i zgjidhjes së sistemeve të ekuacioneve normale).

Linja e regresionit- një vijë që pasqyron më saktë shpërndarjen e pikave eksperimentale në diagramin e shpërndarjes dhe pjerrësinë e pjerrësisë së së cilës karakterizon marrëdhënien midis dy variablave të intervalit.

Vija e regresionit më së shpeshti kërkohet në formën e një funksioni linear (regresioni linear), i cili përafron më së miri lakoren e dëshiruar. Kjo bëhet duke përdorur metodën e katrorëve më të vegjël, kur shuma e devijimeve në katror të atyre të vëzhguara në të vërtetë nga vlerësimet e tyre minimizohet (që do të thotë vlerësime duke përdorur një vijë të drejtë që synon të përfaqësojë marrëdhënien e dëshiruar të regresionit):

(M - madhësia e mostrës). Kjo qasje bazohet në faktin e njohur se shuma e paraqitur në shprehjen e mësipërme merr një vlerë minimale pikërisht për rastin kur .
57. Detyrat kryesore të teorisë së korrelacionit.

Teoria e korrelacionit është një aparat që vlerëson afërsinë e lidhjeve midis dukurive që nuk janë vetëm në marrëdhënie shkak-pasojë. Duke përdorur teorinë e korrelacionit, vlerësohen marrëdhëniet stokastike, por jo shkakore. Autori, së bashku me M. L. Lukatskaya, bënë një përpjekje për të marrë vlerësime për marrëdhëniet shkakësore. Megjithatë, çështja e marrëdhënieve shkak-pasojë të dukurive, se si të identifikohet shkaku dhe efekti, mbetet e hapur dhe duket se në nivel formal është thelbësisht e pazgjidhshme.

Teoria e korrelacionit dhe zbatimi i saj në analizën e prodhimit.

Teoria e korrelacionit, e cila është një nga degët e statistikave matematikore, lejon njeriun të bëjë supozime të arsyeshme për kufijtë e mundshëm brenda të cilëve, me një shkallë të caktuar besueshmërie, parametri në studim do të vendoset nëse parametrat e tjerë të lidhur statistikisht marrin vlera të caktuara.

Në teorinë e korrelacionit, është zakon të dallohen dy detyra kryesore.

Detyra e parë teoria e korrelacionit - për të vendosur formën e korrelacionit, d.m.th. lloji i funksionit të regresionit (linear, kuadratik, etj.).

Detyra e dytë teoria e korrelacionit - vlerësoni afërsinë (forcën) e lidhjes së korrelacionit.

Afërsia e lidhjes së korrelacionit (varësisë) së Y nga X vlerësohet nga sasia e shpërndarjes së vlerave Y rreth mesatares së kushtëzuar. Dispersioni i madh tregon një varësi të dobët të Y nga X, dispersioni i vogël tregon praninë e një varësie të fortë.
58. Tabela e korrelacionit dhe karakteristikat numerike të saj.

Në praktikë, si rezultat i vëzhgimeve të pavarura të sasive X dhe Y, si rregull, nuk merret me të gjithë grupin e të gjitha çifteve të mundshme të vlerave të këtyre sasive, por vetëm me një mostër të kufizuar nga popullata e përgjithshme. dhe vëllimi n i popullatës së mostrës përcaktohet si numri i çifteve të disponueshme në kampion.

Le të marrë vlera X në mostër vlerat x 1, x 2,....x m, ku numri i vlerave të kësaj vlere që ndryshojnë nga njëra-tjetra, dhe në rastin e përgjithshëm, secila prej tyre mund të të përsëritet në mostër. Lëreni vlerën Y në mostër të marrë vlerat y 1, y 2,...y k, ku k është numri i vlerave të ndryshme të kësaj vlere, dhe në rastin e përgjithshëm, secila prej tyre gjithashtu mund të jetë përsëritet në mostër. Në këtë rast, të dhënat futen në një tabelë duke marrë parasysh shpeshtësinë e shfaqjes. Një tabelë e tillë me të dhëna të grupuara quhet tabelë korrelacioni.

Faza e parë e përpunimit statistikor të rezultateve është përpilimi i një tabele korrelacioni.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

Rreshti i parë i pjesës kryesore të tabelës rendit në rend rritës të gjitha vlerat e sasisë X të gjetur në mostër. Në kryqëzimin e rreshtave dhe kolonave përkatëse, frekuencat n ij (i = 1,2 ,...,m; j=1,2,...,k) të barabarta me numrin e dukurive të çiftit (x i ; y i) në mostër. Për shembull, frekuenca n 12 përfaqëson numrin e dukurive të çiftit (x 1 ;y 1) në mostër.

Gjithashtu n xi n ij , 1≤i≤m, është shuma e elementeve të kolonës së i-të, n yj n ij , 1≤j≤k, është shuma e elementeve të rreshtit të j-të dhe n xi = n yj =n

Analogët e formulave të marra nga të dhënat e tabelës së korrelacionit kanë formën:


59. Linjat e regresionit empirik dhe teorik.

Linja e regresionit teorik mund të llogaritet në këtë rast nga rezultatet e vëzhgimeve individuale. Për të zgjidhur një sistem ekuacionesh normale, na duhen të njëjtat të dhëna: x, y, xy dhe xr. Ne kemi të dhëna për vëllimin e prodhimit të çimentos dhe vëllimin e mjeteve fikse të prodhimit në vitin 1958. Detyra është vendosur: të studiohet marrëdhënia midis vëllimit të prodhimit të çimentos (në terma fizikë) dhe vëllimit të mjeteve fikse. [ 1 ]

Sa më pak linja e regresionit teorik (e llogaritur nga ekuacioni) të devijojë nga ajo aktuale (empirike), aq më i vogël është gabimi mesatar i përafrimit.

Procesi i gjetjes së një linje regresioni teorik përfshin përshtatjen e vijës së regresionit empirik duke përdorur metodën e katrorëve më të vegjël.

Procesi i gjetjes së një linje regresioni teorik quhet përafrim i vijës së regresionit empirik dhe konsiston në përzgjedhjen dhe justifikimin e tipit; kurba dhe llogaritja e parametrave të ekuacionit të saj.

Regresioni empirik ndërtohet sipas të dhënave të grupimit analitik ose të kombinuar dhe përfaqëson varësinë e vlerave mesatare të grupit të tiparit të rezultatit nga vlerat mesatare të grupit të tiparit të faktorit. Paraqitja grafike e regresionit empirik është një vijë e thyer e përbërë nga pika, abshisat e të cilave janë vlerat mesatare të grupit të tiparit të faktorit, dhe ordinatat janë vlerat mesatare të grupit të tiparit të rezultatit. Numri i pikëve është i barabartë me numrin e grupeve në grup.

Linja e regresionit empirik pasqyron prirjen kryesore të marrëdhënies në shqyrtim. Nëse linja e regresionit empirik i afrohet një vije të drejtë në pamje, atëherë mund të supozojmë praninë e një korrelacioni linear midis karakteristikave. Dhe nëse linja e lidhjes i afrohet kurbës, atëherë kjo mund të jetë për shkak të pranisë së një marrëdhënie korrelacioni lakor.
60. Koeficientët e korrelacionit dhe regresionit të mostrës.

Nëse varësia midis karakteristikave në grafik tregon një korrelacion linear, llogarisni koeficienti i korrelacionit r, e cila ju lejon të vlerësoni afërsinë e marrëdhënies midis variablave, dhe gjithashtu të zbuloni se çfarë përqindje e ndryshimeve në një karakteristikë është për shkak të ndikimit të karakteristikës kryesore dhe cila pjesë është për shkak të ndikimit të faktorëve të tjerë. Koeficienti varion nga –1 në +1. Nëse r=0, atëherë nuk ka lidhje midis karakteristikave. Barazia r=0 tregon vetëm mungesën e një varësie korrelacioni linear, por jo fare mungesën e një korrelacioni, aq më pak një varësi statistikore. Nëse r= ±1, atëherë kjo nënkupton praninë e një lidhjeje të plotë (funksionale). Në këtë rast, të gjitha vlerat e vëzhguara janë të vendosura në vijën e regresionit, e cila është një vijë e drejtë.
Rëndësia praktike e koeficientit të korrelacionit përcaktohet nga vlera e tij në katror, ​​e quajtur koeficienti i përcaktimit.
Regresioni i përafërt (përafërsisht i përshkruar) nga një funksion linear y = kX + b. Për regresionin e Y në X, ekuacioni i regresionit është: `y x = ryx X + b; (1). Pjerrësia ryx e regresionit të drejtpërdrejtë të Y në X quhet koeficienti i regresionit të Y në X.

Nëse ekuacioni (1) gjendet duke përdorur të dhënat e mostrës, atëherë quhet ekuacioni i regresionit të mostrës. Prandaj, ryx është koeficienti i regresionit të kampionit të Y në X, dhe b është termi i rremë i ekuacionit. Koeficienti i regresionit mat ndryshimin në Y për variacion njësi në X. Parametrat e ekuacionit të regresionit (koeficientët ryx dhe b) gjenden duke përdorur metodën e katrorëve më të vegjël.
61. Vlerësimi i rëndësisë së koeficientit të korrelacionit dhe afërsisë së korrelacionit në popullatën e përgjithshme

Rëndësia e koeficientëve të korrelacionit kontrolluar duke përdorur testin e Studentit:

Ku - rrënja e gabimit mesatar katror të koeficientit të korrelacionit, i cili përcaktohet nga formula:

Nëse vlera e llogaritur është më e lartë se vlera e tabelës, atëherë mund të konkludojmë se vlera e koeficientit të korrelacionit është e rëndësishme t gjetur nga tabela e vlerave të testit t Studentit. Në këtë rast, merret parasysh numri i shkallëve të lirisë (V = n - 1) dhe niveli i besimit (në llogaritjet ekonomike, zakonisht 0.05 ose 0.01). Në shembullin tonë, numri i shkallëve të lirisë është: p - 1 = 40 - 1 = 39. Në nivelin e besimit R = 0,05; t= 2.02. Meqenëse (vlera aktuale në të gjitha rastet është më e lartë se ajo tabelare t), marrëdhënia midis treguesve rezultante dhe faktorëve është e besueshme, dhe madhësia e koeficientëve të korrelacionit është e rëndësishme.

Vlerësimi i koeficientit të korrelacionit, e llogaritur nga një mostër e kufizuar, pothuajse gjithmonë ndryshon nga zero. Por kjo nuk do të thotë se koeficienti i korrelacionit popullsiaështë gjithashtu i ndryshëm nga zero. Kërkohet të vlerësohet rëndësia e vlerës së mostrës së koeficientit ose, në përputhje me formulimin e detyrave të testimit të hipotezave statistikore, të testohet hipoteza se koeficienti i korrelacionit është i barabartë me zero. Nëse hipoteza N 0 që koeficienti i korrelacionit është i barabartë me zero do të refuzohet, atëherë koeficienti i mostrës është i rëndësishëm dhe vlerat përkatëse lidhen me një marrëdhënie lineare. Nëse hipoteza N 0 do të pranohet, atëherë vlerësimi i koeficientit nuk është i rëndësishëm dhe vlerat nuk janë të lidhura në mënyrë lineare me njëra-tjetrën (nëse, për arsye fizike, faktorët mund të lidhen, atëherë është më mirë të thuhet se kjo marrëdhënie nuk ka qenë themeluar në bazë të ED-së në dispozicion). Testimi i hipotezës për rëndësinë e vlerësimit të koeficientit të korrelacionit kërkon njohuri për shpërndarjen e kësaj variabli të rastësishëm. Shpërndarja e vlerës  ik studiuar vetëm për rastin e veçantë kur variablat e rastësishëm Uj Dhe MB shpërndahet sipas ligjit normal.

Si kriter për testimin e hipotezës zero N 0 aplikoni ndryshore të rastësishme . Nëse moduli i koeficientit të korrelacionit është relativisht larg unitetit, atëherë vlera t nëse hipoteza zero është e vërtetë, ajo shpërndahet sipas ligjit të Studentit me n– 2 shkallë lirie. Hipoteza konkurruese N 1 korrespondon me pohimin se vlera  ik jo e barabartë me zero (më e madhe ose më e vogël se zero). Prandaj, rajoni kritik është i dyanshëm.
62. Llogaritja e koeficientit të korrelacionit të mostrës dhe ndërtimi i ekuacionit të regresionit të mostrës së drejtë.

Koeficienti i korrelacionit të mostrës gjendet me formulë

ku janë mostrat e devijimeve standarde të vlerave dhe .

Koeficienti i korrelacionit të mostrës tregon afërsinë e marrëdhënies lineare midis dhe : sa më afër unitetit, aq më e fortë është marrëdhënia lineare midis dhe .

Regresioni i thjeshtë linear gjen një marrëdhënie lineare midis një ndryshoreje hyrëse dhe një ndryshoreje dalëse. Për ta bërë këtë, përcaktohet një ekuacion regresioni - ky është një model që pasqyron varësinë e vlerave të Y, vlerën e varur të Y nga vlerat e x, variablin e pavarur x dhe popullatën, të përshkruar nga nivelimi :

Ku A0- termi i lirë i ekuacionit të regresionit;

A1- koeficienti i ekuacionit të regresionit

Pastaj ndërtohet një vijë e drejtë përkatëse, e quajtur vijë regresioni. Koeficientët A0 dhe A1, të quajtur edhe parametra të modelit, zgjidhen në atë mënyrë që shuma e devijimeve në katror të pikave që korrespondojnë me vëzhgimet reale të të dhënave nga vija e regresionit të jetë minimale. Koeficientët zgjidhen duke përdorur metodën e katrorëve më të vegjël. Me fjalë të tjera, regresioni i thjeshtë linear përshkruan një model linear që përafron më së miri marrëdhënien midis një ndryshoreje hyrëse dhe një ndryshoreje dalëse.

Koncepti i regresionit. Varësia ndërmjet variablave x Dhe y mund të përshkruhen në mënyra të ndryshme. Në veçanti, çdo formë e lidhjes mund të shprehet me një ekuacion të përgjithshëm, ku y trajtohet si një variabël i varur, ose funksionet nga një tjetër - ndryshore e pavarur x, e quajtur argument. Korrespondenca midis një argumenti dhe një funksioni mund të specifikohet nga një tabelë, formulë, grafik, etj. Ndryshimi i një funksioni në varësi të një ndryshimi në një ose më shumë argumente quhet regresioni. Të gjitha mjetet e përdorura për të përshkruar korrelacionet përbëjnë përmbajtjen analiza e regresionit.

Për të shprehur regresionin, ekuacionet e korrelacionit ose ekuacionet e regresionit, përdoren seritë e regresionit empirik dhe teorikisht të llogaritur, grafikët e tyre, të quajtur linja regresioni, si dhe koeficientët e regresionit linear dhe jolinear.

Treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, duke marrë parasysh ndryshimet në vlerat mesatare të karakteristikës Y gjatë ndryshimit të vlerave x i shenjë X, dhe, anasjelltas, tregojnë një ndryshim në vlerat mesatare të karakteristikës X sipas vlerave të ndryshuara y i shenjë Y. Përjashtim bëjnë seritë kohore, ose seritë kohore, që tregojnë ndryshime në karakteristika me kalimin e kohës. Regresioni i serive të tilla është i njëanshëm.

Ka shumë forma dhe lloje të ndryshme të korrelacioneve. Detyra zbret në identifikimin e formës së lidhjes në çdo rast specifik dhe shprehjen e saj me ekuacionin përkatës të korrelacionit, i cili na lejon të parashikojmë ndryshimet e mundshme në një karakteristikë Y bazuar në ndryshimet e njohura në një tjetër X, lidhur me të parën në mënyrë korrelative.

12.1 Regresioni linear

Ekuacioni i regresionit. Rezultatet e vëzhgimeve të kryera në një objekt të veçantë biologjik bazuar në karakteristikat e ndërlidhura x Dhe y, mund të përfaqësohet me pika në një rrafsh duke ndërtuar një sistem koordinatash drejtkëndëshe. Rezultati është një lloj diagrami shpërndarës që lejon dikë të gjykojë formën dhe afërsinë e marrëdhënies midis karakteristikave të ndryshme. Shumë shpesh kjo marrëdhënie duket si një vijë e drejtë ose mund të përafrohet me një vijë të drejtë.

Marrëdhënia lineare ndërmjet variablave x Dhe y përshkruhet me një ekuacion të përgjithshëm, ku a, b, c, d,... – parametrat e ekuacionit që përcaktojnë marrëdhëniet ndërmjet argumenteve x 1 , x 2 , x 3 , …, x m dhe funksionet.

Në praktikë, jo të gjitha argumentet e mundshme merren parasysh, por vetëm disa argumente në rastin më të thjeshtë, vetëm një:

Në ekuacionin e regresionit linear (1) aështë termi i lirë dhe parametri b përcakton pjerrësinë e vijës së regresionit në raport me boshtet e koordinatave drejtkëndore. Në gjeometrinë analitike ky parametër quhet shpat, dhe në biometrikë - koeficienti i regresionit. Një paraqitje vizuale e këtij parametri dhe pozicioni i linjave të regresionit Y Nga X Dhe X Nga Y në sistemin e koordinatave drejtkëndëshe jep Fig. 1.

Oriz. 1 Linjat e regresionit të Y me X dhe X nga Y në sistem

koordinatat drejtkëndore

Linjat e regresionit, siç tregohet në figurën 1, kryqëzohen në pikën O (,), që korrespondojnë me vlerat mesatare aritmetike të veçorive të ndërlidhura me njëra-tjetrën Y Dhe X. Gjatë ndërtimit të grafikëve të regresionit, vlerat e ndryshores së pavarur X vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur, ose funksionit Y, vizatohen përgjatë boshtit të ordinatës AB që kalon nëpër pikën O (, ) korrespondon me marrëdhënien e plotë (funksionale) ndërmjet variablave Y Dhe X, kur koeficienti i korrelacionit . Sa më e fortë të jetë lidhja ndërmjet Y Dhe X, sa më afër të jenë linjat e regresionit me AB dhe, anasjelltas, sa më e dobët të jetë lidhja midis këtyre sasive, aq më të largëta janë linjat e regresionit nga AB. Nëse nuk ka lidhje midis karakteristikave, linjat e regresionit janë në kënde të drejta me njëra-tjetrën dhe .

Meqenëse treguesit e regresionit shprehin marrëdhënien e korrelacionit në mënyrë dypalëshe, ekuacioni i regresionit (1) duhet të shkruhet si më poshtë:

Formula e parë përcakton vlerat mesatare kur ndryshon karakteristika X për njësi matëse, për të dytën - vlerat mesatare kur ndryshoni me një njësi matëse të atributit Y.

Koeficienti i regresionit. Koeficienti i regresionit tregon se sa është mesatarisht vlera e një karakteristike y ndryshon kur masa e një tjetri, e ndërlidhur me, ndryshon me një Y shenjë X. Ky tregues përcaktohet nga formula

Këtu janë vlerat s shumëzuar me madhësinë e intervaleve të klasave λ , nëse janë gjetur nga seritë e variacioneve ose tabelat e korrelacionit.

Koeficienti i regresionit mund të llogaritet pa llogaritur devijimet standarde s y Dhe s x sipas formulës

Nëse koeficienti i korrelacionit është i panjohur, koeficienti i regresionit përcaktohet si më poshtë:

Marrëdhënia ndërmjet regresionit dhe koeficientëve të korrelacionit. Duke krahasuar formulat (11.1) (tema 11) dhe (12.5), shohim: numëruesi i tyre ka të njëjtën vlerë, gjë që tregon një lidhje midis këtyre treguesve. Kjo marrëdhënie shprehet me barazi

Kështu, koeficienti i korrelacionit është i barabartë me mesataren gjeometrike të koeficientëve b yx Dhe b xy. Formula (6) lejon, së pari, bazuar në vlerat e njohura të koeficientëve të regresionit b yx Dhe b xy përcaktoni koeficientin e regresionit R xy, dhe së dyti, kontrolloni korrektësinë e llogaritjes së këtij treguesi korrelacioni R xy ndërmjet karakteristikave të ndryshme X Dhe Y.

Ashtu si koeficienti i korrelacionit, koeficienti i regresionit karakterizon vetëm një marrëdhënie lineare dhe shoqërohet nga një shenjë plus për një marrëdhënie pozitive dhe një shenjë minus për një marrëdhënie negative.

Përcaktimi i parametrave të regresionit linear. Dihet se shuma e devijimeve në katror është një variant x i nga mesatarja është vlera më e vogël, pra kjo teoremë përbën bazën e metodës së katrorëve më të vegjël. Lidhur me regresionin linear [shih formula (1)] kërkesa e kësaj teoreme plotësohet nga një sistem i caktuar ekuacionesh i quajtur normale:

Zgjidhja e përbashkët e këtyre ekuacioneve në lidhje me parametrat a Dhe bçon në rezultatet e mëposhtme:

;

;

, nga ku dhe.

Duke marrë parasysh natyrën e dyanshme të marrëdhënies ndërmjet variablave Y Dhe X, formula për përcaktimin e parametrit A duhet të shprehet kështu:

Dhe . (7)

Parametri b, ose koeficienti i regresionit, përcaktohet nga formulat e mëposhtme:

Ndërtimi i serive të regresionit empirik. Nëse ka një numër të madh vëzhgimesh, analiza e regresionit fillon me ndërtimin e serive të regresionit empirik. Seritë e regresionit empirik formohet duke llogaritur vlerat e një karakteristike të ndryshme X vlerat mesatare të një tjetri, të ndërlidhura me X shenjë Y. Me fjalë të tjera, ndërtimi i serive të regresionit empirik zbret në gjetjen e mesatareve të grupit nga vlerat përkatëse të karakteristikave Y dhe X.

Një seri regresioni empirik është një seri e dyfishtë numrash që mund të përfaqësohen me pika në një rrafsh dhe më pas, duke i lidhur këto pika me segmente të drejtëza, mund të merret një vijë empirike regresioni. Seritë e regresionit empirik, veçanërisht grafikët e tyre, quhen linjat e regresionit, japin një ide të qartë të formës dhe afërsisë së korrelacionit midis karakteristikave të ndryshme.

Rreshtimi i serive të regresionit empirik. Grafikët e serive të regresionit empirik rezultojnë, si rregull, të mos jenë linja të lëmuara, por të thyera. Kjo shpjegohet me faktin se, së bashku me arsyet kryesore që përcaktojnë modelin e përgjithshëm në ndryshueshmërinë e karakteristikave të ndërlidhura, madhësia e tyre ndikohet nga ndikimi i arsyeve të shumta dytësore që shkaktojnë luhatje të rastësishme në pikat nyjore të regresionit. Për të identifikuar tendencën (prirjen) kryesore të variacionit të konjuguar të karakteristikave të ndërlidhura, është e nevojshme të zëvendësohen linjat e thyera me linja regresioni të lëmuara dhe pa probleme. Procesi i zëvendësimit të vijave të thyera me ato të lëmuara quhet përafrimi i serive empirike Dhe linjat e regresionit.

Metoda grafike e shtrirjes. Kjo është metoda më e thjeshtë dhe nuk kërkon ndonjë punë llogaritëse. Thelbi i saj zbret në sa vijon. Seria e regresionit empirik përshkruhet si një grafik në një sistem koordinativ drejtkëndor. Pastaj pikat e mesme të regresionit përshkruhen vizualisht, përgjatë së cilës vizatohet një vijë e fortë duke përdorur një vizore ose model. Disavantazhi i kësaj metode është i dukshëm: nuk përjashton ndikimin e vetive individuale të studiuesit në rezultatet e shtrirjes së linjave të regresionit empirik. Prandaj, në rastet kur nevojitet saktësi më e lartë kur zëvendësohen linjat e thyera të regresionit me ato të lëmuara, përdoren metoda të tjera të rreshtimit të serive empirike.

Metoda e mesatares lëvizëse. Thelbi i kësaj metode zbret në llogaritjen vijuese të mesatareve aritmetike nga dy ose tre terma ngjitur të serisë empirike. Kjo metodë është veçanërisht e përshtatshme në rastet kur seria empirike përfaqësohet nga një numër i madh termash, kështu që humbja e dy prej tyre - ato ekstreme, e cila është e pashmangshme me këtë metodë të shtrirjes, nuk do të ndikojë dukshëm në strukturën e saj.

Metoda e katrorëve më të vegjël. Kjo metodë u propozua në fillim të shekullit të 19-të nga A.M. Lezhandrit dhe, pavarësisht nga ai, K. Gauss. Kjo ju lejon të përafroni më saktë seritë empirike. Kjo metodë, siç tregohet më sipër, bazohet në supozimin se shuma e devijimeve në katror është një opsion x i nga mesatarja e tyre ka një vlerë minimale, pra emri i metodës, e cila përdoret jo vetëm në ekologji, por edhe në teknologji. Metoda e katrorëve më të vegjël është objektive dhe universale, ajo përdoret në një larmi të gjerë rastesh për gjetjen e ekuacioneve empirike për seritë e regresionit dhe përcaktimin e parametrave të tyre.

Kërkesa e metodës së katrorëve më të vegjël është që pikat teorike të vijës së regresionit duhet të përftohen në atë mënyrë që shuma e devijimeve në katror nga këto pika për vëzhgimet empirike. y i ishte minimale, d.m.th.

Duke llogaritur minimumin e kësaj shprehjeje në përputhje me parimet e analizës matematikore dhe duke e transformuar atë në një mënyrë të caktuar, mund të merret një sistem i të ashtuquajturit. ekuacionet normale, në të cilën vlerat e panjohura janë parametrat e kërkuar të ekuacionit të regresionit, dhe koeficientët e njohur përcaktohen nga vlerat empirike të karakteristikave, zakonisht shumat e vlerave të tyre dhe prodhimet e tyre të kryqëzuara.

Regresioni linear i shumëfishtë. Marrëdhënia midis disa variablave zakonisht shprehet me një ekuacion të regresionit të shumëfishtë, i cili mund të jetë lineare Dhe jolineare. Në formën e tij më të thjeshtë, regresioni i shumëfishtë shprehet si një ekuacion me dy variabla të pavarur ( x, z):

Ku a– termi i lirë i ekuacionit; b Dhe c– parametrat e ekuacionit. Për të gjetur parametrat e ekuacionit (10) (duke përdorur metodën e katrorëve më të vegjël), përdoret sistemi i mëposhtëm i ekuacioneve normale:

Seri dinamike. Rreshtimi i rreshtave. Ndryshimet në karakteristikat me kalimin e kohës formojnë të ashtuquajturat seritë kohore ose seri dinamike. Një tipar karakteristik i serive të tilla është se ndryshorja e pavarur X këtu është gjithmonë faktori kohë, dhe ndryshorja e varur Y është një tipar në ndryshim. Në varësi të serisë së regresionit, marrëdhënia midis variablave X dhe Y është e njëanshme, pasi faktori kohë nuk varet nga ndryshueshmëria e karakteristikave. Pavarësisht këtyre veçorive, seritë dinamike mund të krahasohen me seritë e regresionit dhe të përpunohen duke përdorur të njëjtat metoda.

Ashtu si seritë e regresionit, seritë empirike të dinamikës mbajnë ndikimin jo vetëm të faktorëve kryesorë, por edhe të shumtë dytësorë (të rastësishëm) që errësojnë prirjen kryesore të ndryshueshmërisë së karakteristikave, që në gjuhën e statistikës quhet trend.

Analiza e serive kohore fillon me identifikimin e formës së trendit. Për ta bërë këtë, seritë kohore përshkruhen si një grafik rreshtor në një sistem koordinativ drejtkëndor. Në këtë rast, pikat kohore (vitet, muajt dhe njësitë e tjera të kohës) vizatohen përgjatë boshtit të abshisës, dhe vlerat e ndryshores së varur Y janë paraqitur përgjatë boshtit të ordinatave, nëse ka një lidhje lineare midis ndryshoreve X dhe Y (tendenca lineare), metoda e katrorëve më të vegjël është më e përshtatshme për përafrimin e serive kohore është një ekuacion regresioni në formën e devijimeve të termave të serisë së ndryshores së varur Y nga mesatarja aritmetike e serisë së të pavarurit. ndryshorja X:

Këtu është parametri i regresionit linear.

Karakteristikat numerike të serive dinamike. Karakteristikat kryesore numerike përgjithësuese të serive dinamike përfshijnë mesatare gjeometrike dhe një mesatare aritmetike afër tij. Ato karakterizojnë shkallën mesatare në të cilën vlera e ndryshores së varur ndryshon gjatë periudhave të caktuara kohore:

Një vlerësim i ndryshueshmërisë së anëtarëve të serisë së dinamikës është devijimi standard. Kur zgjedhim ekuacionet e regresionit për të përshkruar seritë kohore, merret parasysh forma e trendit, e cila mund të jetë lineare (ose reduktuar në lineare) dhe jolineare. Korrektësia e zgjedhjes së ekuacionit të regresionit zakonisht gjykohet nga ngjashmëria e vlerave të vëzhguara dhe të llogaritura empirike të ndryshores së varur. Një zgjidhje më e saktë për këtë problem është metoda e analizës së regresionit të variancës (tema 12, paragrafi 4).

Korrelacioni i serive kohore. Shpesh është e nevojshme të krahasohet dinamika e serive kohore paralele të lidhura me njëra-tjetrën nga disa kushte të përgjithshme, për shembull, për të gjetur marrëdhënien midis prodhimit bujqësor dhe rritjes së numrit të bagëtive gjatë një periudhe të caktuar kohore. Në raste të tilla, karakteristika e marrëdhënies ndërmjet variablave X dhe Y është koeficienti i korrelacionit R xy (në prani të një tendence lineare).

Dihet se tendenca e serive kohore, si rregull, errësohet nga luhatjet e termave të serisë së ndryshores së varur Y. Kjo krijon një problem të dyfishtë: matja e varësisë midis serive të krahasuara, pa përjashtuar tendencën, dhe matja e varësisë ndërmjet anëtarëve fqinjë të së njëjtës seri, duke përjashtuar trendin. Në rastin e parë, treguesi i afërsisë së lidhjes ndërmjet serive kohore të krahasuara është koeficienti i korrelacionit(nëse marrëdhënia është lineare), në të dytën - koeficienti i autokorrelacionit. Këta tregues kanë kuptime të ndryshme, megjithëse llogariten duke përdorur të njëjtat formula (shih temën 11).

Është e lehtë të shihet se vlera e koeficientit të autokorrelacionit ndikohet nga ndryshueshmëria e anëtarëve të serisë së ndryshores së varur: sa më pak anëtarët e serisë të devijojnë nga tendenca, aq më i lartë është koeficienti i autokorrelacionit dhe anasjelltas.

Me një lloj lidhjeje lineare midis dy karakteristikave që studiohen, krahas llogaritjes së korrelacioneve, përdoret edhe llogaritja e koeficientit të regresionit.

Në rastin e një korrelacioni linear, çdo ndryshim në një karakteristikë korrespondon me një ndryshim shumë specifik në një karakteristikë tjetër. Sidoqoftë, koeficienti i korrelacionit e tregon këtë marrëdhënie vetëm në sasi relative - në fraksione të unitetit. Me ndihmën e analizës së regresionit, kjo vlerë e marrëdhënies fitohet në njësi të emërtuara. Sasia me të cilën karakteristika e parë ndryshon mesatarisht kur e dyta ndryshon me një njësi matjeje quhet koeficient regresioni.

Ndryshe nga analiza e regresionit të korrelacionit, ajo ofron informacion më të gjerë, pasi duke llogaritur dy koeficientë regresioni Rx/y Dhe Rу/хËshtë e mundur të përcaktohet varësia e shenjës së parë nga e dyta, dhe e dyta nga e para. Shprehja e një marrëdhënieje regresioni duke përdorur një ekuacion lejon që dikush të përcaktojë vlerën e një karakteristike tjetër bazuar në një vlerë të caktuar të një karakteristike.

Koeficienti i regresionit R është prodhimi i koeficientit të korrelacionit dhe raportit të devijimeve katrore të llogaritur për secilën karakteristikë. Ajo llogaritet sipas formulës

ku, R - koeficienti i regresionit; SH është devijimi standard i karakteristikës së parë, i cili ndryshon për shkak të një ndryshimi në të dytën; SУ - devijimi standard i karakteristikës së dytë në lidhje me ndryshimin e së cilës ndryshon karakteristika e parë; r është koeficienti i korrelacionit ndërmjet këtyre karakteristikave; x - funksioni; y -argument.

Kjo formulë përcakton vlerën e x kur y ndryshon me një njësi matëse. Nëse është e nevojshme llogaritja e kundërt, mund të gjeni vlerën e y kur x ndryshon sipas njësisë matëse duke përdorur formulën:


Në këtë rast, roli aktiv në ndryshimin e një karakteristike në raport me një tjetër ndryshon në krahasim me formulën e mëparshme, argumenti bëhet funksion dhe anasjelltas. Vlerat e SX dhe SY merren në një shprehje të emërtuar.

Ekziston një marrëdhënie e qartë midis vlerave të r dhe R, e cila shprehet në faktin se produkti i regresionit të x në y nga regresioni i y në x është i barabartë me katrorin e koeficientit të korrelacionit, d.m.th.

Rx/y * Ry/x = r2

Kjo tregon se koeficienti i korrelacionit përfaqëson mesataren gjeometrike të të dy vlerave të koeficientëve të regresionit të një kampioni të caktuar. Kjo formulë mund të përdoret për të kontrolluar saktësinë e llogaritjeve.

Gjatë përpunimit të materialit dixhital në makinat llogaritëse, mund të përdoren formula të detajuara të koeficientit të regresionit:

R ose


Për një koeficient regresioni, gabimi i përfaqësimit të tij mund të llogaritet. Gabimi i koeficientit të regresionit është i barabartë me gabimin e koeficientit të korrelacionit të shumëzuar me raportin e raporteve kuadratike:

Kriteri i besueshmërisë për koeficientin e regresionit llogaritet duke përdorur formulën e zakonshme:

si rezultat, është e barabartë me kriterin e besueshmërisë së koeficientit të korrelacionit:

Besueshmëria e vlerës tR përcaktohet duke përdorur tabelën e Studentit në  = n - 2, ku n është numri i çifteve të vëzhgimeve.

Regresioni curvilinear.

REGRESIONI, KURVILINEAR. Çdo regresion jolinear në të cilin ekuacioni i regresionit për ndryshimet në një ndryshore (y) si funksion i t ndryshon në një tjetër (x) është një ekuacion kuadratik, kub ose i rendit më të lartë. Edhe pse është gjithmonë matematikisht e mundur të merret një ekuacion regresioni që do të përshtatet me çdo gërvishtje të kurbës, shumica e këtyre shqetësimeve rezultojnë nga gabimet e kampionimit ose matjes, dhe një përshtatje e tillë "perfekte" nuk arrin asgjë. Nuk është gjithmonë e lehtë të përcaktohet nëse një regresion lakor i përshtatet një grupi të dhënash, megjithëse ka teste statistikore për të përcaktuar nëse çdo fuqi më e lartë e ekuacionit rrit ndjeshëm shkallën e përshtatjes së atij grupi të dhënash.

Montimi i kurbës kryhet në të njëjtën mënyrë me katrorët më të vegjël si montimi me vijë të drejtë. Vija e regresionit duhet të plotësojë kushtin e shumës minimale të distancave në katror për secilën pikë të fushës së korrelacionit. Në këtë rast, në ekuacionin (1), y përfaqëson vlerën e llogaritur të funksionit, të përcaktuar duke përdorur ekuacionin e marrëdhënies së zgjedhur kurvilineare bazuar në vlerat aktuale të x j. Për shembull, nëse zgjidhet një parabolë e rendit të dytë për të përafruar lidhjen, atëherë y = a + b x + cx2, (14) Dhe ndryshimi midis një pike të shtrirë në kurbë dhe një pike të caktuar në fushën e korrelacionit me një të përshtatshme argumenti mund të shkruhet në mënyrë të ngjashme me ekuacionin (3) në formën yj = yj (a + bx + cx2) (15) Në këtë rast, shuma e distancave në katror nga çdo pikë e fushës së korrelacionit në vijën e re të regresionit në rastin e një parabole të rendit të dytë do të ketë formën: S 2 = yj 2 = 2 (16) Bazuar në kushtin minimal të kësaj shume, derivatet e pjesshme të S 2 në lidhje me a, b dhe c janë të barabarta me zero. Pasi kemi kryer transformimet e nevojshme, marrim një sistem prej tre ekuacionesh me tre të panjohura për të përcaktuar a, b dhe c. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4. (17). Duke zgjidhur sistemin e ekuacioneve për a, b dhe c, gjejmë vlerat numerike të koeficientëve të regresionit. Vlerat y, x, x2, yx, yx2, x3, x4 gjenden direkt nga të dhënat e matjes së prodhimit. Një vlerësim i afërsisë së lidhjes për një varësi kurvilineare është raporti teorik i korrelacionit xy, i cili është rrënja katrore e raportit të dy dispersioneve: katrori mesatar p2 i devijimeve të vlerave të llogaritura y" j të funksionit. sipas ekuacionit të regresionit të gjetur nga vlera mesatare aritmetike Y e vlerës y në devijimet mesatare katrore y2 të vlerave aktuale të funksionit y j nga vlera mesatare aritmetike e tij: xу = ( р2 / y2 ) 1/2 = ( (y" j - Y)2 / (y j - Y)2 ) 1/2 (18) Katrori i raportit të korrelacionit xy2 tregon pjesën e ndryshueshmërisë totale të ndryshores së varur y, për shkak të ndryshueshmërisë së argumentit x . Ky tregues quhet koeficienti i përcaktimit. Në ndryshim nga koeficienti i korrelacionit, vlera e raportit të korrelacionit mund të marrë vetëm vlera pozitive nga 0 në 1. Në mungesë të plotë të një lidhjeje, raporti i korrelacionit është i barabartë me zero, në prani të një lidhje funksionale është e barabartë me një, dhe në prani të një lidhjeje regresioni me afërsi të ndryshme, raporti i korrelacionit merr vlera midis zeros dhe një. Zgjedhja e llojit të kurbës ka një rëndësi të madhe në analizën e regresionit, pasi saktësia e përafrimit dhe vlerësimet statistikore të afërsisë së marrëdhënies varen nga lloji i marrëdhënies së zgjedhur. Metoda më e thjeshtë për zgjedhjen e llojit të kurbës është ndërtimi i fushave korrelacioni dhe përzgjedhja e llojeve të përshtatshme të ekuacioneve të regresionit bazuar në vendndodhjen e pikave në këto fusha. Metodat e analizës së regresionit bëjnë të mundur gjetjen e vlerave numerike të koeficientëve të regresionit për llojet komplekse të marrëdhënieve midis parametrave, të përshkruara, për shembull, nga polinome të shkallëve të larta. Shpesh forma e kurbës mund të përcaktohet bazuar në natyrën fizike të procesit ose fenomenit në shqyrtim. Ka kuptim të përdoren polinome të shkallëve të larta për të përshkruar procese që ndryshojnë me shpejtësi nëse kufijtë e luhatjes së parametrave të këtyre proceseve janë të rëndësishëm. Në lidhje me studimet e procesit metalurgjik, mjafton të përdoren kurba të rendit më të ulët, për shembull një parabolë e rendit të dytë. Kjo kurbë mund të ketë një ekstrem, i cili, siç ka treguar praktika, është mjaft i mjaftueshëm për të përshkruar karakteristika të ndryshme të procesit metalurgjik. Rezultatet e llogaritjeve të parametrave të marrëdhënies së korrelacionit të çiftëzuar do të ishin të besueshme dhe do të kishin vlerë praktike nëse informacioni i përdorur do të merrej për kushtet e kufijve të gjerë të luhatjeve të argumentit me të gjithë parametrat e tjerë të procesit konstant. Rrjedhimisht, metodat për studimin e korrelacionit në çift të parametrave mund të përdoren për të zgjidhur problemet praktike vetëm kur ekziston besimi në mungesën e ndikimeve të tjera serioze në funksion, përveç argumentit të analizuar. Në kushtet e prodhimit, është e pamundur të kryhet procesi në këtë mënyrë për një kohë të gjatë. Sidoqoftë, nëse kemi informacion për parametrat kryesorë të procesit që ndikojnë në rezultatet e tij, atëherë matematikisht mund të eliminojmë ndikimin e këtyre parametrave dhe të izolojmë në "formë të pastër" marrëdhënien midis funksionit dhe argumentit që na intereson. Një lidhje e tillë quhet private, ose individuale. Për ta përcaktuar atë, përdoret metoda e regresionit të shumëfishtë.

Marrëdhënie korrelacioni.

Raporti i korrelacionit dhe indeksi i korrelacionit janë karakteristika numerike që janë të lidhura ngushtë me konceptin e një ndryshoreje të rastësishme, ose më mirë me një sistem variablash të rastësishëm. Prandaj, për të prezantuar dhe përcaktuar kuptimin dhe rolin e tyre, është e nevojshme të shpjegohet koncepti i një sistemi variablash të rastësishëm dhe disa vetive të qenësishme në to.

Dy ose më shumë ndryshore të rastësishme që përshkruajnë një fenomen të caktuar quhen sistem ose kompleks variablash të rastësishëm.

Një sistem i disa ndryshoreve të rastësishme X, Y, Z, ..., W zakonisht shënohet me (X, Y, Z, ..., W).

Për shembull, një pikë në një aeroplan përshkruhet jo nga një koordinatë, por nga dy, dhe në hapësirë ​​- edhe nga tre.

Vetitë e një sistemi të disa ndryshoreve të rastit nuk janë të kufizuara në vetitë e variablave individuale të rastësishme të përfshira në sistem, por përfshijnë gjithashtu lidhje (varësi) të ndërsjella midis variablave të rastit. Prandaj, kur studiohet një sistem variablash të rastësishëm, duhet t'i kushtohet vëmendje natyrës dhe shkallës së varësisë. Kjo varësi mund të jetë pak a shumë e theksuar, pak a shumë e afërt. Dhe në raste të tjera, variablat e rastësishëm rezultojnë të jenë praktikisht të pavarur.

Një ndryshore e rastësishme Y thuhet se është e pavarur nga një ndryshore e rastësishme X nëse ligji i shpërndarjes së ndryshores së rastësishme Y nuk varet nga vlera e X.

Duhet të theksohet se varësia dhe pavarësia e ndryshoreve të rastësishme është gjithmonë një fenomen i ndërsjellë: nëse Y nuk varet nga X, atëherë vlera X nuk varet nga Y. Duke marrë parasysh këtë, mund të japim përkufizimin e mëposhtëm të pavarësisë të ndryshoreve të rastësishme.

Variablat e rastësishëm X dhe Y quhen të pavarur nëse ligji i shpërndarjes së secilës prej tyre nuk varet nga vlera që merr tjetri. Përndryshe, madhësitë X dhe Y quhen të varura.

Ligji i shpërndarjes së një ndryshoreje të rastësishme është çdo marrëdhënie që vendos një lidhje midis vlerave të mundshme të një ndryshoreje të rastësishme dhe probabiliteteve përkatëse.

Koncepti i "varësisë" së variablave të rastësishëm, i cili përdoret në teorinë e probabilitetit, është disi i ndryshëm nga koncepti i zakonshëm i "varësisë" së variablave, i cili përdoret në matematikë. Kështu, një matematikan me "varësi" nënkupton vetëm një lloj varësie - varësi të plotë, të ngurtë, të ashtuquajtur funksionale. Dy sasi X dhe Y quhen të varura funksionalisht nëse, duke ditur vlerën e njërës prej tyre, mund të përcaktoni me saktësi vlerën e tjetrës.

Në teorinë e probabilitetit, ekziston një lloj varësie paksa e ndryshme - një varësi probabiliste. Nëse vlera Y lidhet me vlerën X nga një varësi probabiliste, atëherë, duke ditur vlerën e X, është e pamundur të tregohet me saktësi vlera e Y, por mund të tregoni ligjin e shpërndarjes së tij, në varësi të asaj vlere që ka vlera X marrë.

Marrëdhënia probabiliste mund të jetë pak a shumë e ngushtë; Me rritjen e ngushtësisë së varësisë probabilistike, ajo bëhet gjithnjë e më afër asaj funksionale. Kështu, varësia funksionale mund të konsiderohet si një rast ekstrem, kufizues i varësisë më të afërt probabilistike. Një rast tjetër ekstrem është pavarësia e plotë e variablave të rastësishëm. Midis këtyre dy rasteve ekstreme qëndrojnë të gjitha shkallët e varësisë probabiliste - nga më e forta tek më e dobëta.

Varësia probabiliste ndërmjet variablave të rastësishëm haset shpesh në praktikë. Nëse variablat e rastësishëm X dhe Y janë në një marrëdhënie probabilistike, kjo nuk do të thotë se me një ndryshim në vlerën e X, vlera e Y ndryshon në një mënyrë plotësisht të përcaktuar; kjo do të thotë vetëm se ndërsa vlera e X ndryshon, vlera e Y tenton gjithashtu të ndryshojë (rritet ose ulet ndërsa X rritet). Kjo prirje vërehet vetëm në terma të përgjithshëm, dhe në secilin rast individual devijimet prej tij janë të mundshme.



Ju pëlqeu artikulli? Ndani me miqtë tuaj!