Raskite linijos pavyzdinę lygtį naudodami koreliacijos lentelę. Tiesinės regresijos pagrindai

Išreiškiama imties vertėmis (a, 7),  

Dabar kreipiamės į pavyzdinius išlaidų duomenis, surinktus atrinkus dalį miesto gyventojų. Laikydami imtį reprezentatyvia, dėl paprastumo tarkime, kad joje yra vienas asmuo iš kiekvienos pajamų grupės. Grafike atvaizduodami imties taškus, per juos galime nubrėžti regresijos liniją, atitinkančią lygtį Y = a + bX, kurios koeficientai a ir b apskaičiuojami naudojant įprastas tiesinės regresijos formules. Jei atsižvelgsime į tai, kad pastebėtos K. reikšmės nėra regresijos tiesėje (a + bXt), tada imkite atsitiktinius trikdžius e (ek = Yk-a-bX, kurie yra atsitiktinių trikdžių analogai apskritai gyventojų) reikia pridėti prie šios lygties  

Jis apibūdina priklausomo kintamojo, paaiškinto naudojant šią lygtį, kitimo (sklaidos) proporciją. Priklausomo kintamojo sklaidos matas paprastai yra jo dispersija, o likutinė variacija gali būti matuojama kaip nuokrypių aplink regresijos tiesę dispersija. Jei iš vieneto atimtos trupmenos skaitiklis ir vardiklis yra padalinti iš stebėjimų skaičiaus l, gauname atitinkamai likutinės dispersijos ir priklausomo kintamojo dispersijos imties įverčius. Likutinės ir visos dispersijos santykis parodo nepaaiškinamos dispersijos dalį. Jei šią dalį atimsime iš vienybės, gausime priklausomo kintamojo dispersijos dalį, paaiškintą regresija. Kartais, apskaičiuojant determinacijos koeficientą, kad būtų gauti nešališki trupmenos, atimamos iš vieneto, skaitiklio ir vardiklio dispersijos įverčiai, laisvės laipsnių skaičius koreguojamas tada  

Naudojant gautus duomenis, reikia rasti vidutinės kvadratinės regresijos tiesės imties lygtį  

Iš pav. 16.8 paveiksle parodyta, kad skirtingų imčių imties regresijos linijos turi skirtingus nuolydžius ir skirtingus susikirtimus su Y ašimi. Be to, esant teigiamam bendrosios regresijos nuolydžiui, kai kurių mėginių imties regresijos linijos nuolydis gali pasirodyti neigiamas, tačiau tai nerodys tikro neigiamo ryšio tarp tiriamų dydžių. Norint tai patikrinti, be regresijos koeficientų, reikėtų rasti ir jų standartinius nuokrypius bei f statistiką, pagal kurią būtų galima spręsti apie gautų imties regresijos koeficientų statistinį reikšmingumą.  

Tikrasis sunkumas taikant nagrinėjamą metodą yra ieškant kintamųjų, tinkamų instrumentinių vaidmeniui. Tikrasis pasiskirstymas yra nepastebimas, todėl sunku įsitikinti, kad pasirinkti instrumentiniai kintamieji iš tikrųjų nėra koreliuojami ribose su trikdžiais. Kita vertus, šie kintamieji turi turėti gana didelę koreliaciją su X kintamaisiais, priešingu atveju imties dispersijos įverčiams, gautiems naudojant

Kas yra regresija?

Apsvarstykite du nuolatinius kintamuosius x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Padėkime taškus į dvimatę sklaidos diagramą ir pasakykime, kad turime tiesinis ryšys, jei duomenys aproksimuoti tiesia linija.

Jei tuo tikėsime y priklauso nuo x, ir pokyčius y sukelia būtent pokyčiai x, galime nustatyti regresijos tiesę (regresiją yįjungta x), kuris geriausiai apibūdina tiesinį ryšį tarp šių dviejų kintamųjų.

Statistinis žodžio regresija vartojimas kilęs iš reiškinio, žinomo kaip regresija iki vidurkio, priskiriamo serui Francisui Galtonui (1889).

Jis parodė, kad nors aukšti tėvai dažniausiai turi aukštus sūnus, vidutinis sūnų ūgis yra žemesnis nei jų aukštų tėčių. Vidutinis sūnų ūgis „regresavo“ ir „paslinko atgal“ link visų populiacijos tėvų vidutinio ūgio. Taigi vidutiniškai aukšti tėvai turi žemesnius (bet vis tiek gana aukštus) sūnus, o žemi – aukštesnius (bet vis tiek gana žemo ūgio) sūnus.

Regresijos linija

Matematinė lygtis, apskaičiuojanti paprastą (porinę) tiesinės regresijos tiesę:

x vadinamas nepriklausomu kintamuoju arba prognozuotoju.

Y- priklausomas kintamasis arba atsako kintamasis. Tai yra ta vertė, kurios tikimės y(vidutiniškai), jei žinome vertę x, t.y. yra „numatoma vertė“ y»

  • a- laisvasis vertinimo linijos narys (sankirta); tai yra prasmė Y, Kada x=0(1 pav.).
  • b- numatomos linijos nuolydis arba nuolydis; tai reiškia sumą, kuria Y vidutiniškai padidėja, jei didiname x vienam vienetui.
  • a Ir b vadinami įvertintos linijos regresijos koeficientais, nors šis terminas dažnai vartojamas tik b.

Porinė tiesinė regresija gali būti išplėsta įtraukiant daugiau nei vieną nepriklausomą kintamąjį; šiuo atveju jis žinomas kaip daugybinė regresija.

1 pav. Tiesinės regresijos linija, rodanti kirtimo tašką a ir nuolydį b (suma Y didėja, kai x padidėja vienu vienetu)

Mažiausių kvadratų metodas

Regresinę analizę atliekame naudodami stebėjimų pavyzdį, kur a Ir b- tikrų (bendrų) parametrų α ir β imties įverčiai, nustatantys tiesinės regresijos tiesę populiacijoje (bendroji populiacija).

Paprasčiausias koeficientų nustatymo metodas a Ir b yra mažiausių kvadratų metodas(MNC).

Tinkamumas vertinamas žiūrint į likučius (kiekvieno taško vertikalus atstumas nuo linijos, pvz., likutis = pastebėtas y– prognozavo y, Ryžiai. 2).

Geriausiai tinkanti linija parenkama taip, kad likučių kvadratų suma būtų minimali.

Ryžiai. 2. Tiesinės regresijos linija su kiekvieno taško likučiais (vertikalios punktyrinės linijos).

Tiesinės regresijos prielaidos

Taigi, kiekvienos stebimos vertės likutis yra lygus skirtumui, o atitinkama numatoma vertė gali būti teigiama arba neigiama.

Galite naudoti likučius, kad patikrintumėte šias tiesinės regresijos prielaidas:

  • Likučiai paprastai pasiskirsto su nuliu;

Jei tiesiškumo, normalumo ir (arba) pastovios dispersijos prielaidos yra abejotinos, galime transformuoti arba apskaičiuoti naują regresijos tiesę, kuriai šios prielaidos tenkinamos (pavyzdžiui, naudoti logaritminę transformaciją ir pan.).

Anomalinės reikšmės (išskyros) ir įtakos taškai

„Įtakingas“ stebėjimas, jei jis praleistas, pakeičia vieną ar daugiau modelio parametrų įvertinimų (ty nuolydis arba pertrauka).

Nukrypimas (stebėjimas, nesuderinamas su daugumos duomenų rinkinio verčių) gali būti „įtakingas“ stebėjimas ir gali būti lengvai aptiktas vizualiai apžiūrint dvimatį sklaidos diagramą arba likutinį diagramą.

Tiek pašaliniams, tiek „įtakingiems“ stebėjimams (taškams) naudojami modeliai tiek su jų įtraukimu, tiek be jų, atkreipiamas dėmesys į įverčių (regresijos koeficientų) pokyčius.

Atlikdami analizę neturėtumėte automatiškai atmesti nuokrypių ar įtakos taškų, nes tiesiog jų ignoravimas gali turėti įtakos gautiems rezultatams. Visada išstudijuokite šių nuokrypių priežastis ir jas analizuokite.

Tiesinės regresijos hipotezė

Konstruojant tiesinę regresiją, tikrinama nulinė hipotezė, kad bendras regresijos tiesės β nuolydis lygus nuliui.

Jei linijos nuolydis lygus nuliui, tiesinio ryšio tarp ir nėra: pokytis įtakos neturi

Norėdami patikrinti nulinę hipotezę, kad tikrasis nuolydis yra nulis, galite naudoti šį algoritmą:

Apskaičiuokite testo statistiką, lygią santykiui , kuriai priklauso pasiskirstymas su laisvės laipsniais, kur koeficiento standartinė paklaida


,

- likučių sklaidos įvertinimas.

Paprastai, jei pasiekiamas reikšmingumo lygis, nulinė hipotezė atmetama.


kur yra pasiskirstymo su laisvės laipsniais procentinis taškas, kuris suteikia dvipusio testo tikimybę

Tai yra intervalas, kuriame yra bendras nuolydis su 95% tikimybe.

Tarkime, didelių imčių atveju galime apytikslę reikšmę 1,96 (tai yra, bandymo statistika bus įprastai paskirstyta).

Tiesinės regresijos kokybės vertinimas: determinacijos koeficientas R 2

Dėl linijinio ryšio ir tikimės, kad tai pasikeis kaip , ir vadinkite tai variacija, kuri atsiranda dėl regresijos arba ja paaiškinama. Likutinis pokytis turi būti kuo mažesnis.

Jei tai tiesa, tai didžioji dalis variacijos bus paaiškinta regresija, o taškai bus arti regresijos tiesės, t.y. linija gerai atitinka duomenis.

Bendrosios dispersijos dalis, kuri paaiškinama regresija, vadinama determinacijos koeficientas, paprastai išreiškiamas procentais ir žymimas R 2(porinėje tiesinėje regresijoje tai yra kiekis r 2, koreliacijos koeficiento kvadratas), leidžia subjektyviai įvertinti regresijos lygties kokybę.

Skirtumas parodo dispersijos procentą, kurio negalima paaiškinti regresija.

Nėra oficialaus testo, kurį galėtume įvertinti, norėdami nustatyti regresijos linijos tinkamumą.

Regresijos linijos taikymas prognozei

Galite naudoti regresijos liniją, norėdami nuspėti reikšmę iš vertės, esančios stebimo diapazono pabaigoje (niekada neekstrapoliuokite už šių ribų).

Mes prognozuojame stebimų dalykų, turinčių tam tikrą reikšmę, vidurkį, įtraukdami tą reikšmę į regresijos linijos lygtį.

Taigi, jei prognozuojame kaip Naudokite šią numatomą vertę ir jos standartinę paklaidą, kad įvertintumėte tikrojo populiacijos vidurkio pasikliautinąjį intervalą.

Kartodami šią procedūrą skirtingoms vertėms, galite nustatyti šios eilutės patikimumo ribas. Tai juosta arba sritis, kurioje yra tikroji linija, pavyzdžiui, esant 95 % patikimumo lygiui.

Paprasti regresijos planai

Paprastuose regresijos modeliuose yra vienas nenutrūkstamas prognozuotojas. Jei yra 3 stebėjimai su prognozavimo reikšmėmis P, pvz., 7, 4 ir 9, o dizainas apima pirmos eilės efektą P, tada projektavimo matrica X bus

o regresijos lygtis naudojant P X1 yra

Y = b0 + b1 P

Jei paprastas regresijos projektas turi aukštesnės eilės efektą P, pvz., kvadratinį efektą, tada projektavimo matricos X1 stulpelio reikšmės bus padidintos iki antrojo laipsnio:

ir lygtis įgaus formą

Y = b0 + b1 P2

Sigma apriboti ir per daug parametrizuoti kodavimo metodai netaikomi paprastoms regresijos konstrukcijoms ir kitoms konstrukcijoms, kuriose yra tik tęstiniai prognozės (nes tiesiog nėra kategoriškų prognozių). Nepriklausomai nuo pasirinkto kodavimo metodo, nuolatinių kintamųjų reikšmės atitinkamai padidinamos ir naudojamos kaip X kintamųjų reikšmės. Šiuo atveju perkodavimas neatliekamas. Be to, aprašydami regresijos planus galite neatsižvelgti į projektavimo matricą X ir dirbti tik su regresijos lygtimi.

Pavyzdys: paprasta regresinė analizė

Šiame pavyzdyje naudojami lentelėje pateikti duomenys:

Ryžiai. 3. Pradinių duomenų lentelė.

Duomenys, surinkti palyginus 1960 ir 1970 m. surašymus atsitiktinai atrinktose 30 apskričių. Apskričių pavadinimai pateikiami kaip stebėjimo pavadinimai. Informacija apie kiekvieną kintamąjį pateikiama žemiau:

Ryžiai. 4. Kintamųjų specifikacijų lentelė.

Tyrimo problema

Šiame pavyzdyje bus analizuojama koreliacija tarp skurdo lygio ir laipsnio, numatančio šeimų, kurios yra žemiau skurdo ribos, procentą. Todėl kintamąjį 3 (Pt_Poor) laikysime priklausomu kintamuoju.

Galime iškelti hipotezę: gyventojų skaičiaus pokyčiai ir žemiau skurdo ribos esančių šeimų procentas yra susiję. Atrodo pagrįsta tikėtis, kad skurdas lemia emigraciją, todėl atsiras neigiamas ryšys tarp žemiau skurdo ribos esančių žmonių procento ir gyventojų skaičiaus kaitos. Todėl 1 kintamąjį (Pop_Chng) laikysime nuspėjamuoju kintamuoju.

Žiūrėti rezultatus

Regresijos koeficientai

Ryžiai. 5. Pt_Poor regresijos koeficientai Pop_Chng.

Pop_Chng eilutės ir stulpelio Param sankirtoje.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

nestandartizuotas Pt_Poor regresijos koeficientas Pop_Chng yra -0,40374. Tai reiškia, kad sumažėjus gyventojų skaičiui, skurdo lygis padidėja 0,40374. Viršutinė ir apatinė (numatytoji) 95 % pasikliovimo ribos šiam nestandartizuotam koeficientui neapima nulio, todėl regresijos koeficientas yra reikšmingas p lygiu

Kintamasis skirstymas

Koreliacijos koeficientai gali būti gerokai pervertinti arba neįvertinti, jei duomenyse yra didelių nukrypimų. Ištirkime priklausomo kintamojo Pt_Poor pasiskirstymą pagal rajonus. Norėdami tai padaryti, sukurkime kintamojo Pt_Poor histogramą.

Ryžiai. 6. Pt_Poor kintamojo histograma.

Kaip matote, šio kintamojo pasiskirstymas labai skiriasi nuo normalaus. Tačiau, nors net dviejose apskrityse (dvi dešiniosios skiltys) yra didesnis procentas šeimų, esančių žemiau skurdo ribos, nei tikėtasi esant normaliam pasiskirstymui, atrodo, kad jos yra „ribose“.

Ryžiai. 7. Pt_Poor kintamojo histograma.

Šis sprendimas yra šiek tiek subjektyvus. Nykščio taisyklė yra ta, kad reikia atsižvelgti į nuokrypius, jei stebėjimas (ar stebėjimai) nepatenka į intervalą (vidurkis ± 3 kartus didesnis už standartinį nuokrypį). Šiuo atveju verta pakartoti analizę su iškrypimais ir be jų, siekiant užtikrinti, kad jie neturės didelės įtakos koreliacijai tarp populiacijos narių.

Taškinė diagrama

Jei viena iš hipotezių a priori yra apie ryšį tarp duotųjų kintamųjų, tai naudinga ją patikrinti atitinkamos sklaidos diagramoje.

Ryžiai. 8. Sklaidos diagrama.

Sklaidos diagrama rodo aiškią neigiamą koreliaciją (-.65) tarp dviejų kintamųjų. Tai taip pat rodo 95 % pasikliovimo intervalą regresijos linijai, t. y. yra 95 % tikimybė, kad regresijos linija yra tarp dviejų punktyrinių kreivių.

Reikšmingumo kriterijai

Pop_Chng regresijos koeficiento testas patvirtina, kad Pop_Chng yra stipriai susijęs su Pt_Poor , p<.001 .

Apatinė eilutė

Šis pavyzdys parodė, kaip analizuoti paprastą regresijos dizainą. Taip pat buvo pateiktos nestandartizuotų ir standartizuotų regresijos koeficientų interpretacijos. Aptariama priklausomo kintamojo atsako pasiskirstymo tyrimo svarba, demonstruojama santykio tarp prognozuotojo ir priklausomo kintamojo krypties ir stiprumo nustatymo technika.

LABORATORINIS DARBAS Nr.4

Imties koreliacijos koeficiento apskaičiavimas ir empirinės bei teorinės regresijos tiesės sudarymas

Darbo tikslas : susipažinimas su tiesine koreliacija; ugdyti gebėjimą apskaičiuoti ir imti koreliacijos koeficientą bei sudaryti teorinės regresijos tiesių lygtis.

Darbo turinys : remdamasis eksperimentiniais duomenimis, apskaičiuoti imties koreliacijos koeficientą, patikimai sudaryti jam pasikliautinąjį intervalą, semantiškai aprašyti gautą rezultatą, sudaryti empirines ir teorines regresijos linijas. įjungta
pagal aukščiau pateiktą prielinksnio metodą.

Koreliacijos metodas

Taikant koreliacijos metodą matematinėje statistikoje, nustatomas ryšys tarp reiškinių. Šio ryšio tyrimo ypatumas yra tas, kad neįmanoma išskirti pašalinių veiksnių įtakos. Todėl koreliacijos metodas taikomas siekiant, esant kompleksinei pašalinių veiksnių įtakų sąveikai, nustatyti, koks būtų charakteristikų ryšys, jei pašaliniai veiksniai nesikeistų, t. y. būtų sudarytos sąlygos atlikti eksperimentą. adekvatus.

Koreliacijos teorija nagrinėja dvi problemas:

1) koreliacijos parametro tarp tiriamų charakteristikų nustatymas;

2) nustatant šio ryšio glaudumą. Dėl charakteristikų santykio pobūdžio
Ir galima spręsti pagal taškų išsidėstymą koordinačių sistemoje (koreliacijos lauke). Jei šie taškai yra šalia tiesios linijos, tada daroma prielaida, kad tarp sąlyginio vidurkio Ir
yra linijinis ryšys. Lygtis
įjungta
.

Lygtis
vadinama regresijos linijos lygtimi
įjungta . Jei abi regresijos linijos yra tiesios, tai yra tiesinė koreliacija.

Regresijos tiesės lygtys

Ir
yra sudaryti remiantis pavyzdiniais duomenimis, pateiktais koreliacijos lentelėje.

- atitinkamų charakteristikų vidutinės vertės;

- regresijos koeficientai įjungta
Ir
įjungta - apskaičiuojama pagal formules

Kur
- vidutinė prekės vertė
įjungta ;

Ir
- savybių dispersijos
Ir .

Tiesiojoje koreliacijoje charakteristikų ryšio glaudumas apibūdinamas imties koreliacijos koeficientu , kurios reikšmės svyruoja nuo „-1“ iki „+1“.

Jei koreliacijos koeficiento reikšmė yra neigiama, tai rodo atvirkštinį tiesinį ryšį tarp tiriamų charakteristikų; jei teigiama – apie tiesinį ryšį. Jei koreliacijos koeficientas yra 0, tai tarp charakteristikų nėra tiesinio ryšio.

Imties koreliacijos koeficientas apskaičiuojamas pagal formulę:

r in
(1)

Kur - vidutinė produktų vertė
įjungta

Ir - atitinkamų charakteristikų vidutinės vertės;

Ir - charakteristikos standartiniai nuokrypiai
ir dėl ženklo .

DARBO ATLIKIMO METODAS

Pateikiami statistiniai duomenys apie automobilio galinės ašies tepalinės alyvos temperatūrą. priklausomai nuo aplinkos temperatūros
.

1. MĖGINIO KORELIACIJOS KOEFICIENTO APSKAIČIAVIMAS

Šias sąlygas apibendrinsime koreliacijos lentelėje

1 lentelė.

n y(y charakteristikos dažnis)

n x (charakteristikos x dažnis)

Raskime imties skaitines charakteristikas

1.1. Raskime vidutines charakteristikų X ir Y vertes

,

1.2. Raskime pavyzdinius dispersijas

1513-1281,64=231,36

1.3. Mėginio standartinis nuokrypis

,

,

1.4. Pavyzdžio koreliacijos momentas

1/50(40 + 120+720+480+200+800+900+4200+1120+2160+4500+5280+4400+1320+1560) – 497,62=

1/50(27800) – 497,62 = 556 – 497,62 = 58,38

1.5. Imties koreliacijos koeficientas


0,77

2. Norėdami tai padaryti, patikrinkime koreliacijos koeficiento reikšmę, patikrinkime statistiką:

=
≈ 8,3

Mes rasime
iš Studento pasiskirstymo lentelės (Priedas) pagal technologijose dažniausiai naudojamą reikšmingumo lygį
Ir
Y– laisvės laipsnių skaičius K= n – 2 = 50 – 2 = 48,
2,02

Nes
= 8,3 > 2,02, tada rastas koreliacijos koeficientas reikšmingai skiriasi nuo nulio. Tai reiškia, kad kintamieji X ir Y yra susieti formos tiesinės regresijos ryšiu

Taigi koreliacijos koeficientas parodo glaudų tiesinį ryšį tarp galinės ašies tepalinės alyvos temperatūros ir aplinkos oro temperatūros.

3. Empirinių tiesinės regresijos lygčių sudarymasYįjungtaXIrXįjungtaY.

3.1. Empirinė tiesinės regresijos lygtis Y ant X.

,

3.2. Empirinė tiesinės regresijos lygtis X įjungtaY.

,

=35,8 + 2,34 (y-13,9)

4. EMPIRINĖS REGRESIJOS LINĖS KONSTRUKCIJAYĮJUNGTAX.

Norėdami sukurti empirinę regresijos tiesę, parengkime 2 lentelę.

2 lentelė

- sąlyginis būdingųjų verčių vidurkis su sąlyga, kad įgauna tam tikrą reikšmę, t.y.

;

;

;

Skaičių porų paėmimas
taškų koordinatėms sukonstruoti koordinačių sistemą ir sujungti tiesiomis atkarpomis. Gauta trūkinė linija bus empirinė regresijos linija.

Teorinės tiesinės Y regresijos lygtis X yra:

;
, Kur - atributo vidurkio pavyzdys ;

- atributo vidurkio pavyzdys .

;
;
;
;
.

Tiesioginė Y regresijos lygtis X bus parašyta taip:

arba pagaliau

Sukurkime abi regresijos tieses (1 pav.)

Ryžiai. 1. Empirinės ir teorinės regresijos tiesės

adresu
;

adresu.

5. Atliksime prasmingą analizės rezultatų interpretaciją Tarp transporto priemonės galinės ašies tepalinės alyvos temperatūros ir aplinkos oro temperatūros yra glaudi tiesioginė tiesinė koreliacija ( r V

Lygtis
=0,77). Tai galima teigti su 0,95 tikimybe.

apibūdina, kaip vidutiniškai automobilio galinės ašies tepalinės alyvos temperatūra priklauso nuo aplinkos temperatūros.
Tiesinės regresijos koeficientas (

Lygtis
) rodo, kad padidinus aplinkos temperatūrą vidutiniškai 1 laipsniu, tai automobilio galinės ašies tepalinės alyvos temperatūra vidutiniškai padidės 0,25 laipsnio.
)

apibūdina, kaip transporto priemonės galinės ašies tepalinės alyvos temperatūra priklauso nuo aplinkos temperatūros. Jei automobilio galinės ašies tepalinės alyvos temperatūrą reikia padidinti vidutiniškai 1 laipsniu, tai aplinkos oro temperatūrą reikia padidinti vidutiniškai 2,34 laipsnio(

ATSKIRŲ UŽDUOČIŲ VARIANTAI

1. X pasiskirstymas - ilgalaikio gamybos turto kaina (milijonai rublių) ir Y - vidutinė mėnesio produkcija vienam darbuotojui

2. 200 cilindrinių lempos stulpų pasiskirstymas pagal ilgį X (cm) ir pagal svorį Y (kg) pateiktas šioje lentelėje:

3. 100 firmų pasiskirstymas pagal gamybą X (piniginiais vienetais) ir pagal dienos produkciją Y (tonomis) pateiktas šioje lentelėje:

Metodinės formos viršelis

«

Kazachstano Respublikos švietimo ir mokslo ministerija « UMC pirmininkas _______________

___"___________20__

PATVIRTINTA: _________________ « UMC pirmininkas _______________

OPiMOUP vadovas

« Patvirtino universiteto edukacinė ir metodinė taryba

___»___________20 __ Protokolo Nr.____ Studijuojant temą "

Informacija iš tikimybių teorijos ir matematinės statistikos“, ypatingas dėmesys turėtų būti skiriamas statistinių duomenų pateikimo ir apdorojimo būdams. Teorinės ir atrankinės charakteristikos. Bendra hipotezių tikrinimo schema. 1 ir 2 tipo klaidos. Taškų ir intervalų įverčiai. Įverčių statistinės savybės. Dviejų atsitiktinių dydžių priklausomybių analizė.

Tema. Mažiausių kvadratų metodas.

h1, h2 – žingsniai, t.y. skirtumas tarp dviejų gretimų variantų.

,

Šiuo atveju imties koreliacijos koeficientas

Be to, terminą patogu apskaičiuoti naudojant 1 skaičiavimo lentelę.

Vertes galima rasti naudojant formules

Atvirkštiniam perėjimui naudojami posakiai Pavyzdys

Remdamiesi koreliacijos lentele, raskite pavyzdinę tiesinės regresijos Y lygtį ant X. Norėdami supaprastinti skaičiavimus, pereikime prie sąlyginių variantų, kurie apskaičiuojami naudojant formules

,

ir sukurti transformuotą koreliacijos lentelę su sąlyginėmis parinktimis

Tada sudarysime naują lentelę, kurioje įvesime apskaičiuotas vertes viršutiniame dešiniajame užpildyto langelio kampe ir apatiniame kairiajame kampe, o po to sumuojame viršutines eilučių reikšmes, kad gautume vertes. Vj ir mažesnes reikšmes Ui stulpeliuose ir apskaičiuokite reikšmes ir .

vjVj

Du atsitiktiniai dydžiai gali būti susiję arba funkcine priklausomybe, arba statistine priklausomybe, arba būti nepriklausomi. Griežta funkcinė priklausomybė realizuojama retai, nes abu arba vienas iš dviejų dydžių taip pat yra veikiami atsitiktinių veiksnių. Be to, tarp šių veiksnių gali būti ir kai kurių bendrų abiem dydžiams, t.y. turinčios įtakos abiem atsitiktiniams dydžiams. Tokiais atvejais atsiranda statistinė priklausomybė.

Statistiniai yra priklausomybė, kai pasikeitus vienam iš dydžių pasikeičia ir kito pasiskirstymas. Visų pirma, pasikeitus vienam iš dydžių, pasikeičia kito vidutinė vertė. Šiuo atveju vadinama statistine priklausomybe koreliacija. Pavyzdžiui, santykis tarp trąšų kiekio ir derliaus, tarp investuotų lėšų ir pelno.

Vadinamas atsitiktinio dydžio Y stebimų verčių, atitinkančių X=x reikšmę, aritmetinis vidurkis sąlyginis vidurkis x ir yra taškinis matematinio lūkesčio įvertinimas . Sąlyginis vidurkis y nustatomas panašiai.

Sąlyginis matematinis lūkestis M(Y|x) yra funkcija x, todėl jo vertinimas, t.y. sąlyginis vidurkis x, taip pat x funkcija:

x = f*(x).

Ši lygtis vadinama pavyzdinė regresijos lygtis Y ant X. Funkcija f*(x) paskambino imties regresija, o jo grafikas yra Y pavyzdžio regresijos linija X. Panašiai, Eq.

Y = φ * (y),

funkcija φ * (y) ir jos tvarkaraštis vadinasi imties regresijos lygtis, imties regresija ir imties regresijos linija X ant Y.

Funkcijų parametrų paieška f*(x) Ir φ * (y), jei žinomas jų tipas, įvertinti X ir Y dydžių ryšio glaudumą yra problema koreliacinė analizė. Regresinės analizės uždavinys – įvertinti regresinės funkcijos β i parametrus ir liekamąją dispersiją σ ost 2 .

Likutinė dispersija yra ta dispersijos Y dalis, kurios negalima paaiškinti X veikimu. σ likutis 2 gali būti naudojamas vertinant regresijos funkcijos pasirinkimo tikslumą ir į analizę įtrauktų požymių rinkinio išsamumą. Priklausomybės tipas g(x) parenkamas atsižvelgiant į koreliacijos lauko pobūdį ir proceso pobūdį.



Tiesinės regresijos koeficiento β įvertis yra imties regresijos koeficientas Y ant X r yx. Parametrų reikšmės r yx ir parametras b tiesios regresijos lygtys

Y = r yx x + b

parenkami taip, kad taškai (x 1 ,y 1), (x 2 ,y 2),…,(x n ,y n), sudaryti iš stebėjimo duomenų, xOy plokštumoje būtų kuo arčiau tiesės regresijos linija. Tai atitinka reikalavimą, kad funkcijos Y(x i) kvadratinių nuokrypių suma nuo y i būtų minimali. Tai yra MNC esmė.

Tiesiosios Y regresijos ant X pavyzdinę lygtį galima parašyti taip:

x –= r s y / s x (x – ) ,

kur s x ir s y yra X ir Y imties standartiniai nuokrypiai ir

r =

imties koreliacijos koeficientas, apskaičiuotas iš sugrupuotų duomenų. Čia n xy yra variantų poros (x,y) dažnis. Panašiai raskite tiesios regresijos linijos X pavyzdinę lygtį ant Y:

Y – = r in s x /s y (y –)

Norint nustatyti, ar imtyje rastas matematinis Y ir X ryšio modelis atitinka statistinius duomenis, reikėtų įvertinti regresijos koeficientų reikšmingumą ir regresijos lygties reikšmingumą.

Regresijos koeficientų reikšmingumo tikrinimas reiškia, kad reikia nustatyti, ar įverčio dydis yra pakankamas pagrįstai išvadai, kad regresijos koeficientas skiriasi nuo nulio, pagrįsti. Iškeliama H 0 hipotezė: regresijos koeficientas lygus nuliui β =0. Hipotezė H0 tikrinama naudojant pagal Stjudento dėsnį paskirstytą statistiką

t = │b / s b │

Kur b yra regresijos koeficiento įvertis ir s b– jo standartinio nuokrypio įvertis, kitaip tariant, įverčio standartinė paklaida. Jei │t │≥ t cr (α, k), nulinė hipotezė, kad regresijos koeficientas lygus nuliui, atmetama ir koeficientas laikomas reikšmingu. Esant │t │< t кр нет оснований отвергать нулевую гипотезу.



Ar jums patiko straipsnis? Pasidalinkite su draugais!