Menentukan signifikansi koefisien persamaan regresi. Menilai signifikansi statistik persamaan regresi dan parameternya

Untuk menilai signifikansi dan signifikansi koefisien korelasi digunakan uji-t Student.

Kesalahan rata-rata koefisien korelasi dicari dengan menggunakan rumus:

N
dan berdasarkan kesalahannya, kriteria-t dihitung:

Nilai uji-t hitung dibandingkan dengan nilai tabulasi yang terdapat pada tabel distribusi Student pada taraf signifikansi 0,05 atau 0,01 dan jumlah derajat kebebasan n-1. Apabila nilai uji t hitung lebih besar dari nilai tabel, maka koefisien korelasi dianggap signifikan.

Dalam hal hubungan lengkung, uji F digunakan untuk menilai signifikansi hubungan korelasi dan persamaan regresi. Itu dihitung dengan rumus:

atau

dimana η adalah rasio korelasi; n – jumlah observasi; m – jumlah parameter dalam persamaan regresi.

Nilai F hitung dibandingkan dengan nilai tabulasi untuk tingkat signifikansi yang diterima (0,05 atau 0,01) dan bilangan derajat kebebasan k 1 =m-1 dan k 2 =n-m. Apabila nilai F hitung melebihi nilai tabel maka hubungan tersebut dianggap signifikan.

Signifikansi koefisien regresi ditentukan dengan menggunakan uji-t Student yang dihitung dengan rumus:

dimana σ 2 dan i adalah varians dari koefisien regresi.

Itu dihitung dengan rumus:

dimana k adalah banyaknya karakteristik faktor dalam persamaan regresi.

Koefisien regresi dianggap signifikan jika t a 1 ≥t cr.

t cr terdapat pada tabel titik kritis distribusi Student pada tingkat signifikansi yang diterima dan jumlah derajat kebebasan k=n-1.

4.3. Analisis korelasi dan regresi di Excel hasil tanaman gabah, pada sel B1:B30, nilai karakteristik yang dihasilkan adalah biaya tenaga kerja per 1 kuintal gabah. Di menu Alat, pilih opsi Analisis Data. Dengan mengklik kiri pada item ini, kita akan membuka alat Regresi. Klik tombol OK dan kotak dialog Regresi muncul di layar. Pada kolom Input interval Y, masukkan nilai karakteristik yang dihasilkan (sorot sel B1:B30), pada kolom Input interval X, masukkan nilai karakteristik faktor (sorot sel A1:A30). Tandai tingkat probabilitas 95% dan pilih Lembar Kerja Baru. Klik pada tombol OK. Tabel “KESIMPULAN HASIL” muncul di lembar kerja, yang berisi hasil penghitungan parameter persamaan regresi, koefisien korelasi, dan indikator lain yang memungkinkan Anda menentukan signifikansi koefisien korelasi dan parameter persamaan regresi.

KESIMPULAN HASIL

Statistik regresi

jamak R

R-persegi

R-kuadrat yang dinormalisasi

Kesalahan standar

Pengamatan

Analisis varians

Signifikansi F

Regresi

Kemungkinan

Kesalahan standar

t-statistik

Nilai-P

95% terbawah

95% teratas

95,0% terbawah

95,0% teratas

Persimpangan Y

Variabel X 1

Dalam tabel ini, “Multiple R” adalah koefisien korelasi, “R-squared” adalah koefisien determinasi. “Koefisien: perpotongan Y” - suku bebas persamaan regresi 2,836242; “Variabel X1” – koefisien regresi -0,06654. Ada juga nilai uji F Fisher 74,9876, uji t Student 14,18042, “Standard error 0,112121”, yang diperlukan untuk menilai signifikansi koefisien korelasi, parameter persamaan regresi, dan keseluruhan persamaan.

Berdasarkan data pada tabel, kita akan membuat persamaan regresi: y x ​​​​= 2,836-0,067x. Koefisien regresi a 1 = -0,067 berarti bahwa dengan peningkatan hasil gabah sebesar 1 c/ha, biaya tenaga kerja per 1 c gabah berkurang sebesar 0,067 jam kerja.

Koefisien korelasinya r=0,85>0,7, sehingga hubungan antara karakteristik yang diteliti pada populasi ini adalah erat. Koefisien determinasi r 2 =0,73 menunjukkan bahwa 73% variasi sifat efektif (biaya tenaga kerja per 1 kuintal gabah) disebabkan oleh kerja faktor sifat (hasil gabah).

Pada tabel titik kritis distribusi Fisher-Snedecor diperoleh nilai kritis uji F pada taraf signifikansi 0,05 dan banyaknya derajat kebebasan k 1 =m-1=2-1=1 dan k 2 =n-m=30-2=28, sama dengan 4,21. Karena nilai kriteria yang dihitung lebih besar dari nilai tabel (F=74.9896>4.21), maka persamaan regresi dianggap signifikan.

Untuk menilai signifikansi koefisien korelasi, mari kita hitung uji-t Student:

DI DALAM
Pada tabel titik kritis distribusi Student diperoleh nilai kritis uji-t pada taraf signifikansi 0,05 dan banyaknya derajat kebebasan n-1=30-1=29 yaitu sebesar 2,0452. Karena nilai yang dihitung lebih besar dari nilai tabel, maka koefisien korelasinya signifikan.

Estimasi signifikansi parameter persamaan regresi

Signifikansi parameter persamaan regresi linier dinilai dengan menggunakan uji Student:

Jika T perhitungan. > T cr, maka hipotesis utama diterima ( H o), menunjukkan signifikansi statistik dari parameter regresi;

Jika T perhitungan.< T cr, maka hipotesis alternatif diterima ( jam 1), menunjukkan tidak pentingnya statistik parameter regresi.

Di mana m a , m b– kesalahan standar parameter A Dan B:

(2.19)

(2.20)

Nilai kritis (tabel) kriteria ditentukan dengan menggunakan tabel statistik distribusi Siswa (Lampiran B) atau menggunakan tabel Unggul(bagian dari wizard fungsi “Statistik”):

T cr = STUDARSOBR( =1-P; k=n-2), (2.21)

Di mana k=n-2 juga mewakili jumlah derajat kebebasan .

Penilaian signifikansi statistik juga dapat diterapkan pada koefisien korelasi linier

Di mana Tn– kesalahan standar dalam menentukan nilai koefisien korelasi r yx

(2.23)

Di bawah ini adalah pilihan tugas praktikum dan praktikum pada topik bagian kedua.

Soal tes mandiri untuk bagian 2

1. Sebutkan komponen utama model ekonometrik dan esensinya.

2. Isi pokok tahapan penelitian ekonometrik.

3. Inti dari pendekatan penentuan parameter regresi linier.

4. Hakikat dan kekhasan penggunaan metode kuadrat terkecil dalam menentukan parameter persamaan regresi.

5. Indikator apa yang digunakan untuk menilai keeratan hubungan antar faktor yang diteliti?

6. Inti dari koefisien korelasi linier.

7. Hakikat koefisien determinasi.

8. Esensi dan ciri-ciri utama prosedur penilaian kecukupan (signifikansi statistik) model regresi.

9. Menilai kecukupan model regresi linier dengan koefisien aproksimasi.

10. Inti dari pendekatan penilaian kecukupan model regresi menggunakan kriteria Fisher. Penentuan nilai kriteria empiris dan kritis.

11. Hakikat konsep “analisis varians” dalam kaitannya dengan penelitian ekonometrik.

12. Esensi dan ciri-ciri utama prosedur penilaian signifikansi parameter persamaan regresi linier.

13. Fitur penggunaan distribusi Student ketika menilai signifikansi parameter persamaan regresi linier.

14. Apa tugas meramalkan nilai-nilai tunggal dari fenomena sosial ekonomi yang diteliti?

1. Membangun bidang korelasi dan merumuskan asumsi tentang bentuk persamaan hubungan faktor-faktor yang diteliti;

2. Tuliskan persamaan dasar metode kuadrat terkecil, lakukan transformasi yang diperlukan, buat tabel untuk perhitungan antara dan tentukan parameter persamaan regresi linier;

3. Periksa kebenaran perhitungan menggunakan prosedur standar dan fungsi spreadsheet Excel.

4. Menganalisis hasil, merumuskan kesimpulan dan rekomendasi.

1. Perhitungan nilai koefisien korelasi linier;

2. Konstruksi tabel analisis varians;

3. Estimasi koefisien determinasi;

4. Periksa kebenaran perhitungan menggunakan prosedur standar dan fungsi spreadsheet Excel.

5. Menganalisis hasil, merumuskan kesimpulan dan rekomendasi.

4. Melakukan penilaian secara umum terhadap kecukupan persamaan regresi yang dipilih;

1. Menilai kecukupan persamaan berdasarkan nilai koefisien aproksimasi;

2. Menilai kecukupan persamaan berdasarkan nilai koefisien determinasi;

3. Menilai kecukupan persamaan menggunakan kriteria Fisher;

4. Melakukan penilaian secara umum terhadap kecukupan parameter persamaan regresi;

5. Periksa kebenaran perhitungan menggunakan prosedur standar dan fungsi spreadsheet Excel.

6. Menganalisis hasil, merumuskan kesimpulan dan rekomendasi.

1. Menggunakan prosedur standar Wizard Fungsi Spreadsheet Excel (dari bagian “Matematika” dan “Statistik”);

2. Persiapan data dan fitur penggunaan fungsi LINEST;

3. Persiapan data dan fitur penggunaan fungsi “PREDIKSI”.

1. Menggunakan prosedur standar paket analisis data spreadsheet Excel;

2. Persiapan data dan fitur penerapan prosedur “REGRESI”;

3. Interpretasi dan sintesis data tabel analisis regresi;

4. Interpretasi dan sintesis data hasil analisis tabel varians;

5. Interpretasi dan generalisasi data dari tabel untuk menilai signifikansi parameter persamaan regresi;

Saat melakukan pekerjaan laboratorium berdasarkan salah satu opsi, Anda harus menyelesaikan tugas khusus berikut:

1. Pilih bentuk persamaan hubungan faktor-faktor yang diteliti;

2. Menentukan parameter persamaan regresi;

3. Mengkaji eratnya hubungan faktor-faktor yang diteliti;

4. Menilai kecukupan persamaan regresi yang dipilih;

5. Menilai signifikansi statistik dari parameter persamaan regresi.

6. Periksa kebenaran perhitungan menggunakan prosedur standar dan fungsi spreadsheet Excel.

7. Menganalisis hasil, merumuskan kesimpulan dan rekomendasi.

Tugas praktikum dan laboratorium dengan topik “Regresi linier berpasangan dan korelasi dalam penelitian ekonometrik”.

Pilihan 1 Pilihan 2 Pilihan 3 Pilihan 4 Pilihan 5
X kamu X kamu X kamu X kamu X kamu
Opsi 6 Pilihan 7 Opsi 8 Pilihan 9 Opsi 10
X kamu X kamu X kamu X kamu X kamu

Setelah menilai signifikansi statistik individu dari setiap koefisien regresi, signifikansi gabungan dari koefisien biasanya dianalisis, yaitu. seluruh persamaan secara keseluruhan. Analisis ini dilakukan atas dasar pengujian hipotesis tentang signifikansi umum hipotesis tentang persamaan simultan hingga nol dari semua koefisien regresi untuk variabel penjelas:

H 0 : b 1 = b 2 = ... = bm = 0.

Jika hipotesis ini tidak ditolak, maka disimpulkan bahwa pengaruh kumulatif seluruh m variabel penjelas X 1, X 2, ..., X m model terhadap variabel terikat Y dapat dianggap tidak signifikan secara statistik, dan kualitas keseluruhan persamaan regresi dapat dianggap rendah.

Hipotesis ini diuji berdasarkan analisis varians yang membandingkan varians yang dijelaskan dan varians residu.

H 0 : (varians yang dijelaskan) = (varians sisa),

H 1 : (varians yang dijelaskan) > (varians sisa).

F-statistik dibangun:

Di mana – varians dijelaskan oleh regresi;

– dispersi sisa (jumlah simpangan kuadrat dibagi jumlah derajat kebebasan n-m-1). Jika asumsi OLS terpenuhi, statistik F yang dibangun memiliki distribusi Fisher dengan derajat kebebasan n1 = m, n2 = n–m–1. Oleh karena itu, jika pada tingkat signifikansi yang disyaratkan a F diamati > F a ; M; n - m -1 = F a (di mana F a ; m ; n - m -1 adalah titik kritis distribusi Fisher), maka H 0 ditolak dan digantikan oleh H 1 . Artinya varians yang dijelaskan oleh regresi jauh lebih besar daripada varians residual, sehingga persamaan regresi cukup kualitatif mencerminkan dinamika perubahan variabel dependen Y. Jika F diamati< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

Namun, dalam praktiknya, alih-alih hipotesis ini, hipotesis yang berkaitan erat tentang signifikansi statistik koefisien determinasi R2 lebih sering diuji:



H 0: R 2 > 0.

Untuk menguji hipotesis ini digunakan F-statistik sebagai berikut:

. (8.20)

Nilai F jika asumsi OLS terpenuhi dan H 0 benar mempunyai distribusi Fisher yang mirip dengan distribusi F-statistik (8.19). Memang benar, membagi pembilang dan penyebut pecahan pada (8.19) dengan jumlah total simpangan kuadrat dan mengetahui bahwa itu dipecah menjadi jumlah deviasi kuadrat yang dijelaskan oleh regresi, dan jumlah sisa deviasi kuadrat (ini adalah konsekuensi, seperti yang akan ditunjukkan nanti, dari sistem persamaan normal)

,

kita mendapatkan rumus (8.20):

Dari (8.20) terlihat bahwa eksponen F dan R 2 sama atau tidak sama dengan nol pada saat yang bersamaan. Jika F = 0, maka R 2 = 0, dan garis regresi Y = adalah yang terbaik menurut kuadrat terkecil, sehingga nilai Y tidak bergantung linier pada X 1, X 2, ..., X m . Untuk menguji hipotesis nol H 0: F = 0 pada tingkat signifikansi a tertentu, nilai kritis F cr = F a dicari dari tabel titik kritis distribusi Fisher; M; n - m -1 . Hipotesis nol ditolak jika F > F cr. Ini setara dengan fakta bahwa R 2 > 0, yaitu. R 2 signifikan secara statistik.

Analisis statistik F memungkinkan kita untuk menyimpulkan bahwa untuk menerima hipotesis bahwa semua koefisien regresi linier secara bersamaan sama dengan nol, koefisien determinasi R2 tidak boleh berbeda signifikan dari nol. Nilai kritisnya menurun seiring dengan bertambahnya jumlah observasi dan dapat menjadi sangat kecil.

Misalkan, ketika mengestimasi regresi dengan dua variabel penjelas X 1 i, X 2 i untuk 30 observasi, R 2 = 0,65. Kemudian

Fob = =25.07.

Dengan menggunakan tabel titik kritis distribusi Fisher, kita menemukan F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Karena F observasi = 25,07 > F cr pada tingkat signifikansi 5% dan 1%, hipotesis nol ditolak dalam kedua kasus.

Jika dalam situasi yang sama R 2 = 0,4, maka

F obs = = 9.

Asumsi bahwa hubungan tersebut tidak signifikan juga ditolak di sini.

Perhatikan bahwa dalam kasus regresi berpasangan, pengujian hipotesis nol untuk statistik-F sama dengan pengujian hipotesis nol untuk statistik-t.

koefisien korelasi. Dalam hal ini, F-statistik sama dengan t-statistik kuadrat. Koefisien R2 memperoleh signifikansi independen dalam kasus regresi linier berganda.

8.6. Analisis varians untuk menguraikan jumlah total deviasi kuadrat. Derajat kebebasan untuk jumlah deviasi kuadrat yang sesuai

Mari kita terapkan teori yang diuraikan di atas untuk regresi linier berpasangan.

Setelah persamaan regresi linier ditemukan, signifikansi persamaan secara keseluruhan dan parameter individualnya dinilai.

Signifikansi persamaan regresi secara keseluruhan dinilai dengan menggunakan uji Fisher F. Dalam hal ini diajukan hipotesis nol bahwa koefisien regresi sama dengan nol, yaitu. b = 0, sehingga faktor x tidak berpengaruh terhadap hasil y.

Perhitungan langsung uji F didahului dengan analisis varians. Tempat sentral di dalamnya ditempati oleh penguraian jumlah total deviasi kuadrat variabel y dari nilai rata-rata menjadi dua bagian - "dijelaskan" dan "tidak dijelaskan":

Persamaan (8.21) merupakan konsekuensi dari sistem persamaan normal yang diturunkan pada salah satu topik sebelumnya.

Bukti ekspresi (8.21).

Masih harus dibuktikan bahwa suku terakhir sama dengan nol.

Jika Anda menjumlahkan semua persamaan dari 1 hingga n

kamu saya = a+b×x saya +ei , (8.22)

maka kita mendapatkan åy i = a×å1+b×åx i +åe i . Karena åe i =0 dan å1 =n, kita peroleh

Kemudian .

Jika kita mengurangi persamaan (8.23) dari ekspresi (8.22), kita memperoleh

Hasilnya kita dapatkan

Jumlah terakhir sama dengan nol karena sistem dua persamaan normal.

Jumlah total deviasi kuadrat nilai individu karakteristik efektif y dari nilai rata-rata disebabkan oleh pengaruh banyak alasan. Mari kita bagi seluruh rangkaian alasan secara kondisional menjadi dua kelompok: faktor x yang dipelajari dan faktor lainnya. Jika faktor tersebut tidak berpengaruh terhadap hasil, maka garis regresi sejajar dengan OX dan sumbu. Kemudian seluruh varians dari karakteristik yang dihasilkan disebabkan oleh pengaruh faktor lain dan jumlah total deviasi kuadrat akan bertepatan dengan sisa. Jika faktor lain tidak mempengaruhi hasil, maka y secara fungsional berhubungan dengan x dan jumlah sisa kuadrat adalah nol. Dalam hal ini, jumlah deviasi kuadrat yang dijelaskan oleh regresi bertepatan dengan jumlah total kuadrat.

Karena tidak semua titik bidang korelasi terletak pada garis regresi, maka pencarannya selalu terjadi karena pengaruh faktor x, yaitu. regresi y pada x, dan disebabkan oleh sebab-sebab lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk prediksi bergantung pada seberapa besar total variasi sifat y yang disebabkan oleh variasi yang dijelaskan. Jelasnya, jika jumlah simpangan kuadrat akibat regresi lebih besar dari jumlah kuadrat sisa, maka persamaan regresi tersebut signifikan secara statistik dan faktor x mempunyai pengaruh yang signifikan terhadap karakteristik y. Hal ini setara dengan fakta bahwa koefisien determinasi akan mendekati kesatuan.

Setiap jumlah kuadrat dikaitkan dengan jumlah derajat kebebasan (df – derajat kebebasan), dengan jumlah kebebasan variasi independen suatu karakteristik. Jumlah derajat kebebasan berhubungan dengan jumlah unit populasi n dan jumlah konstanta yang ditentukan darinya. Sehubungan dengan masalah yang diteliti, jumlah derajat kebebasan harus menunjukkan berapa banyak simpangan bebas dari n kemungkinan yang diperlukan untuk membentuk sejumlah kuadrat tertentu. Jadi, untuk jumlah total kuadrat, diperlukan (n-1) simpangan bebas, karena dalam himpunan n satuan, setelah menghitung rata-rata, hanya (n-1) jumlah simpangan yang bervariasi bebas. Misalnya, kita memiliki rangkaian nilai y: 1,2,3,4,5. Rata-ratanya adalah 3, maka n simpangan dari rata-ratanya adalah: -2, -1, 0, 1, 2. Karena , maka hanya empat simpangan yang bervariasi bebas, dan simpangan kelima dapat ditentukan jika empat simpangan sebelumnya adalah diketahui.

Saat menghitung jumlah kuadrat yang dijelaskan atau difaktorkan nilai teoretis (yang dihitung) dari karakteristik yang dihasilkan digunakan

Maka jumlah simpangan kuadrat akibat regresi linier adalah sama dengan

Karena, untuk volume observasi tertentu di x dan y, jumlah faktor kuadrat dalam regresi linier hanya bergantung pada konstanta regresi b, maka jumlah kuadrat ini hanya mempunyai satu derajat kebebasan.

Terdapat persamaan antara jumlah derajat kebebasan total, faktor dan jumlah sisa simpangan kuadrat. Banyaknya derajat kebebasan jumlah sisa kuadrat pada regresi linier adalah n-2. Jumlah derajat kebebasan dari jumlah total kuadrat ditentukan oleh jumlah unit karakteristik variabel, dan karena kita menggunakan rata-rata yang dihitung dari data sampel, kita kehilangan satu derajat kebebasan, yaitu. total = n–1.

Jadi, kita memiliki dua persamaan:

Membagi setiap jumlah kuadrat dengan jumlah derajat kebebasan yang sesuai, kita memperoleh kuadrat rata-rata deviasi, atau, yang sama, dispersi per satu derajat kebebasan D.

;

;

.

Mendefinisikan varians dengan satu derajat kebebasan akan membawa varians tersebut ke bentuk yang sebanding. Membandingkan varians faktor dan residu per derajat kebebasan, diperoleh nilai uji Fisher F

dimana F-kriteria untuk menguji hipotesis nol H 0 : D fakta = D istirahat.

Jika hipotesis nol benar, maka varians faktor dan sisa tidak berbeda satu sama lain. Untuk H 0, diperlukan sanggahan agar dispersi faktor beberapa kali melebihi dispersi sisa. Ahli statistik Inggris Snedecor mengembangkan tabel nilai kritis rasio F pada berbagai tingkat signifikansi hipotesis nol dan berbagai derajat kebebasan. Nilai tabulasi uji F adalah nilai maksimum rasio varians yang dapat terjadi jika divergen secara acak untuk tingkat probabilitas hipotesis nol tertentu. Nilai F-ratio yang dihitung dianggap reliabel jika lebih besar dari nilai tabel. Jika F fakta > F tabel, maka hipotesis nol H 0 : D fakta = D sisanya tentang tidak adanya hubungan antar karakteristik ditolak dan ditarik kesimpulan tentang signifikansi hubungan tersebut.

Jika F adalah fakta< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

Dalam contoh ini dari Bab 3:

= 131200 -7*144002 = 30400 – jumlah total kuadrat;

1057.878*(135.43-7*(3.92571) 2) = 28979.8 – faktor jumlah kuadrat;

=30400-28979.8 = 1420.197 – jumlah sisa kuadrat;

D fakta = 28979,8;

D istirahat = 1420.197/(n-2) = 284.0394;

F fakta =28979.8/284.0394 = 102.0274;

F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

Karena F fakta > F tabel pada taraf signifikansi 1% dan 5%, maka dapat disimpulkan bahwa persamaan regresi tersebut signifikan (terbukti hubungannya).

Nilai uji F berhubungan dengan koefisien determinasi. Jumlah faktor deviasi kuadrat dapat direpresentasikan sebagai

,

dan jumlah sisa kuadrat sebagai

.

Maka nilai uji F dapat dinyatakan sebagai

.

Penilaian signifikansi regresi biasanya diberikan dalam bentuk tabel analisis varians

, nilainya dibandingkan dengan nilai tabel pada taraf signifikansi tertentu α dan banyaknya derajat kebebasan (n-2).
Sumber Variasi Jumlah derajat kebebasan Jumlah deviasi kuadrat Dispersi per derajat kebebasan rasio F
sebenarnya Tabel pada a=0,05
Umum
Dijelaskan 28979,8 28979,8 102,0274 6,61
Sisa 1420,197 284,0394

Setelah persamaan regresi dibangun dan keakuratannya dinilai dengan menggunakan koefisien determinasi, pertanyaannya tetap terbuka tentang bagaimana akurasi ini dicapai dan, oleh karena itu, apakah persamaan ini dapat dipercaya. Faktanya adalah persamaan regresi dibangun bukan atas dasar populasi umum, yang tidak diketahui, tetapi berdasarkan sampel dari populasi tersebut. Poin-poin dari populasi umum dimasukkan ke dalam sampel secara acak, oleh karena itu, sesuai dengan teori probabilitas, antara lain, ada kemungkinan bahwa sampel dari populasi umum yang “luas” menjadi “sempit” (Gbr. 15) .

Beras. 15. Kemungkinan pilihan titik untuk dimasukkan ke dalam sampel dari populasi umum.

Dalam hal ini:

a) persamaan regresi yang dibuat untuk sampel mungkin berbeda secara signifikan dari persamaan regresi untuk populasi umum, yang akan menyebabkan kesalahan perkiraan;

b) koefisien determinasi dan karakteristik akurasi lainnya akan terlalu tinggi dan akan menyesatkan kualitas prediktif persamaan tersebut.

Dalam kasus pembatas, pilihan tidak dapat dikecualikan ketika, dari populasi umum yaitu awan dengan sumbu utama sejajar dengan sumbu horizontal (tidak ada hubungan antar variabel), karena pemilihan acak, akan diperoleh sampel, sumbu utama yang akan dimiringkan terhadap sumbu tersebut. Dengan demikian, upaya untuk memprediksi nilai populasi umum selanjutnya berdasarkan data dari sampel tidak hanya penuh dengan kesalahan dalam menilai kekuatan dan arah hubungan antara variabel dependen dan independen, tetapi juga dengan bahaya. menemukan hubungan antar variabel yang sebenarnya tidak ada.

Dengan tidak adanya informasi tentang semua titik dalam populasi, satu-satunya cara untuk mengurangi kesalahan pada kasus pertama adalah dengan menggunakan metode dalam memperkirakan koefisien persamaan regresi yang memastikan persamaan tersebut tidak bias dan efisien. Dan kemungkinan terjadinya kasus kedua dapat dikurangi secara signifikan karena fakta bahwa satu properti dari populasi umum dengan dua variabel independen satu sama lain diketahui secara apriori - tidak ada hubungan khusus ini. Pengurangan ini dicapai dengan memeriksa signifikansi statistik dari persamaan regresi yang dihasilkan.

Salah satu opsi verifikasi yang paling umum digunakan adalah sebagai berikut. Untuk persamaan regresi yang dihasilkan ditentukan -statistik - suatu ciri keakuratan persamaan regresi, yaitu perbandingan bagian varians variabel terikat yang dijelaskan oleh persamaan regresi terhadap bagian (sisa) yang tidak dapat dijelaskan. dari varians tersebut. Persamaan untuk menentukan -statistik dalam kasus regresi multivariat berbentuk:

dimana: - variance yang dijelaskan - bagian dari varians variabel dependen Y yang dijelaskan oleh persamaan regresi;

Varians sisa adalah bagian varians variabel terikat Y yang tidak dapat dijelaskan oleh persamaan regresi, keberadaannya merupakan akibat dari tindakan komponen acak;

Jumlah titik dalam sampel;

Jumlah variabel dalam persamaan regresi.

Seperti dapat dilihat dari rumus di atas, varians ditentukan sebagai hasil bagi membagi jumlah kuadrat yang bersesuaian dengan jumlah derajat kebebasan. Jumlah derajat kebebasan adalah jumlah minimum nilai variabel terikat yang diperlukan, cukup untuk memperoleh karakteristik sampel yang diinginkan dan dapat bervariasi secara bebas, dengan mempertimbangkan fakta bahwa untuk sampel ini semua nilai lainnya digunakan untuk menghitung karakteristik yang diinginkan diketahui.

Untuk memperoleh varians residual diperlukan koefisien persamaan regresi. Dalam kasus regresi linier berpasangan terdapat dua koefisien, oleh karena itu sesuai dengan rumus (mengambil ) jumlah derajat kebebasannya sama dengan . Artinya untuk menentukan varians residual cukup mengetahui koefisien persamaan regresi dan nilai variabel terikat saja dari sampel. Dua nilai sisanya dapat dihitung berdasarkan data ini, dan oleh karena itu bukan merupakan variabel bebas.

Untuk menghitung variansi terjelaskan dari nilai-nilai variabel terikat tidak diperlukan sama sekali, karena dapat dihitung dengan mengetahui koefisien regresi variabel bebas dan varians variabel bebas. Untuk memverifikasi ini, cukup mengingat ungkapan sebelumnya . Oleh karena itu, jumlah derajat kebebasan varian residu sama dengan jumlah variabel independen dalam persamaan regresi (untuk regresi linier berpasangan).

Akibatnya, kriteria persamaan regresi linier berpasangan ditentukan dengan rumus:

.

Dalam teori probabilitas telah dibuktikan bahwa kriteria persamaan regresi yang diperoleh untuk sampel dari populasi umum yang tidak ada hubungan antara variabel terikat dan bebas mempunyai distribusi Fisher yang telah dipelajari dengan cukup baik. Berkat ini, untuk setiap nilai kriteria -, dimungkinkan untuk menghitung probabilitas kemunculannya dan, sebaliknya, untuk menentukan nilai kriteria - yang tidak dapat dilampaui dengan probabilitas tertentu.

Untuk melakukan uji statistik terhadap signifikansi persamaan regresi, dirumuskan hipotesis nol tentang tidak adanya hubungan antar variabel (semua koefisien variabel sama dengan nol) dan dipilih tingkat signifikansinya.

Tingkat signifikansi adalah probabilitas yang dapat diterima untuk membuat kesalahan tipe I—menolak hipotesis nol yang benar sebagai hasil pengujian. Dalam hal ini, melakukan kesalahan tipe I berarti mengakui dalam suatu sampel bahwa terdapat hubungan antar variabel dalam populasi, padahal kenyataannya tidak ada.

Biasanya tingkat signifikansinya diambil sebesar 5% atau 1%. Semakin tinggi tingkat signifikansinya (semakin kecil ), semakin tinggi pula tingkat reliabilitas tesnya, yaitu sama dengan , yaitu. semakin besar peluang untuk menghindari kesalahan dalam mengenali dalam sampel adanya hubungan dalam populasi umum dari variabel-variabel yang sebenarnya tidak berhubungan. Namun seiring dengan meningkatnya tingkat signifikansi, bahaya melakukan kesalahan jenis kedua meningkat—menolak hipotesis nol yang benar, yaitu menolak hipotesis nol yang benar. tidak memperhatikan dalam sampel hubungan sebenarnya antar variabel dalam populasi umum. Oleh karena itu, bergantung pada kesalahan mana yang memiliki konsekuensi negatif yang besar, satu atau beberapa tingkat signifikansi dipilih.

Untuk tingkat signifikansi yang dipilih, distribusi Fisher menentukan nilai tabel probabilitas pelampauan yang, dalam sampel daya yang diperoleh dari populasi umum tanpa hubungan antar variabel, tidak melebihi tingkat signifikansi. dibandingkan dengan nilai kriteria sebenarnya untuk persamaan regresi.

Jika kondisi tersebut terpenuhi, maka kesalahan pendeteksian hubungan dengan nilai kriteria sama dengan atau lebih besar pada sampel dari populasi umum dengan variabel yang tidak berhubungan akan terjadi dengan probabilitas yang lebih kecil dari tingkat signifikansi. Sesuai dengan aturan “tidak ada kejadian yang sangat jarang terjadi”, kami sampai pada kesimpulan bahwa hubungan antara variabel yang ditetapkan dalam sampel juga ada pada populasi umum tempat variabel tersebut diperoleh.

Jika ternyata , maka persamaan regresi tersebut tidak signifikan secara statistik. Dengan kata lain, ada kemungkinan nyata bahwa sampel tersebut telah membentuk hubungan antar variabel yang tidak ada dalam kenyataan. Persamaan yang gagal dalam uji signifikansi statistik diperlakukan dengan cara yang sama seperti obat kadaluwarsa.

Ti - obat-obatan tersebut belum tentu rusak, tetapi karena tidak ada kepercayaan terhadap kualitasnya, mereka memilih untuk tidak menggunakannya. Aturan ini tidak melindungi dari semua kesalahan, tetapi menghindari kesalahan yang paling serius, yang juga cukup penting.

Opsi verifikasi kedua, yang lebih nyaman bila menggunakan spreadsheet, adalah membandingkan probabilitas kemunculan nilai kriteria yang dihasilkan dengan tingkat signifikansi. Jika probabilitas ini berada di bawah tingkat signifikansi, maka persamaan tersebut signifikan secara statistik, jika tidak, maka persamaan tersebut tidak signifikan.

Setelah memeriksa signifikansi statistik dari persamaan regresi secara keseluruhan, umumnya berguna, terutama untuk ketergantungan multivariat, untuk memeriksa signifikansi statistik dari koefisien regresi yang diperoleh. Ideologi verifikasinya sama dengan saat memeriksa persamaan secara keseluruhan, namun uji-t Student yang digunakan sebagai kriteria, ditentukan dengan rumus:

Dan

dimana: , - nilai kriteria koefisien Siswa dan, masing-masing;

- varians sisa persamaan regresi;

Jumlah titik dalam sampel;

Jumlah variabel dalam sampel, untuk regresi linier berpasangan.

Nilai aktual tes Siswa yang diperoleh dibandingkan dengan nilai tabel , diperoleh dari distribusi Siswa. Jika ternyata , maka koefisien yang bersangkutan signifikan secara statistik, jika tidak maka tidak signifikan. Pilihan kedua untuk memeriksa signifikansi statistik dari koefisien adalah dengan menentukan probabilitas terjadinya tes Siswa dan membandingkannya dengan tingkat signifikansi.

Untuk variabel-variabel yang koefisiennya ternyata tidak signifikan secara statistik, kemungkinan besar pengaruhnya terhadap variabel terikat dalam populasi sama sekali tidak ada. Oleh karena itu, perlu untuk menambah jumlah poin dalam sampel, maka mungkin koefisiennya akan menjadi signifikan secara statistik dan pada saat yang sama nilainya akan menjadi jelas, atau untuk menemukan variabel lain sebagai variabel independen yang lebih dekat hubungannya dengan variabel dependen. variabel. Dalam hal ini, keakuratan peramalan akan meningkat pada kedua kasus tersebut.

Sebagai metode cepat untuk menilai signifikansi koefisien persamaan regresi, aturan berikut dapat digunakan: jika uji-t Student lebih besar dari 3, maka koefisien tersebut, biasanya, signifikan secara statistik. Secara umum, diyakini bahwa untuk memperoleh persamaan regresi yang signifikan secara statistik, kondisi tersebut harus dipenuhi.

Kesalahan prediksi standar dari persamaan regresi yang dihasilkan dari nilai yang tidak diketahui dengan nilai yang diketahui diperkirakan menggunakan rumus:

Jadi, ramalan dengan probabilitas keyakinan 68% dapat disajikan sebagai:

Apabila diperlukan tingkat kepercayaan yang berbeda, maka untuk tingkat signifikansi tersebut perlu dicari kriteria Student dan selang kepercayaan ramalan dengan tingkat reliabilitas adalah sama dengan .

Prediksi ketergantungan multidimensi dan nonlinier

Jika nilai prediksi bergantung pada beberapa variabel independen, maka dalam hal ini terjadi regresi multivariat berbentuk:

dimana: - koefisien regresi yang menggambarkan pengaruh variabel terhadap nilai prediksi.

Metodologi penentuan koefisien regresi tidak berbeda dengan regresi linier berpasangan, terutama jika menggunakan spreadsheet, karena menggunakan fungsi yang sama untuk regresi linier berpasangan dan multivariat. Dalam hal ini, diharapkan tidak ada hubungan antara variabel independen, mis. mengubah satu variabel tidak mempengaruhi nilai variabel lainnya. Namun persyaratan ini tidak wajib; yang penting adalah tidak ada ketergantungan linier fungsional antar variabel. Prosedur yang dijelaskan di atas untuk memeriksa signifikansi statistik dari persamaan regresi yang dihasilkan dan koefisien individualnya, penilaian keakuratan peramalan tetap sama seperti dalam kasus regresi linier berpasangan. Pada saat yang sama, penggunaan regresi multivariat alih-alih regresi berpasangan biasanya memungkinkan, dengan pemilihan variabel yang tepat, untuk secara signifikan meningkatkan keakuratan dalam menggambarkan perilaku variabel terikat, dan oleh karena itu, keakuratan peramalan.

Selain itu, persamaan regresi linier multivariat memungkinkan untuk menggambarkan ketergantungan nonlinier dari nilai prediksi terhadap variabel independen. Prosedur mereduksi persamaan nonlinier menjadi bentuk linier disebut linierisasi. Khususnya, jika ketergantungan ini digambarkan dengan polinomial yang derajatnya berbeda dari 1, maka dengan mengganti variabel dengan derajat yang berbeda dari kesatuan dengan variabel baru derajat pertama, kita memperoleh masalah regresi linier multivariat, bukan masalah nonlinier. Jadi, misalnya pengaruh variabel bebas digambarkan dengan bentuk parabola

kemudian penggantiannya memungkinkan kita mengubah masalah nonlinier menjadi bentuk linier multidimensi

Masalah nonlinier di mana nonlinier muncul karena nilai prediksi bergantung pada produk variabel independen juga dapat dengan mudah diubah. Untuk memperhitungkan pengaruh tersebut, perlu diperkenalkan variabel baru yang sama dengan produk ini.

Dalam kasus di mana nonlinier dijelaskan oleh ketergantungan yang lebih kompleks, linearisasi dimungkinkan karena transformasi koordinat. Untuk tujuan ini nilainya dihitung dan grafik ketergantungan titik awal dalam berbagai kombinasi variabel yang ditransformasikan dibangun. Kombinasi koordinat transformasi atau koordinat transformasi dan nontransformasi yang ketergantungannya paling dekat dengan garis lurus menyebabkan terjadinya perubahan variabel yang akan menyebabkan transformasi ketergantungan nonlinier menjadi bentuk linier. Misalnya, ketergantungan bentuk nonlinier

berubah menjadi bentuk linear

Koefisien regresi yang dihasilkan untuk persamaan yang ditransformasikan tetap tidak bias dan efisien, namun pengujian signifikansi statistik dari persamaan dan koefisien tersebut tidak mungkin dilakukan.

Pengecekan validitasnya menggunakan metode kuadrat terkecil

Penggunaan metode kuadrat terkecil memastikan efisiensi dan estimasi koefisien persamaan regresi yang tidak bias, tunduk pada kondisi berikut (kondisi Gauss-Markov):

3. nilai-nilai tidak bergantung satu sama lain

4. nilai tidak bergantung pada variabel bebas

Cara termudah untuk memeriksa apakah kondisi ini terpenuhi adalah dengan memplot residu sebagai fungsi dari , kemudian sebagai fungsi dari variabel bebas. Jika titik-titik pada grafik tersebut terletak pada suatu koridor yang letaknya simetris terhadap sumbu x dan tidak terlihat pola pada letak titik-titik tersebut, maka kondisi Gauss-Markov terpenuhi dan tidak ada peluang untuk meningkatkan keakuratan regresi. persamaan. Jika hal ini tidak terjadi, maka keakuratan persamaan dapat ditingkatkan secara signifikan dan untuk itu perlu beralih ke literatur khusus.

Setelah persamaan regresi linier ditemukan, signifikansi persamaan secara keseluruhan dan parameter individualnya dinilai.

Signifikansi persamaan regresi secara keseluruhan dinilai dengan menggunakan uji F Fisher. Dalam hal ini diajukan hipotesis nol, koefisien regresi sama dengan nol, yaitu b = 0, sehingga faktor x tidak mempengaruhi hasil y. Perhitungan langsung uji F didahului dengan analisis varians. Tempat sentral di dalamnya ditempati oleh penguraian jumlah total deviasi kuadrat variabel y dari nilai rata-rata y menjadi dua bagian - “dijelaskan” dan “tidak dijelaskan” (Lampiran 2).

Jumlah total simpangan kuadrat nilai individu dari karakteristik resultan y dari nilai rata-rata y disebabkan oleh pengaruh banyak alasan. Secara konvensional, seluruh rangkaian alasan dapat dibagi menjadi dua kelompok:

  • · mempelajari faktor x
  • · faktor lain

Jika faktor tersebut tidak mempengaruhi hasil, maka garis regresi pada grafik sejajar dengan sumbu xy y = y. Kemudian seluruh dispersi dari karakteristik yang dihasilkan disebabkan oleh pengaruh faktor-faktor lain dan jumlah total deviasi kuadrat bertepatan dengan residu. Jika faktor lain tidak mempengaruhi hasil, maka y secara fungsional berhubungan dengan x dan jumlah sisa kuadrat adalah nol. Dalam hal ini, jumlah deviasi kuadrat yang dijelaskan oleh regresi sama dengan jumlah kuadrat total.

Karena tidak semua titik-titik bidang korelasi terletak pada garis regresi, maka pencarannya selalu terjadi, baik karena pengaruh faktor x, yaitu regresi y terhadap x, maupun karena pengaruh besaran lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk prediksi bergantung pada seberapa besar total variasi sifat y yang disebabkan oleh variasi yang dijelaskan. Jelasnya, jika jumlah simpangan kuadrat akibat regresi lebih besar dari jumlah kuadrat sisa, maka persamaan regresi tersebut signifikan secara statistik dan faktor x mempunyai pengaruh yang signifikan terhadap hasil y. Hal ini setara dengan fakta bahwa koefisien determinasi r 2 xy akan mendekati kesatuan.

Setiap jumlah deviasi kuadrat dikaitkan dengan jumlah derajat kebebasan (df - derajat kebebasan), yaitu dengan jumlah kebebasan variasi independen suatu karakteristik. Jumlah derajat kebebasan berhubungan dengan jumlah unit populasi n dan jumlah konstanta yang ditentukan darinya. Sehubungan dengan permasalahan yang diteliti, banyaknya derajat kebebasan harus menunjukkan berapa banyak simpangan bebas dari n kemungkinan [(y 1 -y), (y 2 -y),...,(yn -y)] adalah diperlukan untuk membentuk sejumlah persegi tertentu. Jadi, untuk jumlah total kuadrat?(y-y) 2, diperlukan deviasi independen (n-1).

Saat menghitung penjelasan atau jumlah faktor kuadrat?(y x -y) 2, digunakan nilai teoritis (yang dihitung) dari karakteristik resultan y x, yang ditemukan di sepanjang garis regresi: y x ​​​​=a+b*x.

Dalam regresi linier, jumlah simpangan kuadrat akibat regresi linier adalah: ?(y x -y) 2 =b 2 *?(x -x) 2.

Karena, untuk volume pengamatan tertentu di x dan y, jumlah faktor kuadrat dalam regresi linier hanya bergantung pada satu konstanta koefisien regresi b, maka jumlah kuadrat tersebut mempunyai satu derajat kebebasan. Kita akan sampai pada kesimpulan yang sama jika kita mempertimbangkan sisi isi dari nilai terhitung dari atribut y, yaitu y x. Nilai y x ditentukan oleh persamaan regresi linier: y x ​​​​=a+b*x. Parameter a dapat didefinisikan sebagai: a=y-b*x. Mengganti ekspresi parameter a ke dalam model linier, kita mendapatkan:

yx = y-b*x+b*x= y-b*(x-x).

Hal ini menunjukkan bahwa untuk sekumpulan variabel y dan x tertentu, nilai hitung y x dalam regresi linier merupakan fungsi dari satu parameter saja - koefisien regresi. Dengan demikian, jumlah faktor deviasi kuadrat memiliki jumlah derajat kebebasan sama dengan 1.

Terdapat persamaan antara jumlah derajat kebebasan total, faktor, dan jumlah sisa kuadrat. Banyaknya derajat kebebasan jumlah sisa kuadrat pada regresi linier adalah n-2. Jumlah derajat kebebasan untuk jumlah total kuadrat ditentukan oleh jumlah unit, dan karena rata-rata yang dihitung dari data sampel digunakan, kita kehilangan satu derajat kebebasan, yaitu df total = n-1.

Jadi, ada dua persamaan:

?(y-y) 2 =?(y x -y) 2 +?(y-y x) 2,

Membagi setiap jumlah kuadrat dengan jumlah derajat kebebasan yang sesuai, kita memperoleh kuadrat rata-rata deviasi, atau, yang sama, dispersi per satu derajat kebebasan D.

D jumlah =?(y-y) 2 /(n-1);

D fakta =?(y x -y) 2 /1;

D istirahat =?(y- y x) 2 /(n-1).

Mendefinisikan varians dengan satu derajat kebebasan akan membawa varians tersebut ke bentuk yang sebanding. Membandingkan varians faktor dan sisa per derajat kebebasan, diperoleh nilai F-ratio (kriteria F):

F= D fakta / D istirahat, dimana

F - kriteria untuk menguji hipotesis nol H 0: D fakta = D istirahat.

Jika hipotesis nol benar, maka varians faktor dan sisa tidak berbeda satu sama lain. Untuk H 0, diperlukan sanggahan agar dispersi faktor beberapa kali melebihi dispersi sisa.

Ahli statistik Inggris Snedecor mengembangkan tabel nilai kritis rasio F pada berbagai tingkat signifikansi hipotesis nol dan jumlah derajat kebebasan yang berbeda.

Nilai tabulasi uji F adalah nilai maksimum rasio varians yang dapat terjadi jika divergen secara acak untuk tingkat probabilitas hipotesis nol tertentu.

Nilai F-ratio yang dihitung dianggap reliabel (selain satu) jika lebih besar dari nilai tabel.

Dalam hal ini, hipotesis nol tentang tidak adanya hubungan antar karakteristik ditolak dan ditarik kesimpulan tentang signifikansi hubungan tersebut: F fakta > F tabel. H 0 ditolak.

Jika nilainya ternyata lebih kecil dari tabel F fakta

Koefisien determinasi memberikan penilaian terhadap kualitas model. Koefisien determinasi ( R 2) adalah kuadrat dari koefisien korelasi berganda.

Hal ini menunjukkan berapa proporsi varians dari karakteristik yang dihasilkan yang dijelaskan oleh pengaruh variabel independen.

Rumus menghitung koefisien determinasi:

kamu Saya-- data sampel, dan F Saya-- nilai model yang sesuai.

Ini juga merupakan korelasi kuadrat Pearson antara dua variabel. Ini menyatakan jumlah varians yang dibagi antara dua variabel.

Koefisien mengambil nilai dari interval. Semakin dekat nilainya dengan 1, maka semakin dekat model tersebut dengan observasi empiris.

Dalam kasus model regresi linier berpasangan, koefisien determinasi sama dengan kuadrat koefisien korelasi, yaitu R 2 = R 2 .

Terkadang indikator kedekatan komunikasi dapat diberikan penilaian kualitatif (skala Chaddock) (Lampiran 3).

Sambungan fungsional terjadi bila nilainya 1, dan tidak adanya sambungan adalah 0. Untuk nilai keeratan sambungan kurang dari 0,7 maka nilai koefisien determinasi akan selalu di bawah 50%. Artinya variasi karakteristik faktor menyumbang bagian yang lebih kecil dibandingkan faktor lain yang tidak diperhitungkan dalam model yang mempengaruhi perubahan indikator kinerja. Model regresi yang dibangun dalam kondisi seperti itu mempunyai signifikansi praktis yang rendah.



Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!