Probabilitas kepercayaan dan interval kepercayaan. Interval kepercayaan

Akurasi estimasi, tingkat kepercayaan (reliability)

Interval kepercayaan

Saat mengambil sampel dalam volume kecil, perkiraan interval harus digunakan karena ini menghindari kesalahan besar, tidak seperti perkiraan titik.

Interval adalah estimasi yang ditentukan oleh dua angka – ujung interval yang mencakup parameter yang diestimasi. Estimasi interval memungkinkan kami menetapkan keakuratan dan keandalan estimasi.

Biarkan karakteristik statistik * yang ditemukan dari data sampel berfungsi sebagai perkiraan parameter yang tidak diketahui. Kami akan menganggapnya sebagai bilangan konstan (mungkin variabel acak). Jelas bahwa * semakin akurat menentukan parameter b, semakin kecil nilai absolut selisih | - * |. Dengan kata lain, jika >0 dan | - * |< , то чем меньше, тем оценка точнее. Таким образом, положительное число характеризует точность оценки.

Namun, metode statistik tidak memungkinkan kita untuk menyatakan secara pasti bahwa estimasi * memenuhi pertidaksamaan | - *|<, можно лишь говорить о вероятности, с которой это неравенство осуществляется.

Keandalan (probabilitas keyakinan) suatu estimasi dengan * adalah probabilitas terjadinya ketidaksetaraan | - *|<. Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Misalkan peluang bahwa | - *|<, равна т.е.

Mengganti Ketimpangan | - *|< равносильным ему двойным неравенством -<| - *|<, или *- <<*+, имеем

P(*-< <*+)=.

Interval kepercayaan (*-, *+) disebut interval kepercayaan yang mencakup parameter yang tidak diketahui dengan keandalan tertentu.

Interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal jika distribusi diketahui.

Estimasi interval dengan reliabilitas ekspektasi matematis a dari karakteristik kuantitatif berdistribusi normal X berdasarkan mean sampel x dengan deviasi standar populasi yang diketahui adalah interval kepercayaan

x - t(/n^?)< a < х + t(/n^?),

dimana t(/n^?)= adalah keakuratan estimasi, n adalah ukuran sampel, t adalah nilai argumen fungsi Laplace Ф(t), di mana Ф(t)=/2.

Dari persamaan t(/n^?)= dapat diambil kesimpulan sebagai berikut:

1. seiring bertambahnya ukuran sampel n, jumlahnya berkurang dan, oleh karena itu, keakuratan estimasi meningkat;

2. peningkatan keandalan estimasi = 2Ф(t) menyebabkan peningkatan t (Ф(t) adalah fungsi yang meningkat), dan oleh karena itu meningkat; dengan kata lain, peningkatan keandalan estimasi klasik berarti penurunan keakuratannya.

Contoh. Variabel acak X berdistribusi normal dengan diketahui simpangan baku =3. Temukan interval kepercayaan untuk memperkirakan ekspektasi matematis yang tidak diketahui a berdasarkan rata-rata sampel x, jika ukuran sampel adalah n = 36 dan keandalan estimasi yang diberikan = 0,95.

Larutan. Mari kita temukan t. Dari relasi 2Ф(t) = 0,95 diperoleh Ф(t) = 0,475. Dari tabel kita menemukan t=1,96.

Mari kita cari keakuratan perkiraannya:

pengukuran interval kepercayaan akurasi

T(/n^?)= (1.96.3)/ /36 = 0.98.

Interval kepercayaannya adalah: (x - 0,98; x + 0,98). Misalnya, jika x = 4,1, maka selang kepercayaan mempunyai batas kepercayaan sebagai berikut:

x - 0,98 = 4,1 - 0,98 = 3,12; x + 0,98 = 4,1 + 0,98 = 5,08.

Jadi, nilai parameter a yang tidak diketahui, konsisten dengan data sampel, memenuhi pertidaksamaan 3.12< а < 5,08. Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Mari kita jelaskan arti dari keandalan yang diberikan. Reliabilitas = 0,95 menunjukkan bahwa jika sampel diambil dalam jumlah yang cukup besar, maka 95% sampel tersebut menentukan interval kepercayaan di mana parameter tersebut sebenarnya terkandung; hanya dalam 5% kasus yang dapat melampaui interval kepercayaan.

Jika perlu untuk memperkirakan ekspektasi matematis dengan akurasi dan keandalan yang telah ditentukan, maka ukuran sampel minimum yang akan menjamin akurasi ini ditentukan dengan menggunakan rumus

Interval kepercayaan untuk memperkirakan ekspektasi matematis dari distribusi normal dengan yang tidak diketahui

Estimasi interval dengan keandalan ekspektasi matematis a dari karakteristik kuantitatif berdistribusi normal X berdasarkan mean sampel x dengan simpangan baku yang tidak diketahui dari populasi umum adalah interval kepercayaan

x - t()(s/n^?)< a < х + t()(s/n^?),

di mana s adalah standar deviasi sampel yang “dikoreksi”, t() ditemukan dari tabel untuk yang diberikan dan n.

Contoh. Sifat kuantitatif X populasi berdistribusi normal. Berdasarkan ukuran sampel n=16, ditemukan mean sampel x = 20,2 dan deviasi standar “terkoreksi” s = 0,8. Perkirakan ekspektasi matematis yang tidak diketahui menggunakan interval kepercayaan dengan reliabilitas 0,95.

Larutan. Mari kita cari t(). Dengan menggunakan tabel, dengan = 0,95 dan n=16 kita menemukan t()=2,13.

Mari kita cari batas kepercayaannya:

x - t() (s/n^?) = 20,2 - 2,13 *. 0,8/16^? = 19.774

x + t()(s/n^?) = 20,2 + 2,13 * 0,8/16^? = 20.626

Jadi, dengan reliabilitas 0,95, parameter a yang tidak diketahui terdapat dalam interval kepercayaan 19,774< а < 20,626

Estimasi nilai sebenarnya dari besaran yang diukur

Misalkan dilakukan n pengukuran independen dengan ketelitian yang sama terhadap suatu besaran fisis, yang nilai sebenarnya tidak diketahui.

Kami akan menganggap hasil pengukuran individu sebagai variabel acak Хl, Х2,…Хn. Besaran-besaran ini bersifat independen (pengukuran bersifat independen). Mereka memiliki ekspektasi matematis a yang sama (nilai sebenarnya dari besaran yang diukur), varians yang sama ^2 (pengukurannya sama akuratnya) dan terdistribusi secara normal (asumsi ini dikonfirmasi oleh pengalaman).

Dengan demikian, semua asumsi yang dibuat dalam memperoleh interval kepercayaan terpenuhi, dan oleh karena itu, kita bebas menggunakan rumusnya. Dengan kata lain, nilai sebenarnya dari nilai yang diukur dapat diperkirakan dari mean aritmatika hasil pengukuran individu dengan menggunakan interval kepercayaan.

Contoh. Berdasarkan data sembilan pengukuran besaran fisis independen yang berpresisi sama, rata-rata aritmatika dari hasil pengukuran individu ditemukan x = 42,319 dan simpangan baku yang “dikoreksi” s = 5,0. Diperlukan untuk memperkirakan nilai sebenarnya dari nilai yang diukur dengan reliabilitas = 0,95.

Larutan. Nilai sebenarnya dari besaran yang diukur sama dengan ekspektasi matematisnya. Oleh karena itu, masalahnya adalah memperkirakan ekspektasi matematis (jika ada yang tidak diketahui) menggunakan interval kepercayaan yang mencakup a dengan reliabilitas tertentu = 0,95.

x - t()(s/n^?)< a < х + t()(s/n^?)

Dengan menggunakan tabel, dengan menggunakan y = 0,95 dan l = 9 kita temukan

Mari kita cari keakuratan perkiraannya:

t())(s/n^?) = 2,31 * 5/9^?=3,85

Mari kita cari batas kepercayaannya:

x - t() (s/n^?) = 42,319 - 3,85 = 38,469;

x + t() (s/n^?) = 42,319 +3,85 = 46,169.

Jadi, dengan reliabilitas 0,95, nilai sebenarnya dari nilai terukur terletak pada interval kepercayaan 38,469< а < 46,169.

Interval kepercayaan untuk memperkirakan simpangan baku dari distribusi normal.

Biarkan karakteristik kuantitatif X dari populasi umum berdistribusi normal. Diperlukan untuk memperkirakan simpangan baku umum yang tidak diketahui dari simpangan baku sampel yang “dikoreksi”. Untuk melakukan ini, kami akan menggunakan estimasi interval.

Estimasi interval (dengan keandalan) dari simpangan baku o dari karakteristik kuantitatif yang terdistribusi normal X berdasarkan simpangan baku sampel yang “dikoreksi” s adalah selang kepercayaan

s (1 -- q)< < s (1 + q) (при q < 1),

0 < < s (1 + q) (при q > 1),

di mana q ditemukan dari tabel untuk n n yang diberikan.

Contoh 1. Karakteristik kuantitatif X dari populasi umum berdistribusi normal. Berdasarkan ukuran sampel n = 25, ditemukan standar deviasi “terkoreksi” sebesar s = 0,8. Temukan interval kepercayaan yang mencakup deviasi standar umum dengan reliabilitas 0,95.

Larutan. Menggunakan tabel dengan data = 0,95 dan n = 25, kita menemukan q = 0,32.

Interval kepercayaan yang diperlukan s (1 -- q)< < s (1 + q) таков:

0,8(1-- 0,32) < < 0,8(1+0,32), или 0,544 < < 1,056.

Contoh 2. Karakteristik kuantitatif X dari populasi umum berdistribusi normal. Berdasarkan ukuran sampel n=10, ditemukan standar deviasi “terkoreksi” sebesar s = 0,16. Temukan interval kepercayaan yang mencakup standar deviasi umum dengan reliabilitas 0,999.

Larutan. Dengan menggunakan tabel lampiran, berdasarkan data = 0,999 dan n=10, kita mendapatkan 17= 1,80 (q > 1). Interval kepercayaan yang diperlukan adalah:

0 < < 0,16(1 + 1,80), или 0 < < 0,448.

Nilai akurasi pengukuran

Dalam teori kesalahan, biasanya mengkarakterisasi keakuratan pengukuran (akurasi instrumen) menggunakan standar deviasi kesalahan pengukuran acak. Untuk evaluasi, standar deviasi yang “dikoreksi” digunakan. Karena biasanya hasil pengukuran saling independen, memiliki ekspektasi matematis yang sama (nilai sebenarnya dari nilai yang diukur) dan dispersi yang sama (dalam hal pengukuran dengan presisi yang sama), teori yang diuraikan dalam paragraf sebelumnya dapat diterapkan untuk menilai keakuratan pengukuran.

Contoh. Berdasarkan 15 pengukuran dengan presisi yang sama, ditemukan standar deviasi yang “dikoreksi” sebesar s = 0,12. Temukan akurasi pengukuran dengan reliabilitas 0,99.

Larutan. Keakuratan pengukuran dicirikan oleh standar deviasi kesalahan acak, sehingga masalahnya adalah mencari interval kepercayaan s (1 -- q)< < s (1 + q) , покрывающего с заданной надежностью 0,99

Dengan menggunakan tabel lampiran untuk = 0,99 dan n = 15 kita menemukan q = 0,73.

Interval kepercayaan yang diperlukan

0,12(1-- 0,73) < < 0,12(1+0,73), или 0.03 < < 0,21.

Estimasi probabilitas (distribusi binomial) dari frekuensi relatif

Estimasi interval (dengan keandalan) dari probabilitas p yang tidak diketahui dari distribusi binomial berdasarkan frekuensi relatif w adalah interval kepercayaan (dengan perkiraan ujung p1 dan p2)

hal1< p < p2,

dimana n adalah jumlah tes; m adalah banyaknya kejadian suatu peristiwa; w - frekuensi relatif sama dengan rasio m/n; t adalah nilai argumen fungsi Laplace di mana Ф(t) = /2.

Komentar. Untuk nilai n yang besar (orde ratusan) dapat diambil sebagai perkiraan batas interval kepercayaan

Seringkali penilai harus menganalisis pasar real estat di segmen di mana properti yang dinilai berada. Jika pasar berkembang, akan sulit untuk menganalisis seluruh rangkaian objek yang disajikan, sehingga sampel objek digunakan untuk analisis. Sampel ini tidak selalu homogen; terkadang perlu untuk menghilangkan titik-titik ekstrem - penawaran pasar yang terlalu tinggi atau terlalu rendah. Untuk tujuan ini digunakan interval kepercayaan. Tujuan dari penelitian ini adalah untuk melakukan analisis komparatif dari dua metode untuk menghitung interval kepercayaan dan memilih opsi perhitungan yang optimal ketika bekerja dengan sampel yang berbeda dalam sistem estimatica.pro.

Interval kepercayaan adalah interval nilai atribut yang dihitung berdasarkan suatu sampel, yang dengan probabilitas yang diketahui memuat parameter estimasi populasi umum.

Maksud menghitung interval kepercayaan adalah untuk membangun interval tersebut berdasarkan data sampel sehingga dapat dinyatakan dengan probabilitas tertentu bahwa nilai parameter estimasi berada pada interval tersebut. Dengan kata lain, selang kepercayaan memuat nilai taksiran yang tidak diketahui nilainya dengan probabilitas tertentu. Semakin lebar intervalnya, semakin tinggi ketidakakuratannya.

Ada beberapa metode berbeda untuk menentukan interval kepercayaan. Pada artikel ini kita akan melihat 2 metode:

  • melalui median dan standar deviasi;
  • melalui nilai kritis t-statistik (koefisien Student).

Tahapan analisis komparatif berbagai metode penghitungan CI:

1. membentuk sampel data;

2. kami mengolahnya menggunakan metode statistik: kami menghitung nilai rata-rata, median, varians, dll;

3. menghitung selang kepercayaan dengan dua cara;

4. menganalisis sampel yang telah dibersihkan dan interval kepercayaan yang dihasilkan.

Tahap 1. Pengambilan sampel data

Sampel dibentuk dengan menggunakan sistem estimatica.pro. Sampelnya mencakup 91 penawaran untuk penjualan apartemen 1 kamar di zona harga ke-3 dengan tipe tata letak “Khrushchev”.

Tabel 1. Sampel awal

Harga 1 m2, satuan

Gambar.1. Sampel awal



Tahap 2. Pengolahan sampel awal

Pemrosesan sampel menggunakan metode statistik memerlukan perhitungan nilai-nilai berikut:

1. Rata-rata aritmatika

2. Median - angka yang mencirikan sampel: tepat separuh elemen sampel lebih besar dari median, separuh lainnya lebih kecil dari median

(untuk sampel dengan jumlah nilai ganjil)

3. Range – selisih antara nilai maksimum dan minimum dalam sampel

4. Varians - digunakan untuk memperkirakan variasi data dengan lebih akurat

5. Standar deviasi sampel (selanjutnya disebut SD) adalah indikator paling umum dari dispersi nilai penyesuaian di sekitar mean aritmatika.

6. Koefisien variasi - mencerminkan tingkat hamburan nilai penyesuaian

7. koefisien osilasi - mencerminkan fluktuasi relatif nilai harga ekstrem dalam sampel di sekitar rata-rata

Tabel 2. Indikator statistik sampel asli

Koefisien variasi yang mencirikan homogenitas data adalah 12,29%, namun koefisien osilasinya terlalu tinggi. Oleh karena itu, kita dapat mengatakan bahwa sampel asli tidak homogen, jadi mari kita lanjutkan menghitung interval kepercayaan.

Tahap 3. Perhitungan interval kepercayaan

Metode 1. Perhitungan menggunakan median dan standar deviasi.

Interval kepercayaan ditentukan sebagai berikut: nilai minimum - deviasi standar dikurangi dari median; nilai maksimum - deviasi standar ditambahkan ke median.

Jadi, selang kepercayaan (47179 CU; 60689 CU)

Beras. 2. Nilai yang berada dalam selang kepercayaan 1.



Metode 2. Membangun interval kepercayaan menggunakan nilai kritis t-statistik (koefisien Student)

S.V. Gribovsky dalam bukunya “Mathematical Methods for Estimating Property Value” menjelaskan metode untuk menghitung interval kepercayaan melalui koefisien Student. Saat menghitung menggunakan metode ini, penduga sendiri harus menetapkan tingkat signifikansi ∝, yang menentukan probabilitas untuk membangun interval kepercayaan. Biasanya, tingkat signifikansi 0,1 digunakan; 0,05 dan 0,01. Mereka sesuai dengan probabilitas kepercayaan 0,9; 0,95 dan 0,99. Dengan metode ini, nilai sebenarnya dari ekspektasi dan varians matematis diasumsikan secara praktis tidak diketahui (yang hampir selalu benar ketika memecahkan masalah estimasi praktis).

Rumus interval kepercayaan:

n - ukuran sampel;

Nilai kritis t-statistik (Distribusi Siswa) dengan tingkat signifikansi ∝, banyaknya derajat kebebasan n-1, yang ditentukan dari tabel statistik khusus atau menggunakan MS Excel (→"Statistik"→ STUDIST);

∝ - tingkat signifikansi, ambil ∝=0,01.

Beras. 2. Nilai yang berada dalam selang kepercayaan 2.

Tahap 4. Analisis berbagai metode untuk menghitung interval kepercayaan

Dua metode penghitungan interval kepercayaan - melalui median dan koefisien Student - menghasilkan nilai interval yang berbeda. Oleh karena itu, kami mendapat dua sampel berbeda yang dibersihkan.

Tabel 3. Statistik untuk tiga sampel.

Indikator

Sampel awal

1 pilihan

pilihan 2

Nilai rata-rata

Penyebaran

Koefisien. variasi

Koefisien. osilasi

Jumlah objek pensiunan, pcs.

Berdasarkan perhitungan yang dilakukan, kita dapat mengatakan bahwa nilai interval kepercayaan yang diperoleh dengan metode yang berbeda berpotongan, sehingga Anda dapat menggunakan metode perhitungan mana pun sesuai kebijaksanaan penilai.

Namun, kami percaya bahwa ketika bekerja di sistem estimatica.pro, disarankan untuk memilih metode untuk menghitung interval kepercayaan tergantung pada tingkat perkembangan pasar:

  • jika pasar belum berkembang, gunakan metode perhitungan dengan menggunakan median dan standar deviasi, karena jumlah benda pensiunan dalam hal ini sedikit;
  • jika pasar sudah berkembang, terapkan perhitungan melalui nilai kritis t-statistik (koefisien Student), karena dimungkinkan untuk membentuk sampel awal yang besar.

Dalam mempersiapkan artikel berikut ini digunakan:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Metode matematika untuk menilai nilai properti. Moskow, 2014

2. Sistem data estimatica.pro

Interval kepercayaan. Kemungkinan kepercayaan diri.

PENERAPAN TEORI PROBABILITAS PADA STATISTIK.

Konsep dasar.

Statistika matematika adalah salah satu cabang matematika yang mempelajari metode pengolahan dan analisis data eksperimen yang diperoleh dari pengamatan peristiwa dan fenomena acak masif.

Pengamatan yang dilakukan terhadap objek dapat mencakup seluruh anggota populasi yang diteliti tanpa kecuali dan dapat dibatasi pada survei hanya pada sebagian tertentu dari anggota populasi tersebut. Pengamatan pertama disebut terus menerus atau lengkap, pengamatan parsial kedua atau selektif .

Tentu saja, informasi yang paling lengkap diperoleh melalui observasi terus-menerus, tetapi hal ini tidak selalu dilakukan. Pertama, pengamatan terus-menerus sangat memakan waktu, dan kedua, seringkali tidak mungkin atau bahkan tidak praktis. Oleh karena itu, dalam sebagian besar kasus, mereka menggunakan penelitian selektif.

Suatu populasi yang beberapa anggotanya dipilih dengan cara tertentu untuk dipelajari bersama disebut populasi umum , dan bagian dari populasi umum yang dipilih dengan satu atau lain cara adalah populasi sampel atau mencicipi .

Jumlah penduduk secara teoritis tidak terbatas, namun dalam prakteknya selalu terbatas.

Ukuran sampel bisa besar atau kecil, namun tidak boleh kurang dari dua.

Pemilihan menjadi sampel dapat dilakukan secara acak (dengan cara undian atau undian). Atau direncanakan, tergantung tugas dan organisasi survei. Agar sampel dapat representatif, perlu memperhatikan rentang variasi karakteristik dan mengoordinasikan ukuran sampel dengannya.

2. Penentuan fungsi distribusi yang belum diketahui.

Jadi kami membuat pilihan. Mari kita bagi rentang nilai yang diamati menjadi interval , , …. panjang yang sama. Untuk memperkirakan jumlah interval yang diperlukan, Anda dapat menggunakan rumus berikut:

Selanjutnya biarkan saya - jumlah nilai yang diamati termasuk dalam Saya th selang. Dengan membagi saya per jumlah total observasi N, kita mendapatkan frekuensi yang sesuai Saya-Oh interval: , dan . Mari buat tabel berikut:

Nomor interval Selang saya
m 1
m 2
... ... ... ...
k mk

yang disebut dekat secara statistik . Empiris (atau statistik ) fungsi distribusi variabel acak adalah frekuensi suatu kejadian sedemikian rupa sehingga besaran hasil percobaan mempunyai nilai kurang dari X:

Dalam prakteknya, cukup mencari nilai fungsi distribusi statistik F*(x) di poin , yang merupakan batas interval deret statistik:

(5.2)

Perlu dicatat bahwa pada dan pada . Dengan memplot poin-poinnya dan menghubungkannya dengan kurva halus, kita memperoleh grafik perkiraan fungsi distribusi empiris (Gbr. 5.1). Dengan menggunakan hukum bilangan besar Bernoulli, kita dapat membuktikan bahwa dengan jumlah pengujian yang cukup besar dengan probabilitas mendekati satu, fungsi distribusi empiris berbeda sesedikit yang diinginkan dari fungsi distribusi variabel acak yang tidak kita ketahui.

Seringkali, alih-alih membuat grafik fungsi distribusi empiris, kita melakukan hal berikut. Interval diplot pada sumbu absis, ,…. . Pada setiap interval, sebuah persegi panjang dibuat, yang luasnya sama dengan frekuensi yang sesuai dengan interval ini. Tinggi Hai persegi panjang ini sama dengan , dimana adalah panjang setiap intervalnya. Jelas bahwa jumlah luas semua persegi panjang yang dibangun adalah sama dengan satu.

Mari kita perhatikan suatu fungsi yang konstan dalam intervalnya dan sama dengan . Grafik fungsi ini disebut histogram . Ini adalah garis berundak (Gbr. 5.2). Dengan menggunakan hukum bilangan besar Bernoulli, kita dapat membuktikan bahwa untuk bilangan kecil dan besar, dengan kepastian praktis, perbedaan sekecil apa pun yang diinginkan dari kepadatan distribusi variabel acak kontinu.

Jadi, dalam praktiknya, jenis fungsi distribusi variabel acak yang tidak diketahui ditentukan.

3. Penentuan parameter distribusi yang tidak diketahui.

Jadi, kami mendapat histogram yang memberikan kejelasan. Kejelasan hasil yang disajikan memungkinkan kita untuk menarik berbagai kesimpulan dan penilaian terhadap objek yang diteliti.

Namun biasanya mereka tidak berhenti sampai disitu saja, melainkan melangkah lebih jauh dengan menganalisis data untuk menguji asumsi-asumsi tertentu mengenai kemungkinan mekanisme proses atau fenomena yang sedang dipelajari.

Meskipun data dalam setiap survei relatif kecil, kami ingin agar hasil analisis tersebut cukup menggambarkan keseluruhan kumpulan aktual atau yang dapat dibayangkan (yaitu populasi).

Untuk melakukan hal ini, dibuat beberapa asumsi tentang bagaimana indikator yang dihitung berdasarkan data eksperimen (sampel) berhubungan dengan parameter populasi umum.

Pemecahan masalah ini merupakan bagian utama dari setiap analisis data eksperimen dan berkaitan erat dengan penggunaan sejumlah distribusi teoretis yang dibahas di atas.

Meluasnya penggunaan distribusi normal dalam inferensi statistik memiliki pembenaran empiris dan teoretis.

Pertama, praktik menunjukkan bahwa dalam banyak kasus, distribusi normal memang merupakan representasi data eksperimen yang cukup akurat.

Kedua, secara teoritis telah ditunjukkan bahwa nilai rata-rata interval histogram terdistribusi menurut hukum mendekati normal.

Namun, harus dipahami dengan jelas bahwa distribusi normal hanyalah alat matematika murni dan data eksperimen nyata sama sekali tidak perlu dijelaskan secara akurat oleh distribusi normal. Meskipun dalam banyak kasus, dengan mengizinkan kesalahan kecil, kita dapat mengatakan bahwa data terdistribusi secara normal.

Sejumlah indikator, seperti mean, varians, dll., mencirikan sampel dan disebut statistik. Indikator yang sama, namun berkaitan dengan populasi secara keseluruhan, disebut parameter. Dengan demikian, kita dapat mengatakan bahwa statistik berfungsi untuk memperkirakan parameter.

Rata-rata umum adalah rata-rata aritmatika dari suatu nilai volume populasi umum:

Rata-rata sampel adalah rata-rata aritmatika dari volume sampel:

(5.4)

jika pemilihannya berbentuk tabel.

Rata-rata sampel diambil sebagai perkiraan rata-rata umum.

Varians umum adalah mean aritmatika dari deviasi kuadrat nilai populasi dari nilai rata-ratanya:

Simpangan baku umum adalah akar kuadrat dari varians umum: .

Varians sampel adalah mean aritmatika dari kuadrat deviasi nilai sampel dari meannya:

Deviasi standar sampel didefinisikan sebagai.

Untuk lebih mencocokkan hasil eksperimen, konsep varians empiris (atau terkoreksi) diperkenalkan:

Untuk memperkirakan simpangan baku umum, gunakan simpangan baku terkoreksi, atau standar empiris:

(5.5)

Dalam hal semua nilai sampel berbeda, mis. , , rumus dan berbentuk:

(5.6)

Interval kepercayaan. Kemungkinan kepercayaan diri.

Berbagai statistik yang diperoleh sebagai hasil perhitungan merupakan perkiraan titik dari parameter populasi yang sesuai.

Jika kita mengekstrak sejumlah sampel dari populasi umum dan menemukan statistik yang menarik bagi kita untuk masing-masing sampel, maka nilai yang dihitung akan mewakili variabel acak yang tersebar di sekitar parameter estimasi.

Namun, sebagai aturan, sebagai hasil percobaan, peneliti hanya memiliki satu sampel. Oleh karena itu, sangat penting untuk memperoleh perkiraan interval, yaitu. interval tertentu di mana, seperti dapat diasumsikan, terletak nilai sebenarnya dari parameter.

Probabilitas yang dianggap cukup untuk membuat penilaian yang yakin tentang parameter populasi berdasarkan statistik disebut keyakinan.

Misalnya, pertimbangkan cara memperkirakan parameter.

Teorema 1 dan 2, meskipun bersifat umum, yaitu dirumuskan berdasarkan asumsi yang cukup luas, namun tidak memungkinkan untuk menentukan seberapa dekat estimasi dengan parameter estimasi. Dari fakta bahwa -estimasinya konsisten, maka semakin besar ukuran sampel, semakin besar nilainya P(|θ * – θ | < δ), δ < 0, приближается к 1.

Pertanyaan-pertanyaan berikut muncul.

1) Berapa ukuran sampel yang seharusnya? P, sehingga akurasi yang ditentukan
|θ * – θ | = δ dijamin dengan probabilitas yang diterima sebelumnya?

2) Berapakah keakuratan estimasi jika ukuran sampel diketahui dan probabilitas kesimpulan bebas kesalahan diberikan?

3) Berapa probabilitas bahwa, dengan mempertimbangkan ukuran sampel, keakuratan estimasi yang ditentukan akan terjamin?

Mari kita perkenalkan beberapa definisi baru.

Definisi. Probabilitas γ terpenuhinya pertidaksamaan,|θ *– θ | < δ disebut tingkat kepercayaan atau reliabilitas estimasi θ.

Mari beralih dari ketimpangan | θ *–θ | < δ к двойному неравенству. Известно, что . Поэтому доверительную вероятность можно записать в виде

Karena θ (parameter taksiran) adalah bilangan konstan, dan θ * – nilai acak, konsep probabilitas keyakinan dapat dirumuskan sebagai berikut: probabilitas keyakinan γ adalah probabilitas bahwa interval ( θ *– δ, θ *+ δ) mencakup parameter estimasi.

Definisi. Interval acak(θ *–δ , θ *+δ ), di mana parameter estimasi yang tidak diketahui terletak dengan probabilitas γ disebut interval kepercayaan İ, sesuai dengan koefisien kepercayaan γ,

İ= (θ*– δ, θ*+ δ ). (3)

Keandalan penilaian γ dapat ditentukan terlebih dahulu, kemudian dengan mengetahui hukum distribusi variabel acak yang diteliti, maka selang kepercayaan dapat dicari İ . Masalah kebalikannya juga terpecahkan ketika, diberikan suatu hal İ keandalan estimasi yang sesuai ditemukan.

Misalkan, γ = 0,95; lalu nomornya R= 1 – y = 0,05 menunjukkan probabilitas kesimpulan tentang reliabilitas penilaian salah. Nomor p=1–γ ditelepon tingkat signifikansi. Tingkat signifikansi ditetapkan terlebih dahulu tergantung pada kasus spesifik. Biasanya R diambil sama dengan 0,05; 0,01; 0,001.

Mari kita cari tahu cara membuat interval kepercayaan untuk ekspektasi matematis dari karakteristik yang terdistribusi normal. Telah terbukti bahwa

Mari kita perkirakan ekspektasi matematis menggunakan rata-rata sampel, dengan mempertimbangkan bahwa ia juga berdistribusi normal*. Kita punya

(4)

dan dari rumus (12.9.2) kita peroleh

Dengan mempertimbangkan (13.5.12), kita peroleh

(5)

Biarkan kemungkinannya diketahui γ . Kemudian

Untuk kemudahan penggunaan tabel fungsi Laplace, kami kemudian menetapkan a

Selang

(7)

mencakup parameter sebuah = M(X) dengan probabilitas γ .

Dalam kebanyakan kasus, standar deviasi σ(X) karakteristik yang sedang dipelajari tidak diketahui. Oleh karena itu, sebagai gantinya σ (X) dengan sampel yang besar ( N> 30) menerapkan standar deviasi sampel yang telah dikoreksi S, yang pada gilirannya merupakan perkiraan σ (X), interval kepercayaannya akan terlihat seperti ini

İ =

Contoh. Dengan probabilitas γ = 0,95, tentukan selang kepercayaannya M(X) – panjang bulir jelai varietas “Moskovsky 121”. Distribusi ditentukan oleh tabel di mana "bukannya interval perubahan (x Saya, X Saya+ 1) nomor diambil, lihat Anggaplah itu variabel acak X tunduk pada distribusi normal.

Larutan. Sampelnya besar ( N= 50). Kita punya

Mari kita cari keakuratan perkiraannya

Mari kita tentukan batas kepercayaan:

Jadi, dengan keandalan γ = 0,95 ekspektasi matematis terdapat dalam interval kepercayaan SAYA= (9,5; 10,3).

Jadi, dalam kasus sampel yang besar ( N> 30), bila simpangan baku yang dikoreksi sedikit menyimpang dari simpangan baku nilai karakteristik dalam populasi, maka dapat dicari selang kepercayaan. Namun tidak selalu memungkinkan untuk membuat sampel dalam jumlah besar dan hal ini tidak selalu disarankan. Dari (7) jelas semakin kecil P, semakin lebar interval kepercayaannya, yaitu. SAYA tergantung pada ukuran sampel P.

Ahli statistik Inggris Gosset (nama samaran Student) membuktikan hal itu dalam kasus distribusi normal suatu karakteristik X dalam populasi umum normalisasi variabel acak

(8)

hanya bergantung pada ukuran sampel. Fungsi distribusi variabel acak ditemukan T dan probabilitas P(T < t γ), t γ– akurasi penilaian. Fungsi ditentukan oleh kesetaraan

S (N, t γ) = P(|T| < t γ) = γ (9)

bernama Distribusi t siswa Dengan N– 1 derajat kebebasan. Rumus (9) menghubungkan variabel acak T, interval kepercayaan İ dan probabilitas kepercayaan γ . Mengetahui dua di antaranya, Anda dapat menemukan yang ketiga. Dengan mempertimbangkan (8), kita punya

(10)

Kita ganti pertidaksamaan di ruas kiri (13.7.10) dengan pertidaksamaan ekuivalen . Hasilnya kita dapatkan

(11)

Di mana t γ=T(γ ,N). Untuk fungsi t γ tabel telah dikompilasi (lihat Lampiran 5). Pada N>30 t γ Dan T, Fungsi Laplace yang ditemukan dari tabel praktis sama.

Interval kepercayaan untuk memperkirakan standar deviasi σx dalam hal distribusi normal.

Dalil.Diketahui variabel acak tersebut berdistribusi normal. Kemudian untuk memperkirakan parameter σ x dari hukum ini, persamaannya berlaku

(12)

Di manaγ – probabilitas kepercayaan tergantung pada ukuran sampel n dan keakuratan estimasi β.

Fungsi γ = Ψ (N, β ) telah dipelajari dengan baik. Ini digunakan untuk menentukan β = β (γ ,N). Untuk β = β (γ ,N) tabel telah dikompilasi sesuai dengan yang diketahui N(ukuran sampel) dan γ (probabilitas keyakinan) ditentukan β .

Contoh. Untuk memperkirakan parameter variabel acak yang berdistribusi normal, diambil sampel (hasil susu harian 50 ekor sapi) dan dihitung S= 1,5. Temukan interval kepercayaan yang mencakup probabilitas γ = 0,95.

Larutan. Menurut tabel β (γ , P) Untuk N= 50 dan γ = 0,95 kita menemukan β = 0,21 (lihat Lampiran 6).

Sesuai dengan pertidaksamaan (13), kita mencari batas selang kepercayaan. Kita punya

1,5 – 0,21·1,5 = 1,185; 1,5 + 0,21 1,5 = 1,185;



Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!