Analisis statistik nilai numerik (statistik nonparametrik). Distribusi biasa

Distribusi biasa

Kita sudah familiar dengan konsep distribusi, poligon (atau poligon privat), dan kurva distribusi. Kasus khusus dari konsep ini adalah “distribusi normal” dan “kurva normal”. Namun opsi khusus ini sangat penting ketika menganalisis data ilmiah apa pun, termasuk data psikologis. Faktanya adalah distribusinya normal, digambarkan secara grafis kurva normal ada distribusi yang ideal, jarang ditemukan dalam realitas objektif. Namun penggunaannya sangat memudahkan dan menyederhanakan pengolahan dan penjelasan data yang diperoleh dalam bentuk natura. Selain itu, hanya untuk distribusi normal, koefisien korelasi yang diberikan dapat ditafsirkan sebagai ukuran kedekatan hubungan; dalam kasus lain, koefisien tersebut tidak berfungsi, dan perhitungannya menimbulkan paradoks yang sulit dijelaskan.

DI DALAM riset ilmiah asumsi tersebut biasanya diterima HAI normalitas sebaran data nyata dan atas dasar ini diolah, setelah itu diperjelas dan ditunjukkan seberapa besar perbedaan sebaran sebenarnya dari sebaran normal, yang untuk itu terdapat sejumlah teknik statistik khusus. Biasanya, asumsi ini cukup dapat diterima, karena sebagian besar fenomena psikis dan karakteristiknya memiliki sebaran yang sangat mendekati normal.

Lalu apa yang dimaksud dengan distribusi normal dan apa saja ciri-cirinya yang menarik perhatian para ilmuwan? Normal Distribusi suatu besaran disebut sedemikian rupa sehingga peluang terjadinya dan tidak terjadinya adalah sama. Ilustrasi klasiknya adalah lemparan koin. Jika koinnya adil dan lemparannya dilakukan dengan cara yang sama, kemungkinan mendapatkan kepala atau ekor sama besarnya. Artinya, “kepala” bisa rontok dan tidak rontok dengan kemungkinan yang sama, dan hal yang sama berlaku untuk “ekor”.

Kami memperkenalkan konsep “probabilitas”. Mari kita perjelas. Kemungkinan– ini adalah frekuensi yang diharapkan dari terjadinya suatu peristiwa (kejadian - bukan terjadinya suatu nilai). Probabilitas dinyatakan dalam pecahan yang pembilangnya adalah banyaknya kejadian yang menjadi kenyataan (frekuensi), dan V penyebut - maksimum nomor yang mungkin peristiwa-peristiwa ini. Ketika sampel (nomor kasus yang mungkin terjadi) terbatas, maka lebih baik berbicara bukan tentang probabilitas, tetapi HAI frekuensi yang sudah kita kenal. Kemungkinan menunjukkan setan nomor akhir sampel Namun dalam praktiknya, kehalusan ini sering diabaikan.

Minat para ahli matematika terhadap teori probabilitas V secara umum dan berdistribusi normal pada khususnya V Abad XVII karena keinginan para peserta berjudi temukan formula kemenangan maksimal dengan resiko minimal. Matematikawan terkenal J. Bernoulli (1654-1705) dan P. S. Laplace (1749-1827) menjawab pertanyaan-pertanyaan ini. Pertama deskripsi matematika kurva yang menghubungkan segmen diagram distribusi probabilitas mendapatkan “kepala” ketika melempar koin beberapa kali, diberikan Abraham de Moivre(1667-1754). Kurva ini sangat dekat kurva normal deskripsi persis yang dia berikan ahli matematika yang hebat KF Gauss(1777-1855), yang namanya masih disandangnya sampai sekarang. Grafik dan rumus kurva normal (Gaussian) adalah sebagai berikut.

dimana P adalah probabilitas (lebih tepatnya, kepadatan probabilitas), yaitu ketinggian kurva di atas nilai yang diberikan Z; e – dasar logaritma natural(2.718...); π= 3,142...; M – rata-rata sampel; σ – simpangan baku.

Sifat-sifat kurva normal

1. Mean (M), modus (Mo) dan median (Me) adalah sama.

2. Simetri relatif terhadap rata-rata M.

3. Ditentukan secara jelas hanya oleh dua parameter - M dan o.

4. “Cabang” kurva tidak pernah melewati absis Z, mendekatinya secara asimtotik.

5. Untuk M = 0 dan o = 1, kita memperoleh kurva normal satuan, karena luas di bawahnya sama dengan 1.

6. Untuk kurva satuan: P m = 0,3989, dan luas di bawah kurva berada pada kisaran:

-σ sampai +σ = 68,26%; -2σ sampai + 2σ = 95,46%; -Зσ sampai + Зσ = 99,74%.

7. Untuk kurva normal bukan satuan (M ≠0, σ ≠1), pola luasnya tetap sama. Perbedaannya adalah seperseratus.

Variasi distribusi normal

Variasi yang disajikan di bawah ini tidak hanya berlaku pada distribusi normal, tetapi juga pada distribusi normal lainnya. Namun, untuk lebih jelasnya, kami sajikan di sini.

1. Asimetri – distribusi yang tidak merata relatif terhadap nilai pusat.

4.1. Apakah distribusi observasi sering kali normal?

Dalam model ekonometrik dan ekonomi-matematis, yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, keakuratan dan stabilitas proses teknologi, dalam masalah keandalan, memastikan keselamatan, termasuk keselamatan lingkungan, berfungsinya perangkat dan objek teknis, pengembangan bagan organisasi sering kali menerapkan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, satu atau beberapa kelompok distribusi probabilitas parametrik sering digunakan. Yang paling populer adalah distribusi normal. Distribusi lognormal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll juga digunakan.

Jelasnya, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan.

Dua pertanyaan muncul. Apakah distribusi sebenarnya berbeda dengan yang digunakan dalam model? Seberapa besar pengaruh perbedaan ini terhadap kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode yang didasarkan padanya untuk menolak pengamatan yang sangat berbeda (outlier), terlihat bahwa distribusi nyata hampir selalu berbeda dari distribusi yang termasuk dalam kelompok parametrik klasik, dan penyimpangan yang ada dari kelompok tertentu membuat kesimpulan yang salah, dalam hal yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga tersebut.

Apakah ada alasan untuk mengasumsikan normalitas hasil pengukuran secara apriori? Kadang-kadang dikatakan bahwa dalam kasus di mana kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai akibat dari gabungan banyak faktor kecil, maka karena Pusat Batasi Teorema (CPT) dalam teori probabilitas, kuantitas ini didekati dengan baik (dalam distribusi) oleh variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka karena CLT yang sama, mereka harus didekati dengan distribusi normal secara logaritmik. DI DALAM masalah yang diterapkan Biasanya tidak mungkin untuk membuktikan sifat aditif daripada multiplikatifitas tindakan faktor-faktor kecil. Jika ketergantungan memiliki

karakter umum , tidak direduksi menjadi bentuk penjumlahan atau perkalian, dan juga tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi variabel acak akhir, kecuali intra- sifat matematika seperti keteraturan. regresi, varians, analisis faktor, model metrologi, yang terus ditemukan baik dalam dokumentasi peraturan dan teknis domestik maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk memastikan keselamatan operasional didasarkan pada asumsi yang sama. struktur ekonomi , perangkat dan objek teknis. Namun landasan teori

tidak ada asumsi seperti itu. Distribusi kesalahan perlu dipelajari secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi menunjukkan bahwa dalam banyak kasus, distribusi kesalahan pengukuran berbeda dari biasanya. Oleh karena itu, di Institut Teknik Mesin dan Listrik (Varna, Bulgaria), distribusi kesalahan dalam kalibrasi timbangan alat ukur listrik analog dipelajari. Perangkat yang dibuat di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ia memiliki kepadatan Data tentang parameter 219 distribusi kesalahan aktual, dipelajari oleh penulis berbeda, dianalisis saat mengukur listrik dan non-listrik. besaran listrik

berbagai macam perangkat (listrik). Dari hasil penelitian ini diperoleh 111 distribusi yaitu. sekitar 50% termasuk dalam kelas distribusi dengan kepadatan dimana parameter derajatnya; B

- parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

(cm.); 63 distribusi, mis. 30%, memiliki kepadatan dengan puncak datar dan kemiringan panjang yang dangkal dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. 45 distribusi sisanya ternyata bimodal. Dalam buku ahli metrologi terkenal Prof. P. V. Novitsky menyajikan hasil kajian tentang hukum distribusi berbagai jenis kesalahan pengukuran. Ia mempelajari distribusi kesalahan perangkat elektromekanis pada sampel inti,

Di Laboratorium Matematika Terapan Tartu universitas negeri 2500 sampel dari arsip data statistik nyata dianalisis.

Dalam 92%, hipotesis normalitas harus ditolak. Deskripsi data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari normal. Ini berarti, khususnya, bahwa sebagian besar aplikasi Tes t siswa, klasik analisis regresi dan lainnya metode statistik.

, berdasarkan teori normal, sebenarnya, tidak dibenarkan, karena aksioma yang mendasari normalitas distribusi yang sesuai

variabel acak

Jelasnya, untuk membenarkan atau membenarkan perubahan pada praktik analisis data statistik saat ini, perlu mempelajari sifat-sifat prosedur analisis data bila digunakan “secara ilegal”. Sebuah studi tentang prosedur penolakan menunjukkan bahwa prosedur tersebut sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak tepat menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, tidak dapat dikatakan bahwa prosedur yang dipilih secara sewenang-wenang akan tahan terhadap penyimpangan dari normalitas. Kadang-kadang diusulkan untuk memeriksa normalitas sebelum menggunakan, misalnya, uji Student untuk homogenitas dua sampel. Meskipun ada banyak kriteria untuk hal ini, pengujian normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu dibandingkan pengujian homogenitas (baik menggunakan statistik tipe Siswa maupun menggunakan uji nonparametrik). Untuk menetapkan normalitas secara andal, diperlukan observasi dalam jumlah yang sangat besar. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari hasil normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Di sebagian besar studi ekonomi, teknis, biomedis, dan terapan lainnya, jumlah observasi jauh lebih kecil. Hal ini terutama berlaku untuk data yang digunakan dalam mempelajari masalah-masalah yang berkaitan dengan memastikan berfungsinya struktur ekonomi dan fasilitas teknis secara aman. Terkadang mereka mencoba menggunakan CPT untuk mendekatkan distribusi kesalahan ke normal, termasuk penambahan khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan tindakan ini. Membiarkan Z 1, Z 2,…, Zk

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan pada relasi terakhir mengikuti perkiraan konstanta pertidaksamaan Berry-Esseen yang diperoleh di buku, dan pertidaksamaan kiri mengikuti contoh di monografi. Untuk hukum biasa=1.6, untuk seragam = 1.3, untuk dua titik =1 (ini adalah batas bawah untuk ). Oleh karena itu, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01, untuk distribusi yang “tidak berhasil” setidaknya diperlukan k 0 istilah, di mana

Dalam penambah yang umum digunakan, istilahnya jauh lebih sedikit. Mempersempit kelas distribusi yang mungkin H, konvergensi yang lebih cepat dapat diperoleh, seperti yang ditunjukkan dalam monografi, tetapi teori di sini belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi dengan normal (dalam metrik tertentu) juga menjamin bahwa distribusi statistik yang dibangun dari variabel acak dengan distribusi ini mendekati distribusi statistik yang sesuai dengan hasil observasi normal.

Rupanya, untuk setiap statistik tertentu, diperlukan kajian teoritis khusus. Inilah kesimpulan yang diambil oleh penulis monograf tersebut. Dalam permasalahan menolak outlier, jawabannya adalah “Tidak menyediakan” (lihat di bawah). Perhatikan bahwa hasil pengukuran nyata apa pun ditulis menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya menggunakan variabel acak diskrit yang mengambil sejumlah nilai terbatas. Distribusi normal hanyalah perkiraan dari distribusi sebenarnya. Jadi misalnya datanya penelitian tertentu diberikan dalam pekerjaan mengambil nilai dari 1,0 hingga 2,2, mis. jumlah 13 nilai yang mungkin. Dari prinsip Dirichlet dapat disimpulkan bahwa pada titik tertentu fungsi distribusi yang dibangun dari data kerja berbeda dari fungsi distribusi normal terdekat paling sedikit 1/26, yaitu. sebesar 0,04. Selain itu, jelas bahwa untuk distribusi normal suatu variabel acak, kemungkinan berada dalam himpunan diskrit angka desimal Dengan

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan data statistik secara umum mempunyai sifat yang mengarah pada fakta bahwa mereka harus dimodelkan dengan variabel acak dengan distribusi yang kurang lebih berbeda dari normal. Dalam kebanyakan kasus, distribusinya berbeda secara signifikan dari distribusi normal; dalam kasus lain, distribusi normal tampaknya dapat dianggap sebagai semacam perkiraan, tetapi tidak pernah ada kecocokan yang lengkap. Hal ini menyiratkan perlunya mempelajari sifat-sifat prosedur statistik klasik pada non-klasik model probabilistik(mirip dengan yang dilakukan di bawah untuk tes Siswa), dan kebutuhan untuk mengembangkan prosedur yang stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan nonparametrik, termasuk prosedur bebas distribusi, dan penerapannya secara luas dalam praktik pengolahan statistik data.

Pertimbangan yang dihilangkan di sini untuk kelompok parametrik lainnya mengarah pada kesimpulan serupa. Hasilnya dapat dirumuskan sebagai berikut. Distribusi data nyata hampir tidak pernah termasuk dalam kelompok parametrik tertentu. Distribusi nyata selalu berbeda dengan distribusi yang termasuk dalam keluarga parametrik. Perbedaannya mungkin besar atau kecil, namun selalu ada. Mari kita coba memahami betapa pentingnya perbedaan ini untuk analisis ekonometrik.

Orlov A.I. Apakah distribusi observasi sering kali normal? – Majalah “Laboratorium Pabrik”. 1991 T.57. No.7 Hlm.64-66.

Apakah distribusi observasi sering kali normal?

A.I.Orlov

Hasil pengukuran dan data statistik secara umum mempunyai sifat yang mengarah pada fakta bahwa mereka harus dimodelkan dengan variabel acak dengan distribusi yang kurang lebih berbeda dari normal. Dalam kebanyakan kasus, distribusinya berbeda secara signifikan dari distribusi normal. Di negara lain, distribusi normal tampaknya dapat dianggap sebagai semacam perkiraan. Namun tidak pernah ada suatu kebetulan yang sempurna. Hal ini memerlukan kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik, dan kebutuhan untuk mengembangkan stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan nonparametrik, termasuk prosedur bebas distribusi, dan penerapannya secara luas. dalam praktek pengolahan data statistik.

Dalam model ekonometrik dan ekonomi-matematis, khususnya digunakan dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, akurasi dan stabilitas proses teknologi, dalam masalah keandalan, memastikan keselamatan, termasuk keselamatan lingkungan, fungsi perangkat dan objek teknis, dan pengembangan bagan organisasi, konsep dan hasil teori probabilitas dan statistik matematika sering digunakan. Dalam hal ini, satu atau beberapa kelompok distribusi probabilitas parametrik sering digunakan. Yang paling populer adalah distribusi normal. Distribusi lognormal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll juga digunakan.

Jelasnya, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Dua pertanyaan muncul. Apakah distribusi sebenarnya berbeda dengan yang digunakan dalam model? Seberapa besar pengaruh perbedaan ini terhadap kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode yang didasarkan padanya untuk menolak pengamatan yang sangat berbeda (outlier), terlihat bahwa distribusi nyata hampir selalu berbeda dari distribusi yang termasuk dalam kelompok parametrik klasik, dan penyimpangan yang ada dari kelompok tertentu membuat kesimpulan yang salah, dalam hal yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga tersebut.

Apakah ada alasan untuk mengasumsikan normalitas hasil pengukuran secara apriori?

Kadang-kadang dikatakan bahwa dalam kasus ketika kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai hasil dari tindakan gabungan dari banyak faktor kecil, maka, berdasarkan Teorema Batas Pusat (CLT) dari teori probabilitas, nilai ini adalah didekati dengan baik (dalam distribusi) dengan variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka karena CLT yang sama, mereka harus didekati dengan distribusi normal secara logaritmik. Dalam permasalahan terapan, biasanya tidak mungkin untuk membuktikan sifat aditif daripada multiplikatifitas aksi faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk penjumlahan atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi tersebut. variabel acak akhir, kecuali untuk sifat intramatematika seperti keteraturan.

Saat memproses data tertentu, terkadang diasumsikan bahwa kesalahan pengukuran berdistribusi normal. Berdasarkan asumsi normalitas, dibangun model klasik regresi, varians, analisis faktor dan model metrologi, yang terus ditemukan baik dalam dokumentasi peraturan dan teknis dalam negeri maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk menjamin keselamatan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoritis untuk asumsi tersebut. Distribusi kesalahan perlu dipelajari secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi menunjukkan bahwa dalam banyak kasus, distribusi kesalahan pengukuran berbeda dari biasanya. Oleh karena itu, di Institut Teknik Mesin dan Elektro (Varna, Bulgaria), dipelajari distribusi kesalahan kalibrasi pada timbangan alat ukur listrik analog. Perangkat yang dibuat di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ia memiliki kepadatan

Data tentang parameter dari 219 distribusi kesalahan aktual, yang dipelajari oleh penulis berbeda, dianalisis ketika mengukur besaran listrik dan non-listrik dengan berbagai macam instrumen (listrik). Dari hasil penelitian ini diperoleh 111 distribusi yaitu. sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

dimana parameter derajatnya; dimana parameter derajatnya;- parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

(cm.); 63 distribusi, mis. 30%, memiliki kepadatan dengan puncak datar dan kemiringan panjang yang dangkal dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. 45 distribusi sisanya ternyata bimodal.

Dalam buku ahli metrologi terkenal Prof. P. V. Novitsky menyajikan hasil kajian tentang hukum distribusi berbagai jenis kesalahan pengukuran. Ia mempelajari distribusi kesalahan instrumen elektromekanis pada inti, instrumen elektronik untuk mengukur suhu dan gaya, dan instrumen digital dengan penyeimbangan manual. Volume sampel data percobaan untuk setiap benda uji adalah 100-400 hitungan. Ternyata 46 dari 47 distribusi berbeda nyata dari biasanya. Bentuk distribusi kesalahan dipelajari untuk 25 salinan voltmeter digital Shch-1411 pada rentang 10 titik. Hasilnya serupa. Informasi lebih lanjut terdapat dalam monografi.

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Deskripsi data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji Student, analisis regresi klasik, dan metode statistik lainnya berdasarkan teori normal, sebenarnya, tidak dapat dibenarkan, karena aksioma yang mendasari normalitas distribusi variabel acak yang bersesuaian tidak benar.

Jelasnya, untuk membenarkan atau membenarkan perubahan pada praktik analisis data statistik saat ini, perlu mempelajari sifat-sifat prosedur analisis data bila digunakan “secara ilegal”. Sebuah studi tentang prosedur penolakan menunjukkan bahwa prosedur tersebut sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak tepat menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, tidak dapat dikatakan bahwa prosedur yang dipilih secara sewenang-wenang akan tahan terhadap penyimpangan dari normalitas.

Kadang-kadang diusulkan untuk memeriksa normalitas sebelum menggunakan, misalnya, uji Student untuk homogenitas dua sampel. Meskipun ada banyak kriteria untuk hal ini, pengujian normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu dibandingkan pengujian homogenitas (baik menggunakan statistik tipe Siswa maupun menggunakan uji nonparametrik). Untuk menetapkan normalitas secara andal, diperlukan observasi dalam jumlah yang sangat besar. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari hasil normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Di sebagian besar ekonomi, teknis, biomedis dan lainnya penelitian terapan jumlah pengamatan secara signifikan lebih kecil. Hal ini terutama berlaku untuk data yang digunakan dalam mempelajari masalah-masalah yang berkaitan dengan memastikan berfungsinya struktur ekonomi dan fasilitas teknis secara aman.

Kadang-kadang mereka mencoba menggunakan CPT untuk membawa distribusi kesalahan mendekati normal, dengan memasukkan penambah khusus dalam desain teknologi alat ukur. Mari kita evaluasi kegunaan tindakan ini. Membiarkan Z 1 , Z 2 ,…, Z k- variabel acak independen yang terdistribusi identik dengan fungsi distribusi H=H(X) sedemikian rupa sehingga Pertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan pada relasi terakhir mengikuti perkiraan konstanta pertidaksamaan Berry-Esseen yang diperoleh di buku, dan pertidaksamaan kiri mengikuti contoh di monografi. Untuk hukum normal = 1.6, untuk seragam = 1.3, untuk dua titik = 1 (ini batas bawah). Akibatnya, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01, untuk distribusi yang “tidak berhasil” setidaknya diperlukan k 0 istilah, di mana

Dalam penambah yang umum digunakan, istilahnya jauh lebih sedikit. Mempersempit kelas distribusi yang mungkin H, konvergensi yang lebih cepat dapat diperoleh, seperti yang ditunjukkan dalam monografi, tetapi teori di sini belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi dengan normal (dalam metrik tertentu) juga menjamin bahwa distribusi statistik yang dibangun dari variabel acak dengan distribusi ini mendekati distribusi statistik yang sesuai dengan hasil observasi normal. Rupanya, statistiknya khusus untuk setiap orang penelitian teoretis Inilah kesimpulan yang dicapai oleh penulis monografi tersebut. Dalam permasalahan menolak outlier, jawabannya adalah “Tidak menyediakan” (lihat di bawah).

Perhatikan bahwa hasil pengukuran nyata apa pun ditulis menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya menggunakan variabel acak diskrit yang mengambil sejumlah nilai terbatas. Distribusi normal hanyalah perkiraan dari distribusi sebenarnya. Jadi, misalnya, data dari studi tertentu yang diberikan dalam karya tersebut mengambil nilai dari 1,0 hingga 2,2, yaitu. Hanya ada 13 nilai yang mungkin. Dari prinsip Dirichlet dapat disimpulkan bahwa pada titik tertentu fungsi distribusi yang dibangun dari data kerja berbeda dari fungsi distribusi normal terdekat paling sedikit 1/26, yaitu. sebesar 0,04. Selain itu, jelas bahwa untuk distribusi normal suatu variabel acak, peluang masuk ke dalam himpunan bilangan desimal diskrit dengan sejumlah tempat desimal tertentu adalah 0.

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan data statistik secara umum mempunyai sifat yang mengarah pada fakta bahwa mereka harus dimodelkan dengan variabel acak dengan distribusi yang kurang lebih berbeda dari normal. Dalam kebanyakan kasus, distribusinya berbeda secara signifikan dari distribusi normal; dalam kasus lain, distribusi normal tampaknya dapat dianggap sebagai semacam perkiraan, tetapi tidak pernah ada kecocokan yang lengkap. Hal ini memerlukan kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik (mirip dengan apa yang dilakukan di bawah untuk tes Siswa), dan kebutuhan untuk mengembangkan model yang stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan non-parametrik, termasuk prosedur bebas distribusi, penerapannya secara luas dalam praktik pengolahan data statistik.

Literatur

1. Novitsky P.V., Zograf I.A. Estimasi kesalahan hasil pengukuran. - L.: Energoatomizdat, 1985. - 248 hal.

2. Novitsky P.V. Dasar-dasar teori informasi alat ukur. -L.: Energi, 1968. - 248 hal.

3. Borovkov A.A. Teori probabilitas. - M.: Nauka, 1976. - 352 hal.

4.Petrov V.V. Jumlah variabel acak independen. - M.: Nauka, 1972. - 416 hal.

5. Zolotarev V.M. Teori modern tentang penjumlahan variabel acak independen. - M.: Nauka, 1986. - 416 hal.

6. Egorova L.A., Kharitonov Yu.S., Sokolovskaya L.V.//Laboratorium pabrik. - 1976.Vol.42. Nomor 10. Hal.1237.

    Bagaimana cara mengelola keuangan bisnis Anda dengan benar jika Anda bukan ahli dalam analisis keuangan - Analisis keuangan

    Manajemen keuangan - hubungan keuangan antar entitas, manajemen keuangan di tingkat yang berbeda, manajemen portofolio sekuritas, teknik untuk mengelola pergerakan sumber daya keuangan - ini jauh dari kata daftar lengkap subjek" Manajemen keuangan"

    Mari kita bicara tentang apa itu pembinaan? Beberapa orang percaya bahwa ini adalah merek borjuis, yang lain percaya bahwa ini adalah terobosan dalam bisnis modern. Coaching adalah seperangkat aturan untuk semoga beruntung bisnis, serta kemampuan untuk mengelola aturan-aturan ini dengan benar

4.1. Apakah distribusi observasi sering kali normal?

Dalam model ekonometrik dan ekonomi-matematis, yang digunakan, khususnya, dalam studi dan optimalisasi proses pemasaran dan manajemen, manajemen perusahaan dan regional, keakuratan dan stabilitas proses teknologi, dalam masalah keandalan, memastikan keselamatan, termasuk keselamatan lingkungan, berfungsinya perangkat dan objek teknis, pengembangan bagan organisasi sering kali menggunakan konsep dan hasil teori probabilitas dan statistik matematika. Dalam hal ini, satu atau beberapa kelompok distribusi probabilitas parametrik sering digunakan. Yang paling populer adalah distribusi normal. Distribusi lognormal, distribusi eksponensial, distribusi gamma, distribusi Weibull-Gnedenko, dll juga digunakan.

Jelasnya, selalu perlu untuk memeriksa kesesuaian model dengan kenyataan. Dua pertanyaan muncul. Apakah distribusi sebenarnya berbeda dengan yang digunakan dalam model? Seberapa besar pengaruh perbedaan ini terhadap kesimpulan?

Di bawah ini, dengan menggunakan contoh distribusi normal dan metode yang didasarkan padanya untuk menolak pengamatan yang sangat berbeda (outlier), terlihat bahwa distribusi nyata hampir selalu berbeda dari distribusi yang termasuk dalam kelompok parametrik klasik, dan penyimpangan yang ada dari kelompok tertentu membuat kesimpulan yang salah, dalam hal yang sedang dipertimbangkan, tentang penolakan berdasarkan penggunaan keluarga-keluarga tersebut.

Apakah ada alasan untuk mengasumsikan normalitas hasil pengukuran secara apriori?

Kadang-kadang dikatakan bahwa dalam kasus ketika kesalahan pengukuran (atau variabel acak lainnya) ditentukan sebagai hasil dari tindakan gabungan dari banyak faktor kecil, maka, berdasarkan Teorema Batas Pusat (CLT) dari teori probabilitas, nilai ini adalah didekati dengan baik (dalam distribusi) dengan variabel acak normal. Pernyataan ini benar jika faktor-faktor kecil bertindak secara aditif dan independen satu sama lain. Jika mereka bertindak secara perkalian, maka karena CLT yang sama, mereka harus didekati dengan distribusi normal secara logaritmik. Dalam permasalahan terapan, biasanya tidak mungkin untuk membuktikan sifat aditif daripada multiplikatifitas aksi faktor-faktor kecil. Jika ketergantungan bersifat umum, tidak direduksi menjadi bentuk penjumlahan atau perkalian, dan tidak ada alasan untuk menerima model yang memberikan distribusi eksponensial, Weibull-Gnedenko, gamma atau lainnya, maka praktis tidak ada yang diketahui tentang distribusi tersebut. variabel acak akhir, kecuali untuk sifat intramatematika seperti keteraturan.

Saat memproses data tertentu, terkadang diasumsikan bahwa kesalahan pengukuran berdistribusi normal. Berdasarkan asumsi normalitas, dibangun model klasik regresi, varians, analisis faktor dan model metrologi, yang terus ditemukan baik dalam dokumentasi peraturan dan teknis dalam negeri maupun dalam standar internasional. Model untuk menghitung tingkat maksimum yang dapat dicapai dari karakteristik tertentu yang digunakan dalam desain sistem untuk menjamin keselamatan fungsi struktur ekonomi, perangkat teknis, dan objek didasarkan pada asumsi yang sama. Namun, tidak ada dasar teoritis untuk asumsi tersebut. Distribusi kesalahan perlu dipelajari secara eksperimental.

Apa yang ditunjukkan oleh hasil eksperimen? Ringkasan yang diberikan dalam monografi menunjukkan bahwa dalam banyak kasus, distribusi kesalahan pengukuran berbeda dari biasanya. Oleh karena itu, di Institut Teknik Mesin dan Elektro (Varna, Bulgaria), dipelajari distribusi kesalahan kalibrasi pada timbangan alat ukur listrik analog. Perangkat yang dibuat di Cekoslowakia, Uni Soviet, dan Bulgaria dipelajari. Hukum distribusi kesalahan ternyata sama. Ia memiliki kepadatan

Data tentang parameter dari 219 distribusi kesalahan aktual, yang dipelajari oleh penulis berbeda, dianalisis ketika mengukur besaran listrik dan non-listrik dengan berbagai macam instrumen (listrik). Dari hasil penelitian ini diperoleh 111 distribusi yaitu. sekitar 50% termasuk dalam kelas distribusi dengan kepadatan

dimana parameter derajatnya; b - parameter pergeseran; - parameter skala; - fungsi gamma dari argumen;

(cm.); 63 distribusi, mis. 30%, memiliki kepadatan dengan puncak datar dan kemiringan panjang yang dangkal dan tidak dapat digambarkan sebagai normal atau, misalnya, eksponensial. 45 distribusi sisanya ternyata bimodal.

Dalam buku ahli metrologi terkenal Prof. P. V. Novitsky menyajikan hasil kajian tentang hukum distribusi berbagai jenis kesalahan pengukuran. Ia mempelajari distribusi kesalahan instrumen elektromekanis pada inti, instrumen elektronik untuk mengukur suhu dan gaya, dan instrumen digital dengan penyeimbangan manual. Volume sampel data percobaan untuk setiap benda uji adalah 100-400 hitungan. Ternyata 46 dari 47 distribusi berbeda nyata dari biasanya. Bentuk distribusi kesalahan dipelajari untuk 25 salinan voltmeter digital Shch-1411 pada rentang 10 titik. Hasilnya serupa. Informasi lebih lanjut terdapat dalam monografi.

Laboratorium Matematika Terapan Universitas Negeri Tartu menganalisis 2.500 sampel dari arsip data statistik nyata. Dalam 92%, hipotesis normalitas harus ditolak.

Deskripsi data eksperimen di atas menunjukkan bahwa kesalahan pengukuran dalam banyak kasus memiliki distribusi yang berbeda dari normal. Ini berarti, khususnya, bahwa sebagian besar penerapan uji Student, analisis regresi klasik, dan metode statistik lainnya berdasarkan teori normal, sebenarnya, tidak dapat dibenarkan, karena aksioma yang mendasari distribusi normal variabel acak yang bersesuaian tidak benar.

Jelasnya, untuk membenarkan atau membenarkan perubahan pada praktik analisis data statistik saat ini, perlu mempelajari sifat-sifat prosedur analisis data bila digunakan “secara ilegal”. Sebuah studi tentang prosedur penolakan menunjukkan bahwa prosedur tersebut sangat tidak stabil terhadap penyimpangan dari normalitas, dan oleh karena itu tidak tepat menggunakannya untuk memproses data nyata (lihat di bawah); oleh karena itu, tidak dapat dikatakan bahwa prosedur yang dipilih secara sewenang-wenang akan tahan terhadap penyimpangan dari normalitas.

Kadang-kadang diusulkan untuk memeriksa normalitas sebelum menggunakan, misalnya, uji Student untuk homogenitas dua sampel. Meskipun ada banyak kriteria untuk hal ini, pengujian normalitas adalah prosedur statistik yang lebih kompleks dan memakan waktu dibandingkan pengujian homogenitas (baik menggunakan statistik tipe Siswa maupun menggunakan uji nonparametrik). Untuk menetapkan normalitas secara andal, diperlukan observasi dalam jumlah yang sangat besar. Jadi, untuk menjamin bahwa fungsi distribusi hasil pengamatan berbeda dari hasil normal tidak lebih dari 0,01 (untuk nilai argumen apa pun), diperlukan sekitar 2500 pengamatan. Di sebagian besar studi ekonomi, teknis, biomedis, dan terapan lainnya, jumlah observasi jauh lebih kecil. Hal ini terutama berlaku untuk data yang digunakan dalam mempelajari masalah-masalah yang berkaitan dengan memastikan berfungsinya struktur ekonomi dan fasilitas teknis secara aman.

Terkadang mereka mencoba menggunakan CPT untuk mendekatkan distribusi kesalahan ke normal, termasuk penambahan khusus dalam skema teknologi alat pengukur. Mari kita evaluasi kegunaan tindakan ini. Misalkan Z1 , Z2 ,…, Zk adalah variabel acak independen yang terdistribusi identik dengan fungsi distribusi H = H(x) sehingga Pertimbangkan

Indikator kedekatan dengan normalitas yang diberikan oleh penambah adalah

Pertidaksamaan kanan pada relasi terakhir mengikuti perkiraan konstanta pertidaksamaan Berry-Esseen yang diperoleh di buku, dan pertidaksamaan kiri mengikuti contoh di monografi. Untuk hukum normal = 1.6, untuk hukum seragam = 1.3, untuk hukum dua titik = 1 (ini adalah batas bawah untuk ). Akibatnya, untuk memastikan jarak (dalam metrik Kolmogorov) ke distribusi normal tidak lebih dari 0,01 untuk distribusi “tidak berhasil”, setidaknya diperlukan suku k0, di mana

Dalam penambah yang umum digunakan, istilahnya jauh lebih sedikit. Dengan mempersempit kelas kemungkinan distribusi H, konvergensi yang lebih cepat dapat diperoleh, seperti yang ditunjukkan dalam monografi, tetapi teori di sini belum menyatu dengan praktik. Selain itu, tidak jelas apakah kedekatan distribusi dengan normal (dalam metrik tertentu) juga menjamin bahwa distribusi statistik yang dibangun dari variabel acak dengan distribusi ini mendekati distribusi statistik yang sesuai dengan hasil observasi normal. Rupanya, untuk setiap statistik tertentu, diperlukan kajian teoritis khusus. Inilah kesimpulan yang diambil oleh penulis monograf tersebut. Dalam permasalahan menolak outlier, jawabannya adalah “Tidak menyediakan” (lihat di bawah).

Perhatikan bahwa hasil pengukuran nyata apa pun ditulis menggunakan sejumlah tempat desimal yang terbatas, biasanya kecil (2-5), jadi disarankan untuk memodelkan data nyata apa pun hanya menggunakan variabel acak diskrit yang mengambil sejumlah nilai terbatas. Distribusi normal hanyalah perkiraan dari distribusi sebenarnya. Jadi, misalnya, data dari studi tertentu yang diberikan dalam karya tersebut mengambil nilai dari 1,0 hingga 2,2, yaitu. Hanya ada 13 nilai yang mungkin. Dari prinsip Dirichlet dapat disimpulkan bahwa pada titik tertentu fungsi distribusi yang dibangun dari data kerja berbeda dari fungsi distribusi normal terdekat paling sedikit 1/26, yaitu. sebesar 0,04. Selain itu, jelas bahwa untuk distribusi normal suatu variabel acak, peluang masuk ke dalam himpunan bilangan desimal diskrit dengan sejumlah tempat desimal tertentu adalah 0.

Dari penjelasan di atas dapat disimpulkan bahwa hasil pengukuran dan data statistik secara umum mempunyai sifat yang mengarah pada fakta bahwa mereka harus dimodelkan dengan variabel acak dengan distribusi yang kurang lebih berbeda dari normal. Dalam kebanyakan kasus, distribusinya berbeda secara signifikan dari distribusi normal; dalam kasus lain, distribusi normal tampaknya dapat dianggap sebagai semacam perkiraan, tetapi tidak pernah ada kecocokan yang lengkap. Hal ini memerlukan kebutuhan untuk mempelajari sifat-sifat prosedur statistik klasik dalam model probabilistik non-klasik (mirip dengan apa yang dilakukan di bawah untuk tes Siswa), dan kebutuhan untuk mengembangkan model yang stabil (dengan mempertimbangkan adanya penyimpangan dari normalitas) dan non-parametrik, termasuk prosedur bebas distribusi, penerapannya secara luas dalam praktik pengolahan data statistik.

Pertimbangan yang dihilangkan di sini untuk kelompok parametrik lainnya mengarah pada kesimpulan serupa. Hasilnya dapat dirumuskan sebagai berikut. Distribusi data nyata hampir tidak pernah termasuk dalam kelompok parametrik tertentu. Distribusi nyata selalu berbeda dengan distribusi yang termasuk dalam keluarga parametrik. Perbedaannya mungkin besar atau kecil, namun selalu ada. Mari kita coba memahami betapa pentingnya perbedaan ini untuk analisis ekonometrik.

Semua hak dilindungi undang-undang. Materi dari situs ini hanya dapat digunakan dengan referensi ke situs ini.

Mari kita pertimbangkan dua variabel acak independen dan , sesuai dengan hukum normal:

, (12.6.1)

. (12.6.2)

Diperlukan untuk menghasilkan komposisi hukum-hukum ini, yaitu menemukan hukum distribusi besaran:

Mari kita terapkan rumus umum (12.5.3) untuk susunan hukum distribusi:

. (12.6.3)

Jika kita membuka tanda kurung pada eksponen integran dan membawanya anggota serupa, kita mendapatkan:

,

;

;

.

Mengganti ekspresi ini ke dalam rumus (9.1.3) yang telah kita temui:

, (12.6.4)

setelah transformasi kita mendapatkan:

, (12.6.5)

dan ini tidak lebih dari hukum normal dengan pusat dispersi

dan deviasi standar

. (12.6.7)

Kesimpulan yang sama dapat dicapai dengan lebih mudah dengan menggunakan alasan kualitatif berikut.

Tanpa membuka tanda kurung dan tanpa melakukan transformasi apapun pada integran (12.6.3), kita langsung sampai pada kesimpulan bahwa eksponennya adalah trinomial kuadrat mengenai tipenya

,

dimana besarannya tidak dimasukkan ke dalam koefisien sama sekali, koefisien dipangkatkan pertama, dan koefisien dikuadratkan. Dengan mengingat hal ini dan menerapkan rumus (12.6.4), kita sampai pada kesimpulan bahwa terdapat fungsi eksponensial yang eksponennya adalah trinomial kuadrat terhadap , dan kepadatan distribusi jenis ini sesuai dengan hukum normal. Jadi, kita sampai pada kesimpulan kualitatif murni: hukum distribusi besaran harus normal.

Untuk mencari parameter hukum ini - dan - kita akan menggunakan teorema penjumlahan ekspektasi matematis dan teorema penjumlahan varians. Menurut teorema penjumlahan ekspektasi matematis

Dengan teorema penjumlahan varians

dari situlah rumus (12.6.7) mengikuti.

Bergerak dari rata-rata penyimpangan persegi untuk kemungkinan penyimpangan yang sebanding dengannya, kita memperoleh:

Jadi, kita sampai pada aturan berikut: ketika menggabungkan hukum normal, kita kembali memperoleh hukum normal, dan harapan matematis dan varians (atau kemungkinan deviasi kuadrat) dijumlahkan.

Kaidah penyusunan undang-undang biasa dapat digeneralisasikan pada kasusnya nomor berapa pun variabel acak independen.

Jika ada variabel acak independen:

tunduk pada hukum normal dengan pusat penyebaran

dan deviasi standar

,

lalu nilainya

juga tunduk pada hukum normal dengan parameter

Alih-alih rumus (12.6.12), Anda bisa menggunakan rumus yang setara:

Jika suatu sistem peubah acak terdistribusi menurut hukum normal, tetapi nilainya bergantung, maka tidak sulit untuk membuktikannya, seperti sebelumnya, berdasarkan rumus umum(12.5.1) bahwa hukum distribusi besaran

Ada juga hukum normal. Pusat hamburan masih dijumlahkan secara aljabar, namun untuk simpangan baku aturannya menjadi lebih rumit:

, (12.6.14)

dimana adalah koefisien korelasi besaran dan .

Ketika menjumlahkan beberapa variabel acak terikat yang seluruhnya tunduk pada hukum normal, maka hukum distribusi penjumlahannya juga menjadi normal dengan parameternya.

, (12.6.16)

atau dalam kemungkinan penyimpangan

, (12.6.17)

di mana adalah koefisien korelasi besaran, dan penjumlahannya berlaku untuk semua kombinasi besaran berpasangan yang berbeda.

Kita telah yakin akan sifat yang sangat penting dari hukum normal: dengan komposisi hukum normal, hukum normal diperoleh kembali. Inilah yang disebut “properti stabilitas”. Suatu hukum distribusi disebut stabil apabila susunan dua hukum yang berjenis ini kembali menghasilkan hukum yang sejenis. Kami telah menunjukkan di atas bahwa hukum normal itu stabil. Sangat sedikit undang-undang distribusi yang memiliki sifat stabilitas. Pada contoh sebelumnya (contoh 2), kita yakin bahwa, misalnya, hukum massa jenis seragam tidak stabil: dengan komposisi dua hukum massa jenis seragam pada penampang dari 0 hingga 1, kita memperoleh hukum Simpson.

Stabilitas hukum normal merupakan salah satu syarat penting bagi penerapannya secara luas dalam praktik. Namun, selain normal, beberapa hukum distribusi lainnya juga mempunyai sifat stabilitas. Ciri hukum normal adalah dengan komposisi maka cukup jumlah besar praktis hukum yang sewenang-wenang distribusi, hukum totalnya ternyata mendekati normal seperti yang diinginkan, apapun hukum distribusi suku-sukunya. Hal ini dapat diilustrasikan, misalnya, dengan menyusun tiga hukum kepadatan seragam di area dari 0 hingga 1. Hukum distribusi yang dihasilkan ditunjukkan pada Gambar. 12.6.1. Terlihat dari gambar, grafik fungsinya sangat mirip dengan grafik hukum normal.



Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!