Menyusun rangkaian variasi diskrit. Prinsip-prinsip untuk membangun pengelompokan statistik

Saat memproses informasi dalam jumlah besar, yang sangat penting dalam pelaksanaan perkembangan ilmiah modern, peneliti menghadapi tugas serius untuk mengelompokkan sumber data dengan benar. Jika data bersifat diskrit, seperti yang telah kita lihat, tidak ada masalah yang muncul - Anda hanya perlu menghitung frekuensi setiap fitur. Jika ciri-ciri yang diteliti mempunyai kontinu karakter (yang lebih umum dalam praktik), maka memilih jumlah interval pengelompokan fitur yang optimal bukanlah tugas yang mudah.

Untuk mengelompokkan variabel acak kontinu, seluruh rentang variasi karakteristik dibagi menjadi beberapa interval tertentu Ke.

Interval yang dikelompokkan (kontinu) seri variasi disebut interval yang diberi peringkat berdasarkan nilai atribut (), di mana jumlah pengamatan yang termasuk dalam interval ke-i, atau frekuensi relatif (), ditunjukkan bersama dengan frekuensi yang sesuai ():

Interval nilai karakteristik

frekuensi mi

Histogram Dan menumpuk (ogiva), sudah dibahas secara rinci oleh kami, adalah sarana visualisasi data yang sangat baik, memungkinkan Anda mendapatkan gambaran utama tentang struktur data. Grafik seperti itu (Gbr. 1.15) dibuat untuk data kontinu dengan cara yang sama seperti untuk data diskrit, hanya dengan mempertimbangkan fakta bahwa data kontinu sepenuhnya mengisi wilayah nilai yang mungkin, dengan mengambil nilai apa pun.

Beras. 1.15.

Itu sebabnya kolom pada histogram dan kumulat harus saling bersentuhan dan tidak mempunyai area yang nilai atributnya tidak termasuk dalam semua kemungkinan(yaitu histogram dan kumulat tidak boleh memiliki “lubang” sepanjang sumbu absis, yang tidak memuat nilai variabel yang diteliti, seperti pada Gambar 1.16). Ketinggian batang berhubungan dengan frekuensi—jumlah observasi yang berada dalam interval tertentu, atau frekuensi relatif—proporsi observasi. Interval tidak boleh berpotongan dan biasanya lebarnya sama.

Beras. 1.16.

Histogram dan poligon merupakan perkiraan kurva kepadatan probabilitas (fungsi diferensial) f(x) distribusi teoretis, dipertimbangkan dalam teori probabilitas. Oleh karena itu, konstruksinya sangat penting dalam pemrosesan statistik utama data kuantitatif kontinu - dari kemunculannya seseorang dapat menilai hukum distribusi hipotetis.

Akumulasi – kurva akumulasi frekuensi (frekuensi) dari rangkaian variasi interval. Grafik fungsi distribusi kumulatif dibandingkan dengan grafik kumulatif F(x), juga dibahas dalam mata kuliah teori probabilitas.

Pada dasarnya, konsep histogram dan cumulate dikaitkan secara khusus dengan data kontinu dan rangkaian variasi intervalnya, karena grafiknya masing-masing merupakan estimasi empiris dari fungsi kepadatan probabilitas dan fungsi distribusi.

Pembuatan deret variasi interval diawali dengan menentukan banyaknya interval k. Dan tugas ini mungkin yang paling sulit, penting dan kontroversial dalam isu yang diteliti.

Jumlah interval tidak boleh terlalu kecil karena akan membuat histogram menjadi terlalu halus ( terlalu halus), kehilangan semua fitur variabilitas data asli - pada Gambar. 1.17 Anda dapat melihat bagaimana data yang sama dengan grafik pada Gambar. 1.15, digunakan untuk membuat histogram dengan jumlah interval yang lebih kecil (grafik kiri).

Pada saat yang sama, jumlah interval tidak boleh terlalu besar - jika tidak, kita tidak akan dapat memperkirakan kepadatan distribusi data yang dipelajari sepanjang sumbu numerik: histogram akan kurang dihaluskan (kurang halus), dengan interval kosong, tidak rata (lihat Gambar 1.17, grafik kanan).

Beras. 1.17.

Bagaimana cara menentukan jumlah interval yang paling disukai?

Pada tahun 1926, Herbert Sturges mengusulkan rumus untuk menghitung jumlah interval yang diperlukan untuk membagi himpunan nilai awal dari karakteristik yang sedang dipelajari. Rumus ini menjadi sangat populer - sebagian besar buku teks statistik menawarkannya, dan banyak paket statistik menggunakannya secara default. Seberapa benar hal ini dan dalam semua kasus merupakan pertanyaan yang sangat serius.

Jadi, berdasarkan apa rumus Sturges?

Pertimbangkan distribusi binomial)

Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!