Apa yang dimaksud dengan deret variasi dalam statistik. Definisi deret variasi

Sebagai hasil dari penguasaan bab ini, siswa harus: tahu

  • indikator variasi dan hubungannya;
  • hukum dasar sebaran ciri;
  • inti dari kriteria persetujuan; bisa
  • menghitung indeks variasi dan kriteria kesesuaian;
  • menentukan karakteristik distribusi;
  • mengevaluasi karakteristik numerik dasar rangkaian distribusi statistik;

memiliki

  • metode analisis statistik rangkaian distribusi;
  • dasar-dasar analisis varians;
  • teknik untuk memeriksa rangkaian distribusi statistik untuk kesesuaian dengan hukum dasar distribusi.

Indikator variasi

Dalam studi statistik tentang karakteristik berbagai populasi statistik, sangat menarik untuk mempelajari variasi karakteristik unit statistik individu dari populasi, serta sifat distribusi unit menurut karakteristik tersebut. Variasi - ini adalah perbedaan nilai individu dari suatu karakteristik di antara unit-unit populasi yang diteliti. Studi tentang variasi sangat penting secara praktis. Berdasarkan derajat variasinya, seseorang dapat menilai batas variasi suatu sifat, homogenitas populasi untuk suatu sifat tertentu, kekhasan rata-rata, dan hubungan faktor-faktor yang menentukan variasi tersebut. Indikator variasi digunakan untuk mengkarakterisasi dan mengatur populasi statistik.

Hasil rangkuman dan pengelompokan bahan observasi statistik, disajikan dalam bentuk rangkaian distribusi statistik, merupakan suatu distribusi terurut dari satuan-satuan populasi yang diteliti ke dalam kelompok-kelompok menurut kriteria pengelompokan (variasi). Jika suatu ciri kualitatif dijadikan dasar pengelompokannya, maka disebut deret distribusi seperti itu atributif(distribusi berdasarkan profesi, jenis kelamin, warna kulit, dll.). Jika suatu deret distribusi dibangun atas dasar kuantitatif, maka deret tersebut disebut variasional(distribusi berdasarkan tinggi badan, berat badan, gaji, dll.). Menyusun deret variasi berarti mengatur sebaran kuantitatif satuan populasi berdasarkan nilai karakteristik, menghitung jumlah satuan populasi dengan nilai tersebut (frekuensi), dan menyusun hasilnya dalam sebuah tabel.

Alih-alih frekuensi suatu varian, dimungkinkan untuk menggunakan rasionya terhadap total volume pengamatan, yang disebut frekuensi (frekuensi relatif).

Ada dua jenis deret variasi: diskrit dan interval. Seri diskrit- Ini adalah deret variasi yang konstruksinya didasarkan pada karakteristik yang mengalami perubahan terputus-putus (karakteristik diskrit). Yang terakhir ini mencakup jumlah karyawan di perusahaan, kategori tarif, jumlah anak dalam keluarga, dll. Seri variasi diskrit mewakili tabel yang terdiri dari dua kolom. Kolom pertama menunjukkan nilai spesifik atribut, dan kolom kedua menunjukkan jumlah unit dalam populasi dengan nilai atribut tertentu. Jika suatu karakteristik mengalami perubahan terus-menerus (jumlah pendapatan, masa kerja, biaya aset tetap perusahaan, dll., yang dalam batas-batas tertentu dapat bernilai berapa pun), maka untuk karakteristik ini dimungkinkan untuk membangun seri variasi interval. Saat membuat rangkaian variasi interval, tabel juga memiliki dua kolom. Yang pertama menunjukkan nilai atribut dalam interval “dari - ke” (pilihan), yang kedua menunjukkan jumlah unit yang termasuk dalam interval (frekuensi). Frekuensi (frekuensi pengulangan) - jumlah pengulangan varian nilai atribut tertentu. Interval bisa tertutup atau terbuka. Interval tertutup dibatasi pada kedua sisi, mis. memiliki batas bawah (“dari”) dan batas atas (“ke”). Interval terbuka memiliki satu batas: atas atau bawah. Jika opsi disusun dalam urutan menaik atau menurun, maka baris-baris tersebut disebut peringkat.

Untuk rangkaian variasi, terdapat dua jenis opsi respons frekuensi: frekuensi akumulasi dan frekuensi akumulasi. Frekuensi akumulasi menunjukkan berapa banyak pengamatan nilai karakteristik mengambil nilai kurang dari nilai tertentu. Akumulasi frekuensi ditentukan dengan menjumlahkan nilai frekuensi suatu karakteristik suatu kelompok tertentu dengan semua frekuensi kelompok sebelumnya. Akumulasi frekuensi mencirikan proporsi unit pengamatan yang nilai atributnya tidak melebihi batas atas kelompok tertentu. Jadi, frekuensi akumulasi menunjukkan proporsi pilihan dalam totalitas yang memiliki nilai tidak lebih besar dari nilai yang diberikan. Frekuensi, frekuensi, kepadatan absolut dan relatif, frekuensi akumulasi dan frekuensi merupakan ciri-ciri besaran varian.

Variasi ciri-ciri satuan statistik penduduk, serta sifat persebarannya, dipelajari dengan menggunakan indikator dan ciri-ciri deret variasi, yang meliputi rata-rata tingkat deret tersebut, rata-rata simpangan linier, simpangan baku, dispersi. , koefisien osilasi, variasi, asimetri, kurtosis, dll.

Nilai rata-rata digunakan untuk mengkarakterisasi pusat distribusi. Rata-rata adalah suatu karakteristik statistik yang menggeneralisasi dimana tingkat tipikal dari suatu karakteristik yang dimiliki oleh anggota populasi yang diteliti dikuantifikasi. Namun, mungkin ada kasus kebetulan rata-rata aritmatika dengan pola distribusi yang berbeda, oleh karena itu, sebagai karakteristik statistik dari deret variasi, apa yang disebut rata-rata struktural dihitung - modus, median, serta kuantil, yang membagi deret distribusi menjadi sama. bagian (kuartil, desil, persentil, dll).

Mode - Ini adalah nilai suatu karakteristik yang lebih sering muncul dalam deret distribusi dibandingkan nilai lainnya. Untuk seri diskrit, ini adalah pilihan dengan frekuensi tertinggi. Dalam deret variasi interval, untuk menentukan modusnya, perlu ditentukan terlebih dahulu interval tempatnya berada, yang disebut interval modal. Dalam rangkaian variasi dengan interval yang sama, interval modal ditentukan oleh frekuensi tertinggi, dalam seri dengan interval yang tidak sama - tetapi oleh kepadatan distribusi tertinggi. Rumus tersebut kemudian digunakan untuk menentukan modus dalam baris-baris dengan interval yang sama

dimana Mo adalah nilai fesyen; xMo - batas bawah interval modal; H- lebar interval modal; / Mo - frekuensi interval modal; / Mo j adalah frekuensi interval premodal; / Mo+1 adalah frekuensi interval pasca-modal, dan untuk rangkaian dengan interval yang tidak sama dalam rumus perhitungan ini, alih-alih frekuensi / Mo, / Mo, / Mo, kepadatan distribusi harus digunakan Pikiran 0 _| , Pikiran 0> UMO+"

Jika terdapat mode tunggal, maka distribusi probabilitas variabel acak tersebut disebut unimodal; jika ada lebih dari satu mode, maka disebut multimodal (polimodal, multimodal), dalam kasus dua mode - bimodal. Biasanya multimodalitas menunjukkan bahwa distribusi yang diteliti tidak mematuhi hukum distribusi normal. Populasi homogen, pada umumnya, dicirikan oleh distribusi satu titik. Multivertex juga menunjukkan heterogenitas populasi yang diteliti. Kemunculan dua atau lebih simpul mengharuskan pengelompokan ulang data untuk mengidentifikasi kelompok yang lebih homogen.

Dalam rangkaian variasi interval, modus dapat ditentukan secara grafis menggunakan histogram. Untuk melakukan ini, gambarlah dua garis berpotongan dari titik teratas kolom tertinggi histogram ke titik teratas dari dua kolom yang berdekatan. Kemudian, dari titik perpotongannya, sebuah garis tegak lurus diturunkan ke sumbu absis. Nilai fitur pada sumbu x yang bersesuaian dengan garis tegak lurus disebut modus. Dalam banyak kasus, ketika mengkarakterisasi suatu populasi sebagai indikator umum, preferensi diberikan pada modus daripada mean aritmatika.

median - Ini adalah nilai sentral dari atribut; ini dimiliki oleh anggota pusat dari rangkaian distribusi yang diberi peringkat. Pada deret diskrit, untuk mencari nilai median ditentukan terlebih dahulu nomor urutnya. Caranya, jika banyaknya satuan ganjil, satu ditambahkan ke jumlah semua frekuensi, dan bilangan tersebut dibagi dua. Jika banyaknya satuan dalam suatu barisan genap maka akan terdapat dua satuan median, sehingga dalam hal ini median didefinisikan sebagai rata-rata dari nilai kedua satuan median tersebut. Jadi, median pada deret variasi diskrit adalah nilai yang membagi deret tersebut menjadi dua bagian yang memuat jumlah pilihan yang sama.

Pada deret interval, setelah menentukan nomor urut median, dicari interval medial dengan menggunakan akumulasi frekuensi (frekuensi), kemudian dengan menggunakan rumus menghitung median, ditentukan nilai median itu sendiri:

dimana Saya adalah nilai median; x Aku - batas bawah interval median; H- lebar interval median; - jumlah frekuensi rangkaian distribusi; /D - akumulasi frekuensi interval pra-median; / Me - frekuensi interval median.

Median dapat ditemukan secara grafis menggunakan kumulasi. Caranya, pada skala akumulasi frekuensi (frekuensi) kumulat, dari titik yang sesuai dengan bilangan urut median, ditarik garis lurus sejajar sumbu absis hingga berpotongan dengan kumulat. Selanjutnya, dari titik perpotongan garis yang ditunjukkan dengan kumulat, garis tegak lurus diturunkan terhadap sumbu absis. Nilai atribut pada sumbu x yang sesuai dengan ordinat yang digambar (tegak lurus) adalah median.

Median dicirikan oleh sifat-sifat berikut.

  • 1. Itu tidak bergantung pada nilai atribut yang terletak di kedua sisinya.
  • 2. Mempunyai sifat minimalitas, artinya penjumlahan simpangan mutlak nilai atribut dari median merupakan nilai minimum dibandingkan simpangan nilai atribut dari nilai lainnya.
  • 3. Ketika menggabungkan dua distribusi dengan median yang diketahui, tidak mungkin untuk memprediksi terlebih dahulu nilai median dari distribusi baru.

Properti median ini banyak digunakan ketika merancang lokasi titik layanan publik - sekolah, klinik, pompa bensin, pompa air, dll. Misalnya, jika direncanakan untuk membangun sebuah klinik di suatu blok kota tertentu, maka akan lebih baik jika menempatkannya di suatu titik di blok tersebut yang bukan membagi panjang blok tersebut menjadi dua, tetapi jumlah penduduknya.

Rasio modus, median, dan mean aritmatika menunjukkan sifat distribusi karakteristik secara agregat dan memungkinkan kita menilai simetri distribusi. Jika x Saya maka terdapat asimetri sisi kanan deret tersebut. Dengan distribusi normal X - Saya - Mo.

K. Pearson, berdasarkan penyelarasan berbagai jenis kurva, menetapkan bahwa untuk distribusi asimetris sedang, perkiraan hubungan antara mean aritmatika, median, dan modus berikut ini valid:

dimana Saya adalah nilai median; Mo - arti mode; x aritmatika - nilai mean aritmatika.

Jika perlu mempelajari struktur deret variasi secara lebih rinci, maka hitunglah nilai karakteristik yang mirip dengan median. Nilai karakteristik seperti itu membagi semua unit distribusi menjadi angka-angka yang sama; disebut kuantil atau gradien. Kuantil dibagi menjadi kuartil, desil, persentil, dll.

Kuartil membagi populasi menjadi empat bagian yang sama besar. Kuartil pertama dihitung sama dengan median menggunakan rumus menghitung kuartil pertama, setelah sebelumnya menentukan interval triwulan pertama:

dimana Qi adalah nilai kuartil pertama; xQ^- batas bawah rentang kuartil pertama; H- lebar interval kuartal pertama; /, - frekuensi deret interval;

Frekuensi kumulatif pada interval sebelum interval kuartil pertama; Jq ( - frekuensi interval kuartil pertama.

Kuartil pertama menunjukkan bahwa 25% unit populasi kurang dari nilainya, dan 75% lebih besar. Kuartil kedua sama dengan median, yaitu. Pertanyaan 2 = Aku.

Dengan analogi, kuartil ketiga dihitung dengan terlebih dahulu menemukan interval triwulanan ketiga:

dimana adalah batas bawah rentang kuartil ketiga; H- lebar interval kuartil ketiga; /, - frekuensi deret interval; /X" - akumulasi frekuensi pada interval sebelumnya

G

interval kuartil ketiga; Jq adalah frekuensi interval kuartil ketiga.

Kuartil ketiga menunjukkan bahwa 75% unit populasi kurang dari nilainya, dan 25% lebih besar.

Selisih antara kuartil ketiga dan kuartil pertama adalah rentang antarkuartil:

dimana Aq adalah nilai rentang antarkuartil; Pertanyaan 3 - nilai kuartil ketiga; Q, adalah nilai kuartil pertama.

Desil membagi populasi menjadi 10 bagian yang sama. Desil adalah nilai suatu karakteristik dalam rangkaian distribusi yang sesuai dengan sepersepuluh jumlah populasi. Dengan analogi kuartil, desil pertama menunjukkan bahwa 10% unit populasi lebih kecil dari nilainya, dan 90% lebih besar, dan desil kesembilan menunjukkan bahwa 90% unit populasi lebih kecil dari nilainya, dan 10% adalah lebih besar. Rasio desil kesembilan dan desil pertama, yaitu. Koefisien desil banyak digunakan dalam studi diferensiasi pendapatan untuk mengukur rasio tingkat pendapatan 10% penduduk paling makmur dan 10% penduduk paling makmur. Persentil membagi populasi yang diperingkat menjadi 100 bagian yang sama. Penghitungan, arti, dan penerapan persentil mirip dengan desil.

Kuartil, desil, dan ciri struktural lainnya dapat ditentukan secara grafis dengan analogi median menggunakan kumulat.

Untuk mengukur besarnya variasi digunakan indikator sebagai berikut: rentang variasi, rata-rata deviasi linier, standar deviasi, dispersi. Besarnya rentang variasi bergantung sepenuhnya pada keacakan distribusi anggota ekstrim deret tersebut. Indikator ini menarik dalam kasus di mana penting untuk mengetahui amplitudo fluktuasi nilai suatu karakteristik:

Di mana R- nilai rentang variasi; x max - nilai maksimum atribut; xtt - nilai minimum atribut.

Saat menghitung rentang variasi, nilai sebagian besar anggota deret tidak diperhitungkan, sedangkan variasi dikaitkan dengan setiap nilai anggota deret. Indikator yang merupakan rata-rata yang diperoleh dari penyimpangan nilai individu suatu karakteristik dari nilai rata-ratanya tidak memiliki kelemahan ini: deviasi linier rata-rata dan deviasi standar. Ada hubungan langsung antara penyimpangan individu dari rata-rata dan variabilitas suatu sifat tertentu. Semakin kuat fluktuasinya, semakin besar ukuran absolut penyimpangannya dari rata-rata.

Deviasi linier rata-rata adalah mean aritmatika dari nilai absolut deviasi opsi individu dari nilai rata-ratanya.

Deviasi Linier Rata-rata untuk Data yang Tidak Dikelompokkan

dimana /pr adalah nilai rata-rata deviasi linier; x, - adalah nilai atribut; X - P - jumlah unit dalam populasi.

Deviasi linier rata-rata dari deret yang dikelompokkan

dimana / vz - nilai deviasi linier rata-rata; x, adalah nilai atribut; X - nilai rata-rata karakteristik populasi yang diteliti; / - jumlah unit populasi dalam suatu kelompok tertentu.

Dalam hal ini, tanda-tanda penyimpangan diabaikan, jika tidak, jumlah semua penyimpangan akan sama dengan nol. Deviasi linier rata-rata, tergantung pada pengelompokan data yang dianalisis, dihitung dengan menggunakan berbagai rumus: untuk data yang dikelompokkan dan tidak dikelompokkan. Karena konvensinya, deviasi linier rata-rata, terpisah dari indikator variasi lainnya, relatif jarang digunakan dalam praktik (khususnya, untuk mengkarakterisasi pemenuhan kewajiban kontrak mengenai keseragaman pengiriman; dalam analisis perputaran perdagangan luar negeri, komposisi karyawan, ritme produksi, kualitas produk, dengan mempertimbangkan fitur teknologi produksi dan sebagainya.).

Simpangan baku mencirikan seberapa besar rata-rata nilai individu dari sifat yang diteliti menyimpang dari nilai rata-rata populasi, dan dinyatakan dalam satuan pengukuran sifat yang diteliti. Simpangan baku, sebagai salah satu ukuran utama variasi, banyak digunakan dalam menilai batas-batas variasi suatu karakteristik dalam populasi homogen, dalam menentukan nilai ordinat kurva distribusi normal, serta dalam perhitungan yang berkaitan dengan pengorganisasian pengamatan sampel dan menetapkan keakuratan karakteristik sampel. Simpangan baku data yang tidak dikelompokkan dihitung menggunakan algoritma berikut: setiap simpangan dari rata-rata dikuadratkan, semua kuadrat dijumlahkan, setelah itu jumlah kuadrat dibagi dengan jumlah suku deret dan akar kuadrat diekstraksi dari hasil bagi:

dimana Iip adalah nilai simpangan baku; Xj- nilai atribut; X- nilai rata-rata karakteristik populasi yang diteliti; P - jumlah unit dalam populasi.

Untuk data yang dianalisis secara berkelompok, simpangan baku datanya dihitung menggunakan rumus pembobotan

Di mana - nilai standar deviasi; Xj- nilai atribut; X - nilai rata-rata karakteristik populasi yang diteliti; f x - jumlah unit populasi pada suatu kelompok tertentu.

Ekspresi di bawah akar dalam kedua kasus disebut varians. Dengan demikian, dispersi dihitung sebagai kuadrat rata-rata deviasi nilai atribut dari nilai rata-ratanya. Untuk nilai atribut yang tidak tertimbang (sederhana), variansnya ditentukan sebagai berikut:

Untuk nilai karakteristik tertimbang

Ada juga metode khusus yang disederhanakan untuk menghitung varians: secara umum

untuk nilai karakteristik tidak tertimbang (sederhana). untuk nilai karakteristik tertimbang
menggunakan metode berbasis nol

dimana 2 adalah nilai dispersi; x, - adalah nilai atribut; X - nilai rata-rata karakteristik, H- nilai interval grup, t 1 - berat (A =

Dispersi memiliki ekspresi tersendiri dalam statistik dan merupakan salah satu indikator variasi yang paling penting. Diukur dalam satuan yang sesuai dengan kuadrat satuan pengukuran karakteristik yang dipelajari.

Dispersi mempunyai sifat sebagai berikut.

  • 1. Varians suatu nilai konstan adalah nol.
  • 2. Mengurangi semua nilai suatu karakteristik dengan nilai A yang sama tidak mengubah nilai dispersi. Ini berarti bahwa kuadrat rata-rata deviasi dapat dihitung bukan dari nilai suatu karakteristik tertentu, tetapi dari deviasinya dari suatu bilangan konstan.
  • 3. Mengurangi nilai-nilai karakteristik apa pun di k kali mengurangi varians sebesar k 2 kali, dan simpangan bakunya masuk k kali, yaitu semua nilai atribut dapat dibagi dengan suatu bilangan konstan (misalnya, dengan nilai interval deret), simpangan baku dapat dihitung, dan kemudian dikalikan dengan bilangan konstan.
  • 4. Jika kita menghitung rata-rata kuadrat deviasi dari nilai berapa pun Dan berbeda sampai taraf tertentu dari rata-rata aritmatika, maka akan selalu lebih besar dari kuadrat rata-rata simpangan yang dihitung dari rata-rata aritmatika. Kuadrat rata-rata deviasi akan lebih besar dengan jumlah tertentu - dengan kuadrat selisih antara rata-rata dan nilai yang diambil secara konvensional.

Variasi suatu karakteristik alternatif terdiri dari ada tidaknya properti yang diteliti dalam satuan populasi. Secara kuantitatif, variasi suatu atribut alternatif dinyatakan dengan dua nilai: keberadaan suatu satuan sifat yang diteliti dilambangkan dengan satu (1), dan ketidakhadirannya dilambangkan dengan nol (0). Proporsi unit yang mempunyai sifat yang diteliti dilambangkan dengan P, dan proporsi unit yang tidak mempunyai sifat tersebut dilambangkan dengan G. Jadi, varians suatu atribut alternatif sama dengan hasil kali proporsi unit yang memiliki properti ini (P) dan proporsi unit yang tidak memiliki properti ini. (G). Variasi populasi terbesar dicapai dalam kasus di mana sebagian dari populasi, yang merupakan 50% dari total volume populasi, memiliki karakteristik, dan bagian lain dari populasi, juga sebesar 50%, tidak memiliki karakteristik tersebut, dan dispersi mencapai nilai maksimum 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 dan o 2 = 0,5 0,5 = 0,25. Batas bawah indikator ini adalah nol, yang sesuai dengan situasi di mana tidak ada variasi dalam agregat. Penerapan praktis varians suatu karakteristik alternatif adalah untuk membangun interval kepercayaan ketika melakukan observasi sampel.

Semakin kecil varians dan deviasi standarnya, maka populasinya akan semakin homogen dan rata-ratanya akan semakin khas. Dalam praktik statistika, seringkali terdapat kebutuhan untuk membandingkan variasi berbagai karakteristik. Misalnya, menarik untuk membandingkan variasi usia pekerja dan kualifikasinya, masa kerja dan upah, biaya dan keuntungan, masa kerja dan produktivitas tenaga kerja, dan lain-lain. Untuk perbandingan seperti itu, indikator variabilitas karakteristik absolut tidak cocok: tidak mungkin membandingkan variabilitas pengalaman kerja, yang dinyatakan dalam tahun, dengan variasi upah, yang dinyatakan dalam rubel. Untuk melakukan perbandingan tersebut, serta perbandingan variabilitas karakteristik yang sama pada beberapa populasi dengan rata-rata aritmatika yang berbeda, digunakan indikator variasi - koefisien osilasi, koefisien variasi linier dan koefisien variasi, yang menunjukkan ukuran fluktuasi nilai ekstrim di sekitar rata-rata.

Koefisien osilasi:

Di mana V R - nilai koefisien osilasi; R- nilai rentang variasi; X -

Koefisien variasi linier".

Di mana Vj- nilai koefisien variasi linier; SAYA - nilai rata-rata deviasi linier; X - nilai rata-rata karakteristik untuk populasi yang diteliti.

Koefisien variasi:

Di mana DIA - koefisien nilai variasi; a adalah nilai simpangan baku; X - nilai rata-rata karakteristik untuk populasi yang diteliti.

Koefisien osilasi adalah perbandingan persentase rentang variasi terhadap nilai rata-rata sifat yang diteliti, dan koefisien variasi linier adalah perbandingan simpangan linier rata-rata terhadap nilai rata-rata sifat yang diteliti, dinyatakan sebagai a persentase. Koefisien variasi adalah persentase simpangan baku terhadap nilai rata-rata karakteristik yang diteliti. Sebagai nilai relatif yang dinyatakan dalam persentase, koefisien variasi digunakan untuk membandingkan derajat variasi berbagai karakteristik. Dengan menggunakan koefisien variasi, homogenitas suatu populasi statistik dinilai. Jika koefisien variasinya kurang dari 33%, maka populasi yang diteliti homogen dan variasinya lemah. Jika koefisien variasi lebih dari 33%, maka populasi yang diteliti bersifat heterogen, variasinya kuat, dan nilai rata-ratanya tidak khas dan tidak dapat dijadikan indikator umum populasi tersebut. Selain itu, koefisien variasi digunakan untuk membandingkan variabilitas suatu sifat dalam populasi yang berbeda. Misalnya, untuk menilai variasi masa kerja pekerja di dua perusahaan. Semakin tinggi nilai koefisien maka variasi karakteristiknya semakin signifikan.

Berdasarkan kuartil yang dihitung, indikator relatif variasi triwulanan juga dapat dihitung dengan menggunakan rumus

di mana Q 2 Dan

Rentang antarkuartil ditentukan oleh rumus

Deviasi kuartil digunakan sebagai pengganti rentang variasi untuk menghindari kerugian yang terkait dengan penggunaan nilai ekstrem:

Untuk rangkaian variasi interval yang tidak sama, kepadatan distribusi juga dihitung. Ini didefinisikan sebagai hasil bagi dari frekuensi atau frekuensi yang sesuai dibagi dengan nilai interval. Dalam deret interval tidak sama, kerapatan distribusi absolut dan relatif digunakan. Kepadatan distribusi absolut adalah frekuensi per satuan panjang interval. Kepadatan distribusi relatif adalah frekuensi per satuan panjang interval.

Semua hal di atas berlaku untuk deret distribusi yang hukum distribusinya dijelaskan dengan baik oleh hukum distribusi normal atau mendekatinya.

Tempat khusus dalam analisis statistik adalah milik penentuan tingkat rata-rata dari karakteristik atau fenomena yang diteliti. Tingkat rata-rata suatu sifat diukur dengan nilai rata-rata.

Nilai rata-rata mencirikan tingkat kuantitatif umum dari karakteristik yang dipelajari dan merupakan properti kelompok dari populasi statistik. Ini meratakan, melemahkan penyimpangan acak dari pengamatan individu dalam satu arah atau lainnya dan menyoroti sifat utama dan khas dari karakteristik yang sedang dipelajari.

Rata-rata banyak digunakan:

1. Menilai status kesehatan penduduk: karakteristik perkembangan fisik (tinggi badan, berat badan, lingkar dada, dll), mengidentifikasi prevalensi dan durasi berbagai penyakit, menganalisis indikator demografi (pergerakan vital penduduk, rata-rata harapan hidup, reproduksi populasi, ukuran populasi rata-rata, dll.).

2. Mempelajari kegiatan institusi kesehatan, tenaga medis dan menilai mutu kerjanya, merencanakan dan menentukan kebutuhan penduduk akan berbagai jenis pelayanan kesehatan (rata-rata jumlah permintaan atau kunjungan per penduduk per tahun, rata-rata lama tinggal suatu pasien di rumah sakit, rata-rata lama pemeriksaan pasien, rata-rata ketersediaan dokter, tempat tidur, dan sebagainya).

3. Untuk mengkarakterisasi keadaan sanitasi dan epidemiologis (rata-rata kandungan debu udara di bengkel, rata-rata luas per orang, rata-rata konsumsi protein, lemak dan karbohidrat, dll).

4. Menentukan indikator medis dan fisiologis dalam kondisi normal dan patologis, saat mengolah data laboratorium, menetapkan keandalan hasil studi sampel dalam studi sosial, higienis, klinis, dan eksperimental.

Perhitungan nilai rata-rata dilakukan berdasarkan rangkaian variasi. Seri variasi adalah populasi statistik yang homogen secara kualitatif, yang unit-unit individualnya mencirikan perbedaan kuantitatif dari karakteristik atau fenomena yang diteliti.

Variasi kuantitatif dapat terdiri dari dua jenis: diskontinyu (diskrit) dan kontinu.

Atribut diskontinyu (diskrit) hanya dinyatakan sebagai bilangan bulat dan tidak boleh memiliki nilai perantara (misalnya, jumlah kunjungan, populasi situs, jumlah anak dalam keluarga, tingkat keparahan penyakit dalam poin , dll.).

Tanda kontinu dapat mengambil nilai apa pun dalam batas tertentu, termasuk nilai pecahan, dan hanya dinyatakan kira-kira (misalnya, berat badan - untuk orang dewasa dapat dibatasi hingga kilogram, dan untuk bayi baru lahir - gram; tinggi badan, tekanan darah, waktu dihabiskan menemui pasien, dan lain-lain).



Nilai digital dari setiap ciri atau fenomena individu yang termasuk dalam rangkaian variasi disebut varian dan dilambangkan dengan huruf V . Notasi lain juga ditemukan dalam literatur matematika, misalnya X atau kamu.

Rangkaian variasi, di mana setiap pilihan ditunjukkan satu kali, disebut sederhana. Seri tersebut digunakan dalam sebagian besar masalah statistik dalam hal pemrosesan data komputer.

Dengan bertambahnya jumlah observasi, nilai varian yang berulang cenderung terjadi. Dalam hal ini, itu dibuat seri variasi yang dikelompokkan, yang menunjukkan jumlah pengulangan (frekuensi, dilambangkan dengan huruf “ R »).

Seri variasi berperingkat terdiri dari pilihan-pilihan yang disusun dalam urutan menaik atau menurun. Seri sederhana dan berkelompok dapat dikompilasi dengan peringkat.

Seri variasi interval disusun untuk mempermudah perhitungan selanjutnya yang dilakukan tanpa menggunakan komputer, dengan jumlah satuan pengamatan yang sangat banyak (lebih dari 1000).

Seri variasi berkelanjutan menyertakan nilai opsi, yang dapat berupa nilai apa pun.

Jika dalam suatu deret variasi nilai-nilai suatu sifat (varian) diberikan dalam bentuk bilangan-bilangan tertentu, maka deret tersebut disebut terpisah.

Ciri-ciri umum dari nilai-nilai sifat yang tercermin dalam deret variasi adalah nilai rata-rata. Diantaranya yang paling banyak digunakan adalah: mean aritmatika M, mode Mo dan median Aku. Masing-masing karakteristik ini unik. Mereka tidak dapat saling menggantikan dan hanya bersama-sama mereka mewakili ciri-ciri rangkaian variasi secara lengkap dan dalam bentuk yang ringkas.

Mode (bulan) sebutkan nilai opsi yang paling sering muncul.

median (Aku) – ini adalah nilai opsi yang membagi rangkaian variasi peringkat menjadi dua (di setiap sisi median terdapat setengah opsi). Dalam kasus yang jarang terjadi, jika terdapat deret variasi simetris, modus dan mediannya sama satu sama lain dan bertepatan dengan nilai mean aritmatika.

Ciri paling khas dari nilai opsi adalah rata-rata aritmatika nilai( M ). Dalam literatur matematika itu dilambangkan .

Rata-rata aritmatika (M, ) adalah ciri kuantitatif umum dari ciri tertentu dari fenomena yang diteliti, yang merupakan populasi statistik yang homogen secara kualitatif. Ada rata-rata aritmatika sederhana dan tertimbang. Rata-rata aritmatika sederhana dihitung untuk rangkaian variasi sederhana dengan menjumlahkan semua opsi dan membagi jumlah ini dengan jumlah total opsi yang termasuk dalam rangkaian variasi ini. Perhitungan dilakukan sesuai dengan rumus:

,

Di mana: M - rata-rata aritmatika sederhana;

Σ V - pilihan jumlah;

N- jumlah observasi.

Dalam deret variasi berkelompok, mean aritmatika tertimbang ditentukan. Rumus untuk menghitungnya:

,

Di mana: M - rata-rata tertimbang aritmatika;

Σ Wakil - jumlah produk varian berdasarkan frekuensinya;

N- jumlah observasi.

Dengan jumlah observasi yang banyak, dalam hal perhitungan manual dapat digunakan metode momen.

Rata-rata aritmatika memiliki sifat-sifat berikut:

· jumlah penyimpangan dari rata-rata ( Σ D ) sama dengan nol (lihat Tabel 15);

· ketika mengalikan (membagi) semua pilihan dengan faktor (pembagi) yang sama, mean aritmatika dikalikan (dibagi) dengan faktor (pembagi) yang sama;

· jika Anda menambahkan (mengurangi) angka yang sama ke semua opsi, rata-rata aritmatika bertambah (berkurang) dengan angka yang sama.

Rata-rata aritmatika, yang diambil sendiri, tanpa memperhitungkan variabilitas deret yang digunakan untuk menghitungnya, mungkin tidak sepenuhnya mencerminkan sifat deret variasi, terutama bila diperlukan perbandingan dengan rata-rata lainnya. Rata-rata yang nilainya mendekati dapat diperoleh dari deret dengan derajat hamburan yang bervariasi. Semakin dekat pilihan individu satu sama lain dalam hal karakteristik kuantitatifnya, semakin sedikit dispersi (osilasi, variabilitas) seri, semakin khas rata-ratanya.

Parameter utama yang memungkinkan kita menilai variabilitas suatu sifat adalah:

· Ruang Lingkup;

· Amplitudo;

· Standar deviasi;

· Koefisien variasi.

Variabilitas suatu sifat dapat diperkirakan berdasarkan jangkauan dan amplitudo rangkaian variasi. Rentang menunjukkan opsi maksimum (V max) dan minimum (V min) dalam rangkaian. Amplitudo (A m) adalah selisih antara pilihan berikut: A m = V max - V min.

Ukuran utama variabilitas suatu deret variasi yang diterima secara umum adalah penyebaran (D ). Tetapi yang paling sering digunakan adalah parameter yang lebih mudah dihitung berdasarkan dispersi - standar deviasi ( σ ). Ini memperhitungkan besarnya deviasi ( D ) setiap deret variasi dari mean aritmatikanya ( d=V - M ).

Karena penyimpangan dari rata-rata dapat bernilai positif dan negatif, maka bila dijumlahkan akan menghasilkan nilai “0” (S d=0). Untuk menghindari hal ini, nilai deviasi ( D) dipangkatkan kedua dan dirata-ratakan. Jadi, dispersi suatu deret variasi adalah kuadrat rata-rata deviasi suatu varian dari mean aritmatika dan dihitung dengan rumus:

.

Ini adalah karakteristik variabilitas yang paling penting dan digunakan untuk menghitung banyak kriteria statistik.

Karena dispersi dinyatakan sebagai kuadrat deviasi, nilainya tidak dapat digunakan untuk membandingkan dengan mean aritmatika. Untuk tujuan ini digunakan deviasi standar, yang ditandai dengan tanda “Sigma” ( σ ). Ini mencirikan simpangan rata-rata semua varian deret variasi dari mean aritmatika dalam satuan yang sama dengan mean itu sendiri, sehingga dapat digunakan bersama-sama.

Simpangan baku ditentukan dengan rumus:

Rumus yang ditentukan diterapkan ketika jumlah observasi ( N ) lebih dari 30. Dengan angka yang lebih kecil N nilai deviasi standar akan memiliki kesalahan yang terkait dengan offset matematis ( N - 1). Dalam hal ini, hasil yang lebih akurat dapat diperoleh dengan memperhitungkan bias dalam rumus menghitung simpangan baku:

deviasi standar (S ) adalah perkiraan simpangan baku suatu variabel acak X relatif terhadap ekspektasi matematisnya berdasarkan estimasi variansnya yang tidak bias.

Dengan nilai-nilai N > 30 standar deviasi ( σ ) dan simpangan baku ( S ) akan sama ( σ =s ). Oleh karena itu, dalam sebagian besar manual praktis, kriteria ini dianggap memiliki arti yang berbeda. Di Excel, deviasi standar dapat dihitung menggunakan fungsi =STDEV(range). Dan untuk menghitung simpangan baku, Anda perlu membuat rumus yang sesuai.

Rata-rata kuadrat atau deviasi standar memungkinkan Anda menentukan seberapa besar perbedaan nilai suatu karakteristik dari nilai rata-rata. Misalkan ada dua kota dengan suhu rata-rata harian yang sama di musim panas. Salah satu kota ini terletak di pesisir pantai, dan kota lainnya terletak di benua. Diketahui bahwa di kota-kota yang terletak di pesisir pantai, perbedaan suhu siang hari lebih kecil dibandingkan di kota-kota yang terletak di pedalaman. Oleh karena itu, simpangan baku suhu siang hari untuk kota pesisir akan lebih kecil dibandingkan kota kedua. Dalam praktiknya, hal ini berarti suhu udara rata-rata setiap hari di kota yang terletak di benua akan lebih berbeda dari rata-rata dibandingkan di kota di pesisir pantai. Selain itu, deviasi standar memungkinkan Anda memperkirakan kemungkinan penyimpangan suhu dari rata-rata dengan tingkat probabilitas yang diperlukan.

Menurut teori probabilitas, dalam fenomena yang mematuhi hukum distribusi normal, terdapat hubungan yang erat antara nilai mean aritmatika, deviasi standar, dan opsi ( aturan tiga sigma). Misalnya, 68,3% nilai karakteristik yang bervariasi berada dalam M ± 1 σ , 95,5% - dalam M ± 2 σ dan 99,7% - dalam M ± 3 σ .

Nilai deviasi standar memungkinkan seseorang untuk menilai sifat homogenitas rangkaian variasi dan kelompok belajar. Jika nilai simpangan bakunya kecil, maka hal ini menunjukkan homogenitas yang cukup tinggi dari fenomena yang diteliti. Rata-rata aritmatika dalam hal ini harus dianggap cukup khas untuk deret variasi tertentu. Namun, nilai sigma yang terlalu kecil membuat orang berpikir tentang seleksi observasi buatan. Dengan sigma yang sangat besar, mean aritmatika mencirikan rangkaian variasi pada tingkat yang lebih rendah, yang menunjukkan variabilitas yang signifikan dari karakteristik atau fenomena yang diteliti atau heterogenitas kelompok yang diteliti. Namun perbandingan nilai simpangan baku hanya dimungkinkan untuk fitur-fitur yang berdimensi sama. Memang jika kita membandingkan keragaman bobot anak baru lahir dan orang dewasa, kita akan selalu mendapatkan nilai sigma yang lebih tinggi pada orang dewasa.

Perbandingan variabilitas fitur dimensi yang berbeda dapat dilakukan dengan menggunakan koefisien variasi. Ini menyatakan keragaman sebagai persentase rata-rata, memungkinkan perbandingan antara sifat-sifat yang berbeda. Koefisien variasi dalam literatur kedokteran ditunjukkan dengan tanda “ DENGAN ", dan dalam matematika" ay"dan dihitung dengan rumus:

.

Nilai koefisien variasi kurang dari 10% menunjukkan hamburan kecil, dari 10 hingga 20% - tentang rata-rata, lebih dari 20% - tentang hamburan kuat di sekitar rata-rata aritmatika.

Rata-rata aritmatika biasanya dihitung berdasarkan data dari populasi sampel. Dengan penelitian berulang-ulang, di bawah pengaruh fenomena acak, mean aritmatika dapat berubah. Hal ini disebabkan oleh kenyataan bahwa, pada umumnya, hanya sebagian dari kemungkinan unit observasi yang dipelajari, yaitu populasi sampel. Informasi tentang semua unit yang mungkin mewakili fenomena yang diteliti dapat diperoleh dengan mempelajari seluruh populasi, yang tidak selalu memungkinkan. Pada saat yang sama, untuk tujuan menggeneralisasi data eksperimen, nilai rata-rata populasi umum menjadi perhatian. Oleh karena itu, untuk merumuskan kesimpulan umum tentang fenomena yang diteliti, hasil yang diperoleh berdasarkan populasi sampel harus ditransfer ke populasi umum dengan menggunakan metode statistik.

Untuk menentukan tingkat kesesuaian antara suatu penelitian sampel dan populasi umum, perlu diperkirakan besarnya kesalahan yang pasti timbul selama observasi sampel. Kesalahan ini disebut " Kesalahan keterwakilan"atau" Kesalahan rata-rata dari mean aritmatika. Sebenarnya perbedaan antara rata-rata yang diperoleh dari observasi statistik selektif dan nilai serupa yang akan diperoleh dari penelitian berkelanjutan terhadap objek yang sama, yaitu. ketika mempelajari populasi umum. Karena rata-rata sampel adalah variabel acak, perkiraan tersebut dilakukan dengan tingkat probabilitas yang dapat diterima oleh peneliti. Dalam penelitian medis setidaknya 95%.

Kesalahan keterwakilan tidak bisa disamakan dengan kesalahan registrasi atau kesalahan perhatian (terpeleset, salah perhitungan, kesalahan ketik, dll.), yang harus diminimalkan dengan metode dan alat yang memadai yang digunakan selama percobaan.

Besarnya kesalahan keterwakilan bergantung pada ukuran sampel dan variabilitas sifat. Semakin besar jumlah observasi maka semakin dekat sampel dengan populasi dan semakin kecil kesalahannya. Semakin banyak variabel tandanya, semakin besar kesalahan statistiknya.

Dalam prakteknya, untuk menentukan kesalahan keterwakilan pada deret variasi digunakan rumus sebagai berikut:

,

Di mana: M – kesalahan keterwakilan;

σ – deviasi standar;

N– jumlah observasi dalam sampel.

Rumusnya menunjukkan bahwa besar kecilnya rata-rata kesalahan berbanding lurus dengan simpangan baku, yaitu variabilitas sifat yang diteliti, dan berbanding terbalik dengan akar kuadrat jumlah pengamatan.

Saat melakukan analisis statistik berdasarkan penghitungan nilai relatif, tidak diperlukan pembuatan rangkaian variasi. Dalam hal ini, penentuan kesalahan rata-rata untuk indikator relatif dapat dilakukan dengan menggunakan rumus yang disederhanakan:

,

Di mana: R– nilai indikator relatif, dinyatakan dalam persentase, ppm, dll.;

Q– kebalikan dari P dan dinyatakan sebagai (1-P), (100-P), (1000-P), dan seterusnya, bergantung pada dasar penghitungan indikator;

N– jumlah observasi dalam populasi sampel.

Namun, rumus yang ditentukan untuk menghitung kesalahan keterwakilan untuk nilai relatif hanya dapat diterapkan jika nilai indikator lebih kecil dari nilai dasarnya. Dalam beberapa kasus penghitungan indikator intensif, kondisi ini tidak terpenuhi, dan indikator tersebut dapat dinyatakan sebagai angka yang lebih dari 100% atau 1000%. Dalam situasi seperti itu, deret variasi dibuat dan kesalahan keterwakilan dihitung menggunakan rumus nilai rata-rata berdasarkan simpangan baku.

Peramalan nilai mean aritmatika dalam suatu populasi dilakukan dengan menunjukkan dua nilai – minimum dan maksimum. Nilai ekstrim dari kemungkinan penyimpangan ini, di mana nilai rata-rata populasi yang diinginkan dapat berfluktuasi, disebut “ Batasan kepercayaan».

Postulat teori probabilitas telah membuktikan bahwa dengan distribusi suatu karakteristik yang normal dengan probabilitas 99,7%, nilai ekstrim simpangan rata-rata tidak akan lebih besar dari nilai tiga kali lipat kesalahan keterwakilan ( M ± 3 M ); dalam 95,5% – tidak lebih dari dua kali kesalahan rata-rata dari nilai rata-rata ( M ± 2 M ); di 68,3% – tidak lebih dari satu kesalahan rata-rata ( M ± 1 M ) (Gbr. 9).

P%

Beras. 9. Kepadatan probabilitas berdistribusi normal.

Perhatikan bahwa pernyataan di atas hanya berlaku untuk fitur yang mematuhi hukum distribusi Gaussian normal.

Sebagian besar penelitian eksperimental, termasuk di bidang kedokteran, dikaitkan dengan pengukuran, yang hasilnya dapat mengambil hampir semua nilai dalam interval tertentu, oleh karena itu, biasanya, mereka dijelaskan oleh model variabel acak kontinu. Dalam hal ini, sebagian besar metode statistik mempertimbangkan distribusi kontinu. Salah satu distribusi tersebut, yang memiliki peran mendasar dalam statistik matematika, adalah distribusi normal, atau Gaussian.

Hal ini disebabkan oleh beberapa alasan.

1. Pertama-tama, banyak pengamatan eksperimental yang berhasil dijelaskan dengan menggunakan distribusi normal. Perlu segera dicatat bahwa tidak ada distribusi data empiris yang benar-benar normal, karena variabel acak yang terdistribusi normal berkisar dari hingga , yang tidak pernah ditemui dalam praktik. Namun, distribusi normal sering kali berfungsi dengan baik sebagai perkiraan.

Baik berat badan, tinggi badan, dan parameter fisiologis tubuh manusia lainnya diukur, hasilnya selalu dipengaruhi oleh sejumlah besar faktor acak (penyebab alami dan kesalahan pengukuran).

Selain itu, sebagai aturan, pengaruh masing-masing faktor ini tidak signifikan. Pengalaman menunjukkan bahwa hasil dalam kasus seperti ini akan berdistribusi normal.

2. Banyak distribusi yang terkait dengan pengambilan sampel acak menjadi normal seiring dengan meningkatnya volume pengambilan sampel acak.

3. Distribusi normal sangat cocok sebagai perkiraan distribusi kontinu lainnya (misalnya miring).

4. Distribusi normal memiliki sejumlah sifat matematika yang menguntungkan, yang sebagian besar menjamin penggunaannya secara luas dalam statistik.

Pada saat yang sama, perlu dicatat bahwa dalam data medis terdapat banyak distribusi eksperimental yang tidak dapat dijelaskan oleh model distribusi normal. Untuk keperluan tersebut, statistika telah mengembangkan metode yang biasa disebut “Nonparametrik”.

Pemilihan metode statistik yang cocok untuk mengolah data percobaan tertentu harus dilakukan tergantung pada apakah data yang diperoleh termasuk dalam hukum distribusi normal. Pengujian hipotesis subordinasi suatu tanda terhadap hukum distribusi normal dilakukan dengan menggunakan histogram distribusi frekuensi (grafik), serta sejumlah kriteria statistik. Diantaranya: Kriteria asimetri ( );

B Kriteria pengujian kurtosis ( );

G Uji Shapiro–Wilks ( ) .

Analisis sifat sebaran data (disebut juga uji normalitas sebaran) dilakukan untuk setiap parameter. Untuk menilai dengan yakin apakah distribusi suatu parameter sesuai dengan hukum normal, diperlukan unit observasi dalam jumlah yang cukup besar (setidaknya 30 nilai).

Untuk berdistribusi normal, kriteria skewness dan kurtosis mengambil nilai 0. Jika distribusi digeser ke kanan Kriteria asimetri ( > 0 (asimetri positif), dengan Kriteria asimetri ( < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона Kriteria pengujian kurtosis ( =0. Pada Kriteria pengujian kurtosis ( > 0 kurva distribusi lebih tajam jika Kriteria pengujian kurtosis ( < 0 пик более сглаженный, чем функция нормального распределения.

Untuk memeriksa normalitas menggunakan kriteria Shapiro – Wilks, perlu dicari nilai kriteria tersebut menggunakan tabel statistik pada tingkat signifikansi yang diperlukan dan bergantung pada jumlah satuan observasi (derajat kebebasan). Lampiran 1. Hipotesis normalitas ditolak pada nilai kecil dari kriteria ini, sebagai aturan, di w <0,8.

Seri variasi adalah serangkaian nilai numerik suatu karakteristik.

Ciri-ciri utama deret variasi: v – varian, p – frekuensi kemunculannya.

Jenis seri variasi:

    menurut frekuensi kemunculan opsi: sederhana - opsi muncul satu kali, berbobot - opsi muncul dua kali atau lebih;

    berdasarkan lokasi opsi: diberi peringkat - opsi disusun dalam urutan menurun dan menaik, tidak diberi peringkat - opsi ditulis tanpa urutan tertentu;

    dengan menggabungkan opsi ke dalam grup: dikelompokkan - opsi digabungkan ke dalam grup, tidak dikelompokkan - opsi tidak digabungkan ke dalam grup;

    berdasarkan ukuran pilihan: kontinu - pilihan dinyatakan sebagai bilangan bulat dan pecahan, diskrit - pilihan dinyatakan sebagai bilangan bulat, kompleks - pilihan diwakili oleh nilai relatif atau rata-rata.

Seri variasi disusun dan diformalkan untuk tujuan menghitung nilai rata-rata.

Bentuk pencatatan rangkaian variasi:

8. Nilai rata-rata, jenis, cara perhitungan, penerapannya dalam bidang kesehatan

Nilai rata-rata– karakteristik generalisasi kumulatif dari karakteristik kuantitatif. Penerapan rata-rata:

1. Mengkarakterisasi organisasi kerja institusi medis dan mengevaluasi kegiatannya:

a) di klinik: indikator beban kerja dokter, rata-rata jumlah kunjungan, rata-rata jumlah penduduk di wilayah tersebut;

b) di rumah sakit: rata-rata jumlah hari tempat tidur dibuka per tahun; rata-rata lama rawat inap di rumah sakit;

c) di pusat kebersihan, epidemiologi dan kesehatan masyarakat: rata-rata luas (atau kapasitas kubik) per orang, rata-rata standar gizi (protein, lemak, karbohidrat, vitamin, garam mineral, kalori), norma dan standar sanitasi, dll.;

2. Mengkarakterisasi perkembangan fisik (ciri-ciri utama antropometri, morfologi dan fungsional);

3. Menentukan parameter medis dan fisiologis tubuh dalam kondisi normal dan patologis dalam studi klinis dan eksperimental.

4. Dalam penelitian ilmiah khusus.

Perbedaan antara nilai rata-rata dan indikator:

1. Koefisien mencirikan suatu karakteristik alternatif yang hanya terjadi pada bagian tertentu dari populasi statistik, yang mungkin terjadi atau tidak.

Nilai rata-rata mencakup karakteristik yang umum bagi semua anggota tim, tetapi dengan derajat yang berbeda-beda (berat badan, tinggi badan, hari perawatan di rumah sakit).

2. Koefisien digunakan untuk mengukur karakteristik kualitatif. Nilai rata-rata – untuk berbagai karakteristik kuantitatif.

Jenis rata-rata:

    mean aritmatika, ciri-cirinya adalah deviasi standar dan mean error

    modus dan median. Mode (Bulan)– sesuai dengan nilai karakteristik yang lebih sering muncul dibandingkan karakteristik lainnya dalam populasi tertentu. Median (Saya)– nilai suatu karakteristik yang menempati nilai median dalam suatu populasi tertentu. Ini membagi rangkaian menjadi 2 bagian yang sama sesuai dengan jumlah observasi. Rata-rata aritmatika (M)– tidak seperti modus dan median, modus dan median didasarkan pada semua pengamatan yang dilakukan, oleh karena itu merupakan karakteristik penting untuk keseluruhan distribusi.

    jenis rata-rata lain yang digunakan dalam studi khusus: akar rata-rata kuadrat, kubik, harmonik, geometri, progresif.

Rata-rata aritmatika mencirikan tingkat rata-rata populasi statistik.

Untuk rangkaian sederhana, dimana

∑v – pilihan jumlah,

n – jumlah observasi.

untuk deret berbobot, dimana

∑vр – jumlah produk dari setiap opsi dan frekuensi kemunculannya

n – jumlah observasi.

Deviasi standar mean aritmatika atau sigma (σ) mencirikan keragaman suatu karakteristik

- untuk baris sederhana

Σd 2 – jumlah kuadrat selisih antara mean aritmatika dan setiap opsi (d = │M-V│)

n – jumlah observasi

- untuk baris yang ditimbang

∑d 2 p – jumlah hasil kali kuadrat selisih antara rata-rata aritmatika dan setiap opsi serta frekuensi kemunculannya,

n – jumlah observasi.

Derajat keanekaragaman dapat dinilai dari besarnya koefisien variasi
. Lebih dari 20% merupakan keanekaragaman kuat, 10-20% merupakan keanekaragaman sedang, dan kurang dari 10% merupakan keanekaragaman lemah.

Jika kita menjumlahkan dan mengurangi satu sigma (M ± 1σ) dengan nilai rata-rata aritmatika, maka dengan distribusi normal, setidaknya 68,3% dari semua varian (pengamatan) akan berada dalam batas tersebut, yang dianggap sebagai norma untuk fenomena yang sedang dipelajari. . Jika k 2 ± 2σ, maka 95,5% dari seluruh observasi akan berada dalam batas tersebut, dan jika k M ± 3σ, maka 99,7% dari seluruh observasi akan berada dalam batas tersebut. Jadi, simpangan baku adalah simpangan baku yang memungkinkan kita meramalkan kemungkinan terjadinya suatu nilai karakteristik yang sedang dipelajari yang berada dalam batas-batas yang ditentukan.

Kesalahan rata-rata dari mean aritmatika atau bias keterwakilan. Untuk deret sederhana berbobot dan aturan momen:

.

Untuk menghitung nilai rata-rata, diperlukan: homogenitas bahan, jumlah pengamatan yang cukup. Jika jumlah observasi kurang dari 30, n-1 digunakan dalam rumus menghitung σ dan m.

Ketika menilai hasil yang diperoleh berdasarkan besarnya kesalahan rata-rata, digunakan koefisien kepercayaan, yang memungkinkan untuk menentukan kemungkinan jawaban yang benar, yaitu menunjukkan bahwa nilai kesalahan pengambilan sampel yang dihasilkan tidak akan lebih besar dari kesalahan sebenarnya yang dibuat sebagai hasil pengamatan terus menerus. Akibatnya, dengan meningkatnya probabilitas kepercayaan, lebar interval kepercayaan meningkat, yang, pada gilirannya, meningkatkan keyakinan penilaian dan dukungan hasil yang diperoleh.

Baris dibangun secara kuantitatif, dipanggil variasional.

Seri distribusi terdiri dari pilihan(nilai karakteristik) dan frekuensi(jumlah kelompok). Frekuensi yang dinyatakan sebagai nilai relatif (pecahan, persentase) disebut frekuensi. Jumlah seluruh frekuensi disebut volume deret distribusi.

Berdasarkan jenisnya, rangkaian distribusinya dibagi menjadi terpisah(dibangun berdasarkan nilai-nilai karakteristik yang terputus-putus) dan selang(berdasarkan nilai karakteristik yang berkesinambungan).

Seri variasi mewakili dua kolom (atau baris); salah satunya memberikan nilai individu dari suatu karakteristik yang bervariasi, disebut varian dan dilambangkan dengan X; dan di sisi lain - angka absolut yang menunjukkan berapa kali (seberapa sering) setiap opsi muncul. Indikator pada kolom kedua disebut frekuensi dan secara konvensional dilambangkan dengan f. Mari kita perhatikan sekali lagi bahwa di kolom kedua Anda dapat menggunakan indikator relatif yang mencirikan bagian frekuensi opsi individu dalam jumlah total frekuensi. Indikator relatif ini disebut frekuensi dan secara kondisional dilambangkan dengan ω. Jumlah semua frekuensi dalam hal ini sama dengan satu. Namun, frekuensi juga dapat dinyatakan sebagai persentase, dan kemudian jumlah semua frekuensi menghasilkan 100%.

Jika varian suatu deret variasi dinyatakan dalam bentuk besaran diskrit, maka deret variasi tersebut disebut terpisah.

Untuk karakteristik kontinu, deret variasi dikonstruksikan sebagai selang, yaitu nilai atribut di dalamnya dinyatakan “dari… ke…”. Dalam hal ini, nilai minimum karakteristik dalam interval tersebut disebut batas bawah interval, dan maksimum disebut batas atas.

Seri variasi interval juga dibuat untuk karakteristik diskrit yang bervariasi dalam rentang yang luas. Seri interval bisa dengan setara Dan tidak setara secara berkala.

Mari kita perhatikan bagaimana nilai interval yang sama ditentukan. Mari kita perkenalkan notasi berikut:

Saya– ukuran interval;

- nilai maksimum karakteristik untuk satuan populasi;

– nilai minimum karakteristik satuan populasi;

N - jumlah kelompok yang dialokasikan.

, jika n diketahui.

Jika jumlah kelompok yang akan dibedakan sulit ditentukan sebelumnya, maka untuk menghitung nilai interval yang optimal dengan jumlah populasi yang cukup, dapat direkomendasikan rumus yang dikemukakan oleh Sturgess pada tahun 1926:

n = 1+ 3,322 log N, dimana N adalah jumlah unit agregat.

Besar kecilnya interval yang tidak sama ditentukan dalam setiap kasus, dengan mempertimbangkan karakteristik objek penelitian.

Distribusi sampel statistik panggil daftar opsi dan frekuensi yang sesuai (atau frekuensi relatif).

Distribusi statistik sampel dapat ditentukan dalam bentuk tabel, kolom pertama berisi opsi, dan kolom kedua berisi frekuensi yang sesuai dengan opsi ini. ni, atau frekuensi relatif pi .

Distribusi statistik sampel

Deret interval adalah deret variasi yang nilai-nilai sifat yang mendasari pembentukannya dinyatakan dalam batas (interval) tertentu. Frekuensi dalam hal ini tidak mengacu pada nilai individual dari atribut, tetapi pada keseluruhan interval.

Deret distribusi interval dibangun berdasarkan karakteristik kuantitatif kontinu, serta karakteristik diskrit yang bervariasi dalam batas signifikan.

Deret interval dapat direpresentasikan dengan distribusi statistik suatu sampel yang menunjukkan interval dan frekuensi yang sesuai. Dalam hal ini, jumlah frekuensi varian yang termasuk dalam interval ini diambil sebagai frekuensi interval.

Saat mengelompokkan berdasarkan karakteristik kontinu kuantitatif, penting untuk menentukan ukuran interval.

Selain mean sampel dan varians sampel, karakteristik deret variasi lainnya juga digunakan.

Mode Varian yang mempunyai frekuensi tertinggi disebut.

Seri distribusi statistik– ini adalah distribusi unit-unit populasi yang tertata ke dalam kelompok-kelompok menurut karakteristik tertentu yang bervariasi.
Tergantung pada karakteristik yang mendasari pembentukan rangkaian distribusi, ada deret distribusi atributif dan variasional.

Adanya kesamaan ciri menjadi dasar terbentuknya populasi statistik, yang merupakan hasil deskripsi atau pengukuran ciri-ciri umum objek penelitian.

Pokok kajian dalam statistika adalah sifat atau sifat statistik yang berubah-ubah (bervariasi).

Jenis karakteristik statistik.

Deret distribusi disebut atributif dibangun sesuai dengan kriteria kualitas. Atributif– ini adalah tanda yang memiliki nama (misalnya profesi: penjahit, guru, dll).
Rangkaian distribusi biasanya disajikan dalam bentuk tabel. Dalam tabel 2.8 menunjukkan rangkaian distribusi atribut.
Tabel 2.8 - Distribusi jenis bantuan hukum yang diberikan oleh pengacara kepada warga negara di salah satu wilayah Federasi Rusia.

Seri variasi– ini adalah nilai karakteristik (atau interval nilai) dan frekuensinya.
Deret variasi adalah deret distribusi, dibangun atas dasar kuantitatif. Setiap rangkaian variasi terdiri dari dua elemen: opsi dan frekuensi.
Varian dianggap sebagai nilai individual dari suatu karakteristik yang diperlukan dalam suatu rangkaian variasi.
Frekuensi adalah jumlah pilihan individu atau setiap kelompok rangkaian variasi, mis. Ini adalah angka yang menunjukkan seberapa sering opsi tertentu muncul dalam rangkaian distribusi. Jumlah semua frekuensi menentukan ukuran seluruh populasi, volumenya.
Frekuensi adalah frekuensi yang dinyatakan sebagai pecahan suatu satuan atau persentase dari total. Dengan demikian, jumlah frekuensinya sama dengan 1 atau 100%. Rangkaian variasi memungkinkan seseorang memperkirakan bentuk hukum distribusi berdasarkan data sebenarnya.

Tergantung pada sifat variasi sifat tersebut, ada deret variasi diskrit dan interval.
Contoh deret variasi diskrit diberikan dalam tabel. 2.9.
Tabel 2.9 - Distribusi keluarga berdasarkan jumlah kamar yang ditempati di apartemen individu pada tahun 1989 di Federasi Rusia.

Kolom pertama tabel menyajikan pilihan rangkaian variasi diskrit, kolom kedua berisi frekuensi rangkaian variasi, dan kolom ketiga berisi indikator frekuensi.

Seri variasi

Karakteristik kuantitatif tertentu dipelajari pada populasi umum. Sampel volume diekstraksi secara acak darinya N, yaitu jumlah elemen sampel sama dengan N. Pada tahap pertama pemrosesan statistik, mulai sampel, yaitu pemesanan nomor x 1 , x 2 , …, xn Naik. Setiap nilai yang diamati x saya ditelepon pilihan. Frekuensi saya saya adalah jumlah observasi dari nilai tersebut x saya dalam sampel. Frekuensi relatif (frekuensi) dengan saya adalah rasio frekuensi saya saya untuk ukuran sampel N: .
Saat mempelajari deret variasi, konsep frekuensi akumulasi dan frekuensi akumulasi juga digunakan. Membiarkan X beberapa nomor. Lalu jumlah pilihan , yang nilainya lebih kecil X, disebut frekuensi akumulasi: untuk x i N disebut frekuensi akumulasi w i max.
Suatu karakteristik disebut variabel diskrit jika nilai individualnya (varian) berbeda satu sama lain dengan nilai berhingga tertentu (biasanya bilangan bulat). Deret variasi dari sifat tersebut disebut deret variasi diskrit.

Tabel 1. Gambaran umum rangkaian variasi frekuensi diskrit

Nilai-nilai karakteristikx saya x 1 x 2 xn
Frekuensisaya saya m 1 m 2 M N

Suatu karakteristik disebut bervariasi terus menerus jika nilainya berbeda satu sama lain dengan jumlah yang kecil, yaitu. atribut dapat mengambil nilai apa pun dalam interval tertentu. Deret variasi kontinu untuk suatu karakteristik disebut interval.

Tabel 2. Gambaran umum rangkaian variasi interval frekuensi

Tabel 3. Gambar grafis rangkaian variasi

BarisPoligon atau histogramFungsi distribusi empiris
Diskrit
Selang
Dengan meninjau hasil observasi, ditentukan berapa banyak nilai opsi yang termasuk dalam setiap interval tertentu. Diasumsikan bahwa setiap interval milik salah satu ujungnya: baik dalam semua kasus kiri (lebih sering) atau dalam semua kasus kanan, dan frekuensi atau frekuensi menunjukkan jumlah opsi yang terdapat dalam batas yang ditentukan. Perbedaan aku – aku +1 disebut interval parsial. Untuk menyederhanakan perhitungan selanjutnya, deret variasi interval dapat diganti dengan deret diskrit bersyarat. Dalam hal ini, nilai rata-rata Saya-interval diambil sebagai pilihan x saya, dan frekuensi interval yang sesuai saya saya– untuk frekuensi interval ini.
Untuk representasi grafis deret variasi, yang paling umum digunakan adalah poligon, histogram, kurva kumulatif, dan fungsi distribusi empiris.

Dalam tabel 2.3 (Pengelompokan penduduk Rusia berdasarkan pendapatan per kapita rata-rata pada bulan April 1994) disajikan seri variasi interval.
Lebih mudah untuk menganalisis rangkaian distribusi menggunakan gambar grafis, yang memungkinkan seseorang menilai bentuk distribusi. Representasi visual dari sifat perubahan frekuensi deret variasi diberikan oleh poligon dan histogram.
Poligon digunakan saat menggambarkan rangkaian variasi diskrit.
Sebagai contoh, mari kita gambarkan secara grafis distribusi persediaan perumahan menurut jenis apartemen (Tabel 2.10).
Tabel 2.10 - Distribusi persediaan perumahan di wilayah perkotaan menurut jenis apartemen (angka bersyarat).


Beras. Area distribusi perumahan


Tidak hanya nilai frekuensinya, tetapi frekuensi deret variasinya juga dapat diplot pada sumbu ordinat.
Histogram digunakan untuk menggambarkan rangkaian variasi interval. Saat membuat histogram, nilai interval diplot pada sumbu absis, dan frekuensi digambarkan oleh persegi panjang yang dibangun pada interval yang sesuai. Ketinggian kolom dalam hal interval yang sama harus sebanding dengan frekuensi. Histogram adalah grafik yang suatu deret digambarkan sebagai batang-batang yang berdekatan satu sama lain.
Mari kita gambarkan secara grafis deret distribusi interval yang diberikan dalam tabel. 2.11.
Tabel 2.11 - Distribusi keluarga berdasarkan luas tempat tinggal per orang (angka bersyarat).
Tidak hal/hal Kelompok keluarga berdasarkan ukuran ruang hidup per orang Jumlah keluarga dengan ukuran ruang hidup tertentu Jumlah kumulatif keluarga
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Beras. 2.2. Histogram sebaran keluarga menurut luas tempat tinggal per orang


Dengan menggunakan data dari rangkaian akumulasi (Tabel 2.11), kami membangun mengumpulkan distribusi.


Beras. 2.3. Distribusi kumulatif keluarga berdasarkan luas tempat tinggal per orang


Representasi deret variasi dalam bentuk kumulat sangat efektif untuk deret variasi yang frekuensinya dinyatakan sebagai pecahan atau persentase dari jumlah frekuensi deret tersebut.
Jika kita mengubah sumbu ketika secara grafis menggambarkan deret variasi dalam bentuk kumulatif, maka kita peroleh ogiva. Pada Gambar. 2.4 menunjukkan ogif yang dibuat berdasarkan data pada Tabel. 2.11.
Histogram dapat diubah menjadi poligon distribusi dengan mencari titik tengah sisi-sisi persegi panjang dan kemudian menghubungkan titik-titik tersebut dengan garis lurus. Poligon distribusi yang dihasilkan ditunjukkan pada Gambar. 2.2 dengan garis putus-putus.
Saat membuat histogram distribusi deret variasi dengan interval yang tidak sama, bukan frekuensi yang diplot sepanjang sumbu ordinat, tetapi kepadatan distribusi karakteristik dalam interval yang sesuai.
Kepadatan distribusi adalah frekuensi yang dihitung per satuan lebar interval, yaitu. berapa banyak satuan dalam setiap kelompok per satuan nilai interval. Contoh penghitungan kepadatan distribusi disajikan pada tabel. 2.12.
Tabel 2.12 - Distribusi perusahaan berdasarkan jumlah karyawan (angka bersyarat)
Tidak hal/hal Kelompok perusahaan berdasarkan jumlah karyawan, orang. Jumlah perusahaan Ukuran interval, kawan. Kepadatan distribusi
A 1 2 3=1/2
1 Hingga 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Dapat juga digunakan untuk merepresentasikan rangkaian variasi secara grafis kurva kumulatif. Dengan menggunakan cumulate (kurva penjumlahan), serangkaian frekuensi akumulasi digambarkan. Frekuensi kumulatif ditentukan dengan menjumlahkan frekuensi antar kelompok secara berurutan dan menunjukkan berapa banyak unit dalam populasi yang memiliki nilai atribut tidak lebih besar dari nilai yang dipertimbangkan.


Beras. 2.4. Ogive distribusi keluarga berdasarkan ukuran ruang hidup per orang

Saat membuat kumulat deret variasi interval, varian deret tersebut diplot sepanjang sumbu absis, dan frekuensi akumulasi diplot sepanjang sumbu ordinat.



Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!