Ayrık bir varyasyon serisinin hazırlanması. İstatistiksel gruplamaların oluşturulmasına ilişkin ilkeler

Araştırmacı, modern bilimsel gelişmeleri gerçekleştirirken özellikle önemli olan büyük miktarda bilgiyi işlerken, kaynak verileri doğru şekilde gruplamak gibi ciddi bir görevle karşı karşıyadır. Veriler doğası gereği ayrıksa, gördüğümüz gibi hiçbir sorun ortaya çıkmaz - yalnızca her özelliğin sıklığını hesaplamanız gerekir. Eğer incelenen özellik mevcutsa sürekli karakter (pratikte daha yaygın olan) ise, özellik gruplandırma aralıklarının optimum sayısını seçmek hiçbir şekilde önemsiz bir iş değildir.

Sürekli rastgele değişkenleri gruplandırmak için, özelliğin tüm varyasyon aralığı belirli sayıda aralığa bölünür. İle.

Gruplandırılmış aralık (sürekli) varyasyon serisiözniteliğin () değerine göre sıralanan aralıklar olarak adlandırılır; burada r'inci aralığa giren gözlem sayıları veya göreceli frekanslar (), karşılık gelen frekanslarla () birlikte gösterilir:

Karakteristik değer aralıkları
mi frekansı

Histogram Ve birikim (ogiva), tarafımızdan ayrıntılı olarak tartışılan veriler, veri görselleştirmenin mükemmel bir yoludur ve verilerin yapısı hakkında temel bir fikir edinmenizi sağlar. Bu tür grafikler (Şekil 1.15), sürekli veriler için ayrık verilerle aynı şekilde oluşturulur, yalnızca sürekli verilerin olası değerlerin bölgesini tamamen doldurduğu ve herhangi bir değer aldığı dikkate alınır.

Pirinç. 1.15.

Bu yüzden histogramdaki ve kümülatifteki sütunlar birbirine değmeli ve nitelik değerlerinin mümkün olan tüm aralıklara uymadığı alanlar içermemelidir(yani histogram ve kümülatlar, apsis ekseni boyunca, Şekil 1.16'da olduğu gibi, incelenen değişkenin değerlerini içermeyen "deliklere" sahip olmamalıdır). Çubuğun yüksekliği frekansa (belirli bir aralığa düşen gözlemlerin sayısına veya bağıl frekansa) yani gözlemlerin oranına karşılık gelir. Aralıklar kesişmemeli ve genellikle aynı genişliktedir.

Pirinç. 1.16.

Histogram ve çokgen, olasılık yoğunluk eğrisinin (diferansiyel fonksiyon) yaklaşık değerleridir f(x) Olasılık teorisi kapsamında dikkate alınan teorik dağılım. Bu nedenle, niceliksel sürekli verilerin birincil istatistiksel işlenmesinde bunların yapısı çok önemlidir - görünümlerine göre varsayımsal dağıtım yasasını yargılayabiliriz.

Kümülat – bir aralık değişim serisinin birikmiş frekanslarının (frekanslarının) bir eğrisi. Kümülatif dağılım fonksiyonunun grafiği, kümülatif dağılımla karşılaştırılır. F(x) olasılık teorisi dersinde de tartışılmıştır.

Temel olarak, histogram ve kümülat kavramları, özellikle sürekli verilerle ve bunların aralık değişim serileriyle ilişkilidir, çünkü grafikleri sırasıyla olasılık yoğunluk fonksiyonu ve dağılım fonksiyonunun ampirik tahminleridir.

Bir aralık varyasyon serisinin oluşturulması, aralık sayısının belirlenmesiyle başlar. k. Ve bu görev, incelenen konunun belki de en zor, önemli ve tartışmalı olanıdır.

Aralık sayısı çok küçük olmamalıdır, çünkü bu histogramı çok düzgün hale getirecektir ( aşırı yumuşatılmış), orijinal verilerin değişkenliğinin tüm özelliklerini kaybeder - Şekil 2'de. 1.17'de Şekil 1'deki grafiklerin aynı veriler üzerinde nasıl çalıştığını görebilirsiniz. 1.15, daha az sayıda aralığa sahip bir histogram oluşturmak için kullanılır (soldaki grafik).

Aynı zamanda, aralıkların sayısı çok büyük olmamalıdır - aksi takdirde çalışılan verilerin sayısal eksen boyunca dağılım yoğunluğunu tahmin edemeyiz: histogram yetersiz yumuşatılır (az yumuşatılmış), boş aralıklı, düzensiz (bkz. Şekil 1.17, sağdaki grafik).

Pirinç. 1.17.

En çok tercih edilen aralık sayısı nasıl belirlenir?

1926'da Herbert Sturges, incelenen özelliğin orijinal değer kümesini bölmenin gerekli olduğu aralık sayısını hesaplamak için bir formül önerdi. Bu formül gerçekten son derece popüler hale geldi; çoğu istatistik ders kitabı bunu sunuyor ve birçok istatistik paketi bunu varsayılan olarak kullanıyor. Bunun ne kadar haklı olduğu ve her durumda çok ciddi bir sorudur.

Peki Sturges formülü neye dayanıyor?

Binom dağılımını düşünün)