İstatistikte ki kare nedir? Karmaşık hipotezleri test etmek için ki-kare testini kullanma

Pearson'un χ 2 testi, her bir kategoriye giren numunenin gerçek (ortaya çıkan) sonuç sayısı veya niteliksel özellikleri ile çalışılan çalışmada beklenebilecek teorik sayı arasındaki farkların önemini değerlendirmemize olanak tanıyan parametrik olmayan bir yöntemdir. Sıfır hipotezi doğruysa gruplar. Basitçe söylemek gerekirse yöntem, iki veya daha fazla göreceli gösterge (frekanslar, oranlar) arasındaki farkların istatistiksel önemini değerlendirmenize olanak tanır.

1. χ 2 kriterinin gelişim tarihi

Olasılık tablolarını analiz etmek için ki-kare testi, 1900 yılında bir İngiliz matematikçi, istatistikçi, biyolog ve filozof, matematiksel istatistiğin kurucusu ve biyometrinin kurucularından biri tarafından geliştirilmiş ve önerilmiştir. Karl Pearson(1857-1936).

2. Pearson χ 2 testi neden kullanılıyor?

Analizde ki-kare testi kullanılabilir beklenmedik durum tabloları Bir risk faktörünün varlığına bağlı olarak sonuçların sıklığı hakkında bilgi içerir. Örneğin, dört alanlı acil durum tablosuşuna benziyor:

Bir sonuç var (1) Sonuç yok (0) Toplam
Risk faktörü var (1) A B A+B
Risk faktörü yok (0) C D C+D
Toplam A+C B+G A+B+C+D

Böyle bir acil durum tablosu nasıl doldurulur? Küçük bir örneğe bakalım.

Sigara içmenin arteriyel hipertansiyon gelişme riski üzerindeki etkisi üzerine bir çalışma yürütülmektedir. Bu amaçla iki grup denek seçildi; ilkinde günde en az 1 paket sigara içen 70 kişi, ikincisinde ise aynı yaşta sigara içmeyen 80 kişi yer alıyordu. İlk grupta 40 kişinin yüksek tansiyonu vardı. İkincisinde 32 kişide arteriyel hipertansiyon gözlendi. Buna göre, sigara içen grupta normal kan basıncı 30 kişide (70 - 40 = 30), sigara içmeyen grupta ise 48 kişide (80 - 32 = 48) bulundu.

Dört alanlı acil durum tablosunu ilk verilerle dolduruyoruz:

Ortaya çıkan beklenmedik durum tablosunda her satır belirli bir konu grubuna karşılık gelir. Sütunlar arteriyel hipertansiyonu veya normal kan basıncı olan kişilerin sayısını gösterir.

Araştırmacıya verilen görev şudur: Sigara içen ve içmeyenler arasında kan basıncına sahip kişilerin görülme sıklığı arasında istatistiksel olarak anlamlı farklılıklar var mıdır? Bu soruya Pearson ki-kare testinin hesaplanması ve elde edilen değerin kritik değerle karşılaştırılması yoluyla cevap verilebilir.

3. Pearson ki-kare testinin uygulanmasına ilişkin koşullar ve sınırlamalar

  1. Karşılaştırılabilir göstergeler ölçülmeli nominal ölçek(örneğin hastanın cinsiyetinin erkek veya kadın olması) veya sıralı(örneğin, 0'dan 3'e kadar değerler alan arteriyel hipertansiyon derecesi).
  2. Bu yöntem, hem faktör hem de sonuç ikili değişkenler olduğunda, yani yalnızca iki olası değere sahip olduklarında (örneğin, erkek veya kadın cinsiyeti, bir varlığın varlığı veya yokluğu) yalnızca dört alanlı tabloları analiz etmenize olanak sağlar. anamnezde belirli bir hastalık...). Pearson ki-kare testi, bir faktörün ve/veya sonucun üç veya daha fazla değer alması durumunda çok alanlı tabloların analiz edilmesi durumunda da kullanılabilir.
  3. Karşılaştırılan grupların bağımsız olması gerekir, yani öncesi-sonrası gözlemleri karşılaştırırken ki-kare testi kullanılmamalıdır. McNemar testi(ilgili iki popülasyonu karşılaştırırken) veya hesaplanan Cochran'ın Q testi(üç veya daha fazla grubun karşılaştırılması durumunda).
  4. Dört alanlı tabloları analiz ederken beklenen değerler her hücrede en az 10 adet olmalıdır. En az bir hücrede beklenen olay 5'ten 9'a kadar bir değer alıyorsa ki-kare testi hesaplanmalıdır. Yates'in değişikliğiyle. En az bir hücrede beklenen fenomen 5'ten azsa analizde şu değer kullanılmalıdır: Fisher'in kesin testi.
  5. Çok alanlı tablolar analiz edilirken hücrelerin %20'sinden fazlasında beklenen gözlem sayısı 5'ten az olmamalıdır.

4. Pearson ki-kare testi nasıl hesaplanır?

Ki-kare testini hesaplamak için ihtiyacınız olan:

Bu algoritma hem dört alanlı hem de çok alanlı tablolar için geçerlidir.

5. Pearson ki-kare testinin değeri nasıl yorumlanır?

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

6. Pearson ki-kare testinin hesaplanmasına örnek

Yukarıda tartışılan tabloyu kullanarak sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisinin istatistiksel önemini belirleyelim:

  1. Her hücre için beklenen değerleri hesaplıyoruz:
  2. Pearson ki-kare testinin değerini bulun:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve sayıyı buluyoruz. serbestlik derecesi 1 3,841'dir.
  4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Bu kriterin kullanımı, teorik değerler arasındaki tutarsızlığın böyle bir ölçüsünün (istatistik) kullanılmasına dayanmaktadır. F(X) ve ampirik dağılım F* N (X) dağıtım yasasına yaklaşık olarak uyan χ 2 . Hipotez N 0 Bu istatistiklerin dağılımları analiz edilerek dağılımların tutarlılığı kontrol edilir. Kriterin uygulanması bir istatistiksel serinin oluşturulmasını gerektirir.

O halde örneklemin basamak sayısının yanında istatistiksel olarak sunulmasına izin verin. M. Gözlemlenen isabet oranı Ben- sıra N Ben. Teorik dağıtım yasasına uygun olarak, beklenen isabet sıklığı Ben-inci kategori F Ben. Gözlemlenen ve beklenen frekans arasındaki fark ( N BenF Ben). arasındaki genel farkın derecesini bulmak için F(X) Ve F* N (X) istatistiksel serinin tüm basamaklarındaki kare farkların ağırlıklı toplamını hesaplamak gerekir

Değer χ 2 sınırsız büyütme ile N χ 2 dağılımına sahiptir (χ 2 olarak asimptotik olarak dağıtılmıştır). Bu dağılım serbestlik derecesi sayısına bağlıdır k yani (3.7) ifadesindeki terimlerin bağımsız değerlerinin sayısı. Serbestlik derecesi sayısı sayıya eşittir sen eksi numuneye uygulanan doğrusal ilişkilerin sayısı. Geriye kalan frekansların toplamından herhangi bir frekansın hesaplanabilmesi nedeniyle tek bir bağlantı mevcuttur. M–1 hane. Ayrıca dağılım parametreleri önceden bilinmiyorsa dağılımın örneğe uydurulmasından kaynaklanan başka bir sınırlama söz konusudur. Örnek belirlerse S dağılım parametreleri, o zaman serbestlik derecesi sayısı olacaktır k= MS–1.

Hipotez Kabul Alanı N 0 χ koşuluyla belirlenir 2 < χ 2 (k; A) , nerede χ 2 (k; A) – χ2 dağılımının anlamlılık düzeyi ile kritik noktası A. Tip I hatanın olasılığı A, II. tip hatanın olasılığı açıkça tanımlanamaz çünkü dağılımların eşleşmeyebileceği sonsuz sayıda farklı yol vardır. Testin gücü basamak sayısına ve örneklem büyüklüğüne bağlıdır. Kriterin aşağıdaki durumlarda uygulanması tavsiye edilir: N>200, şu durumlarda kullanıma izin verilir: N>40, kriterin geçerli olduğu koşullar altındadır (kural olarak yanlış sıfır hipotezini reddeder).

Kriterlere göre kontrol algoritması

1. Eşit olasılık yöntemini kullanarak bir histogram oluşturun.

2. Histogramın görünümüne dayanarak bir hipotez ileri sürün

H 0: F(X) = F 0 (X),

H 1: F(X) ¹ F 0 (X),

Nerede F 0 (X) - varsayımsal bir dağılım yasasının olasılık yoğunluğu (örneğin, tek biçimli, üstel, normal).

Yorum. Örneklemdeki tüm sayıların pozitif olması durumunda üstel dağılım yasasına ilişkin hipotez ileri sürülebilir.

3. Formülü kullanarak kriterin değerini hesaplayın

,

Nerede
isabet oranı Ben-inci aralık;

P Ben- rastgele bir değişkenin teorik olasılığı Ben- hipotezin sağlanması şartıyla inci aralık H 0 doğrudur.

Hesaplama formülleri P Benüstel, tek biçimli ve normal yasalar durumunda bunlar sırasıyla eşittir.

üstel yasa

. (3.8)

Aynı zamanda A 1 = 0, B M = +¥.

Tek tip hukuk

Normal Hukuk

. (3.10)

Aynı zamanda A 1 = -¥, BM = +¥.

Notlar. P Ben Tüm olasılıkları hesapladıktan sonra

referans ilişkisinin sağlanıp sağlanmadığını kontrol edin Fonksiyon Ф( X

) - garip. F(+¥) = 1.
4. Ekteki Ki-kare tablosundan değeri seçin k burada a belirtilen anlamlılık düzeyidir (a = 0,05 veya a = 0,01) ve

k = M - 1 - S.

- formülle belirlenen serbestlik derecesi sayısı S Burada H- seçilen hipotezin bağlı olduğu parametrelerin sayısı S 0 dağıtım kanunu. Değerler

tekdüze yasa için 2, üstel yasa için 1, normal yasa için 2'dir.
5. Eğer H, o zaman hipotez

0 reddedilir. Aksi takdirde reddetmek için hiçbir neden yoktur: 1 - b olasılıkla doğrudur ve - b olasılıkla yanlıştır, ancak b'nin değeri bilinmemektedir. . Örnek3 1. Kriter c 2'yi kullanarak, rastgele bir değişkenin dağılım yasası hakkında bir hipotez ileri sürün ve test edin X

Örnek 1.2'de varyasyon serileri, aralık tabloları ve dağılım histogramları verilmiştir. Anlamlılık düzeyi a 0,05'tir. Çözüm 1. Kriter c 2'yi kullanarak, rastgele bir değişkenin dağılım yasası hakkında bir hipotez ileri sürün ve test edin. Histogramların görünümüne dayanarak rastgele değişkenin

H 0: F(X) = normal yasaya göre dağıtılır:(M N

H 1: F(X) ¹ normal yasaya göre dağıtılır:(M, S);

, S).

(3.11)

Kriterin değeri aşağıdaki formül kullanılarak hesaplanır:

Yukarıda belirtildiği gibi, bir hipotezi test ederken eşit olasılık histogramının kullanılması tercih edilir. Bu durumda P Ben Teorik olasılıklar

P Formül (3.10)'u kullanarak hesaplıyoruz. Aynı zamanda şuna da inanıyoruz:

0,5(-0,845+1) = 0,078.

P 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

P 3 = 0,094; P 4 = 0,135; P 5 = 0,118; P 6 = 0,097; P 7 = 0,073; P 8 = 0,059; P 9 = 0,174;

P 0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Bundan sonra “Ki-kare” tablosundan kritik değeri seçin.

.

Çünkü
o zaman hipotez H 0 kabul edilir (reddetmek için bir neden yoktur).

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

Pearson ki-kare testinin hesaplanmasına örnek

Yukarıda tartışılan tabloyu kullanarak sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisinin istatistiksel önemini belirleyelim:

1. Her hücre için beklenen değerleri hesaplayın:

2. Pearson ki-kare testinin değerini bulun:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve serbestlik derecesi sayısı 1 3.841'dir.

4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Ayrıca Pearson ki-kare testi şu formül kullanılarak hesaplanır:

Ancak 2x2'lik bir tablo için Yates düzeltme kriteri ile daha doğru sonuçlar elde edilir.

Eğer O N(0) kabul edildi,

Durumunda kabul edildi H(1)

Gözlem sayısının az olduğu ve tablo hücrelerinin frekansının 5'ten az olduğu durumlarda ki-kare testi uygulanamaz ve hipotezleri test etmek için kullanılır. Fisher'in kesin testi . Bu kriteri hesaplama prosedürü oldukça emek yoğundur ve bu durumda bilgisayar istatistiksel analiz programlarını kullanmak daha iyidir.

Olasılık tablosunu kullanarak iki niteliksel özellik arasındaki bağlantının ölçüsünü hesaplayabilirsiniz - bu Yule ilişkilendirme katsayısıdır Q (korelasyon katsayısına benzer)

Q 0 ila 1 aralığındadır. Bire yakın bir katsayı, özellikler arasında güçlü bir bağlantı olduğunu gösterir. Sıfıra eşitse bağlantı yoktur .

Pi-kare katsayısı (φ 2) benzer şekilde kullanılır

KARŞILAŞTIRMA GÖREVİ

Tablo, Drosophila gruplarında beslenmeli ve beslenmesiz mutasyon sıklığı arasındaki ilişkiyi açıklamaktadır.



Acil durum tablosu analizi

Olasılık tablosunu analiz etmek için bir H 0 hipotezi ileri sürülür, yani incelenen özelliğin çalışmanın sonucu üzerinde etkisinin olmaması bunun için beklenen frekans hesaplanır ve bir beklenti tablosu oluşturulur.

Bekleme masası

gruplar Chilo bitkileri Toplam
Mutasyonlar verdi Mutasyon vermedi
Gerçek frekans Beklenen sıklık Gerçek frekans Beklenen sıklık
Besleme ile
Beslemeden
toplam

Yöntem No.1

Bekleme sıklığını belirleyin:

2756 – X ;

2. 3561 – 3124

Gruplardaki gözlem sayısı azsa, X 2 kullanıldığında, gerçek ve beklenen frekansların ayrık dağılımlarla karşılaştırılması durumunda, bazı yanlışlıklar ilişkilendirilir. Yanlışlığı azaltmak için Yates düzeltmesi kullanılır.

Biyolojik araştırma pratiğinde, genellikle bir veya başka bir hipotezi test etmek, yani deneyci tarafından elde edilen gerçek materyalin teorik varsayımı ne ölçüde doğruladığını ve analiz edilen verilerin teorik olarak beklenenlerle ne ölçüde örtüştüğünü bulmak gerekir. olanlar. Görev, gerçek veriler ile teorik beklenti arasındaki farkın istatistiksel olarak değerlendirilmesi, bu farkın hangi durumlarda ve hangi olasılık derecesi ile güvenilir olarak kabul edilebileceğini ve bunun tersine, şans sınırları dahilinde ne zaman önemsiz, önemsiz sayılması gerektiğini belirlemekten kaynaklanmaktadır. İkinci durumda, teorik olarak beklenen verilerin veya göstergelerin hesaplandığı bir hipotez korunur. Bir hipotezi test etmek için böyle bir varyasyonel-istatistiksel teknik, yöntemdir. ki-kare (χ 2). Bu ölçüm genellikle "uyum kriteri" veya "Pearson'un uyum iyiliği testi" olarak adlandırılır. Onun yardımıyla, ampirik olarak elde edilen verilerin teorik olarak beklenenlere uygunluk derecesi değişen olasılıkla değerlendirilebilir.

Resmi bir bakış açısından, iki varyasyon serisi, iki popülasyon karşılaştırılır: biri ampirik bir dağılımdır, diğeri aynı parametrelere sahip bir örnektir ( N, M, S vb.) ampirik olanla aynıdır, ancak frekans dağılımı, incelenen rastgele değişkenin davranışının uyması gereken seçilen teorik yasaya (normal, Poisson, binom vb.) tam olarak uygun olarak inşa edilmiştir. .

Genel olarak uygunluk kriterinin formülü şu şekilde yazılabilir:

Nerede A - gözlemlerin gerçek sıklığı,

A - Belirli bir sınıf için teorik olarak beklenen frekans.

Sıfır hipotezi, karşılaştırılan dağılımlar arasında anlamlı bir fark olmadığını varsayar. Bu farklılıkların önemini değerlendirmek için kritik ki-kare değerlerinin özel bir tablosuna başvurmalısınız (Tablo 9 P) ve hesaplanan değeri karşılaştırarak χ Tablo 2'yi kullanarak ampirik dağılımın teorik dağılımdan güvenilir mi yoksa güvenilmez şekilde mi saptığına karar verin. Böylece bu farklılıkların olmadığına dair hipotez ya çürütülecek ya da yürürlükte kalacaktır. Hesaplanan değer ise χ 2 tabloya eşit veya tabloyu aşıyor χ ² ( α , df), ampirik dağılımın teorik olandan önemli ölçüde farklı olduğuna karar verin. Böylece bu farklılıkların olmadığı hipotezi çürütülmüş olacaktır. Eğer χ ² < χ ² ( α , df), sıfır hipotezi geçerliliğini korur. Genel olarak kabul edilebilir anlamlılık düzeyinin α = 0,05, çünkü bu durumda sıfır hipotezinin doğru olma şansı yalnızca %5'tir ve dolayısıyla onu reddetmek için yeterli neden (%95) vardır.


Belirli bir sorun, serbestlik derecesi sayısının doğru belirlenmesidir ( df), bunun için kriter değerleri tablodan alınmıştır. Toplam sınıf sayısından serbestlik derecesi sayısını belirlemek için k kısıtlama sayısını (yani teorik frekansları hesaplamak için kullanılan parametre sayısını) çıkarmanız gerekir.

İncelenen özelliğin dağılım türüne bağlı olarak serbestlik derecesi sayısını hesaplama formülü değişecektir. İçin alternatif dağılımlar ( k= 2) hesaplamalarda yalnızca bir parametre (örneklem büyüklüğü) yer alır, dolayısıyla serbestlik derecesi sayısı df= k−1=2−1=1. İçin polinom Dağıtım formülü benzerdir: df= k−1. Değişim serilerinin dağılıma uygunluğunu kontrol etmek Poisson iki parametre zaten kullanılıyor - numune boyutu ve ortalama değer (sayısal olarak dağılımla çakışıyor); serbestlik derecesi sayısı df= k−2. Ampirik dağılımın tutarlılığını kontrol ederken seçenek normal veya iki terimli Yasaya göre, serbestlik derecesi sayısı, gerçek sınıf sayısından seri oluşturmak için üç koşulun (örnek büyüklüğü, ortalama ve varyans) çıkarılmasıyla elde edilir. df= k−3. χ² kriterinin yalnızca numuneler için işe yaradığını hemen belirtmek gerekir. en az 25 varyantın hacmi ve bireysel sınıfların frekansları şöyle olmalıdır: 4'ten düşük değil.

İlk olarak, bir analiz örneği kullanarak ki-kare testinin kullanımını gösteriyoruz. alternatif değişkenlik. Domateslerin kalıtımını incelemek için yapılan bir deneyde 3629 kırmızı ve 1176 sarı meyve bulundu. İkinci hibrit nesilde karakterlerin bölünmesine ilişkin frekansların teorik oranı 3:1 (%75 ila %25) olmalıdır. Uygulanıyor mu? Yani bu örneklem frekans oranının 3:1 olduğu bir evrenden mi yoksa 0,75:0,25 olan bir evrenden mi alınmış?

Ampirik frekansların değerlerini ve aşağıdaki formülü kullanarak teorik frekansları hesaplamanın sonuçlarını doldurarak bir tablo (Tablo 4) oluşturalım:

bir = n∙p,

Nerede P– teorik frekanslar (bu tip bir varyantın kesirleri),

N - numune boyutu.

Örneğin, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Bu notta χ2 dağılımı, sabit olasılık dağılımına sahip bir veri setinin tutarlılığını test etmek için kullanılır. Anlaşma kriteri sıklıkla O Belirli bir kategoriye ait olduğunuz veriler, gerçekte belirtilen dağılıma sahip olsaydı teorik olarak beklenen frekanslarla karşılaştırılır.

χ2 uyum iyiliği kriterini kullanan testler birkaç aşamada gerçekleştirilir. Öncelikle belirli bir olasılık dağılımı belirlenerek orijinal verilerle karşılaştırılır. İkinci olarak, seçilen olasılık dağılımının parametreleri (örneğin matematiksel beklentisi) hakkında bir hipotez ortaya atılır veya bunların değerlendirmesi yapılır. Üçüncüsü, teorik dağılıma dayalı olarak her bir kategoriye karşılık gelen teorik olasılık belirlenir. Son olarak verilerin ve dağılımın tutarlılığını kontrol etmek için χ2 test istatistiği kullanılır:

Nerede f 0- gözlemlenen frekans, f e- teorik veya beklenen frekans, k- birleştirme sonrasında kalan kategori sayısı, R- tahmin edilecek parametre sayısı.

Notu veya formatında indirin, formattaki örnekler

Poisson dağılımı için χ2 uyum iyiliği testinin kullanılması

Excel'de bu formülü kullanarak hesaplama yapmak için =SUMproduct() işlevini kullanmak uygundur (Şekil 1).

Parametreyi tahmin etmek için λ tahmini kullanabilirsiniz . Teorik frekans 1. Kriter c 2'yi kullanarak, rastgele bir değişkenin dağılım yasası hakkında bir hipotez ileri sürün ve test edin parametreye karşılık gelen başarılar (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ve daha fazlası) λ = 2,9 =POISSON.DAĞ(X;;YANLIŞ) fonksiyonu kullanılarak belirlenebilir. Poisson olasılığının örneklem büyüklüğüyle çarpılması N teorik frekansı elde ederiz f e(Şekil 2).

Pirinç. 2. Dakika başına gerçek ve teorik varış oranları

Şekil 2'den aşağıdaki gibi. 2'de dokuz veya daha fazla varışın teorik sıklığı 1,0'ı geçmez. Her kategorinin 1,0 veya daha yüksek bir sıklık içerdiğinden emin olmak için "9 veya daha fazla" kategorisi "8" kategorisiyle birleştirilmelidir. Yani geriye dokuz kategori kalır (0, 1, 2, 3, 4, 5, 6, 7, 8 ve daha fazlası). Poisson dağılımının matematiksel beklentisi örnek verilere göre belirlendiğinden serbestlik derecesi sayısı k – p – 1 = 9 – 1 – 1 = 7'ye eşittir. 0,05 anlamlılık düzeyini kullanarak şunu buluruz: =CHI2.OBR(1-0.05;7) = 14.067 formülüne göre 7 serbestlik derecesine sahip olan χ 2 istatistiğinin kritik değeri. Karar kuralı şu şekilde formüle edilir: hipotez H 0χ 2 > 14,067 ise reddedilir, aksi takdirde hipotez reddedilir H 0 sapma yapmaz.

χ 2'yi hesaplamak için formül (1)'i kullanıyoruz (Şekil 3).

Pirinç. 3. Poisson dağılımı için χ2 -uygunluk kriterinin hesaplanması

χ 2 = 2,277 olduğundan< 14,067, следует, что гипотезу H 0 reddedilemez. Başka bir deyişle, müşterilerin bankaya gelişinin Poisson dağılımına uymadığını iddia etmek için hiçbir nedenimiz yok.

Normal dağılım için χ 2 -uygunluk testinin uygulanması

Önceki notlarda, sayısal değişkenlerle ilgili hipotezleri test ederken, incelenen popülasyonun normal şekilde dağıldığını varsaymıştık. Bu varsayımı kontrol etmek için kutu grafiği veya normal dağılım grafiği gibi grafik araçlarını kullanabilirsiniz (daha fazla ayrıntı için bkz.). Büyük örneklem boyutları için, bu varsayımları test etmek amacıyla normal dağılıma yönelik χ2 uyum iyiliği testi kullanılabilir.

Örnek olarak 158 yatırım fonunun 5 yıllık getiri verilerini ele alalım (Şekil 4). Verilerin normal şekilde dağılıp dağılmadığına inanmak istediğinizi varsayalım. Boş ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: 5 yıllık getiri normal dağılıma uymaktadır, H 1: 5 yıllık getiri normal dağılıma uymuyor. Normal dağılımın iki parametresi vardır: örnek verilere dayanarak tahmin edilebilen matematiksel beklenti μ ve standart sapma σ. Bu durumda = 10,149 ve S = 4,773.

Pirinç. 4. 158 fonun beş yıllık ortalama yıllık getirisine ilişkin verileri içeren sıralı bir dizi

Fon getirilerine ilişkin veriler örneğin %5 genişliğinde sınıflara (aralıklara) göre gruplandırılabilir (Şekil 5).

Pirinç. 5. 158 fonun beş yıllık ortalama yıllık getirisinin frekans dağılımı

Normal dağılım sürekli olduğundan normal dağılım eğrisinin sınırladığı şekillerin alanının ve her aralığın sınırlarının belirlenmesi gerekir. Ayrıca normal dağılım teorik olarak –∞ ile +∞ arasında değiştiği için sınıf sınırlarının dışında kalan şekillerin alanlarının da hesaba katılması gerekir. Yani -10 noktasının solundaki normal eğrinin altındaki alan, Z değerinin solundaki standartlaştırılmış normal eğrinin altında yatan şeklin alanına eşittir:

Z = (–10 – 10,149) / 4,773 = –4,22

Z = –4,22 değerinin solundaki standartlaştırılmış normal eğrinin altında kalan şeklin alanı =NORM.DAĞ(-10;10.149;4.773;DOĞRU) formülü ile belirlenir ve yaklaşık olarak 0,00001'e eşittir. Normal eğrinin altında kalan şeklin –10 ile –5 noktaları arasındaki alanını hesaplamak için öncelikle –5 noktasının solunda kalan şeklin alanını hesaplamanız gerekir: =NORM.DAĞ( -5,10.149,4.773,DOĞRU) = 0,00075 . Yani şeklin –10 ve –5 noktaları arasındaki normal eğrinin altında kalan alanı 0,00075 – 0,00001 = 0,00074'tür. Benzer şekilde, her sınıfın sınırlarıyla sınırlı olan şeklin alanını hesaplayabilirsiniz (Şekil 6).

Pirinç. 6. 5 yıllık getirilerin her bir sınıfı için alanlar ve beklenen sıklıklar

Dört uç sınıftaki (iki minimum ve iki maksimum) teorik frekansların 1'den küçük olduğu görülebilir, dolayısıyla sınıfları Şekil 7'de gösterildiği gibi birleştireceğiz.

Pirinç. 7. Normal dağılım için χ2 uyum iyiliği testinin kullanımına ilişkin hesaplamalar

Veriler ile normal dağılım arasındaki uyum için formül (1)'i kullanarak χ2 testini kullanıyoruz. Örneğimizde birleştirme sonrasında geriye altı sınıf kalıyor. Beklenen değer ve standart sapma örnek verilerden tahmin edildiği için serbestlik derecesi sayısı kP – 1 = 6 – 2 – 1 = 3. 0,05 anlamlılık düzeyini kullanarak, üç serbestlik derecesine sahip χ 2 istatistiğinin kritik değerinin = CI2.OBR(1-0.05;F3) = 7,815 olduğunu buluyoruz. χ2 uyum iyiliği kriterinin kullanımına ilişkin hesaplamalar Şekil 2'de gösterilmektedir. 7.

χ 2 -istatistik = 3,964 olduğu görülebilir.< χ U 2 7,815, следовательно гипотезу H 0 reddedilemez. Yani hızlı büyüyen yatırım fonlarının 5 yıllık getirilerinin normal dağılmadığına inanmamız için hiçbir neden yok.

Son birkaç gönderide kategorik verileri analiz etmeye yönelik farklı yaklaşımlar araştırıldı. İki veya daha fazla bağımsız örneğin analizinden elde edilen kategorik verilerle ilgili hipotezleri test etmeye yönelik yöntemler açıklanmaktadır. Ki-kare testlerine ek olarak parametrik olmayan prosedürler de dikkate alınır. Uygulama koşullarının sağlanamadığı durumlarda kullanılan Wilcoxon sıra testi anlatılmaktadır. T-iki bağımsız grubun matematiksel beklentilerinin eşitliğine ilişkin hipotezin test edilmesine yönelik kriterlerin yanı sıra tek faktörlü varyans analizine alternatif olan Kruskal-Wallis testi (Şekil 8).

Pirinç. 8. Kategorik verilerle ilgili hipotezleri test etmeye yönelik yöntemlerin blok diyagramı

Levin ve diğerleri İstatistikleri kitabından materyaller kullanılmıştır. – M.: Williams, 2004. – s. 763–769



Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!