Ki kare testinin kullanılması. Klasik istatistik yöntemleri: ki-kare testi

χ 2 kriterinin amacı - Pearson kriteri χ 2 kriteri iki amaç için kullanılır: 1) bir özelliğin ampirik dağılımını teorik olanla - tekdüze, normal veya başka biriyle karşılaştırmak; 2) aynı özelliğe sahip iki, üç veya daha fazla ampirik dağılımı karşılaştırmak. Kriterin açıklaması χ 2 kriteri bunların eşit sıklıkta meydana gelip gelmediği sorusunu yanıtlar farklı anlamlar deneysel olarak oturum açın ve teorik dağılımlar veya iki veya daha fazla ampirik dağılımda. Yöntemin avantajı, isimler ölçeğinden başlayarak herhangi bir ölçekte sunulan özelliklerin dağılımlarının karşılaştırılmasına olanak sağlamasıdır. tam olarak basit durum alternatif dağıtım “evet - hayır”, “kusurlara izin verildi - kusurlara izin vermedi”, “problemi çözdüler - problemi çözmediler” vb. χ 2 kriterini zaten uygulayabiliriz. Karşılaştırılan iki dağılım arasındaki fark ne kadar büyük olursa, o kadar büyük olur. ampirik önemχ 2. χ 2 - Pearson kriterinin otomatik hesaplanması χ 2 - Pearson kriterinin otomatik hesaplamasını gerçekleştirmek için iki adımı gerçekleştirmelisiniz: 1. Adım

. Ampirik dağılımların sayısını belirtin (1'den 10'a kadar); 2. Adım. Ampirik frekansları tabloya girin;

3. Adım

. Bir cevap alın. Pearson kriterinin avantajı evrenselliğidir: aşağıdaki hipotezleri test etmek için kullanılabilir:çeşitli kanunlar dağıtımlar. 1. Normal dağılım hipotezinin test edilmesi. Yeterince büyük bir numune elde edilsin Nİle

çok sayıda farklı anlamlar 1 farklı anlamlar 2 … seçenek. İşleme kolaylığı için, aralığı seçeneğin en küçük değerinden en büyük değerine kadar böleriz.

S Pearson kriterinin avantajı evrenselliğidir: aşağıdaki hipotezleri test etmek için kullanılabilir: 1 Pearson kriterinin avantajı evrenselliğidir: aşağıdaki hipotezleri test etmek için kullanılabilir: 2 … eşit parçalar ve her aralığa düşen seçeneklerin değerlerinin yaklaşık olarak aralığın ortasını belirten sayıya eşit olduğunu varsayacağız. Her aralığa düşen seçeneklerin sayısını sayarak gruplandırılmış bir örnek oluşturacağız: ,

seçenekler……….. X xs frekanslar…………. n'ler Nerede x ben



aralıkların orta noktalarının değerleridir ve n ben – dahil edilen seçeneklerin sayısı Ben nüfus genelinde dağıtılmış normal hukuk parametrelerle M(X) = , D(X) = . Daha sonra örneklem boyutundan sayıların sayısını bulabilirsiniz. Pearson kriterinin avantajı evrenselliğidir: aşağıdaki hipotezleri test etmek için kullanılabilir: Bu varsayım altında her aralıkta görünmesi gereken (yani teorik frekanslar). Bunu yapmak için Laplace fonksiyonunun değerler tablosunu kullanarak, içine girme olasılığını buluyoruz. Nerede inci aralık:

,

seçenekler……….. ve ben Ve ben- sınırlar Ben-inci aralık. Elde edilen olasılıkları örneklem büyüklüğü n ile çarparak teorik frekansları buluruz: p ben =n·p ben Amacımız elbette birbirinden farklı olan ampirik ve teorik frekansları karşılaştırmak ve bu farklılıkların önemsiz olup olmadığını ve çalışılanların normal dağılım hipotezini çürütüp çürütmediğini bulmaktır. rastgele değişken ya da o kadar büyükler ki bu hipotezle çelişiyorlar. Bu amaçla rastgele değişken formundaki bir kriter kullanılır.

. (20.1)

Anlamı açıktır: Sapmaların kareleri olan kısımlar toplanır ampirik frekanslar Teorik olanlardan karşılık gelen teorik frekanslardan yapılır. Popülasyonun gerçek dağılım yasasından bağımsız olarak, rastgele değişkenin dağılım yasasının (20.1), serbestlik derecesi sayısıyla dağıtım yasasına (bakınız ders 12) eğilimli olduğu kanıtlanabilir. k = s – 1 – R, Nerede R– örnek verilerden tahmin edilen beklenen dağılıma ait parametre sayısı. Normal dağılım iki parametreyle karakterize edilir, dolayısıyla k = s – 3. Seçilen kriter için, koşula göre belirlenen sağ taraflı bir kritik bölge oluşturulur.

(20.2)

seçenekler……….. α – önem düzeyi. Sonuç olarak, kritik bölge eşitsizlikle verilmektedir. ve hipotezin kabul alanı .

Yani sıfır hipotezini test etmek için N 0: popülasyon normal şekilde dağılmıştır - örnekten kriterin gözlemlenen değerini hesaplamanız gerekir:

, (20.1`)

ve χ 2 dağılımının kritik noktaları tablosundan şunu bulun: kritik nokta kullanarak bilinen değerlerα ve k = s – 3. Eğer - sıfır hipotezi reddedilirse kabul edilir.

2. Düzgün dağılım hipotezinin test edilmesi.

Nüfusun tahmini olasılık yoğunluğuyla eşit şekilde dağıldığı hipotezini test etmek için Pearson testi kullanıldığında

Mevcut numuneden değeri hesapladıktan sonra parametreleri tahmin etmek gerekir. A Ve B formüllere göre:

seçenekler……….. A* Ve B*- değerlendirmeler A Ve B. Gerçekten de düzgün dağılım M(X) = , belirlemek için bir sistem alabileceğiniz yer A* Ve B*: , çözümü (20.3) ifadeleridir.

Daha sonra şunu varsayarsak formülleri kullanarak teorik frekansları bulabilirsiniz.

Burada N– numunenin bölündüğü aralıkların sayısı.

Pearson kriterinin gözlenen değeri (20.1`) formülü kullanılarak hesaplanır ve serbestlik derecesi sayısı dikkate alınarak kritik değer tablo kullanılarak hesaplanır. k = s – 3. Bundan sonra kritik bölgenin sınırları normal dağılım hipotezinin test edilmesiyle aynı şekilde belirlenir.

3. Üstel dağılıma ilişkin hipotezin test edilmesi.

Bu durumda, mevcut örneği eşit uzunlukta aralıklara bölerek, birbirinden eşit aralıklı seçenekler dizisini dikkate alırız (bu gruba giren tüm seçeneklerin olduğunu varsayarız). Nerede- inci aralık, ortasına denk gelen bir değer alın) ve bunlara karşılık gelen frekanslar n ben(dahil edilen örnek seçeneklerin sayısı Nerede– inci aralık). Bu verilerden hesaplayalım ve parametrenin bir tahminini alalım. λ boyut. Daha sonra teorik frekanslar aşağıdaki formül kullanılarak hesaplanır.

Daha sonra gözlemlenen ve kritik değer Serbestlik derecesi sayısının dikkate alındığı Pearson kriteri k = s – 2.

1. Karşılaştırılabilir göstergeler şu şekilde ölçülmelidir: nominal ölçek(örneğin hastanın cinsiyetinin erkek veya kadın olması) veya sıralı(örneğin, 0'dan 3'e kadar değerler alan arteriyel hipertansiyon derecesi).

2. Bu yöntem hem faktör hem de sonuç ikili değişkenler olduğunda, yani yalnızca iki taneye sahip olduklarında, yalnızca dört alanlı tabloları analiz etmenize olanak tanır olası değerler(Örneğin; erkek ya da kadın cinsiyeti, anamnezde belirli bir hastalığın varlığı ya da yokluğu...). Pearson ki-kare testi, bir faktörün ve/veya sonucun üç veya daha fazla değer alması durumunda çok alanlı tabloların analiz edilmesi durumunda da kullanılabilir.

3. Karşılaştırılan gruplar bağımsız olmalı, yani “öncesi-sonrası” gözlemleri karşılaştırırken ki-kare testi kullanılmamalıdır. McNemar testi(ilgili iki popülasyonu karşılaştırırken) veya hesaplanan Cochran'ın Q testi(üç veya daha fazla grubun karşılaştırılması durumunda).

4. Dört alanlı tabloları analiz ederken beklenen değerler her hücrede en az 10 adet olmalıdır. En az bir hücrede beklenen olay 5'ten 9'a kadar bir değer alıyorsa ki-kare testi hesaplanmalıdır. Yates'in değişikliğiyle. En az bir hücrede beklenen fenomen 5'ten küçükse analizde şu değer kullanılmalıdır: Fisher'in kesin testi.

5. Çok alanlı tablolar analiz edilirken hücrelerin %20'sinden fazlasında beklenen gözlem sayısı 5'ten az olmamalıdır.

Ki-kare testini hesaplamak için ihtiyacınız olan:

1. Beklenen gözlem sayısını hesaplayın beklenmedik durum tablosunun her hücresi için (ilişkinin olmadığı sıfır hipotezinin geçerliliğine bağlı olarak), satır ve sütunların toplamlarını çarparak ve ardından elde edilen ürünü şuna bölerek: toplam sayı gözlemler. Genel görünüm Beklenen değerler tablosu aşağıda sunulmuştur:

Bir sonuç var (1) Sonuç yok (0) Toplam
Risk faktörü var (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Risk faktörü yok (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Toplam A+C B+G A+B+C+D

2. χ 2 kriterinin değerini bulmaİle aşağıdaki formül:

seçenekler……….. Nerede– satır numarası (1'den r'ye kadar), J– sütun numarası (1'den c'ye kadar), Ah ben– ij hücresindeki gerçek gözlem sayısı, E ben– ij hücresinde beklenen gözlem sayısı.

Dört alanlı tablolar incelenirken en az bir hücrede beklenen olay sayısının 10'dan az olması durumunda hesaplanmalıdır. Yates düzeltmeli ki-kare testi. Bu değişiklik, 1. tip hata olasılığını, yani farklılıkların olmadığı yerde tespit edilmesini azaltır. Yates düzeltmesi, 0,5'in çıkarılmasıdır. mutlak değer Her bir hücredeki gerçek ve beklenen gözlem sayısı arasındaki fark ki-kare testinin değerinin düşmesine neden olur.

Yates düzeltmesi ile χ 2 kriterini hesaplama formülü aşağıdaki gibidir:

3. Serbestlik derecesi sayısının belirlenmesi formüle göre: f = (r – 1) × (c – 1). Buna göre 2 satırı (r = 2) ve 2 sütunu (c = 2) olan dört alanlı bir tablo için serbestlik derecesi sayısı f 2x2 = (2 - 1)*(2 - 1) = 1'dir.

4. χ 2 kriterinin değerini kritik değerle karşılaştırıyoruz f serbestlik derecesi sayısında (tabloya göre).

Bu algoritma hem dört alanlı hem de çok alanlı tablolar için geçerlidir.

Pearson ki-kare testinin değeri nasıl yorumlanır?

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

Pearson ki-kare testinin hesaplanmasına örnek

Hadi tanımlayalım istatistiksel anlamlılık Yukarıda tartışılan tabloya göre sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisi:

1. Her hücre için beklenen değerleri hesaplayın:

2. Pearson ki-kare testinin değerini bulun:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve serbestlik derecesi sayısı 1 3.841'dir.

4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Serbestlik derecesi sayısı, f χ 2 p=0,05'te χ 2 p=0,01'de
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Bu notta χ2 dağılımı, sabit olasılık dağılımına sahip bir veri setinin tutarlılığını test etmek için kullanılır. Anlaşma kriteri sıklıkla O Belirli bir kategoriye ait olduğunuz veriler, gerçekte belirtilen dağılıma sahip olsaydı teorik olarak beklenen frekanslarla karşılaştırılır.

χ2 uyum iyiliği kriterini kullanan testler birkaç aşamada gerçekleştirilir. Öncelikle belirli bir olasılık dağılımı belirlenerek orijinal verilerle karşılaştırılır. İkinci olarak, seçilen olasılık dağılımının parametreleri (örneğin matematiksel beklentisi) hakkında bir hipotez ortaya atılır veya bunların değerlendirmesi yapılır. Üçüncüsü, teorik dağılıma dayalı olarak her bir kategoriye karşılık gelen teorik olasılık belirlenir. Son olarak verilerin ve dağılımın tutarlılığını kontrol etmek için χ2 test istatistiği kullanılır:

seçenekler……….. f 0- gözlemlenen frekans, f e- teorik veya beklenen frekans, k- birleştirme sonrasında kalan kategori sayısı, R- tahmin edilecek parametre sayısı.

Notu veya formatında indirin, formattaki örnekler

Poisson dağılımı için χ 2 uyum iyiliği testinin kullanılması

Excel'de bu formülü kullanarak hesaplama yapmak için =SUMproduct() işlevini kullanmak uygundur (Şekil 1).

Parametreyi tahmin etmek için λ tahmini kullanabilirsiniz . Teorik frekans X parametreye karşılık gelen başarılar (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ve daha fazlası) λ = 2,9 =POISSON.DAĞ(X;;YANLIŞ) fonksiyonu kullanılarak belirlenebilir. Poisson olasılığının örneklem büyüklüğüyle çarpılması N teorik frekansı elde ederiz f e(Şekil 2).

Pirinç. 2. Dakika başına gerçek ve teorik varış oranları

Şekil 2'den aşağıdaki gibi. 2'de dokuz veya daha fazla varışın teorik sıklığı 1,0'ı geçmez. Her kategorinin 1,0 veya daha yüksek bir sıklık içerdiğinden emin olmak için "9 veya daha fazla" kategorisi "8" kategorisiyle birleştirilmelidir. Yani geriye dokuz kategori kalır (0, 1, 2, 3, 4, 5, 6, 7, 8 ve daha fazlası). Poisson dağılımının matematiksel beklentisi örnek verilere göre belirlendiğinden serbestlik derecesi sayısı k – p – 1 = 9 – 1 – 1 = 7'ye eşittir. 0,05 anlamlılık düzeyini kullanarak şunu buluruz: =CHI2.OBR(1-0.05;7) = 14.067 formülüne göre 7 serbestlik derecesine sahip olan χ 2 istatistiğinin kritik değeri. Karar kuralı şu şekilde formüle edilir: hipotez H 0χ 2 > 14,067 ise reddedilir, aksi takdirde hipotez reddedilir H 0 sapma yapmaz.

χ 2'yi hesaplamak için formül (1)'i kullanıyoruz (Şekil 3).

Pirinç. 3. Poisson dağılımı için χ2 -uygunluk kriterinin hesaplanması

χ 2 = 2,277 olduğundan< 14,067, следует, что гипотезу H 0 reddedilemez. Başka bir deyişle, müşterilerin bankaya gelişinin Poisson dağılımına uymadığını iddia etmek için hiçbir nedenimiz yok.

Normal dağılım için χ 2 -uygunluk testinin uygulanması

Önceki notlarda, sayısal değişkenlerle ilgili hipotezleri test ederken, incelenen popülasyonun normal şekilde dağıldığını varsaymıştık. Bu varsayımı kontrol etmek için kutu grafiği veya normal dağılım grafiği gibi grafik araçlarını kullanabilirsiniz (daha fazla ayrıntı için bkz.). Şu tarihte: büyük hacimlerÖrnekler için bu varsayımları test etmek amacıyla normal dağılım için χ 2 uyum iyiliği testini kullanabilirsiniz.

Örnek olarak 158 yatırım fonunun 5 yıllık getiri verilerini ele alalım (Şekil 4). Verilerin normal şekilde dağılıp dağılmadığına inanmak istediğinizi varsayalım. Boş ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: 5 yıllık getiri normal dağılıma uymaktadır, H 1: 5 yıllık getiri normal dağılıma uymuyor. Normal dağılımın iki parametresi vardır: matematiksel beklenti μ ve standart sapmaσ, örnek verilere dayanarak tahmin edilebilir. İÇİNDE bu durumda = 10,149 ve S = 4,773.

Pirinç. 4. 158 fonun beş yıllık ortalama yıllık getirisine ilişkin verileri içeren sıralı bir dizi

Fon getirilerine ilişkin veriler örneğin %5 genişliğinde sınıflara (aralıklara) göre gruplandırılabilir (Şekil 5).

Pirinç. 5. 158 fonun beş yıllık ortalama yıllık getirisinin frekans dağılımı

Normal dağılım sürekli olduğundan normal dağılım eğrisinin sınırladığı şekillerin alanının ve her aralığın sınırlarının belirlenmesi gerekir. Ayrıca normal dağılım teorik olarak –∞ ile +∞ arasında değiştiği için sınıf sınırlarının dışında kalan şekillerin alanlarının da hesaba katılması gerekir. Yani -10 noktasının solundaki normal eğrinin altındaki alan, Z değerinin solundaki standartlaştırılmış normal eğrinin altında yatan şeklin alanına eşittir:

Z = (–10 – 10,149) / 4,773 = –4,22

Z = –4,22 değerinin solundaki standartlaştırılmış normal eğrinin altında kalan şeklin alanı =NORM.DAĞ(-10;10.149;4.773;DOĞRU) formülü ile belirlenir ve yaklaşık olarak 0,00001'e eşittir. Normal eğrinin altında kalan şeklin –10 ile –5 noktaları arasındaki alanını hesaplamak için öncelikle –5 noktasının solunda kalan şeklin alanını hesaplamanız gerekir: =NORM.DAĞ( -5,10.149,4.773,DOĞRU) = 0,00075 . Yani şeklin –10 ve –5 noktaları arasındaki normal eğrinin altında kalan alanı 0,00075 – 0,00001 = 0,00074'tür. Benzer şekilde, her sınıfın sınırlarıyla sınırlı olan şeklin alanını hesaplayabilirsiniz (Şekil 6).

Pirinç. 6. 5 yıllık getirilerin her bir sınıfı için alanlar ve beklenen sıklıklar

Dört uç sınıftaki (iki minimum ve iki maksimum) teorik frekansların 1'den küçük olduğu görülebilir, dolayısıyla sınıfları Şekil 7'de gösterildiği gibi birleştireceğiz.

Pirinç. 7. Normal dağılım için χ2 uyum iyiliği testinin kullanımına ilişkin hesaplamalar

Veri uyumu için χ 2 kriterini kullanıyoruz. normal dağılım formül (1) kullanılarak. Örneğimizde birleştirme sonrasında geriye altı sınıf kalıyor. Beklenen değer ve standart sapma örnek verilerden tahmin edildiği için serbestlik derecesi sayısı kP – 1 = 6 – 2 – 1 = 3. 0,05 anlamlılık düzeyini kullanarak, üç serbestlik derecesine sahip χ 2 istatistiğinin kritik değerinin = CI2.OBR(1-0.05;F3) = 7,815 olduğunu buluyoruz. χ2 uyum iyiliği kriterinin kullanımına ilişkin hesaplamalar Şekil 2'de gösterilmektedir. 7.

χ 2 -istatistik = 3,964 olduğu görülebilir.< χ U 2 7,815, следовательно гипотезу H 0 reddedilemez. Yani yüksek büyümeye odaklı yatırım fonlarının 5 yıllık getirilerinin normal dağılıma tabi olmadığını iddia edecek bir dayanağımız yok.

Birkaç son notlar dikkate alınan farklı yaklaşımlar kategorik verilerin analizi. İki veya daha fazla bağımsız örneğin analizinden elde edilen kategorik verilerle ilgili hipotezleri test etmeye yönelik yöntemler açıklanmaktadır. Ki-kare testlerine ek olarak parametrik olmayan prosedürler de dikkate alınır. Uygulama koşullarının sağlanamadığı durumlarda kullanılan Wilcoxon sıra testi anlatılmaktadır. T-eşitlik hipotezini test etmek için kriterler matematiksel beklentiler iki bağımsız grup ve tek faktörlü teste alternatif olan Kruskal-Wallis testi varyans analizi(Şekil 8).

Pirinç. 8. Blok şeması Kategorik verilerle ilgili hipotezleri test etme yöntemleri

Levin ve diğerleri İstatistikleri kitabından materyaller kullanılmıştır. – M.: Williams, 2004. – s. 763–769

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

Pearson ki-kare testinin hesaplanmasına örnek

Yukarıda tartışılan tabloyu kullanarak sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisinin istatistiksel önemini belirleyelim:

1. Her hücre için beklenen değerleri hesaplayın:

2. Pearson ki-kare testinin değerini bulun:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve serbestlik derecesi sayısı 1 3.841'dir.

4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Ayrıca Pearson ki-kare testi şu formül kullanılarak hesaplanır:

Ancak 2x2'lik bir tablo için Yates düzeltme kriteri ile daha doğru sonuçlar elde edilir.

Eğer O N(0) kabul edildi,

Durumunda kabul edildi H(1)

Gözlem sayısının az olduğu ve tablo hücrelerinin frekansının 5'ten az olduğu durumlarda ki-kare testi uygulanamaz ve hipotezleri test etmek için kullanılır. Fisher'in kesin testi . Bu kriteri hesaplama prosedürü oldukça emek yoğundur ve bu durumda bilgisayar istatistiksel analiz programlarını kullanmak daha iyidir.

Olasılık tablosunu kullanarak iki niteliksel özellik arasındaki bağlantının ölçüsünü hesaplayabilirsiniz - bu Yule ilişkilendirme katsayısıdır Q (korelasyon katsayısına benzer)

Q 0 ila 1 aralığındadır. Bire yakın bir katsayı, özellikler arasında güçlü bir bağlantı olduğunu gösterir. Sıfıra eşitse bağlantı yoktur .

Pi-kare katsayısı (φ 2) benzer şekilde kullanılır

KARŞILAŞTIRMA GÖREVİ

Tablo, Drosophila gruplarında beslenmeli ve beslenmesiz mutasyon sıklığı arasındaki ilişkiyi açıklamaktadır.



Acil durum tablosu analizi

Olasılık tablosunu analiz etmek için bir H 0 hipotezi ileri sürülür, yani incelenen özelliğin çalışmanın sonucu üzerinde etkisinin olmaması bunun için beklenen frekans hesaplanır ve bir beklenti tablosu oluşturulur.

Bekleme masası

gruplar Chilo bitkileri Toplam
Mutasyonlar verdi Mutasyon vermedi
Gerçek frekans Beklenen sıklık Gerçek frekans Beklenen sıklık
Besleme ile
Beslemeden
toplam

Yöntem No.1

Bekleme sıklığını belirleyin:

2756 – X ;

2. 3561 – 3124

Gruplardaki gözlemlerin sayısı azsa, X 2 kullanıldığında, ayrık dağılımlar için gerçek ve beklenen frekansların karşılaştırılması durumunda, bazı yanlışlıklar ilişkilendirilir. Yanlışlığı azaltmak için Yates düzeltmesi kullanılır.

Bu yazı prensipte Ki kare kriterinin nasıl hesaplanacağına cevap vermiyor, amacı nasıl otomatikleştirileceğini göstermektir. Excel'de ki kare hesaplaması, Ki kare kriterini hesaplamak için hangi işlevler var? Çünkü SPSS ya da R programı her zaman elinizin altında olmuyor.
Analytics for HR semineri katılımcılarına bir anlamda hatırlatma ve ipucu niteliğinde bu, umarım bu yöntemleri çalışmalarınızda kullanırsınız, bu yazı da bir başka ipucu olacaktır.
Dosyaya indirme linki vermiyorum ancak verdiğim örnek tabloları kolayca kopyalayıp verdiğim verileri ve formülleri takip edebilirsiniz.

Giriş

Örneğin, bir kurumsal anketin sonuçlarının dağılımının bağımsızlığını (rastgelelik / rastgelelik olmaması) kontrol etmek istiyoruz; burada satırlarda anketteki herhangi bir soruya verilen yanıtlar ve sütunlarda ise uzunluğuna göre dağılım bulunur. hizmet.

Verileriniz bir eşlenik tabloda (örneğin bu formda) özetlendiğinde, bir pivot tablo aracılığıyla Ki kareyi hesaplarsınız.
Tablo No.1

1 yıldan az

Satırlara göre topla

Sütunlara göre topla

Excel'de Ki kareyi hesaplamak için aşağıdaki formüller vardır:

CHI2.TEST

CH2.TEST formülü, dağılımın bağımsız olma olasılığını (rastgelelik/rastgele olmama) hesaplar.

Sözdizimi şu şekildedir

CHI2.TEST(gerçek_aralık; beklenen_aralık)

Bizim durumumuzda gerçek aralık tablonun içeriğidir, yani.

Onlar. Ampirik ve beklenen (veya teorik frekanslar) olmak üzere iki tablo aldıktan sonra, aslında kendimizi farkı elde etme, karesini alma ve diğer hesaplamaların yanı sıra kritik değerler tablosunu kontrol etme işinden kurtarıyoruz.

Bizim durumumuzda CHI2.DIST.PH = 0,000466219908895455, CHI2.TEST örneğinde olduğu gibi

Not

Excel'de Ki kareyi hesaplamak için kullanılan bu formül, 2X2 boyutlu tabloları hesaplamak için size uygun olacaktır, çünkü siz Ki kareyi ampirik olarak değerlendiriyorsunuz ve hesaplamalara bir süreklilik düzeltmesi getirebiliyorsunuz

Not 2

Ayrıca CHI2.DAĞ formülü de vardır (bunu Excel'de kaçınılmaz olarak göreceksiniz) - sol taraf olasılığını hesaplar (basit bir ifadeyle, sol taraf 1 olarak kabul edilir - sağ taraf, yani. formül bitti, bu yüzden Ki kare hesaplamalarında vermiyorum, örneğimizde CHI2.DAĞ = 0,999533780091105.
Toplam KNL2.DAĞ + KNL2.DAĞ.PH = 1.

CH2.OBR.PH

Bir ki-kare dağılımının sağ kuyruklu olasılığının (veya yalnızca belirli bir olasılık düzeyi ve serbestlik derecesi sayısı için ki-kare değerinin) tersini döndürür.

Sinaks

CH2.OBR.PH(olasılık;serbestlik_derecesi)

Çözüm

Doğrusunu söylemek gerekirse elde edilen sonuçların ne ölçüde olduğu konusunda kesin bir bilgiye sahip değilim. Excel'de ki kare hesaplamaları SPSS'deki Ki kare sonuçlarından farklıdır. Kesinlikle anlıyorum. sadece Ki kareyi bağımsız olarak hesaplarken değerlerin yuvarlanması ve belirli sayıda ondalık basamağın kaybolması nedeniyle farklılık gösterirler. Ama bunun kritik olduğunu düşünmüyorum. Yalnızca Ki kare dağılımı olasılığının 0,05 eşiğine (p değeri) yakın olması durumunda kendinizi sigortalatmanızı öneririm.

Süreklilik düzeltmesinin dikkate alınmaması pek hoş değil - 2X2 tablolarında çok şey hesaplıyoruz. Bu nedenle 2X2 tabloların hesaplanması durumunda neredeyse hiç optimizasyon elde edemiyoruz

Yine de yukarıdaki bilgilerin, daha önemli konularda zamandan tasarruf etmek için Excel'de Ki kare hesaplamasını biraz daha hızlı hale getirmek için yeterli olduğunu düşünüyorum.



Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!