İstatistiksel güvenilirlik kavramı. İstatistiksel anlamlılık ve istatistiksel kriter kavramları

İstatistiklerdeki anlamlılık düzeyi, elde edilen (tahmin edilen) verilerin doğruluğuna ve doğruluğuna olan güvenin derecesini yansıtan önemli bir göstergedir. Kavram, sosyolojik araştırmaların yürütülmesinden bilimsel hipotezlerin istatistiksel test edilmesine kadar çeşitli alanlarda yaygın olarak kullanılmaktadır.

Tanım

İstatistiksel anlamlılık düzeyi (veya istatistiksel olarak anlamlı sonuç), incelenen göstergelerin tesadüfen ortaya çıkma olasılığını gösterir. Bir olgunun genel istatistiksel önemi, p değeri katsayısı (p düzeyi) ile ifade edilir. Herhangi bir deney veya gözlemde, elde edilen verilerin örnekleme hatalarından kaynaklanma ihtimali vardır. Bu özellikle sosyoloji için geçerlidir.

Yani, istatistiksel olarak anlamlı bir değer, rastgele oluşma olasılığı son derece küçük olan veya uç noktaya varan bir değerdir. Bu bağlamda uç nokta, istatistiklerin sıfır hipotezinden (elde edilen örnek verilerle tutarlılığı test edilen bir hipotez) sapma derecesi olarak kabul edilir. Bilimsel uygulamada anlamlılık düzeyi veri toplamadan önce seçilir ve kural olarak katsayısı 0,05 (%5)'tir. Kesin değerlerin son derece önemli olduğu sistemler için bu rakam 0,01 (%1) veya daha az olabilir.

Arka plan

Anlamlılık düzeyi kavramı, 1925 yılında İngiliz istatistikçi ve genetikçi Ronald Fisher tarafından istatistiksel hipotezleri test etmek için bir teknik geliştirirken tanıtıldı. Herhangi bir süreci analiz ederken, belirli olayların belirli bir olasılığı vardır. "Ölçüm hatası" kavramı kapsamına giren küçük (veya belirgin olmayan) olasılık yüzdeleriyle çalışırken zorluklar ortaya çıkar.

Bilim adamları, onları test edecek kadar spesifik olmayan istatistiksel verilerle çalışırken, küçük miktarlarla çalışmayı "engelleyen" sıfır hipotezi sorunuyla karşı karşıya kalırlar. Fisher, bu tür sistemlerin olay olasılığını %5 (0,05) düzeyinde belirlemesini, hesaplamalarda sıfır hipotezinin reddedilmesine olanak tanıyan uygun bir örnekleme kesimi olarak önerdi.

Sabit oranların tanıtılması

1933 yılında bilim insanları Jerzy Neumann ve Egon Pearson, çalışmalarında önceden (veri toplamadan önce) belirli bir önem düzeyinin belirlenmesini önerdiler. Bu kuralların kullanım örnekleri seçimler sırasında açıkça görülmektedir. Diyelim ki iki aday var, biri çok popüler, diğeri ise az tanınıyor. Seçimi ilk adayın kazanacağı aşikar, ikinci adayın şansı ise sıfıra yakın. Çabalıyorlar ama eşit değiller: Her zaman mücbir sebepler, sansasyonel bilgiler, tahmin edilen seçim sonuçlarını değiştirebilecek beklenmedik kararlar olasılığı vardır.

Neyman ve Pearson, Fisher'in önem düzeyi olan 0,05'in (α ile gösterilir) en uygun olduğu konusunda hemfikirdi. Ancak Fischer'in kendisi 1956'da bu değerin sabitlenmesine karşı çıktı. α seviyesinin belirli koşullara göre ayarlanması gerektiğine inanıyordu. Örneğin parçacık fiziğinde 0,01'dir.

p düzeyi değeri

P-değeri terimi ilk kez 1960 yılında Brownlee tarafından kullanılmıştır. P düzeyi (p değeri), sonuçların doğruluğuyla ters orantılı olan bir göstergedir. En yüksek p değeri katsayısı, değişkenler arasındaki örneklenen ilişkideki en düşük güven düzeyine karşılık gelir.

Bu değer, sonuçların yorumlanmasında hata olasılığını yansıtır. P-seviyesinin = 0,05 (1/20) olduğunu varsayalım. Örnekte bulunan değişkenler arasındaki ilişkinin yalnızca örneklemin rastgele bir özelliği olma olasılığını yüzde beş olarak gösterir. Yani, eğer bu bağımlılık yoksa, tekrarlanan benzer deneylerle ortalama olarak her yirminci çalışmada değişkenler arasında aynı veya daha fazla bağımlılığın beklenmesi mümkündür. P seviyesi genellikle hata oranı için bir "marj" olarak görülür.

Bu arada p değeri değişkenler arasındaki gerçek ilişkiyi yansıtmayabilir, sadece varsayımlar dahilinde belirli bir ortalama değeri gösterir. Özellikle verilerin nihai analizi de bu katsayının seçilen değerlerine bağlı olacaktır. p-seviyesi = 0,05'te bazı sonuçlar olacaktır ve 0,01'e eşit bir katsayıda farklı sonuçlar olacaktır.

İstatistiksel hipotezlerin test edilmesi

Hipotezleri test ederken istatistiksel anlamlılık düzeyi özellikle önemlidir. Örneğin, iki taraflı bir test hesaplanırken, reddetme bölgesi örnekleme dağılımının her iki ucunda (sıfır koordinatına göre) eşit olarak bölünür ve ortaya çıkan verilerin doğruluğu hesaplanır.

Diyelim ki, belirli bir süreci (olgu) izlerken, yeni istatistiksel bilgilerin önceki değerlere göre küçük değişikliklere işaret ettiğinin ortaya çıktığını varsayalım. Aynı zamanda, sonuçlardaki farklılıklar küçüktür, belirgin değildir ancak çalışma için önemlidir. Uzman bir ikilemle karşı karşıyadır: Değişiklikler gerçekten mi oluyor yoksa örnekleme hataları mı (ölçüm yanlışlığı)?

Bu durumda sıfır hipotezini kullanırlar veya reddederler (her şeyi bir hataya bağlarlar veya sistemdeki değişikliği oldu bitti olarak kabul ederler). Problem çözme süreci genel istatistiksel anlamlılığın (p-değeri) ve anlamlılık düzeyinin (α) oranına dayanmaktadır. Eğer p seviyesi< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Kullanılan değerler

Önem düzeyi analiz edilen materyale bağlıdır. Uygulamada aşağıdaki sabit değerler kullanılır:

a = 0,1 (veya %10);
a = 0,05 (veya %5);
a = 0,01 (veya %1);
α = 0,001 (veya %0,1).

Hesaplamalar ne kadar doğru olursa, α katsayısı o kadar düşük kullanılır. Doğal olarak fizik, kimya, ilaç ve genetik alanındaki istatistiksel tahminler, siyaset bilimi ve sosyolojiye göre daha fazla doğruluk gerektirir.

Belirli alanlardaki önem eşikleri

Parçacık fiziği ve üretim gibi yüksek hassasiyetli alanlarda, istatistiksel anlamlılık genellikle standart sapmanın (sigma katsayısı - σ ile gösterilir) normal olasılık dağılımına (Gauss dağılımı) oranı olarak ifade edilir. σ, belirli bir miktarın değerlerinin matematiksel beklentilere göre dağılımını belirleyen istatistiksel bir göstergedir. Olayların olasılığını çizmek için kullanılır.

Bilgi alanına bağlı olarak σ katsayısı büyük ölçüde değişir. Örneğin Higgs bozonunun varlığını tahmin ederken σ parametresi beşe eşit olur (σ = 5), bu da p-değeri = 1/3,5 milyona karşılık gelir. Genom çalışmalarında anlamlılık düzeyi 5 × 10 - olabilir. 8, bu alanlar için alışılmadık bir durum değil.

Yeterlik

α ve p-değeri katsayılarının kesin özellikler olmadığı dikkate alınmalıdır. İncelenen olgunun istatistiklerindeki önem düzeyi ne olursa olsun, bu, hipotezin kabul edilmesi için koşulsuz bir temel değildir. Örneğin, α'nın değeri ne kadar küçükse, kurulan hipotezin anlamlı olma şansı da o kadar yüksektir. Ancak çalışmanın istatistiksel gücünü (anlamlılığını) azaltan hata riski vardır.

Yalnızca istatistiksel olarak anlamlı sonuçlara odaklanan araştırmacılar hatalı sonuçlara varabilir. Aynı zamanda, varsayımları (aslında bunlar α ve p değerleridir) uyguladıkları için çalışmalarını tekrar kontrol etmek zordur. Bu nedenle, istatistiksel anlamlılığın hesaplanmasıyla birlikte her zaman başka bir göstergenin (istatistiksel etkinin büyüklüğü) belirlenmesi önerilir. Etki büyüklüğü, bir etkinin gücünün niceliksel bir ölçüsüdür.

ÜCRETLİ ÖZELLİK.İstatistiksel anlamlılık özelliği yalnızca belirli planlarda mevcuttur. içinde olup olmadığını kontrol edin.

Bir anketteki sorulara farklı katılımcı gruplarından alınan yanıtlar arasında istatistiksel olarak anlamlı farklılıklar olup olmadığını öğrenebilirsiniz. SurveyMonkey'deki istatistiksel anlamlılık özelliğini kullanmak için şunları yapmanız gerekir:

Anketinizdeki bir soruya karşılaştırma kuralı eklerken istatistiksel anlamlılık özelliğini etkinleştirin. Anket sonuçlarını görsel karşılaştırma amacıyla gruplar halinde sıralamak için karşılaştırılacak yanıtlayan gruplarını seçin.
Farklı yanıtlayıcı gruplarından alınan yanıtlar arasındaki istatistiksel açıdan anlamlı farklılıkları belirlemek için anket sorularınıza ilişkin veri tablolarını inceleyin.

İstatistiksel önemi görüntüle

Aşağıdaki adımları takip ederek istatistiksel anlamlılığı gösteren bir anket oluşturabilirsiniz.

1. Anketinize kapalı uçlu sorular ekleyin

Sonuçları analiz ederken istatistiksel anlamlılığı göstermek için anketinizdeki herhangi bir soruya bir karşılaştırma kuralı uygulamanız gerekecektir.

Anket tasarımınızda aşağıdaki soru türlerinden birini kullanırsanız karşılaştırma kuralını uygulayabilir ve yanıtlardaki istatistiksel anlamlılığı hesaplayabilirsiniz:

Önerilen cevap seçeneklerinin tam gruplara bölünebildiğinden emin olmak gerekir. Bir karşılaştırma kuralı oluşturduğunuzda karşılaştırma için seçtiğiniz yanıt seçenekleri, anket boyunca verileri çapraz tablolar halinde düzenlemek için kullanılacaktır.

2. Yanıtları toplayın

Anketinizi tamamladıktan sonra dağıtacak bir toplayıcı oluşturun. Birkaç yol var.

İstatistiksel anlamlılığı etkinleştirmek ve görüntülemek için karşılaştırma kuralınızda kullanmayı planladığınız her yanıt seçeneği için en az 30 yanıt almanız gerekir.

Anket örneği

Erkeklerin ürünlerinizden kadınlardan çok daha memnun olup olmadığını öğrenmek istiyorsunuz.

Anketinize iki çoktan seçmeli soru ekleyin:
Cinsiyetiniz nedir? (erkek, kadın)
Ürünümüzden memnun musunuz, memnun değil misiniz? (memnunum, memnun değilim)
En az 30 katılımcının cinsiyet sorusu için "erkek"i seçtiğinden VE en az 30 katılımcının cinsiyet olarak "kadın"ı seçtiğinden emin olun.
"Cinsiyetiniz nedir?" sorusuna bir karşılaştırma kuralı ekleyin. ve gruplarınız olarak her iki yanıt seçeneğini de seçin.
"Ürünümüzden memnun musunuz, memnun değil misiniz?" soru tablosunun altındaki veri tablosunu kullanın. herhangi bir yanıt seçeneğinin istatistiksel olarak anlamlı bir fark gösterip göstermediğini görmek için

İstatistiksel olarak anlamlı fark nedir?

İstatistiksel olarak anlamlı bir fark, istatistiksel analizin, bir grup yanıtlayıcının yanıtları ile başka bir grubun yanıtları arasında önemli farklılıklar olduğunu belirlediği anlamına gelir. İstatistiksel anlamlılık, elde edilen sayıların önemli ölçüde farklı olduğu anlamına gelir. Bu tür bilgiler veri analizinde size büyük ölçüde yardımcı olacaktır. Ancak elde edilen sonuçların önemini siz belirlersiniz. Anket sonuçlarının nasıl yorumlanacağına ve bunlara göre hangi önlemlerin alınması gerektiğine siz karar verirsiniz.

Mesela kadın müşterilerden erkek müşterilerden daha fazla şikayet alıyorsunuz. Böyle bir farkın gerçek olup olmadığını ve bu konuda önlem alınması gerekip gerekmediğini nasıl tespit edebiliriz? Gözlemlerinizi test etmenin harika bir yolu, erkek müşterilerin ürününüzden önemli ölçüde daha memnun olup olmadığını gösterecek bir anket yapmaktır. İstatistiksel bir formül kullanarak istatistiksel anlamlılık fonksiyonumuz, ürününüzün aslında kadınlardan çok erkeklere daha çekici gelip gelmediğini belirleme olanağı verecektir. Bu, tahmin yerine gerçeklere dayalı olarak harekete geçmenize olanak tanır.

İstatistiksel olarak anlamlı fark

Sonuçlarınızın veri tablosunda vurgulanması, iki yanıtlayan grubunun birbirinden önemli ölçüde farklı olduğu anlamına gelir. “Anlamlı” terimi, ortaya çıkan sayıların özel bir öneme veya öneme sahip olduğu anlamına gelmez, yalnızca aralarında istatistiksel bir fark olduğu anlamına gelir.

İstatistiksel olarak anlamlı bir fark yok

Sonuçlarınız ilgili veri tablosunda vurgulanmıyorsa, bu, karşılaştırılan iki rakam arasında fark olsa da aralarında istatistiksel bir fark olmadığı anlamına gelir.

İstatistiksel olarak anlamlı farklar olmayan yanıtlar, kullandığınız örneklem büyüklüğü göz önüne alındığında karşılaştırılan iki öğe arasında anlamlı bir fark olmadığını gösterir ancak bu, bunların mutlaka anlamlı olmadığı anlamına gelmez. Belki örneklem boyutunu artırarak istatistiksel olarak anlamlı bir fark tespit edebileceksiniz.

Örnek boyutu

Örneklem boyutunuz çok küçükse, iki grup arasındaki yalnızca çok büyük farklar anlamlı olacaktır. Örneklem boyutunuz çok büyükse hem küçük hem de büyük farklar önemli sayılacaktır.

Ancak iki sayının istatistiksel olarak farklı olması, sonuçlar arasındaki farkın sizin için pratik bir anlamı olduğu anlamına gelmez. Anketiniz için hangi farklılıkların anlamlı olduğuna kendiniz karar vermeniz gerekecektir.

İstatistiksel Anlamlılığın Hesaplanması

İstatistiksel anlamlılığı standart %95 güven düzeyi kullanarak hesaplıyoruz. Bir cevap seçeneği istatistiksel olarak anlamlı olarak gösteriliyorsa, bu, tek başına şans eseri veya örnekleme hatası nedeniyle, iki grup arasındaki farkın ortaya çıkma olasılığının %5'ten az olduğu anlamına gelir (genellikle şu şekilde gösterilir: p)<0,05).

Gruplar arasındaki istatistiksel olarak anlamlı farklılıkları hesaplamak için aşağıdaki formülleri kullanırız:

Parametre	Tanım
a1	Soruya belirli bir şekilde cevap veren birinci gruptaki katılımcıların yüzdesi, bu grubun örneklem büyüklüğü ile çarpılır.
b1	İkinci gruptan soruya belirli bir şekilde cevap veren katılımcıların yüzdesi, bu grubun örneklem büyüklüğü ile çarpılır.
Havuzlanmış numune oranı (p)	Her iki gruptan iki hissenin birleşimi.
Standart hata (SE)	Payınızın gerçek paylaşımdan ne kadar farklı olduğuna dair bir gösterge. Daha düşük bir değer, kesrin gerçek kesre yakın olduğu anlamına gelir; daha yüksek bir değer, kesrin gerçek kesirden önemli ölçüde farklı olduğu anlamına gelir.
Test istatistiği (t)	Test istatistiği. Belirli bir değerin ortalamadan farklı olduğu standart sapmaların sayısı.
İstatistiksel önem	Test istatistiğinin mutlak değerinin ortalamadan 1,96* standart sapmadan büyük olması istatistiksel olarak anlamlı bir fark olarak kabul edilir.

*1,96 %95 güven düzeyi için kullanılan değerdir çünkü Öğrenci t-dağılımı fonksiyonu tarafından ele alınan aralığın %95'i ortalamanın 1,96 standart sapması dahilindedir.

Hesaplama örneği

Yukarıda kullanılan örnekten devam edersek, ürününüzden memnun olduğunu söyleyen erkeklerin yüzdesinin, kadınların yüzdesinden önemli ölçüde yüksek olup olmadığını öğrenelim.

Diyelim ki anketinize 1.000 erkek ve 1.000 kadın katıldı ve anket sonuçlarına göre erkeklerin %70'i, kadınların ise %65'i ürününüzden memnun olduklarını söylüyor. %70 seviyesi %65 seviyesinden önemli ölçüde yüksek mi?

Anketten elde edilen aşağıdaki verileri verilen formüllere değiştirin:

p1 (üründen memnun olan erkeklerin yüzdesi) = 0,7
p2 (üründen memnun kalan kadınların yüzdesi) = 0,65
n1 (ankete katılan erkek sayısı) = 1000
n2 (görüşme yapılan kadın sayısı) = 1000

Test istatistiğinin mutlak değerinin 1,96'dan büyük olması kadın ve erkek arasındaki farkın anlamlı olduğu anlamına gelmektedir. Kadınlarla karşılaştırıldığında erkeklerin ürününüzden memnun kalma olasılığı daha yüksektir.

İstatistiksel anlamlılığın gizlenmesi

Tüm sorular için istatistiksel anlamlılık nasıl gizlenir?

Sol kenar çubuğundaki karşılaştırma kuralının sağındaki aşağı oku tıklayın.
Bir öğe seçin Kuralı düzenle.
Özelliği devre dışı bırak İstatistiksel önemi göster bir anahtar kullanarak.
Düğmeye tıklayın Uygula.

Bir sorunun istatistiksel önemini gizlemek için şunları yapmanız gerekir:

Düğmeye tıklayın Ayarla Bu sayının şemasının üstünde.
Sekmeyi aç Görüntüleme seçenekleri.
yanındaki kutunun işaretini kaldırın İstatistiksel önem.
Düğmeye tıklayın Kaydetmek.

İstatistiksel anlamlılık ekranı etkinleştirildiğinde görüntüleme seçeneği otomatik olarak etkinleştirilir. Bu görüntüleme seçeneğinin işaretini kaldırırsanız istatistiksel anlamlılık ekranı da devre dışı bırakılır.

Anketinizdeki bir soruya karşılaştırma kuralı eklerken istatistiksel anlamlılık özelliğini açın. Farklı yanıtlayıcı gruplarından alınan yanıtlar arasında istatistiksel olarak anlamlı farklılıklar olup olmadığını belirlemek için anket sorularınıza ilişkin veri tablolarını inceleyin.

Sizce “diğer yarınızı” özel ve anlamlı kılan şey nedir? Bu onun kişiliğiyle mi yoksa bu kişiye karşı beslediğiniz duygularla mı alakalı? Ya da belki de çalışmaların gösterdiği gibi, sempatinizin rastlantısallığı hakkındaki hipotezin olasılığının %5'ten az olduğu gerçeğiyle mi? Son ifadenin güvenilir olduğunu düşünürsek, prensipte başarılı tanışma siteleri mevcut olmayacaktır:

Web sitenizde bölünmüş test veya başka bir analiz yaptığınızda, "istatistiksel anlamlılığın" yanlış anlaşılması, sonuçların yanlış yorumlanmasına ve dolayısıyla dönüşüm optimizasyonu sürecinde yanlış eylemlere yol açabilir. Bu, mevcut tüm endüstrilerde her gün gerçekleştirilen diğer binlerce istatistiksel test için de geçerlidir.

"İstatistiksel anlamlılığın" ne olduğunu anlamak için terimin tarihine dalmanız, gerçek anlamını öğrenmeniz ve bu "yeni" eski anlayışın, araştırmanızın sonuçlarını doğru bir şekilde yorumlamanıza nasıl yardımcı olacağını anlamanız gerekir.

Küçük bir tarih

İnsanlık yüzyıllardır çeşitli sorunları çözmek için istatistiği kullanıyor olmasına rağmen, istatistiksel anlamlılık, hipotez testi, rastgeleleştirme ve hatta Deney Tasarımı (DOE) hakkındaki modern anlayış ancak 20. yüzyılın başında şekillenmeye başladı ve ayrılmaz bir şekilde Sör Ronald Fisher'ın adı (Sir Ronald Fisher, 1890-1962):

Ronald Fisher, hayvanlar ve bitkiler aleminde evrim ve doğal seçilim çalışmalarına özel bir tutkusu olan bir evrimsel biyolog ve istatistikçiydi. Şanlı kariyeri boyunca bugün hala kullandığımız birçok yararlı istatistiksel aracı geliştirdi ve popüler hale getirdi.

Fisher geliştirdiği teknikleri baskınlık, mutasyonlar ve genetik sapmalar gibi biyolojideki süreçleri açıklamak için kullandı. Web kaynaklarının içeriğini optimize etmek ve geliştirmek için bugün aynı araçları kullanabiliriz. Bu analiz araçlarının, yaratıldıkları sırada var olmayan nesnelerle çalışmak için kullanılabilmesi oldukça şaşırtıcı görünüyor. İnsanların hesap makineleri veya bilgisayarlar olmadan karmaşık hesaplamalar yapması da aynı derecede şaşırtıcıdır.

İstatistiksel bir deneyin sonuçlarını doğru olma olasılığının yüksek olduğunu tanımlamak için Fisher "anlamlılık" kelimesini kullandı.

Ayrıca Fisher'ın en ilginç gelişmelerinden biri de "seksi oğul" hipotezi olarak adlandırılabilir. Bu teoriye göre, kadınlar cinsel açıdan rastgele erkekleri (rasgele) tercih ediyor çünkü bu, bu erkeklerden doğan oğulların aynı yatkınlığa sahip olmasına ve daha fazla çocuk üretmesine olanak tanıyacak (bunun sadece bir teori olduğunu unutmayın).

Ancak hiç kimse, hatta parlak bilim insanları bile hata yapmaktan muaf değildir. Fisher'ın kusurları bugün bile uzmanların başına dert olmaya devam ediyor. Ancak Albert Einstein'ın şu sözlerini hatırlayın: "Hiç hata yapmamış olan, hiçbir zaman yeni bir şey yaratmamıştır."

Bir sonraki noktaya geçmeden önce şunu unutmayın: istatistiksel anlamlılık, test sonuçlarındaki farkın, farkın rastgele faktörlerle açıklanamayacak kadar büyük olmasıdır.

Hipoteziniz nedir?

"İstatistiksel anlamlılığın" ne anlama geldiğini anlamak için öncelikle "hipotez testinin" ne olduğunu anlamanız gerekir çünkü iki terim yakından iç içe geçmiştir.
Hipotez sadece bir teoridir. Bir teori geliştirdikten sonra, yeterli kanıt toplamak ve bu kanıtları fiilen toplamak için bir süreç oluşturmanız gerekecektir. İki tür hipotez vardır.

Elmalar veya portakallar - hangisi daha iyi?

Boş hipotez

Kural olarak, birçok insanın zorluk yaşadığı yer burasıdır. Akılda tutulması gereken bir şey, boş bir hipotezin kanıtlanması gereken bir şey olmadığıdır; tıpkı bir web sitesindeki belirli bir değişikliğin dönüşümlerde artışa yol açacağını kanıtlamanız gibi, ancak bunun tersi de geçerlidir. Boş hipotez, sitede herhangi bir değişiklik yaparsanız hiçbir şeyin olmayacağını belirten bir teoridir. Ve araştırmacının amacı bu teoriyi çürütmektir, kanıtlamak değil.

Soruşturmacıların aynı zamanda suçlunun kim olduğuna dair hipotezler oluşturduğu suçları çözme deneyimine bakarsak, sıfır hipotezi sözde masumiyet karinesi biçimini alır; buna göre sanığın suçluluğu kanıtlanana kadar masum sayılacağı kavramıdır. bir mahkemede.

Boş hipotez, iki nesnenin özellikleri bakımından eşit olduğu yönündeyse ve birinin daha iyi olduğunu kanıtlamaya çalışıyorsanız (örneğin, A, B'den daha iyidir), alternatif lehine sıfır hipotezini reddetmeniz gerekir. Örneğin, bir veya daha fazla dönüşüm optimizasyon aracını karşılaştırıyorsunuz. Sıfır hipotezinde her ikisi de hedef üzerinde aynı etkiye sahiptir (veya hiçbir etkisi yoktur). Alternatif olarak bunlardan birinin etkisi daha iyidir.

Alternatif hipoteziniz B - A > %20 gibi sayısal bir değer içerebilir. Bu durumda sıfır hipotezi ve alternatif aşağıdaki formu alabilir:

Alternatif hipotezin diğer adı araştırma hipotezidir çünkü araştırmacı her zaman bu özel hipotezi kanıtlamakla ilgilenir.

İstatistiksel anlamlılık ve p değeri

Tekrar Ronald Fisher'a ve onun istatistiksel anlamlılık kavramına dönelim.

Artık boş bir hipoteziniz ve bir alternatifiniz olduğuna göre, birini nasıl kanıtlayıp diğerini çürütebilirsiniz?

İstatistikler doğası gereği belirli bir popülasyonun (örneklem) incelenmesini içerdiğinden, elde edilen sonuçlardan asla %100 emin olamazsınız. İyi bir örnek: Seçim sonuçları genellikle ön anketlerin ve hatta çıkış havuzlarının sonuçlarından farklıdır.

Dr. Fisher, deneyin başarılı olup olmadığını size bildirecek bir ayrım çizgisi oluşturmak istedi. Güvenilirlik endeksi bu şekilde ortaya çıktı. Güvenilirlik, neyi “önemli” olarak değerlendirdiğimizi ve neyi düşünmediğimizi söylemek için kullandığımız düzeydir. Anlamlılık indeksi olan "p" 0,05 veya daha küçük ise sonuçlar güvenilirdir.

Endişelenmeyin, aslında göründüğü kadar kafa karıştırıcı değil.

Gauss olasılık dağılımı. Kenarlar boyunca değişkenin daha az olası değerleri, merkezde ise en olası değerleri bulunur. P-puanı (yeşil gölgeli alan), gözlemlenen sonucun şans eseri ortaya çıkma olasılığıdır.

Normal olasılık dağılımı (Gauss dağılımı), belirli bir değişkenin tüm olası değerlerinin (yukarıdaki şekilde) bir grafik üzerinde ve bunların frekanslarının temsilidir. Araştırmanızı doğru yaparsanız ve tüm cevaplarınızı bir grafik üzerinde işaretlerseniz tam olarak bu dağılımı elde edersiniz. Normal dağılıma göre, benzer yanıtların büyük bir yüzdesini alacaksınız ve geri kalan seçenekler grafiğin kenarlarında ("kuyruk" olarak adlandırılan) yer alacaktır. Değerlerin bu dağılımı doğada sıklıkla bulunur, bu yüzden buna “normal” denir.

Numunenize ve test sonuçlarınıza dayalı bir denklem kullanarak, sonuçlarınızın ne kadar saptığını gösteren "test istatistiği" adı verilen şeyi hesaplayabilirsiniz. Ayrıca sıfır hipotezinin doğru olmasına ne kadar yakın olduğunuzu da söyleyecektir.

Bu konuyu anlamanıza yardımcı olması için istatistiksel anlamlılığı hesaplamak amacıyla çevrimiçi hesap makinelerini kullanın:

Bu tür hesap makinelerine bir örnek

"P" harfi sıfır hipotezinin doğru olma olasılığını temsil eder. Sayının küçük olması test grupları arasında bir fark olduğunu gösterirken, sıfır hipotezi bunların aynı olduğu yönünde olacaktır. Grafiksel olarak, test istatistiğiniz çan şeklindeki dağılımınızın kuyruklarından birine daha yakın olacak gibi görünecektir.

Dr. Fisher anlamlılık eşiğini p ≤ 0,05 olarak ayarlamaya karar verdi. Ancak bu ifade tartışmalıdır çünkü iki zorluğa yol açmaktadır:

1. Öncelikle sıfır hipotezinin yanlış olduğunu kanıtlamış olmanız, alternatif hipotezi kanıtladığınız anlamına gelmez. Bütün bu önem, ne A'yı ne de B'yi kanıtlayamayacağınız anlamına gelir.

2. İkinci olarak p-puanı 0,049 ise sıfır hipotezinin olasılığı %4,9 olacaktır. Bu, test sonuçlarınızın aynı anda hem doğru hem de yanlış olabileceği anlamına gelebilir.

P-puanını kullanabilir veya kullanmayabilirsiniz, ancak daha sonra sıfır hipotezinin olasılığını duruma göre hesaplamanız ve bunun planladığınız ve test ettiğiniz değişiklikleri yapmanızı engelleyecek kadar büyük olup olmadığına karar vermeniz gerekecektir. .

Günümüzde istatistiksel bir test yürütmek için en yaygın senaryo, testin kendisini çalıştırmadan önce anlamlılık eşiğini p ≤ 0,05 olarak ayarlamaktır. Sonuçlarınızı kontrol ederken p değerine yakından baktığınızdan emin olun.

Hata 1 ve 2

Üzerinden o kadar çok zaman geçti ki istatistiksel anlamlılık metriği kullanılırken oluşabilecek hatalara kendi isimleri bile verildi.

Tip 1 Hatalar

Yukarıda belirtildiği gibi, 0,05'lik bir p değeri, sıfır hipotezinin doğru olma ihtimalinin %5 olduğu anlamına gelir. Bunu yapmazsanız, 1 numaralı hatayı yapmış olursunuz. Sonuçlar, yeni web sitenizin dönüşüm oranlarınızı artırdığını söylüyor ancak %5'lik bir ihtimalle bunu yapmadı.

Tip 2 Hatalar

Bu hata, hata 1'in tam tersidir: Boş hipotezi yanlış olduğunda kabul edersiniz. Örneğin test sonuçları size sitede yapılan değişikliklerin herhangi bir iyileştirme getirmediğini ancak değişiklikler olduğunu söylüyor. Sonuç olarak performansınızı iyileştirme fırsatını kaçırırsınız.

Bu hata, örneklem büyüklüğünün yetersiz olduğu testlerde yaygındır; bu nedenle şunu unutmayın: örneklem ne kadar büyük olursa sonuç da o kadar güvenilir olur.

Çözüm

Belki de hiçbir terim araştırmacılar arasında istatistiksel anlamlılık kadar popüler değildir. Test sonuçları istatistiksel olarak anlamlı çıkmadığında, sonuçlar dönüşüm oranlarının artmasından şirketin çöküşüne kadar uzanıyor.

Pazarlamacılar bu terimi kaynaklarını optimize ederken kullandıklarından, bunun gerçekte ne anlama geldiğini bilmeniz gerekir. Test koşulları değişebilir ancak örneklem büyüklüğü ve başarı kriterleri her zaman önemlidir. Bunu hatırla.

İstatistiksel anlamlılık veya p-anlamlılık düzeyi testin ana sonucudur

istatistiksel hipotez. Teknik açıdan bu, belirli bir şeyi alma olasılığıdır.

Örnek bir çalışmanın sonucu, aslında genel olarak

Toplamda, boş istatistiksel hipotez doğrudur; yani hiçbir bağlantı yoktur. Başka bir deyişle, bu

tespit edilen ilişkinin rastgele olup bir özellik olmaması olasılığı

bütünlük. İstatistiksel anlamlılık, p anlamlılık düzeyi, yani

İletişim güvenilirliğinin niceliksel değerlendirmesi: bu olasılık ne kadar düşük olursa bağlantı o kadar güvenilir olur.

Diyelim ki, iki örnek ortalamayı karşılaştırırken bir seviye değeri elde edildi

istatistiksel anlamlılık p=0,05. Bu, istatistiksel hipotezin test edilmesi anlamına gelir.

nüfustaki ortalamaların eşitliği şunu gösterdi: eğer bu doğruysa, o zaman olasılık

Tespit edilen farklılıkların rastgele ortaya çıkma oranı %5'ten fazla değildir. Başka bir deyişle, eğer

Aynı popülasyondan tekrar tekrar iki örnek alındı, ardından bunların 1'inde

20 durumda bu numunelerin ortalamaları arasında aynı veya daha büyük fark bulunacaktır.

Yani bulunan farklılıkların şans eseri olma ihtimali %5'tir.

karakterlidir ve agreganın bir özelliği değildir.

Bilimsel bir hipotezle ilgili olarak istatistiksel anlamlılık düzeyi nicelikseldir.

sonuçlardan hesaplanan, bir bağlantının varlığına ilişkin sonuçtaki güvensizlik derecesinin bir göstergesi

Bu hipotezin seçici, deneysel olarak test edilmesi. P düzeyi değeri ne kadar düşük olursa o kadar yüksek olur

Bilimsel bir hipotezi doğrulayan bir araştırma sonucunun istatistiksel önemi.

Anlamlılık düzeyini neyin etkilediğini bilmek faydalıdır. Önem düzeyi, diğer şeylerin eşit olması

koşullar daha yüksekse (p düzeyi değeri daha düşüktür):

Bağlantının büyüklüğü (fark) daha büyüktür;

Özellik(ler)in değişkenliği daha azdır;

Örnek boyutu/boyutları daha büyüktür.

Tek taraflıİki taraflı anlamlılık testleri

Çalışmanın amacı iki genel parametredeki farklılıkları belirlemek ise

çeşitli doğal koşullara (yaşam koşulları,

deneklerin yaşı vb.), bu parametrelerden hangisinin daha büyük olacağı genellikle bilinmez ve

Hangisi daha küçük?

Örneğin, bir testteki sonuçların değişkenliğiyle ilgileniyorsanız ve

deney gruplarında, kural olarak, varyanslardaki farkın işaretine güven yoktur veya

Değişkenliğin değerlendirildiği sonuçların standart sapmaları. Bu durumda

sıfır hipotezi varyansların eşit olduğu ve çalışmanın amacının

bunun tersini kanıtlayın, yani varyanslar arasında farkların varlığı. buna izin veriliyor

fark herhangi bir işarette olabilir. Bu tür hipotezlere iki taraflı denir.

Ancak bazen zorluk bir parametredeki artışı veya azalmayı kanıtlamaktır;

örneğin deney grubundaki ortalama sonuç kontrol grubuna göre daha yüksektir. Aynı zamanda

Artık farkın farklı bir işarette olmasına izin verilmiyor. Bu tür hipotezlere denir

Tek taraflı.

İki taraflı hipotezleri test etmek için kullanılan anlamlılık testlerine ne ad verilir?

Çift taraflı ve tek taraflı - tek taraflı.

Belirli bir durumda hangi kriterin seçilmesi gerektiği sorusu ortaya çıkar. Cevap

Bu soru resmi istatistiksel yöntemlerin kapsamı dışındadır ve tamamen

Çalışmanın hedeflerine bağlıdır. Hiçbir durumda bir veya başka bir kriteri seçmemelisiniz.

Deneysel verilerin analizine dayalı bir deney yürütmek;

Yanlış sonuçlara yol açar. Bir deney yapmadan önce farkın olduğu varsayılırsa

Karşılaştırılan parametreler pozitif veya negatif olabilir, o zaman şunları yapmalısınız:

Değişkenler arasındaki herhangi bir ilişkinin temel özellikleri.

Değişkenler arasındaki ilişkinin en basit iki özelliğini not edebiliriz: (a) ilişkinin büyüklüğü ve (b) ilişkinin güvenilirliği.

- Büyüklük . Bağımlılığın büyüklüğünün anlaşılması ve ölçülmesi güvenilirlikten daha kolaydır. Örneğin örneklemdeki herhangi bir erkeğin beyaz kan hücresi sayısı (WCC) değeri herhangi bir kadından yüksekse bu durumda iki değişken (Cinsiyet ve WCC) arasındaki ilişkinin çok yüksek olduğunu söyleyebilirsiniz. Başka bir deyişle, bir değişkenin değerlerini diğerinin değerlerinden tahmin edebilirsiniz.

- Güvenilirlik ("gerçek"). Karşılıklı bağımlılığın güvenilirliği, bağımlılığın büyüklüğünden daha az sezgisel bir kavramdır ancak son derece önemlidir. İlişkinin güvenilirliği, sonuçların çıkarıldığı belirli bir örneklemin temsil edilebilirliğiyle doğrudan ilgilidir. Başka bir deyişle güvenilirlik, aynı popülasyondan alınan başka bir örneklemden alınan veriler kullanılarak bir ilişkinin yeniden keşfedilme (başka bir deyişle doğrulanma) olasılığının ne kadar yüksek olduğunu ifade eder.

Nihai hedefin bu özel değer örneğini neredeyse hiçbir zaman incelememek olduğu unutulmamalıdır; Bir örnek yalnızca tüm popülasyon hakkında bilgi sağladığı ölçüde ilgi çekicidir. Çalışma belirli belirli kriterleri karşılıyorsa, örnek değişkenler arasında bulunan ilişkilerin güvenilirliği standart bir istatistiksel ölçüm kullanılarak ölçülebilir ve sunulabilir.

Bağımlılığın büyüklüğü ve güvenilirliği, değişkenler arasındaki bağımlılığın iki farklı özelliğini temsil eder. Ancak tamamen bağımsız oldukları söylenemez. Normal büyüklükteki bir örneklemde değişkenler arasındaki ilişkinin (bağlantının) büyüklüğü ne kadar büyük olursa, o kadar güvenilir olur (bir sonraki bölüme bakın).

Bir sonucun istatistiksel anlamlılığı (p-seviyesi), onun "doğruluğuna" ("örneklemin temsil edilebilirliği" anlamında) olan güvenin tahmini ölçüsüdür. Daha teknik konuşursak, p düzeyi, sonucun güvenilirliğine göre azalan büyüklük sırasına göre değişen bir ölçüdür. Daha yüksek bir p düzeyi, örneklemde bulunan değişkenler arasındaki ilişkiye ilişkin daha düşük bir güven düzeyine karşılık gelir. Yani p düzeyi, gözlemlenen sonucun tüm popülasyona dağılımıyla ilişkili hata olasılığını temsil eder.

Örneğin, p düzeyi = 0,05(yani 1/20), numunede bulunan değişkenler arasındaki ilişkinin numunenin sadece rastgele bir özelliği olma ihtimalinin %5 olduğunu belirtir. Pek çok çalışmada, hata düzeyi için 0,05'lik p düzeyi "kabul edilebilir marj" olarak kabul edilir.

Hangi önem düzeyinin gerçekten "önemli" olarak değerlendirilmesi gerektiğine karar verirken keyfilikten kaçınmanın bir yolu yoktur. Üzerinde sonuçların yanlış olduğu gerekçesiyle reddedileceği belirli bir anlamlılık düzeyinin seçimi oldukça keyfidir.

Uygulamada, nihai karar genellikle sonucun önceden mi tahmin edildiğine (yani deney gerçekleştirilmeden önce) veya çeşitli veriler üzerinde ve aynı zamanda çeşitli veriler üzerinde gerçekleştirilen birçok analiz ve karşılaştırmanın sonucu olarak sonradan mı keşfedildiğine bağlıdır. çalışma alanının geleneği.

Genel olarak birçok alanda p=0,05'lik bir sonuç, istatistiksel anlamlılık açısından kabul edilebilir bir sınır değeridir, ancak bu seviyenin hala oldukça büyük bir hata payı (%5) içerdiğini unutmayın.

p 0,01 düzeyinde anlamlı olan sonuçlar genellikle istatistiksel olarak anlamlı kabul edilirken, p 0,005 veya p 0,00 düzeyindeki sonuçlar genellikle istatistiksel olarak anlamlı kabul edilir. 001 oldukça anlamlıdır. Ancak, önem düzeylerine ilişkin bu sınıflandırmanın oldukça keyfi olduğu ve pratik deneyime dayanarak kabul edilen gayri resmi bir anlaşma olduğu anlaşılmalıdır. belirli bir çalışma alanında.

Toplanan verilerin toplamı üzerinde gerçekleştirilen analizlerin sayısı ne kadar fazla olursa, (seçilen düzeyde) önemli sonuçların da o kadar fazla sayıda tamamen şans eseri keşfedileceği açıktır.

Çok sayıda karşılaştırma içeren ve dolayısıyla bu tür hataların tekrarlanma ihtimali önemli olan bazı istatistiksel yöntemler, toplam karşılaştırma sayısı için özel bir ayarlama veya düzeltme yapar. Ancak birçok istatistiksel yöntem (özellikle basit keşfedici veri analizi yöntemleri) bu sorunu çözmenin herhangi bir yolunu sunmamaktadır.

Değişkenler arasındaki ilişki "nesnel olarak" zayıfsa, bu tür bir ilişkiyi test etmenin büyük bir örneklemi incelemek dışında başka yolu yoktur. Örneklem mükemmel bir şekilde temsil etse bile, örneklem küçükse etki istatistiksel olarak anlamlı olmayacaktır. Benzer şekilde, eğer bir ilişki “objektif olarak” çok güçlü ise, o zaman çok küçük bir örneklemde bile yüksek derecede anlamlılık tespit edilebilir.

Değişkenler arasındaki ilişki ne kadar zayıfsa, onu anlamlı bir şekilde tespit etmek için gereken örneklem boyutu da o kadar büyük olur.

Birçok farklı ilişki ölçüleri değişkenler arasında. Belirli bir çalışmada belirli bir ölçümün seçimi değişkenlerin sayısına, kullanılan ölçüm ölçeklerine, ilişkilerin doğasına vb. bağlıdır.

Ancak bu ölçümlerin çoğu genel bir prensibi takip eder: Gözlemlenen bir ilişkiyi, söz konusu değişkenler arasındaki "akla gelebilecek maksimum ilişki" ile karşılaştırarak tahmin etmeye çalışırlar. Teknik açıdan konuşursak, bu tür tahminler yapmanın olağan yolu, değişkenlerin değerlerinin nasıl değiştiğine bakmak ve ardından mevcut toplam varyasyonun ne kadarının, "ortak" ("ortak") varyasyonun varlığıyla açıklanabileceğini hesaplamaktır. iki (veya daha fazla) değişken.

Önem esas olarak örneklem büyüklüğüne bağlıdır. Daha önce açıklandığı gibi, çok büyük örneklemlerde değişkenler arasındaki çok zayıf ilişkiler bile anlamlı olurken, küçük örneklemlerde çok güçlü ilişkiler bile güvenilir değildir.

Bu nedenle, istatistiksel anlamlılık düzeyini belirlemek için, her örneklem büyüklüğü için değişkenler arasındaki ilişkinin "büyüklüğü" ve "anlamlılığı" arasındaki ilişkiyi temsil edecek bir fonksiyona ihtiyaç vardır.

Böyle bir fonksiyon tam olarak "popülasyonda böyle bir bağımlılığın olmadığı varsayılarak, belirli büyüklükteki bir örnekte belirli bir değere (veya daha fazlasına) bağımlılık elde etmenin ne kadar muhtemel olduğunu" gösterecektir. Başka bir deyişle, bu fonksiyon bir anlamlılık düzeyi verecektir.
(p-seviyesi) ve dolayısıyla popülasyonda bu bağımlılığın olmadığı varsayımını hatalı bir şekilde reddetme olasılığı.

Bu "alternatif" hipoteze (popülasyonda hiçbir ilişkinin bulunmadığına) genellikle denir. boş hipotez.

Hata olasılığını hesaplayan fonksiyonun doğrusal olması ve farklı örneklem büyüklükleri için yalnızca farklı eğimlere sahip olması ideal olacaktır. Ne yazık ki bu işlev çok daha karmaşıktır ve her zaman tam olarak aynı değildir. Ancak çoğu durumda formu bilinir ve belirli bir büyüklükteki numunelerle yapılan çalışmalarda anlamlılık seviyelerini belirlemek için kullanılabilir. Bu işlevlerin çoğu, adı verilen bir dağılım sınıfıyla ilişkilidir. normal .