Normal dağılım. Sayısal değerlerin istatistiksel analizi (parametrik olmayan istatistikler)

Normal olasılık dağılım yasası

Abartmadan buna felsefi bir yasa denilebilir. Çevremizdeki dünyadaki çeşitli nesneleri ve süreçleri gözlemlediğimizde, çoğu zaman bir şeyin yeterli olmadığı ve bir norm olduğu gerçeğiyle karşılaşırız:


İşte temel bir görünüm yoğunluk fonksiyonları normal olasılık dağılımı ve sizi bu ilginç derse davet ediyorum.

Hangi örnekleri verebilirsiniz? Sadece karanlıkları var. Bu, örneğin insanların boyu, kilosu (ve sadece değil), fiziksel güç, zihinsel yetenekler vesaire. Bir "ana kütle" var (şu ya da bu nedenle) ve her iki yönde de sapmalar var.

Bu çeşitli özellikler cansız nesneler (aynı boyut, ağırlık). Bu tesadüfi bir süreç..., aklıma yine üzücü bir örnek geldi ve bu yüzden ampullerin “ömrü” diyeceğim :) Fizikten hava moleküllerini hatırladım: aralarında yavaş olanlar var, var hızlı olanlar, ancak çoğu “standart” hızlarda hareket eder.

Daha sonra merkezden bir standart sapma daha saparız ve yüksekliği hesaplarız:

Çizimdeki noktaları işaretleme (yeşil) ve bunun oldukça yeterli olduğunu görüyoruz.

Son aşamada dikkatlice bir grafik çizin ve özellikle dikkatli bir şekilde onu yansıt dışbükey/içbükey! Muhtemelen uzun zaman önce x ekseninin eşit olduğunu fark etmişsinizdir. yatay asimptot ve arkasına “tırmanmak” kesinlikle yasaktır!

Şu tarihte: elektronik kayıtÇözüm grafiğini Excel'de oluşturmak kolaydır ve kendim için beklenmedik bir şekilde bu konuyla ilgili kısa bir video bile kaydettim. Ama önce normal eğrinin şeklinin ve değerlerine bağlı olarak nasıl değiştiğinden bahsedelim.

"a"yı arttırırken veya azaltırken (sabit “sigma” ile) grafik şeklini korur ve sağa/sola hareket eder sırasıyla. Yani, örneğin fonksiyon şu formu aldığında ve grafiğimiz 3 birim sola - tam olarak koordinatların kökenine doğru "hareket eder":


Sıfır matematiksel beklentisi olan normal olarak dağıtılmış bir miktar tamamen doğal bir isim aldı - merkezli; yoğunluk fonksiyonu eşit ve grafik ordinat etrafında simetriktir.

"Sigma"nın değişmesi durumunda (sabit “a” ile) grafik "aynı kalır" ancak şekli değişir. Büyütüldüğünde, dokunaçlarını uzatan bir ahtapot gibi alçalır ve uzar. Ve tam tersi, grafiği azaltırken daralıyor ve daha uzun oluyor- "şaşırmış bir ahtapot" olduğu ortaya çıktı. Evet, ne zaman azaltmakİki kez “sigma”: önceki grafik iki kez daralır ve uzar:

Herşey tam uyumlu grafiklerin geometrik dönüşümleri.

Birim sigma değerine sahip normal dağılıma denir normalleştirilmiş ve eğer aynı zamanda merkezli(bizim durumumuzda), o zaman böyle bir dağıtım denir standart. Zaten bulunan daha basit bir yoğunluk fonksiyonuna sahiptir. Laplace'ın yerel teoremi: . Standart dağıtım pratikte geniş bir uygulama alanı buldu ve çok yakında amacını nihayet anlayacağız.

Şimdi filmi izleyelim:

Evet, kesinlikle doğru - bir şekilde haksız yere gölgede kaldı olasılık dağılım fonksiyonu. Onu hatırlayalım tanım:
– rastgele bir değişkenin, tüm gerçek değerleri “artı” sonsuza kadar “geçiren” değişkenden DAHA AZ değer alma olasılığı.

İntegralin içinde, notasyonla "örtüşme" olmaması için genellikle farklı bir harf kullanılır, çünkü burada her değer bir ile ilişkilendirilir. uygunsuz integral bazılarına eşit olan sayı aralıktan.

Hemen hemen tüm anlamlar uygun değildir doğru hesaplama, ancak az önce gördüğümüz gibi, modern bilgi işlem gücüyle bunda hiçbir zorluk yok. Yani fonksiyon için standart dağıtımda karşılık gelen Excel işlevi genellikle bir bağımsız değişken içerir:

=NORMDAĞ(z)

Bir, iki - ve bitirdiniz:

Çizim tüm bunların uygulanmasını açıkça göstermektedir. dağıtım fonksiyonu özellikleri ve buradaki teknik nüanslara dikkat etmelisiniz yatay asimptotlar ve dönüm noktası.

Şimdi konunun en önemli görevlerinden birini hatırlayalım, yani normal bir rastgele değişkenin olasılığını nasıl bulacağımızı bulalım. aralıktaki değeri alacak. Geometrik olarak bu olasılık şuna eşittir: alan karşılık gelen bölümde normal eğri ile x ekseni arasında:

ama her seferinde yaklaşık bir değer elde etmeye çalışıyorum mantıksızdır ve bu nedenle kullanmak daha mantıklıdır "hafif" formül:
.

! Ayrıca hatırlıyor , Ne

Burada Excel'i tekrar kullanabilirsiniz, ancak birkaç önemli "ama" vardır: birincisi, her zaman elinizin altında değildir ve ikincisi, "hazır" değerler büyük olasılıkla öğretmenin sorularını gündeme getirecektir. Neden?

Bundan daha önce birçok kez bahsetmiştim: Bir zamanlar (ve çok uzun zaman önce değil) normal bir hesap makinesi lükstü ve eğitim literatürü Söz konusu sorunu çözmenin “manuel” yöntemi hala korunmaktadır. Onun özü şudur: standartlaştırmak“alfa” ve “beta” değerleri, yani çözümü standart dağılıma düşürür:

Not : fonksiyona ulaşmak kolaydır genel durum doğrusal kullanarak değiştirmeler. Sonra da:

ve gerçekleştirilen değiştirmeden itibaren formül aşağıdaki gibidir: değerlerden geçiş rastgele dağılım– standart dağılımın karşılık gelen değerlerine.

Bu neden gerekli? Gerçek şu ki değerler atalarımız tarafından titizlikle hesaplanmış ve terwer ile ilgili birçok kitapta yer alan özel bir tabloda derlenmiştir. Ancak daha da sıklıkla, daha önce ele aldığımız bir değerler tablosu vardır. Laplace'ın integral teoremi:

Elimizde Laplace fonksiyonunun bir değerler tablosu varsa , sonra onun aracılığıyla çözeriz:

Kesirli değerler Geleneksel olarak, standart tabloda yapıldığı gibi 4 ondalık basamağa yuvarlarız. Ve kontrol için var 5. nokta düzen.

sana şunu hatırlatıyorum ve karışıklığı önlemek için her zaman kontrol et, gözlerinizin önünde NE işlevi olduğuna dair bir tablo var.

Cevap Yüzde olarak verilmesi gerektiğinden hesaplanan olasılık 100 ile çarpılarak sonuca anlamlı bir yorum verilmelidir:

– 5 ila 70 m arasındaki uçuşlarda mermilerin yaklaşık %15,87'si düşecek

Kendi başımıza antrenman yapıyoruz:

Örnek 3

Fabrika yapımı rulmanların çapı, 1,5 cm'lik bir matematiksel beklenti ve 0,04 cm'lik bir standart sapma ile normal olarak dağıtılan rastgele bir değişkendir. Rastgele seçilen bir rulmanın boyutunun 1,4 ile 1,6 cm arasında değişme olasılığını bulun.

Örnek çözümde ve aşağıda en yaygın seçenek olarak Laplace fonksiyonunu kullanacağım. Bu arada, ifadeye göre aralığın sonlarının da burada dikkate alınabileceğini unutmayın. Ancak bu kritik değildir.

Ve zaten bu örnekte tanıştık özel durum– aralık matematiksel beklentiye göre simetrik olduğunda. Böyle bir durumda, şu şekilde yazılabilir ve Laplace fonksiyonunun tuhaflığını kullanarak çalışma formülünü basitleştirebilirsiniz:


Delta parametresi denir sapma matematiksel beklentiden ve çifte eşitsizlik kullanılarak "paketlenebilir" modül:

– Rastgele bir değişkenin değerinin matematiksel beklentiden .

Çözümün tek satıra sığması iyi :)
Rastgele alınan bir yatağın çapının 1,5 cm'den 0,1 cm'den fazla farklılık göstermeme olasılığı.

Bu görevin sonucunun birliğe yakın olduğu ortaya çıktı, ancak daha da fazla güvenilirlik istiyorum - yani çapın bulunduğu sınırları bulmak neredeyse herkes rulmanlar. Bunun herhangi bir kriteri var mı? Var! Sorulan soruya sözde cevap veriliyor

üç sigma kuralı

Onun özü şudur pratik olarak güvenilir normal dağılmış bir rastgele değişkenin aralıktan bir değer alacağı gerçeğidir .

Gerçekte, beklenen değerden sapma olasılığı aşağıdakilerden daha azdır:
veya %99,73

Yataklar açısından bunlar, çapı 1,38 ila 1,62 cm arasında olan 9973 parça ve yalnızca 27 "standart altı" kopyadır.

Pratik araştırmalarda üç sigma kuralı genellikle ters yönde uygulanır: istatistiksel olarak Hemen hemen tüm değerlerin olduğu tespit edildi. incelenmekte olan rastgele değişken 6 standart sapma aralığına giriyorsa, bu değerin normal bir yasaya göre dağıtıldığına inanmak için zorlayıcı nedenler vardır. Doğrulama teori kullanılarak gerçekleştirilir istatistiksel hipotezler er ya da geç ulaşmayı umuyorum :)

Bu arada, zorlu Sovyet sorunlarını çözmeye devam ediyoruz:

Örnek 4

Tartım hatasının rastgele değeri, sıfır matematiksel beklenti ile normal yasaya göre dağıtılır ve standart sapma 3 gram. Bir sonraki tartımın mutlak değeri 5 gramı geçmeyecek bir hatayla yapılma olasılığını bulun.

Çözümçok basit. Koşula göre, bir sonraki tartımda hemen şunu not ederiz: (bir şey veya birisi) 9 gram doğrulukla neredeyse %100 sonuç alacağız. Ancak sorun daha dar bir sapmayı içeriyor ve formüle göre :

– bir sonraki tartımın 5 gramı aşmayan bir hatayla gerçekleştirilme olasılığı.

Cevap:

Çözülen sorun, görünüşte benzer olandan temel olarak farklıdır. Örnek 3 hakkında ders düzgün dağılım. Bir hata oluştu yuvarlamaölçüm sonuçları, burada ölçümlerin rastgele hatasından bahsediyoruz. Bu tür hatalar nedeniyle ortaya çıkar teknik özellikler cihazın kendisi (kabul edilebilir hataların aralığı genellikle pasaportunda belirtilir) ve ayrıca deneycinin hatası nedeniyle - örneğin "gözle" aynı terazinin iğnesinden okumalar aldığımızda.

Diğerlerinin yanı sıra sözde olanlar da var sistematikölçüm hataları. Zaten rastgele olmayan cihazın yanlış kurulumu veya çalıştırılması nedeniyle oluşan hatalar. Örneğin, düzenlenmemiş yer kantarları istikrarlı bir şekilde kilogram "ekleyebilir" ve satıcı sistematik olarak müşterilerin ağırlığını azaltır. Veya sistematik olmayan bir şekilde hesaplanabilir. Ancak her durumda böyle bir hata rastgele olmayacak ve beklentisi sıfırdan farklı olacaktır.

…Acil olarak bir satış eğitimi kursu geliştiriyorum =)

Kendi başımıza karar veriyoruz ters problem:

Örnek 5

Silindirin çapı rastgele normal dağılmış bir rastgele değişkendir, standart sapması mm'ye eşittir. Silindir çapının uzunluğunun düşme ihtimalinin bulunduğu, matematiksel beklentiye göre simetrik olan aralığın uzunluğunu bulun.

5. nokta* tasarım düzeni yardım etmek. Burada matematiksel beklentinin bilinmediğini ancak bu durumun bizi sorunu çözmekten hiçbir şekilde alıkoymadığını unutmayın.

VE sınav görevi Malzemeyi pekiştirmek için şiddetle tavsiye ettiğim:

Örnek 6

Normal dağılmış bir rastgele değişken, parametreleri (matematiksel beklenti) ve (standart sapma) ile belirtilir. Gerekli:

a) olasılık yoğunluğunu yazın ve grafiğini şematik olarak gösterin;
b) aralıktan değer alma olasılığını bulun ;
c) mutlak değerin en fazla sapma gösterme olasılığını bulun;
d) “üç sigma” kuralını kullanarak rastgele değişkenin değerlerini bulun.

Bu tür problemler her yerde karşımıza çıkıyor ve yıllar süren pratikte bunların yüzlercesini çözdüm. Elle çizim yapmayı ve kağıt tabloları kullanmayı unutmayın;)

Peki sana bir örnek vereceğim artan karmaşıklık:

Örnek 7

Rastgele bir değişkenin olasılık dağılım yoğunluğu şu şekildedir: . Bul, matematiksel beklenti, varyans, dağılım fonksiyonu, yapı yoğunluk grafikleri ve dağılım fonksiyonları, bulma.

Çözüm: Öncelikle koşulun rastgele değişkenin doğası hakkında hiçbir şey söylemediğini belirtelim. Bir üssün varlığı kendi başına hiçbir şey ifade etmez: örneğin ortaya çıkabilir: gösterge niteliğinde hatta keyfi sürekli dağıtım. Ve bu nedenle dağılımın “normalliğinin” hala gerekçelendirilmesi gerekiyor:

Fonksiyondan beri şu tarihte belirlendi: herhangi gerçek değer ve forma indirgenebilir , daha sonra rastgele değişken normal yasaya göre dağıtılır.

İşte başlıyoruz. Bunun için tam bir kare seç ve organize etmek üç katlı kesir:


Göstergeyi orijinal formuna döndürerek kontrol ettiğinizden emin olun:

görmek istediğimiz de buydu.

Böylece:
- İle yetkilerle operasyon kuralı"sıkıştırmak" Ve burada bariz olanı hemen yazabiliriz sayısal özellikler:

Şimdi parametrenin değerini bulalım. Normal dağılım çarpanı ve formuna sahip olduğundan:
, işlevimizi ifade ettiğimiz ve yerine koyduğumuz yerden:
, bundan sonra bir kez daha gözlerimizle kayıt üzerinden geçeceğiz ve ortaya çıkan fonksiyonun şu şekle sahip olduğundan emin olacağız: .

Bir yoğunluk grafiği oluşturalım:

ve dağıtım fonksiyonu grafiği :

Elinizde Excel veya normal bir hesap makinesi yoksa, son grafik kolayca manuel olarak oluşturulabilir! Dağıtım fonksiyonunun değeri aldığı noktada ve işte burada

Normal dağılım

Dağıtım, çokgen (veya özel çokgen) ve dağıtım eğrisi kavramlarına zaten aşinayız. Bu kavramların özel bir durumu “normal dağılım” ve “normal eğri”dir. Ancak bu özel seçenek, psikolojik olanlar da dahil olmak üzere herhangi bir bilimsel veriyi analiz ederken çok önemlidir. Gerçek şu ki, grafiksel olarak gösterilen normal dağılım normal eğri Nesnel gerçeklikte nadiren bulunan ideal bir dağılım vardır. Ancak kullanımı, ayni olarak elde edilen verilerin işlenmesini ve açıklanmasını büyük ölçüde kolaylaştırır ve basitleştirir. Üstelik sadece normal bir dağılım için verilen korelasyon katsayıları bağlantının yakınlığının bir ölçüsü olarak yorumlanabilir; diğer durumlarda ise böyle bir işlev görmezler ve bunların hesaplanması açıklanması zor paradokslara yol açar.

İÇİNDE bilimsel araştırma varsayım genellikle kabul edilir O gerçek verilerin dağılımının normalliği ve bu temelde işlenir, ardından bir takım özel istatistiksel tekniklerin kullanıldığı gerçek dağılımın normal dağılımdan ne kadar farklı olduğu açıklığa kavuşturulur ve gösterilir. Kural olarak, bu varsayım oldukça kabul edilebilirdir, çünkü çoğu psişik olaylar ve özellikleri normale çok yakın dağılımlara sahiptir.

Peki normal dağılım nedir ve bilim adamlarını cezbeden özellikleri nelerdir? Normal Bir büyüklüğün oluşma ve oluşmama olasılıkları aynı olacak şekilde dağılımına dağılım denir. Klasik illüstrasyon yazı tura atmaktır. Eğer para adilse ve atışlar aynı şekilde yapılıyorsa, yazı veya tura gelme olasılığı da eşit derecede yüksektir. Yani, "turalar" aynı olasılıkla düşebilir ve düşmeyebilir ve aynı durum "yazı" için de geçerlidir.

“Olasılık” kavramını tanıttık. Bunu açıklığa kavuşturalım. Olasılık– bu, bir olayın beklenen gerçekleşme sıklığıdır (oluşma - bir miktarın ortaya çıkışı değil). Olasılık, payı gerçekleşen olayların sayısı (frekans) olan bir kesirle ifade edilir ve V payda - maksimum olası sayı bu olaylar. Örnek alındığında (sayı olası durumlar) sınırlıysa, olasılık hakkında konuşmak daha iyidir, ancak O zaten aşina olduğumuz frekans. Olasılık şunu gösteriyor sonsuz sayıörnekler Ancak pratikte bu incelik sıklıkla göz ardı edilir.

Matematikçilerin olasılık teorisine yoğun ilgisi V genel olarak ve özel olarak normal dağılıma görünür V Katılımcıların isteği üzerine XVII. yüzyılda kumar Minimum riskle maksimum kazanç için bir formül bulun. Ünlü matematikçiler J. Bernoulli (1654-1705) ve P. S. Laplace (1749-1827) bu soruları ele aldılar. Birinci matematiksel açıklama Parayı birden çok kez atarken "tura" gelme olasılıklarının dağılım diyagramının bölümlerini birleştiren eğri, Abraham de Moivre(1667-1754). Bu eğri çok yakın normal eğri verdiği tam açıklama büyük matematikçi K. F. Gauss(1777-1855) bugün hâlâ adını taşıyor. Normal (Gauss) bir eğrinin grafiği ve formülü aşağıdaki gibidir.

burada P olasılıktır (daha kesin olarak olasılık yoğunluğu), yani yukarıdaki eğrinin yüksekliği verilen değer Z; e – taban doğal logaritma(2,718...); π= 3,142...; M – numune ortalaması; σ – standart sapma.

Normal bir eğrinin özellikleri

1. Ortalama (M), mod (Mo) ve medyan (Me) aynıdır.

2. Ortalama M'ye göre simetri.

3. Açıkça yalnızca iki parametreyle belirlenir - M ve o.

4. Eğrinin “dalları” hiçbir zaman apsis Z'yi geçmez ve ona asimptotik olarak yaklaşır.

5. M = 0 ve o = 1 için, altındaki alan 1'e eşit olduğundan birim normal eğri elde ederiz.

6. Birim eğri için: P m = 0,3989 ve eğrinin altındaki alan şu aralıktadır:

-σ ila +σ = %68,26; -2σ ila + 2σ = %95,46; -Зσ ila + Зσ = %99,74.

7. Birim olmayan normal eğriler için (M ≠0, σ ≠1), alanlardaki desen aynı kalır. Aradaki fark yüzlerce.

Normal dağılımın varyasyonları

Aşağıda sunulan varyasyonlar yalnızca normal dağılım için değil, herhangi biri için geçerlidir. Ancak netlik sağlamak amacıyla bunları burada sunuyoruz.

1. Asimetri – merkezi değere göre eşit olmayan dağılım.

Olasılık teorisi ve matematiksel istatistikte, sayısal dağılımların çeşitli parametrik ailelerini dikkate alırlar. rastgele değişkenler. Yani normal dağılım aileleri, lognormal, üstel, gama dağılımları, Weibull-Gnedenko dağılımları vb. üzerinde çalışıyorlar. Hepsi bir, iki veya üç parametreye bağlı. Bu nedenle tam açıklama dağıtım için bir, iki veya üç sayıyı bilmek veya tahmin etmek yeterlidir. Çok uygun. Bu nedenle parametrik teori yaygın olarak geliştirilmiştir. matematiksel istatistik burada gözlemsel sonuçların dağılımlarının bir veya başka bir parametrik aileye ait olduğu varsayılmaktadır.

Ne yazık ki parametrik aileler yalnızca olasılık teorisi ve matematiksel istatistik ders kitabı yazarlarının kafasında mevcuttur. İÇİNDE gerçek hayat hiçbiri yok. Bu nedenle ekonometri esas olarak parametrik yöntemler gözlem sonuçlarının dağılımlarının keyfi bir forma sahip olabileceği.

İlk olarak normal dağılım örneğini kullanarak imkansızlığı daha ayrıntılı olarak tartışacağız. pratik kullanım Belirli ekonomik verilerin dağılımlarını tanımlamak için parametrik aileler. Daha sonra aykırı gözlemleri reddetmek için parametrik yöntemleri analiz edeceğiz ve bir dizi parametrik istatistik yönteminin pratik kullanımının imkansızlığını ve bunların yol açtığı sonuçların yanlışlığını göstereceğiz. Daha sonra sayısal rastgele değişkenlerin temel özelliklerinin (matematiksel beklenti, medyan, varyans, standart sapma) güven tahminine ilişkin parametrik olmayan yöntemleri analiz edeceğiz. varyasyon katsayısı. Ders, bağımsız veya ilişkili iki numunenin homojenliğini test etmeye yönelik yöntemlerle sona erecektir.

Gözlemlerin dağılımı genellikle normal midir?

Özellikle pazarlama ve yönetim süreçlerinin, kurumsal ve bölgesel yönetimin, doğruluk ve istikrarın incelenmesinde ve optimizasyonunda kullanılan ekonometrik ve ekonomik-matematiksel modellerde teknolojik süreçler, güvenilirlik problemlerinde, çevre güvenliği de dahil olmak üzere güvenliğin sağlanması, teknik cihazların ve nesnelerin işleyişi ve organizasyon şemalarının geliştirilmesi, olasılık teorisi ve matematiksel istatistik kavramları ve sonuçları sıklıkla kullanılır. Bu durumda sıklıkla bir veya daha fazla parametrik olasılık dağılım ailesi kullanılır. En Popüler normal dağılım. Logaritmik olarak da kullanılır normal dağılım, üstel dağılım, gama dağılımı, Weibull-Gnedenko dağılımı vb.

Açıkçası, modellerin gerçekliğe uygunluğunu her zaman kontrol etmek gerekir. İki soru ortaya çıkıyor. Gerçek dağılımlar modelde kullanılanlardan farklı mı? Bu fark sonuçları ne kadar etkiliyor?

Aşağıda, normal dağılım örneği ve buna dayalı olarak çok farklı gözlemleri (aykırı değerleri) reddetmek için kullanılan yöntemler kullanılarak, gerçek dağılımların neredeyse her zaman klasik parametrik ailelerin içerdiği dağılımlardan farklı olduğu ve verilen ailelerden mevcut sapmaların yanlış sonuçlara yol açtığı gösterilmektedir. ele alınan davada, bu ailelerin kullanımına dayalı olarak reddedilme hakkında.

Ölçüm sonuçlarının normal olduğunu önceden varsaymak için herhangi bir gerekçe var mı?

Bazen ölçüm hatasının (veya başka bir şeyin) olduğu durumlarda tartışılır. rastgele değişken) birçok küçük faktörün birleşik eyleminin bir sonucu olarak belirlenir, daha sonra olasılık teorisinin Merkezi Limit Teoremi (CLT) sayesinde, bu değere normal bir rastgele değişken tarafından (dağılımda) iyi bir şekilde yaklaşılır. Bu ifade, eğer küçük faktörler birbirine eklenerek ve birbirlerinden bağımsız olarak hareket ediyorsa doğrudur. Çarpımsal olarak hareket ediyorlarsa, aynı CLT nedeniyle, logaritmik olarak normal bir dağılımla yaklaştırılmaları gerekir. Uygulamalı problemlerde, küçük faktörlerin etkisinin çokluğundan ziyade toplanabilirliğini kanıtlamak genellikle mümkün değildir. Bağımlılık varsa genel karakter, toplamsal veya çarpımsal forma indirgenmemişse ve ayrıca üstel, Weibull-Gnedenko, gama veya diğer dağılımları veren modelleri kabul etmek için hiçbir neden yoksa, o zaman son rastgele değişkenin dağılımı hakkında intra-in dışında pratik olarak hiçbir şey bilinmemektedir. düzenlilik gibi matematiksel özellikler.

Belirli verileri işlerken bazen ölçüm hatalarının oluştuğuna inanılır. normal dağılım. Normallik varsayımı üzerine inşa edilmiştir klasik modeller regresyon, dağılım, faktör analizleri Hem yerel düzenleyici ve teknik belgelerde hem de uluslararası standartlarda bulunmaya devam eden metrolojik modeller. Operasyonel güvenliği sağlamaya yönelik sistemlerin tasarımında kullanılan belirli özelliklerin ulaşılabilir maksimum seviyelerinin hesaplanmasına yönelik modeller de aynı varsayıma dayanmaktadır. ekonomik yapılar, teknik cihazlar ve nesneler. Fakat teorik temeller böyle bir varsayım yoktur. Hata dağılımlarının deneysel olarak incelenmesi gerekmektedir.

Deneysel sonuçlar ne gösteriyor? Monografide verilen özet, çoğu durumda ölçüm hatalarının dağılımının normalden farklı olduğunu göstermektedir. Böylece, Makine ve Elektrik Mühendisliği Enstitüsü'nde (Varna, Bulgaristan), analog elektriksel ölçüm cihazlarının ölçeklerindeki kalibrasyon hatalarının dağılımı incelenmiştir. Çekoslovakya, SSCB ve Bulgaristan'da üretilen cihazlar incelendi. Hata dağıtım yasasının aynı olduğu ortaya çıktı. Yoğunluğu var

Veriler, hem elektriksel hem de elektriksel olmayan ölçümler sırasında farklı yazarlar tarafından incelenen 219 gerçek hata dağılımının parametreleri üzerinde analiz edildi. elektriksel büyüklüklerçok çeşitli (elektrikli) cihazlar. Bu çalışma sonucunda 111 dağılımın yani; yaklaşık %50'si yoğunluğa sahip dağılımlar sınıfına aittir

derece parametresi nerede; - kaydırma parametresi; - ölçek parametresi; - gama işlevi argümandan;

Tartu Uygulamalı Matematik Laboratuvarında devlet üniversitesi Gerçek istatistiksel verilerden oluşan arşivden 2500 örnek analiz edildi. %92 oranında normallik hipotezinin reddedilmesi gerekti.

Deneysel verilerin verilen açıklamaları, çoğu durumda ölçüm hatalarının normal olanlardan farklı dağılımlara sahip olduğunu göstermektedir. Bu, özellikle Öğrenci t testinin çoğu uygulamasının, klasik regresyon analizi ve normal teoriye dayalı diğer istatistiksel yöntemler, karşılık gelen rastgele değişkenlerin dağılımlarının normalliğine ilişkin temel aksiyom yanlış olduğundan, kesin olarak doğrulanamaz.

Açıkçası, mevcut istatistiksel veri analizi uygulamasındaki bir değişikliği haklı çıkarmak veya haklı çıkarmak için, "yasadışı" kullanıldığında veri analizi prosedürlerinin özelliklerini incelemek gerekir. Reddetme prosedürleri üzerine yapılan bir çalışma, bunların normallikten sapmalara karşı son derece kararsız olduğunu ve bu nedenle bunları gerçek verileri işlemek için kullanmanın uygun olmadığını göstermiştir (aşağıya bakın); Dolayısıyla keyfi bir işlemin normallikten sapmalara dayanıklı olduğu söylenemez.

Bazen, örneğin iki numunenin homojenliği için Öğrenci testi kullanılmadan önce normalliğin kontrol edilmesi önerilir. Bunun için pek çok kriter olmasına rağmen normallik testi, homojenlik testinden (hem Öğrenci tipi istatistikler hem de parametrik olmayan testler kullanılarak) daha karmaşık ve zaman alıcı bir istatistiksel prosedürdür. Normalliği güvenilir bir şekilde oluşturmak için çok fazla sayıda gözlem gereklidir. Dolayısıyla, gözlemsel sonuçların dağılım fonksiyonunun bazı normal olanlardan (argümanın herhangi bir değeri için) 0,01'den fazla farklı olmayacağını garanti etmek için yaklaşık 2500 gözlem gereklidir. Çoğu ekonomik, teknik, biyomedikal ve diğer alanlarda uygulamalı araştırma gözlem sayısı önemli ölçüde daha azdır. Bu özellikle ekonomik yapıların ve teknik tesislerin güvenli işleyişinin sağlanmasına ilişkin sorunların incelenmesinde kullanılan veriler için geçerlidir.

Bazen ölçüm cihazının teknolojik tasarımına özel toplayıcılar dahil ederek hata dağılımını normale yaklaştırmak için CPT'yi kullanmaya çalışırlar. Bu önlemin yararlılığını değerlendirelim. Dağıtım fonksiyonuna sahip bağımsız, aynı şekilde dağıtılmış rastgele değişkenler olsun Öyle ki düşünün

Toplayıcı tarafından sağlanan normale yakınlık göstergesi

Son ilişkideki sağdaki eşitsizlik, kitapta elde edilen Berry-Esseen eşitsizliğindeki sabitin tahminlerinden, soldaki ise monografideki örnekten kaynaklanmaktadır. İçin normal hukuk , tek tip için, iki nokta için (bu, için alt sınırdır). Sonuç olarak, “başarısız” dağılımlar için normal dağılıma olan mesafenin (Kolmogorov metriğinde) 0,01'den fazla olmamasını sağlamak için, en azından ayrık kümede olma olasılığının olduğu terimlere ihtiyaç vardır. ondalık sayılarİle verilen numara ondalık basamaklar 0'a eşittir.

Yukarıdakilerden, ölçüm sonuçlarının ve istatistiksel verilerin genel olarak, normal olanlardan az çok farklı dağılımlara sahip rastgele değişkenler tarafından modellenmesi gerektiği gerçeğine yol açan özelliklere sahip olduğu anlaşılmaktadır. Çoğu durumda dağılımlar normal olanlardan önemli ölçüde farklılık gösterir; diğerlerinde normal dağılımlar görünüşte bir tür yaklaşım olarak düşünülebilir, ancak hiçbir zaman tam bir eşleşme olmaz. Bu, klasik istatistiksel prosedürlerin özelliklerini klasik olmayan istatistiklerde inceleme ihtiyacını ima eder. olasılıksal modeller (aşağıda Öğrenci testi için yapıldığına benzer şekilde) ve dağılımdan bağımsız prosedürler dahil olmak üzere kararlı (normallikten sapmaların varlığı dikkate alınarak) ve parametrik olmayan geliştirme ihtiyacı ve bunların pratikte yaygın uygulanması istatistiksel işleme veri.

Diğer parametrik aileler için burada göz ardı edilen hususlar benzer sonuçlara yol açmaktadır. Sonuç aşağıdaki gibi formüle edilebilir. Gerçek verilerin dağılımları neredeyse hiçbir zaman belirli bir parametrik aileye ait değildir. Gerçek dağılımlar her zaman parametrik ailelerin içerdiği dağılımlardan farklıdır. Farklılıklar büyük ya da küçük olabilir ama her zaman oradadırlar. Bu farklılıkların ekonometrik analiz için ne kadar önemli olduğunu anlamaya çalışalım.

Normal dağılım (Gauss dağılımı) her zaman oynanır merkezi rol Olasılık teorisinde, birçok faktörün etkisi sonucu sıklıkla ortaya çıktığı için herhangi birinin katkısı ihmal edilebilir düzeydedir. Merkezi limit teoremi(CPT), neredeyse tüm sektörlerde uygulama alanı bulur uygulamalı bilimler istatistiksel aygıtı evrensel hale getiriyor. Bununla birlikte, kullanımının imkansız olduğu çok sık durumlar vardır ve araştırmacılar, sonuçların Gaussian'a uygunluğunu mümkün olan her şekilde organize etmeye çalışırlar. bu yaklaşık alternatif yaklaşım Eğer dağılım birçok faktörden etkileniyorsa şimdi anlatacağım.

CPT'nin kısa tarihi. Newton hala hayattayken Abraham de Moivre, bir dizideki bir olayın merkezlenmiş ve normalleştirilmiş gözlem sayısının yakınsamasına ilişkin bir teoremi kanıtladı. bağımsız testler normal bir dağılıma 19. yüzyıl boyunca ve 20. yüzyılın başlarında bu teorem genellemeler için bilimsel bir model olarak hizmet etti. Laplace davayı kanıtladı düzgün dağılım, Poisson – yerel teorem Farklı olasılıklara sahip bir durum için. Poincaré, Legendre ve Gauss zengin bir gözlem hataları teorisi ve bir yöntem geliştirdiler en küçük kareler hataların normal dağılıma yakınsamasına dayanır. Chebyshev, momentler yöntemini geliştirerek rastgele değişkenlerin toplamı için daha da güçlü bir teorem kanıtladı. 1900 yılında Lyapunov, Chebyshev ve Markov'a dayanarak CLT'nin şu anki haliyle kanıtladı, ancak yalnızca üçüncü dereceden momentlerin varlığıyla. Ve ancak 1934'te Feller, ikinci dereceden anların varlığının hem gerekli hem de gerekli olduğunu göstererek buna son verdi. yeterli koşul.

CLT şu şekilde formüle edilebilir: Eğer rastgele değişkenler bağımsızsa, aynı şekilde dağılmışsa ve sıfırdan farklı sonlu bir varyansa sahipse, bu değişkenlerin toplamları (merkezlenmiş ve normalleştirilmiş) normal yasaya yakınsar. Bu teorem üniversitelerde bu biçimde öğretilmekte ve matematikte profesyonel olmayan gözlemciler ve araştırmacılar tarafından sıklıkla kullanılmaktadır. Bunda yanlış olan ne? Aslında teorem, Gauss, Poincaré, Chebyshev ve 19. yüzyılın diğer dehalarının üzerinde çalıştığı alanlara, yani gözlem hataları teorisine, istatistiksel fizik, çokuluslu şirketler, demografik araştırmalar ve belki başka bir şey. Ancak keşifler için özgünlükten yoksun bilim adamları, genellemelerle meşguller ve bu teoremi her şeye uygulamak istiyorlar ya da normal dağılımı, var olamayacağı bir yere sürüklemek istiyorlar. Örnek istersen bende var.

Zeka bölümü IQ. Başlangıçta insanların zekasının normal şekilde dağıldığını ima eder. Olağanüstü yeteneklerin dikkate alınmadığı, aynı pay faktörleriyle ayrı ayrı dikkate alındığı şekilde önceden hazırlanmış bir test yapılır: mantıksal düşünme zihinsel tasarım, hesaplama yetenekleri, soyut düşünme ve başka bir şey. Çoğu kişinin erişemediği sorunları çözme yeteneği veya bir testi süper hızlı bir sürede geçme yeteneği hiçbir şekilde dikkate alınmaz ve testi daha erken geçmek, gelecekte sonucu (ancak zekayı değil) artırır. Ve sonra cahiller "hiç kimsenin onlardan iki kat daha akıllı olamayacağına" inanıyorlar, "hadi bunu akıllı insanlardan alıp bölelim."

İkinci örnek: finansal göstergelerdeki değişiklikler. Hisse senedi fiyatlarındaki, döviz kurlarındaki ve emtia opsiyonlarındaki değişiklikleri incelemek matematiksel istatistiklerin kullanılmasını gerektirir ve özellikle burada dağıtım türü konusunda hata yapmamak önemlidir. Önemli bir durum: 1997'de Nobel Ödülü Ekonomi alanında, stok göstergelerinin büyüme normal dağılımı varsayımına dayanan Black-Scholes modelinin önerisi için ödeme yapıldı (sözde beyaz gürültü). Ancak yazarlar şunu açıkça belirtmişlerdir: bu model açıklığa kavuşturulması gerekiyor, ancak sonraki araştırmacıların çoğunun yapmaya karar verdiği tek şey Poisson dağılımını normal dağılıma eklemekti. Burada, uzun zaman serilerini incelerken açıkçası yanlışlıklar olacaktır, çünkü Poisson dağılımı CLT'yi çok iyi karşılamaktadır ve zaten 20 terimle normal dağılımdan ayırt edilemez. Aşağıdaki resme bakın (ve çok ciddi bir ekonomi dergisinden alınmıştır), oldukça fazla olmasına rağmen şunu gösteriyor: büyük sayı gözlemler ve bariz çarpıklıklar nedeniyle, dağılımın normalliği hakkında bir varsayımda bulunulur.

Dağılımların normal olmayacağı çok açık ücretlerşehrin nüfusu, diskteki dosyaların boyutu, şehirlerin ve ülkelerin nüfusu arasında.

Bu örneklerdeki dağılımların ortak noktası, "ağır kuyruk" olarak adlandırılan, yani ortalamanın çok uzağında yer alan değerlerin ve genellikle sağa doğru gözle görülür bir asimetrinin varlığıdır. Normalin yanı sıra başka dağılımların neler olabileceğini düşünelim. Daha önce bahsedilen Poisson ile başlayalım: bir kuyruğu var, ancak yasanın her birinde gözlemlendiği bir grup grup için tekrarlanmasını istiyoruz (bir işletme için dosyaların boyutunu, birkaç şehir için maaşları hesaplayın) veya ölçekli (Black - Scholes model aralığını keyfi olarak artırın veya azaltın), gözlemlerin gösterdiği gibi, kuyruklar ve asimetri kaybolmaz, ancak CLT'ye göre Poisson dağılımı normal hale gelmelidir. Aynı nedenlerden dolayı Erlang, beta, lognormal ve dağılım dağılımlarına sahip diğerlerinin tümü uygun değildir. Geriye kalan tek şey Pareto dağılımını kesmektir ancak modun ile çakışması nedeniyle uygun değildir. minimum değerÖrnek verileri analiz ederken neredeyse hiç oluşmayan bir durum.

Sahip olan dağılımlar gerekli özellikler, mevcut ve kararlı dağılımlar olarak adlandırılıyor. Tarihleri ​​de çok ilginçtir ve ana teorem, Feller'in çalışmasından bir yıl sonra, 1935'te ortak çabalarla kanıtlanmıştır. Fransız matematikçi Paul Levy ve Sovyet matematikçi A.Ya. Khinchin. CLT genelleştirildi; dağılımın varlığı koşulu kaldırıldı. Normalin aksine, kararlı rastgele değişkenlerin ne yoğunluğu ne de dağılım fonksiyonu ifade edilir (aşağıda tartışılan nadir istisnalar dışında, bunlar hakkında bilinen tek şey karakteristik fonksiyondur (); ters dönüşüm Fourier dağılım yoğunluğu, ancak özünü anlamak için bu bilinmeyebilir).
Yani teorem şu: Rastgele değişkenler bağımsız ve aynı şekilde dağılmışsa, bu değişkenlerin toplamları kararlı bir yasaya yakınsar.

Şimdi tanım. Rastgele değişken X ancak ve ancak logaritması durumunda kararlı olacaktır karakteristik fonksiyonşeklinde sunalım:

Aslında burada çok karmaşık bir şey yok, sadece dört parametrenin anlamını açıklamanız gerekiyor. Sigma ve mu parametreleri olağan ölçek ve sapmadır, normal dağılımda olduğu gibi, mu varsa matematiksel beklentiye eşit olacaktır ve alfa birden büyük olduğunda mevcuttur. Beta parametresi asimetridir; sıfıra eşitse dağılım simetriktir. Ancak alfa karakteristik bir parametredir; bir niceliğin momentlerinin hangi büyüklükte olduğunu, ikiye ne kadar yakınsa, o kadar büyük olduğunu gösterir. daha fazla dağıtım normale benzer, ikiye eşit olduğunda dağılım normal hale gelir ve yalnızca bu durumda büyük dereceli momentlere sahiptir, ayrıca normal dağılım durumunda asimetri dejenere olur. Alfanın bire, betanın sıfıra eşit olması durumunda Cauchy dağılımı elde edilir, alfanın yarıya ve betanın bire eşit olması durumunda Levy dağılımı elde edilir, diğer durumlarda temsil yoktur. bu miktarların dağılımının yoğunluğu için kareler halinde.
20. yüzyılda, kararlı niceliklere ve süreçlere (Lévy süreçleri olarak anılır) ilişkin zengin bir teori geliştirildi ve bunların birbirleriyle olan bağlantıları kesirli integraller, tanıtıldı çeşitli yollar Parametreleştirme ve modelleme ile parametreler çeşitli şekillerde tahmin edilmiş ve tahminlerin tutarlılığı ve kararlılığı gösterilmiştir. Resme bakın, Levy sürecinin simüle edilmiş bir yörüngesini 15 kat büyütülmüş bir parçayla gösteriyor.

Benoit Mandelbrot, bu tür süreçleri ve bunların finanstaki uygulamalarını incelerken fraktalları ortaya çıkardı. Ancak her yerde durum pek iyi değildi. 20. yüzyılın ikinci yarısı uygulamalı ve sibernetik bilimlerin genel eğilimi altında geçti ve bu, saf matematikte bir kriz anlamına geliyordu, herkes üretmek istiyordu ama düşünmek istemiyordu, hümanistler gazetecilikleriyle matematiksel alanları işgal ediyordu. Örnek: American Mosteller'in “Çözümlü Elli Eğlenceli Olasılık Problemi” kitabı, görev No. 11:

Yazarın bu soruna getirdiği çözüm sağduyunun yenilgisinden başka bir şey değil:

ÜÇ çelişkili cevabın verildiği 25. problemde de durum aynıdır.

Ama hadi geri dönelim sürdürülebilir dağıtımlar. Yazının geri kalanında onlarla çalışırken herhangi bir ek zorluk yaşanmaması gerektiğini göstermeye çalışacağım. Yani sayısal ve istatistiksel yöntemler parametreleri tahmin etmenize, dağıtım fonksiyonunu hesaplamanıza ve bunları modellemenize, yani diğer dağıtımlarla aynı şekilde çalışmanıza olanak tanır.

Kararlı rastgele değişkenlerin modellenmesi. Her şey karşılaştırma yoluyla öğrenildiği için, öncelikle hesaplama açısından en uygun olanı, normal bir değer üretme yöntemini (Box-Muller yöntemi) hatırlayacağım: eğer temel rastgele değişkenler (üzerinde düzgün bir şekilde dağılmışsa)

Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!