Optimal değer maksimum olabilirlik yöntemidir. Tahmin elde etme yöntemleri

sürekli rastgele değişken yoğunluk ile Yoğunluk türü bilinmektedir, ancak parametrelerin değerleri bilinmemektedir. Olabilirlik fonksiyonu bir fonksiyondur (burada - rastgele değişken £ dağılımından bir hacim n örneği). Olabilirlik fonksiyonuna olasılıksal bir anlam verilebileceğini görmek kolaydır: bileşenleri bağımsız olarak, toplamda, D(z) yasasına göre aynı şekilde dağıtılmış rastgele değişkenler olan rastgele bir vektörü düşünün. O zaman E vektörünün olasılık elemanı şu şekle sahiptir: Olabilirlik fonksiyonu, P deney dizisinde sabit bir numune elde etme olasılığı ile ilişkilidir. Olabilirlik yönteminin ana fikri, A parametrelerinin tahminleri olarak bu tür değerlerin alınmasının önerilmesidir (3) Belirli bir sabit örnek için maksimum olabilirlik fonksiyonunu sağlayan, yani deneyde elde edilen örneğin en olası olarak değerlendirilmesi önerilir. pj parametrelerinin tahminlerini bulmak, k denklemlerinden oluşan bir sistemin çözümüne indirgenir (k, bilinmeyen parametrelerin sayısıdır): log L fonksiyonu, olabilirlik fonksiyonu ile aynı noktada bir maksimuma sahip olduğundan, olabilirlik denklemleri sistemi (19) şu şekildedir: genellikle Bilinmeyen parametrelerin tahminleri olarak şeklinde yazılır. Gerçekten örneğe bağlı olan ve sabit olmayan (19) veya (20) sisteminin çözümleri alınmalıdır. £'nin bir dağılım serisi ile ayrık olması durumunda olabilirlik fonksiyonuna fonksiyon adı verilir ve sisteme çözüm olarak tahminler aranır. maksimum olasılık veya eşdeğeri Maksimum olabilirlik tahminlerinin tutarlılık özelliğine sahip olduğu gösterilebilir. Maksimum olabilirlik yönteminin daha fazla sonuca yol açtığı unutulmamalıdır. karmaşık hesaplamalar Momentler yönteminden daha fazla, ancak teorik olarak daha etkilidir, çünkü maksimum olabilirlik tahminleri, tahmin edilen parametrelerin gerçek değerlerinden, momentler yöntemi kullanılarak elde edilen tahminlere göre daha az sapar. Uygulamalarda en sık karşılaşılan dağılımlar için, momentler yöntemi ve maksimum olabilirlik yöntemi kullanılarak elde edilen parametre tahminleri çoğu durumda örtüşmektedir. Prshir 1. Sapma (parça boyutunun nominal değerden normal dağılmış bir rastgele değişkendir. Sistematik hatanın ve örnekten sapmanın varyansının belirlenmesi gerekir. M Koşuluna göre (normal dağılmış bir rastgele değişkendir) matematiksel beklenti (sistematik hata) ve varyans n: X\>...yXn boyutunda bir örneklemden tahmin edilecek. Bu durumda, Olabilirlik fonksiyonu Sistem (19) şu şekle sahiptir. Dolayısıyla, Xx'e bağlı olmayan çözümleri hariç tutarak elde ederiz, yani bu durumda maksimum olasılık tahminleri bizim tarafımızdan zaten bilinen ampirik ortalama ve varyansla çakışır > Örnek 2. Örnekteki üstel dağılımlı rastgele değişkenden /i parametresini tahmin edin. 4 Olabilirlik fonksiyonu şu şekildedir: Olabilirlik denklemi bizi, momentler yöntemiyle elde edilen aynı parametrenin tahminiyle örtüşen bir çözüme götürür, bkz. (17). ^ Örnek 3. Maksimum olasılık yöntemini kullanarak, on madeni para atışı sırasında armanın 8 kez ortaya çıkması durumunda bir armanın ortaya çıkma olasılığını tahmin edin. -4 Tahmin edilecek olasılık p'ye eşit olsun. Rastgele bir değişkeni (bir dağılım serisi ile) ele alalım. Olabilirlik fonksiyonu (21) şu şekildedir: Maksimum olabilirlik yöntemi Denklem, bilinmeyen olasılık p'nin bir tahmini olarak armanın deneyde ortaya çıkma sıklığını verir. Tahmin bulma yöntemlerinin tartışılmasında, çok büyük miktarda deneysel veriye sahip olsak bile, hala gösteremediğimizi vurguluyoruz. kesin değer tahmini parametre; ayrıca, defalarca belirtildiği gibi, elde ettiğimiz tahminler, yalnızca "ortalama" veya "çoğu durumda" tahmin edilen parametrelerin gerçek değerlerine yakındır. Bu nedenle önemli istatistiksel problem Bundan sonra ele alacağımız görev, yaptığımız değerlendirmenin doğruluğunu ve güvenilirliğini belirleme görevidir.

Maksimum olabilirlik yöntemi.

Bu yöntem, olabilirlik fonksiyonunun maksimuma ulaştığı parametrenin değerinin, parametrenin nokta tahmini olarak alınmasından oluşur.

Olasılık yoğunluğu f(t, ) olan rastgele bir başarısızlığa kadar geçen süre için olabilirlik fonksiyonu formül 12.11 ile belirlenir: yani rastgele değişken τ'nin bağımsız ölçümlerinin olasılık yoğunluğu ile ortak olasılık yoğunluğudur f(t, ).

Rastgele değişken kesikliyse ve değerleri alıyorsa Z1,Z2..., sırasıyla P 1 (α), P 2 (α) ... olasılıklarıyla, olasılık fonksiyonu farklı bir biçimde alınır: Olasılık endeksleri değerlerin gözlemlendiğini gösterir.

Parametrenin maksimum olabilirlik tahminleri olasılık denkleminden (12.12) belirlenir.

Maksimum olabilirlik yönteminin değeri aşağıdaki iki varsayımla belirlenir:

Parametre mevcutsa etkili değerlendirme, o zaman olabilirlik denklemi (12.12) tek çözüm.

Bazıları için genel koşullar Fonksiyonların üzerine bindirilmiş analitik doğa f(t, ) olabilirlik denkleminin çözümü k'de yakınsar gerçek anlam parametre.

Normal dağılım parametreleri için maksimum olabilirlik yöntemini kullanmanın bir örneğini ele alalım.

Örnek:

Sahibiz: , , t ben (i=1..N) yoğunluk dağılımına sahip bir popülasyondan alınan bir örnek.

Maksimum benzerliğin bir tahminini bulmamız gerekiyor.

Olasılık fonksiyonu: ;

.

Olasılık denklemleri: ;

;

Bu denklemlerin çözümü şu şekildedir: - istatistiksel ortalama; - istatistiksel dağılım. Tahmin taraflıdır. Tarafsız bir tahmin şöyle olacaktır: .

Maksimum olabilirlik yönteminin ana dezavantajı, kural olarak aşkın olan olasılık denklemlerini çözerken ortaya çıkan hesaplama zorluklarıdır.

Momentlerin yöntemi.

Bu yöntem K. Pearson tarafından önerilmiştir ve bilinmeyen parametrelerin nokta tahmini için ilk genel yöntemdir. Genellikle nispeten basit bir hesaplama prosedürüne yol açtığından pratik istatistiklerde hala yaygın olarak kullanılmaktadır. Bu yöntemin fikri, bilinmeyen parametrelere bağlı olarak dağılım momentlerinin ampirik momentlere eşitlenmesidir. Anların sayısını alarak, sayıya eşit Bilinmeyen parametreler ve karşılık gelen denklemleri oluşturarak gerekli sayıda denklem elde edeceğiz. İlk iki istatistiksel nokta çoğunlukla hesaplanır: örnek ortalaması; Ve örnek varyans . Momentler yöntemi kullanılarak elde edilen tahminler verimlilik açısından en iyisi değildir. Ancak sıklıkla ilk yaklaşım olarak kullanılırlar.

Momentler yöntemini kullanmanın bir örneğine bakalım.

Örnek: Üstel dağılımı düşünün:

t>0; λ<0; t i (i=1..N) – dağılım yoğunluğuna sahip bir popülasyondan örnek. λ parametresi için bir tahmin bulmamız gerekiyor.

Bir denklem kuralım: . Yani aksi halde.

Kantil yöntemi.

Bu, momentler yöntemiyle aynı ampirik yöntemdir. Teorik dağılımın niceliklerinin ampirik niceliklere eşit olması gerçeğinden oluşur. Eğer birden fazla parametre değerlendirmeye tabi ise, o zaman karşılık gelen eşitlikler birkaç nicelik için yazılır.

Dağıtım kanununun geçerli olduğu durumu ele alalım. F(t,α,β) bilinmeyen iki parametreli α, β . Fonksiyona izin ver F(t,α,β) olası herhangi bir parametre değeri için pozitif değerler alan, sürekli olarak türevlenebilir bir yoğunluğa sahiptir α, β. Testler plana göre yapılırsa , r>>1, bu durumda, arızanın meydana geldiği an, seviyenin ampirik bir yüzdesi olarak düşünülebilir, i=1.2… , - ampirik dağılım fonksiyonu. Eğer t l Ve T r - l-th ve r-th arızalarının oluşma anları tam olarak bilinir, parametrelerin değerleri α Ve β denklemlerden bulunabilir

Ve diğerleri).

Maksimum olabilirlik tahmini, verilerden istatistiksel bir model oluşturmak ve modelin parametrelerine ilişkin tahminler sağlamak için kullanılan popüler bir istatistiksel yöntemdir.

İstatistik alanında bilinen birçok tahmin yöntemine karşılık gelir. Örneğin Ukrayna halkının büyümesiyle ilgilendiğinizi varsayalım. Diyelim ki tüm nüfus yerine belirli sayıda insan için boy verileriniz var. Ayrıca büyümenin normal olduğu varsayılmaktadır. dağıtılan miktar bilinmeyen varyans ve ortalama ile. Örnek büyümesinin ortalaması ve varyansı büyük olasılıkla tüm popülasyonun ortalaması ve varyansı olacaktır.

Sabit bir veri seti ve temel için olasılıksal model Maksimum olabilirlik yöntemini kullanarak, verileri gerçeğe “yaklaştıran” model parametrelerinin değerlerini elde edeceğiz. Maksimum olabilirlik tahmini, normal dağılım durumunda çözümleri belirlemenin benzersiz ve basit bir yolunu sağlar.

Maksimum olabilirlik tahmin yöntemi, geniş aralık istatistiksel modeller şunları içerir:

  • doğrusal modeller ve genelleştirilmiş doğrusal modeller;
  • faktör analizi;
  • yapısal eşitlik modellemesi;
  • hipotez testi çerçevesinde birçok durum ve güven aralığı oluşumu;
  • Ayrık seçim modelleri.

Yöntemin özü

isminde maksimum olabilirlik tahmini parametre. Dolayısıyla, maksimum olabilirlik tahmincisi, sabit bir örnek gerçekleştirme verildiğinde olabilirlik fonksiyonunu maksimuma çıkaran bir tahmincidir.

Çoğu zaman olabilirlik fonksiyonu yerine log-olabilirlik fonksiyonu kullanılır. Fonksiyon tüm tanım alanı boyunca monoton olarak arttığı için, herhangi bir fonksiyonun maksimumu, fonksiyonun maksimumudur ve bunun tersi de geçerlidir. Böylece

,

Olabilirlik fonksiyonu türevlenebilirse, o zaman gerekli koşul ekstremum - gradyanının sıfırına eşitlik:

Yeterli koşul ekstremum, ikinci türevlerin matrisi olan Hessian'ın negatif kesinliği olarak formüle edilebilir:

Önemli Maksimum olabilirlik yöntemi tahminlerinin özelliklerini değerlendirmek için, tanım gereği eşit olan bilgi matrisi kullanılır:

Optimal noktada, bilgi matrisi Hessian'ın eksi işaretiyle alınan matematiksel beklentisiyle örtüşür:

Özellikler

  • Maksimum olasılık tahminleri genel anlamda önyargılı olabilir (örneklere bakın), ancak tutarlıdır. asimptotik olarak verimli ve asimptotik olarak normal tahminler. Asimptotik normallik şu anlama gelir:

asimptotik bilgi matrisi nerede

Asimptotik verimlilik, asimptotik kovaryans matrisinin tüm tutarlı asimptotik olarak normal tahminciler için bir alt sınır olduğu anlamına gelir.

Örnekler

Son eşitlik şu şekilde yeniden yazılabilir:

buradan olabilirlik fonksiyonunun maksimum noktasına ulaştığı nokta görülebilir. Böylece

. .

Maksimumunu bulmak için kısmi türevleri sıfıra eşitleriz:

- örnek ortalaması ve - örnek varyansı.

Koşullu maksimum olabilirlik yöntemi

Koşullu yöntem maksimum olasılık (Koşullu ML) Regresyon modellerinde kullanılır. Yöntemin özü eksik olmasıdır. ortak dağıtım tüm değişkenler (bağımlı ve regresörler), ancak yalnızca koşullu Bağımlı değişkenin faktörlere göre dağılımı, yani aslında dağılım rastgele hatalar regresyon modeli. Tam işlev gerçeğe benzerlik üründür " koşullu fonksiyon olabilirlik” ve faktör dağılım yoğunluğu. Koşullu MMP eşdeğerdir tam sürüm Faktörlerin dağılımının hiçbir şekilde tahmin edilen parametrelere bağlı olmadığı durumda MMP. Bu durum, otoregresif model gibi zaman serisi modellerinde sıklıkla ihlal edilir. İÇİNDE bu durumda regresörler bağımlı değişkenin geçmiş değerleridir, yani değerleri de aynı AR modeline uymaktadır, yani regresörlerin dağılımı tahmin edilen parametrelere bağlıdır. Bu gibi durumlarda koşullu uygulamanın sonuçları ve tam yöntem Maksimum olasılıklar farklılık gösterecektir.

Ayrıca bakınız

Notlar

Edebiyat

  • Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometri. Başlangıç ​​kursu. - M .: Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0

Wikimedia Vakfı.

  • 2010.
  • Marshak, Boris İlyiç

Bayt sırası

Ve diğerleri).

Maksimum olabilirlik tahmini, verilerden istatistiksel bir model oluşturmak ve modelin parametrelerine ilişkin tahminler sağlamak için kullanılan popüler bir istatistiksel yöntemdir.

İstatistik alanında bilinen birçok tahmin yöntemine karşılık gelir. Örneğin Ukrayna halkının büyümesiyle ilgilendiğinizi varsayalım. Diyelim ki tüm nüfus yerine belirli sayıda insan için boy verileriniz var. Ayrıca yüksekliğin, varyansı ve ortalaması bilinmeyen normal dağılımlı bir değişken olduğu varsayılmaktadır. Örnek büyümesinin ortalaması ve varyansı büyük olasılıkla tüm popülasyonun ortalaması ve varyansı olacaktır.

Sabit bir veri seti ve temel bir olasılık modeli verildiğinde, maksimum olasılık yöntemini kullanarak, verileri gerçek dünyaya "yakınlaştıran" model parametreleri için değerler elde edeceğiz. Maksimum olabilirlik tahmini, normal dağılım durumunda çözümleri belirlemenin benzersiz ve basit bir yolunu sağlar.

Maksimum olabilirlik tahmini, aşağıdakiler de dahil olmak üzere çok çeşitli istatistiksel modeller için kullanılır:

  • doğrusal modeller ve genelleştirilmiş doğrusal modeller;
  • faktör analizi;
  • yapısal eşitlik modellemesi;
  • hipotez testi ve güven aralığı oluşumu çerçevesinde birçok durum;
  • Ayrık seçim modelleri.

Yöntemin özü

isminde maksimum olabilirlik tahmini parametre. Dolayısıyla, maksimum olabilirlik tahmincisi, sabit bir örnek gerçekleştirme verildiğinde olabilirlik fonksiyonunu maksimuma çıkaran bir tahmincidir.

Çoğu zaman olabilirlik fonksiyonu yerine log-olabilirlik fonksiyonu kullanılır. Fonksiyon tüm tanım alanı boyunca monoton olarak arttığı için, herhangi bir fonksiyonun maksimumu, fonksiyonun maksimumudur ve bunun tersi de geçerlidir. Böylece

,

Olabilirlik fonksiyonu türevlenebilirse, ekstremum için gerekli bir koşul, eğiminin sıfıra eşit olmasıdır:

Bir ekstremum için yeterli koşul, ikinci türevlerin matrisi olan Hessian'ın negatif kesinliği olarak formüle edilebilir:

Tanım gereği aşağıdakilere eşit olan sözde bilgi matrisi:

Optimal noktada, bilgi matrisi Hessian'ın eksi işaretiyle alınan matematiksel beklentisiyle örtüşür:

Özellikler

  • Maksimum olasılık tahminleri genel anlamda önyargılı olabilir (örneklere bakın), ancak tutarlıdır. asimptotik olarak verimli ve asimptotik olarak normal tahminler. Asimptotik normallik şu anlama gelir:

asimptotik bilgi matrisi nerede

Asimptotik verimlilik, asimptotik kovaryans matrisinin tüm tutarlı asimptotik olarak normal tahminciler için bir alt sınır olduğu anlamına gelir.

Örnekler

Son eşitlik şu şekilde yeniden yazılabilir:

buradan olabilirlik fonksiyonunun maksimum noktasına ulaştığı nokta görülebilir. Böylece

. .

Maksimumunu bulmak için kısmi türevleri sıfıra eşitleriz:

- örnek ortalaması ve - örnek varyansı.

Koşullu maksimum olabilirlik yöntemi

Koşullu Maksimum Olabilirlik (Koşullu ML) Regresyon modellerinde kullanılır. Yöntemin özü, tüm değişkenlerin (bağımlı ve regresörler) tam ortak dağılımının kullanılmaması, yalnızca koşullu bağımlı değişkenin faktörler arasındaki dağılımı, yani regresyon modelindeki rastgele hataların dağılımı. Toplam olabilirlik fonksiyonu, “koşullu olabilirlik fonksiyonu” ile faktör dağılım yoğunluğunun çarpımıdır. Koşullu MMP, faktörlerin dağılımının hiçbir şekilde tahmin edilen parametrelere bağlı olmadığı durumlarda MMP'nin tam sürümüne eşdeğerdir. Bu durum, otoregresif model gibi zaman serisi modellerinde sıklıkla ihlal edilir. Bu durumda regresörler bağımlı değişkenin geçmiş değerleridir yani değerleri de aynı AR modeline uymaktadır yani regresörlerin dağılımı tahmin edilen parametrelere bağlıdır. Bu gibi durumlarda koşullu ve tam maksimum olabilirlik yöntemlerinin uygulanmasının sonuçları farklı olacaktır.

Ayrıca bakınız

Notlar

Edebiyat

  • Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometri. Başlangıç ​​kursu. - M .: Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0

Wikimedia Vakfı.

Bayt sırası

    Diğer sözlüklerde “Maksimum Olabilirlik Yöntemi”nin ne olduğuna bakın:- - maksimum olabilirlik yöntemi Matematiksel istatistikte, olabilirlik fonksiyonu olarak adlandırılan fonksiyonun maksimize edilmesine dayalı olarak dağılım parametrelerini tahmin etmek için kullanılan bir yöntem... ...

    Bir numuneden F(s; α1,..., αs) dağılım fonksiyonunun bilinmeyen parametrelerini tahmin etmek için bir yöntem; burada α1, ..., αs bilinmeyen parametrelerdir. n gözlemden oluşan bir örnek r ayrık gruba s1,…, sr bölünürse; р1,..., pr… … . n gözlemden oluşan bir örnek r ayrık gruba s1,…, sr bölünürse; р1,..., pr… …

    Jeolojik ansiklopedi- matematiksel istatistikte, olasılık fonksiyonunun (gözlemlerin ortak olasılık yoğunluğu ile değerleri oluşturan ortak olasılık yoğunluğunun) en üst düzeye çıkarılmasına dayanan dağıtım parametrelerini tahmin etmek için bir yöntem ... ... değerlerine eşit olan gözlemlerin olasılıkları... ...

    Diğer sözlüklerde “Maksimum Olabilirlik Yöntemi”nin ne olduğuna bakın: Ekonomik-matematik sözlüğü

    - Maksimum otomatik durum yönetimi yöntemleri: engl. maksimum olabilirlik yöntemi vok. Methode der maksimalen Mutmaßlichkeit, f rus. maksimum olabilirlik yöntemi, m pranc. maksimum benzerlik yöntemi, f;… … Otomatik terminų žodynas- Semboller arası distorsiyonun minimum düzeyde olmasını sağlayan Viterbi sinyal algılama yöntemi. Ayrıca bakınız. Viterbi algoritması. [L.M. Nevdyaev. Telekomünikasyon teknolojileri. İngilizce-Rusça açıklayıcı sözlük referans kitabı. Yu.M tarafından düzenlendi... dizin. Yu.M tarafından düzenlendi...

    Teknik Çevirmen Kılavuzu maksimum olasılık yöntemini kullanan dizi dedektörü dizin. Yu.M tarafından düzenlendi...

    - Alınan sinyalin olabilirlik fonksiyonunu maksimuma çıkaran, en olası sembol dizisinin tahminini hesaplamak için bir cihaz. [L.M. Nevdyaev. Telekomünikasyon teknolojileri. İngilizce-Rusça açıklayıcı sözlük referans kitabı. Yu.M tarafından düzenlendi...- maksimum olasılık yöntemi - [L.G. Bilgi teknolojisi üzerine İngilizce-Rusça sözlük. M.: Devlet Teşebbüsü TsNIIS, 2003.] Genel olarak bilgi teknolojisi konuları Eş anlamlılar maksimum olabilirlik yöntemi EN maksimum olabilirlik yöntemi ... dizin. Yu.M tarafından düzenlendi...

    maksimum olabilirlik yöntemi- Parametre tahminlerinin hesaplanmasına yönelik genel yöntem. Gözlemlenen her veri değeri için örnek olabilirlik fonksiyonunu, dağılım fonksiyonu değerlerinin çarpımına eşit şekilde maksimuma çıkaran tahminler aranır. Maksimum olabilirlik yöntemi daha iyidir ... Sosyolojik İstatistik Sözlüğü

Ünlü taksonomist Joe Felsenstein (1978), filogenetik teorilerin parsimolojik olmayan bir temelde değerlendirilmesi gerektiğini öne süren ilk kişiydi.

araştırma, ancak matematiksel istatistikler yoluyla. Sonuç olarak maksimum olabilirlik yöntemi geliştirildi. .

Bu yöntem önceden edinilen bilgilere dayanmaktadır. olası yollar Evrim, yani analizden önce özelliklerdeki değişimlerin bir modelinin oluşturulmasını gerektirir. Bu modelleri oluşturmak için istatistik yasalarından yararlanılır.

Altında inandırıcı belirli bir olay modelinin kabul edilmesi durumunda verilerin gözlemlenme olasılığı anlaşılmaktadır. Çeşitli modeller gözlemlenen verileri daha fazla veya daha az olası hale getirebilir. Örneğin, bir parayı atarsanız ve yüz kereden yalnızca birinde tura gelirse, o zaman paranın hatalı olduğunu varsayabilirsiniz. Bu modeli kabul ettiğiniz takdirde elde edilen sonucun çıkma ihtimali oldukça yüksek olacaktır. Madeni paranın hatalı olduğu modeline göre giderseniz, o zaman bir yerine elli vakada tura görmeyi bekleyebilirsiniz. Kötü paranın 100 atışında yalnızca bir tura gelmesi istatistiksel olarak pek olası değildir. Yani arızasız para modelinde yüz yazıda bir yazı sonucunun çıkma olasılığı çok düşüktür.

Güvenilirlik: matematiksel miktar. Genellikle aşağıdaki formül kullanılarak hesaplanır:

burada Pr(D|H), H hipotezi kabul edilirse D verisini elde etme olasılığıdır . Formüldeki dikey çubukta "belirli bir süre için" ifadesi yer alır. L çoğu zaman küçük bir değer olarak ortaya çıktığı için çalışmalarda genellikle kullanılmaktadır. doğal logaritma güvenilirlik.

Gözlemlenen verileri elde etme olasılığı ile kabul edilen olay modelinin doğru olma olasılığı arasında ayrım yapmak çok önemlidir. Verilerin olasılığı, modelin kendisinin olasılığı hakkında hiçbir şey söylemez. Filozof-biyolog E. Sober kullanıldı sonraki örnek Bu ayrımı netleştirmek için. Üstünüzdeki odada yüksek bir ses duyduğunuzu hayal edin. Bunun tavan arasında bowling oynayan cücelerden kaynaklandığını düşünebilirsiniz. Bu model için, gözleminizin (üstünüzde yüksek bir ses) olasılığı yüksektir (eğer cüceler gerçekten üzerinizde bowling oynuyorsa, bunu neredeyse kesinlikle duyarsınız). Ancak hipotezinizin doğru olma ihtimali, yani gürültüye cücelerin sebep olması tamamen farklı bir şeydir. Neredeyse kesinlikle cüce değillerdi. Yani bu durumda hipoteziniz verilere yüksek derecede inandırıcılık sağlar, ancak kendi içinde en yüksek derece pek olası değil.

Kullanma bu sistem Akıl yürütme, maksimum olabilirlik yöntemi, geleneksel kladistik kullanılarak elde edilen filogenetik ağaçların istatistiksel olarak değerlendirilmesini mümkün kılar. Temel olarak, bu yöntem şu sonuca varıyor

Mevcut veri kümesinin en yüksek olasılığını sağlayan kladogramı arar.

Maksimum olabilirlik yönteminin kullanımını gösteren bir örneği ele alalım. Belirli bir DNA bölgesinin nükleotid dizilerinin belirlendiği dört taksonumuz olduğunu varsayalım (Şekil 16).

Eğer model geri dönüş olasılığını varsayarsa, o zaman bu ağacı herhangi bir düğüme köklendirebiliriz. Olası kök ağaçlardan biri Şekil 2'de gösterilmektedir. 17.2.

Söz konusu lokusta hangi nükleotidlerin mevcut olduğunu bilmiyoruz. ortak atalar takson 1-4 (bu atalar kladogramdaki X ve Y düğümlerine karşılık gelir). Bu düğümlerin her biri için, orada atasal formlarda mevcut olabilecek dört nükleotid varyantı vardır, bu da ağaç 2'ye yol açan 16 filogenetik senaryoyla sonuçlanır. Bu senaryolardan biri Şekil 2'de gösterilmektedir. 17.3.

Bu senaryonun olasılığı aşağıdaki formülle belirlenebilir:

burada PA, ağacın kökünde nükleotid A'nın ortalama frekansına eşit olan nükleotid A'nın bulunma olasılığıdır (içinde genel durum= 0,25); P AG – A'nın G ile değiştirilmesi olasılığı; P AC – A'nın C ile değiştirilmesi olasılığı; P AT – A'nın T ile değiştirilmesi olasılığı; son iki çarpan, T nükleotidinin sırasıyla X ve Y düğümlerinde depolanma olasılığıdır.

Bir diğer olası senaryo Aynı verileri elde etmenizi sağlayan Şekil 1'de gösterilmektedir. 17.4. Bu tür 16 senaryo olduğundan her birinin olasılığı belirlenebilir ve bu olasılıkların toplamı Şekil 1'de gösterilen ağacın olasılığı olacaktır. 17.2:

Burada P ağacı 2, ağaç 2 için yıldız işaretiyle gösterilen lokustaki verileri gözlemleme olasılığıdır.

Belirli bir dizinin tüm lokuslarındaki tüm verileri gözlemleme olasılığı, 1'den N'ye kadar her i lokus için olasılıkların çarpımıdır:

Bu değerler çok küçük olduğundan, başka bir gösterge kullanılır - her lokus i için lnL i olasılığının doğal logaritması. Bu durumda, ağacın log-olasılığı her lokus için log-olasılıklarının toplamıdır:

lnL ağaç değeri, belirli bir evrimsel model ve karakteristik özelliği olan bir ağaç seçerken verilerin gözlemlenme olasılığının logaritmasıdır.

dallanma sırası ve dal uzunluğu. Bilgisayar programları Maksimum olabilirlik yönteminde kullanılan (örneğin, daha önce bahsedilen kladistik paket PAUP), aşağıdaki özelliklere sahip bir ağaç arayın: maksimum gösterge InL. İki model 2Δ'nin (burada Δ = lnL ağaç A- lnL ağaçB) log-olabilirliklerinin iki kat farkı bilinenlere uyar istatistiksel dağılım x 2. Bu, bir modelin diğerinden güvenilir bir şekilde daha iyi olup olmadığını değerlendirmenizi sağlar. Bu, maksimum olasılığı hipotezleri test etmek için güçlü bir araç haline getirir.

Dört takson olması durumunda 15 ağaç için lnL hesaplaması yapılması gerekmektedir. Şu tarihte: büyük sayı Tüm taksonları değerlendirmenin imkansız olduğu ortaya çıktı, bu nedenle arama için buluşsal yöntemler kullanıldı (yukarıya bakın).

Ele alınan örnekte, evrim sürecinde nükleotidlerin yer değiştirme (ikame) olasılıklarının değerlerini kullandık. Bu olasılıkları hesaplamak başlı başına istatistiksel bir iştir. Bir evrim ağacını yeniden oluşturabilmek için, ikame sürecine ilişkin bazı varsayımlarda bulunmalı ve bu varsayımları bir model halinde ifade etmeliyiz.

En basit modelde herhangi bir nükleotidin başka bir nükleotid ile yer değiştirme olasılığı eşit kabul edilir. Bu basit model Tek bir parametresi vardır; ikame oranı. tek parametreli Jukes-Cantor modeli veya JC (Jukes ve Cantor, 1969). Bu modeli kullanırken nükleotid değişiminin meydana gelme hızını bilmemiz gerekir. Eğer bunu bir anda biliyorsak t= 0'da belirli bir bölgede bir G nükleotidi varsa, belirli bir t süresinden sonra bu bölgede G nükleotidinin kalma olasılığını ve bu bölgenin başka bir nükleotid, örneğin A ile değiştirilme olasılığını hesaplayabiliriz. Bu olasılıklar sırasıyla P(gg) ve P(ga) olarak gösterilmektedir. İkame oranı birim zamandaki bir α değerine eşitse, o zaman

Tek parametreli modele göre herhangi bir değişiklik eşit derecede muhtemel olduğundan, daha genel bir ifade şu şekilde görünecektir:

Daha karmaşık evrim modelleri de geliştirildi. Ampirik gözlemler bazı değişikliklerin meydana gelebileceğini gösterir

diğerlerinden daha sık. Bir pürinin başka bir pürinle yer değiştirmesi sonucu oluşan yer değiştirmelere denir. geçişler, pürinin pirimidinle veya pirimidinin pürinle değiştirilmesine denir. dönüşümler. Herhangi bir nükleotid için olası üç yer değiştirmeden yalnızca biri bir geçiş olduğundan, dönüşümlerin geçişlerden daha sık meydana gelmesi beklenebilir. Bununla birlikte, genellikle bunun tersi meydana gelir: geçişler, dönüşümlerden daha sık meydana gelme eğilimindedir. Bu özellikle mitokondriyal DNA için geçerlidir.

Bazı nükleotid ikamelerinin diğerlerinden daha sık meydana gelmesinin bir başka nedeni de eşit olmayan baz oranlarından kaynaklanmaktadır. Örneğin böceklerin mitokondriyal DNA'sı omurgalılara göre adenin ve timin bakımından daha zengindir. Bazı gerekçeler daha yaygınsa, bazı değişikliklerin diğerlerinden daha sık gerçekleşmesini bekleyebiliriz. Örneğin, eğer bir dizi çok az guanin içeriyorsa, bu nükleotidin ikamesinin meydana gelmesi olası değildir.

Modeller, bazılarında belirli bir parametre veya parametrelerin (örneğin, bazların oranı, ikame oranı) sabit kalması ve diğerlerinde değişmesi bakımından farklılık gösterir. Onlarca evrimsel model var. Aşağıda bunların en ünlülerini sunuyoruz.

Daha önce bahsedilmişti Jukes-Cantor (JC) modeli temel frekansların aynı olmasıyla karakterize edilir: π A = πC = π G = π T , dönüşümler ve geçişler aynı α=β oranlarına sahiptir ve tüm ikameler eşit derecede olasıdır.

Kimura iki parametreli (K2P) modeli varsayar eşit frekanslar bazlar π A =π C =π G =π T ve dönüşümler ve geçişler farklı hızlar α≠β.

Felsenstein modeli (F81) baz frekanslarının farklı olduğunu varsayar π A ≠π C ≠π G ≠π T , ve ikame oranları aynıdır α=β.

Genel ters çevrilebilir model (REV) farklı temel frekansları varsayar π A ≠π C ≠π G ≠π T , ve altı çift değişikliğin tümü farklı hızlara sahiptir.

Yukarıda bahsedilen modeller, ikame oranlarının tüm sahalarda aynı olduğunu varsaymaktadır. Ancak model, farklı bölgelerdeki ikame oranlarındaki farklılıkları da hesaba katabilir. Baz frekanslarının ve ikame oranlarının değerleri ya önceden atanabilir ya da bu değerler kullanılarak verilerden elde edilebilir. özel programlarörneğin PAUP.

Bayes analizi

Maksimum olabilirlik yöntemi, filogenetik modellerin mevcut verilerden oluşturulduktan sonra olasılığını tahmin eder. Ancak bilgi genel desenler Belirli bir grubun evrimi, temel verileri (örneğin, nükleotit dizileri) kullanmadan, en olası filogeni modellerinden oluşan bir dizi oluşturmayı mümkün kılar. Bu veriler elde edildikten sonra, önceden oluşturulmuş modeller ile aralarındaki uyumun değerlendirilmesi ve bu ilk modellerin olasılığının yeniden değerlendirilmesi mümkün olmaktadır. Bunun yapılmasını sağlayan yönteme denir Bayes analizi ve filogeniyi incelemek için kullanılan yöntemlerin en yenisidir (bkz. detaylı inceleme: Huelsenbeck ve ark., 2001).

Standart terminolojiye göre başlangıç ​​olasılıkları genellikle şöyle adlandırılır: önceki olasılıklar (veri alınmadan önce kabul edildikleri için) ve revize edilen olasılıklar a posteriori (veri alındıktan sonra hesaplandığı için).

Matematiksel temel Bayes analizi Bayes teoremidir; önceki olasılık ağaç Pr[ Ağaç] ve olasılık Pr[ Veri|Ağaç] Pr[ ağacının sonsal olasılığını hesaplamak için kullanılır. Ağaç|Veri]:

Bir ağacın arka olasılığı, ağacın evrimin gerçek seyrini yansıtma olasılığı olarak düşünülebilir. En yüksek sonsal olasılığa sahip ağaç, en olası filogeni modeli olarak seçilir. Ağaçların sonsal olasılık dağılımı bilgisayar modelleme yöntemleri kullanılarak hesaplanır.

Maksimum olasılık ve Bayes analizi, özelliklerdeki değişiklikleri tanımlayan evrimsel modelleri gerektirir. Yaratılış matematiksel modeller morfolojik evrim şu anda mümkün değildir. Bu nedenle istatistiksel yöntemler Filogenetik analizler yalnızca moleküler verilere uygulanır.



Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!