Optimalna vrednost je metoda največje verjetnosti. Metode za pridobivanje ocen

neprekinjeno naključna vrednost z gostoto Vrsta gostote je znana, vendar so vrednosti parametrov neznane. Funkcija verjetnosti je funkcija (tukaj - vzorec volumna n iz porazdelitve naključne spremenljivke £). Zlahka je videti, da je verjetnostni funkciji mogoče dati verjetnostni pomen, in sicer: razmislite o naključnem vektorju, katerega komponente so neodvisne, kolektivno enako porazdeljene naključne spremenljivke z zakonom D(z). Takrat ima verjetnostni element vektorja E obliko, tj. Funkcija verjetnosti je povezana z verjetnostjo pridobitve fiksnega vzorca v zaporedju poskusov P. Glavna ideja metode verjetnosti je, da se kot ocene parametrov A predlaga, da se vzamejo takšne vrednosti (3) ki zagotavljajo največjo verjetnostno funkcijo za dani fiksni vzorec, tj. predlaga se, da vzorec, dobljen v poskusu, obravnavamo kot najverjetnejšega. Iskanje ocen parametrov pj se zmanjša na reševanje sistema k enačb (k je število neznanih parametrov): Ker ima funkcija log L maksimum na isti točki kot funkcija verjetnosti, je sistem enačb verjetnosti (19) pogosto zapisana v obliki Kot ocene neznanih parametrov je treba vzeti rešitve sistema (19) ali (20), ki so resnično odvisne od vzorca in niso konstantne. V primeru, da je £ diskretna z vrsto porazdelitve, se funkcija verjetnosti imenuje funkcija in ocene se iščejo kot rešitve metode največja verjetnost ali enakovredno Lahko se pokaže, da imajo ocene največje verjetnosti lastnost doslednosti. Opozoriti je treba, da metoda največje verjetnosti vodi do več zapleteni izračuni kot metoda trenutkov, vendar je teoretično učinkovitejša, saj ocene največje verjetnosti manj odstopajo od resničnih vrednosti ocenjenih parametrov kot ocene, pridobljene z metodo trenutkov. Za porazdelitve, ki jih najpogosteje srečamo v aplikacijah, ocene parametrov, pridobljene z metodo momentov in metodo največje verjetnosti, v večini primerov sovpadajo. Prshir 1. Odstopanje (velikosti dela od nominalne vrednosti je normalno porazdeljena slučajna spremenljivka. Potrebno je določiti sistematično napako in varianco odstopanja od vzorca. M Po pogoju (je normalno porazdeljena slučajna spremenljivka z matematično pričakovanje (sistemska napaka) in varianco, ki jo je treba oceniti iz vzorca velikosti n: X\>...yXn. V tem primeru ima funkcija Likelihood System (19) obliko. Torej z izključitvijo rešitev, ki niso odvisne od Xx, dobimo tj. ocene največje verjetnosti v tem primeru sovpadajo z empirično srednjo vrednostjo in varianco, ki nam je že znana > Primer 2. Ocenite parameter /i iz vzorčne eksponentno porazdeljene naključne spremenljivke. 4 Funkcija verjetnosti ima obliko. Enačba verjetnosti nas pripelje do rešitve, ki sovpada z oceno istega parametra, dobljeno z metodo momentov, glej (17). ^ Primer 3. Z metodo največje verjetnosti ocenite verjetnost pojava grba, če se med desetimi meti kovanca grb pojavi 8-krat. -4 Naj bo verjetnost, ki jo ocenjujemo, enaka p. Obravnavajmo naključno spremenljivko (s porazdelitvenim nizom. Funkcija verjetnosti (21) ima obliko Metoda največje verjetnosti. Enačba podaja kot oceno neznane verjetnosti p pogostost pojavljanja grba v poskusu. Zaključek pri razpravi o metodah za iskanje ocen poudarjamo, da kljub zelo veliki količini eksperimentalnih podatkov še vedno ne moremo navesti točna vrednost ocenjeni parameter; poleg tega, kot je bilo že večkrat omenjeno, so ocene, ki jih dobimo, blizu pravim vrednostim ocenjenih parametrov le »v povprečju« ali »v večini primerov«. Zato pomembno statistični problem, ki jo bomo obravnavali v nadaljevanju, je naloga ugotavljanja točnosti in zanesljivosti ocene, ki jo izvajamo.

Metoda največje verjetnosti.

Pri tej metodi se kot točkovna ocena parametra vzame vrednost parametra, pri kateri funkcija verjetnosti doseže svoj maksimum.

Za naključni čas do okvare z gostoto verjetnosti f(t, ) je funkcija verjetnosti določena s formulo 12.11: , tj. je skupna gostota verjetnosti neodvisnih meritev naključne spremenljivke τ z gostoto verjetnosti f(t, ).

Če je naključna spremenljivka diskretna in zavzema vrednosti Z 1, Z 2... oziroma z verjetnostmi P 1 (α), P 2 (α) ..., potem se funkcija verjetnosti vzame v drugačni obliki, in sicer: , kjer indeksi verjetnosti kažejo, da so bile vrednosti opazovane.

Ocene največje verjetnosti parametra so določene iz enačbe verjetnosti (12.12).

Vrednost metode največje verjetnosti je določena z naslednjima predpostavkama:

Če parameter obstaja učinkovito ocenjevanje, potem enačba verjetnosti (12.12) ima edina odločitev.

Za nekatere splošni pogoji analitična narava, prekrita s funkcijami f(t, ) rešitev enačbe verjetnosti konvergira pri k pravi pomen parameter

Oglejmo si primer uporabe metode največje verjetnosti za parametre normalne porazdelitve.

primer:

Imamo: , , t i (i=1..N) vzorec iz populacije s porazdelitvijo gostote.

Najti moramo oceno največje podobnosti.

Funkcija verjetnosti: ;

.

Enačbe verjetnosti: ;

;

Rešitev teh enačb ima obliko: - statistično povprečje; - statistična disperzija. Ocena je pristranska. Nepristranska ocena bi bila: .

Glavna pomanjkljivost metode največje verjetnosti so računske težave, ki nastanejo pri reševanju enačb verjetnosti, ki so praviloma transcendentalne.

Metoda trenutkov.

To metodo je predlagal K. Pearson in je prva splošna metoda za točkovno oceno neznanih parametrov. Še vedno se pogosto uporablja v praktični statistiki, saj pogosto vodi do razmeroma preprostega računskega postopka. Ideja te metode je, da so trenutki porazdelitve, odvisni od neznanih parametrov, enačeni z empiričnimi trenutki. Če upoštevamo število trenutkov, enako številu neznanih parametrov, s sestavo pripadajočih enačb pa bomo dobili zahtevano število enačb. Najpogosteje izračunamo prvi dve statistični točki: vzorčno povprečje; in vzorčna varianca . Ocene, dobljene z metodo momentov, niso najboljše glede učinkovitosti. Vendar se zelo pogosto uporabljajo kot prvi približki.

Poglejmo si primer uporabe metode trenutkov.

Primer: Razmislite o eksponentni porazdelitvi:

t>0; λ<0; t i (i=1..N) – vzorec iz populacije z gostoto porazdelitve . Najti moramo oceno za parameter λ.

Sestavimo enačbo: . Tako drugače.

Kvantilna metoda.

To je enaka empirična metoda kot metoda trenutkov. Sestoji iz dejstva, da so kvantili teoretične porazdelitve enaki empiričnim kvantilom. Če je predmet vrednotenja več parametrov, se pripadajoče enačbe zapišejo za več kvantilov.

Oglejmo si primer, ko zakon distribucije F(t,α,β) z dvema neznanima parametroma α, β . Naj funkcija F(t,α,β) ima zvezno diferencialno gostoto, ki ima pozitivne vrednosti za vse možne vrednosti parametrov α, β. Če se testi izvajajo po načrtu , r>>1, potem lahko trenutek pojava te okvare obravnavamo kot empirični kvantil ravni, i=1,2… , - empirična porazdelitvena funkcija. če t l in t r – trenutki pojava l-te in r-te okvare so natančno znani, vrednosti parametrov α in β lahko ugotovimo iz enačb

In drugi).

Ocena največje verjetnosti je priljubljena statistična metoda, ki se uporablja za ustvarjanje statističnega modela iz podatkov in zagotavljanje ocen parametrov modela.

Ustreza mnogim dobro znanim metodam ocenjevanja na področju statistike. Na primer, recimo, da vas zanima rast prebivalcev Ukrajine. Recimo, da imate podatke o višini za več ljudi in ne za celotno populacijo. Poleg tega se domneva, da je rast normalna porazdeljena količina z neznano varianco in srednjo vrednostjo. Povprečna vrednost in varianca rasti vzorca sta najverjetneje povprečje in varianca celotne populacije.

Za fiksni nabor podatkov in osnovni verjetnostni model, bomo z uporabo metode največje verjetnosti pridobili vrednosti parametrov modela, ki podatke "približajo" realnim. Ocena največje verjetnosti zagotavlja edinstven in preprost način za določanje rešitev v primeru normalne porazdelitve.

Metoda ocene največje verjetnosti se uporablja za širok spekter statistični modeli, vključno z:

  • linearni modeli in generalizirani linearni modeli;
  • faktorska analiza;
  • modeliranje strukturnih enačb;
  • številnih situacijah, v okviru preverjanja hipotez in interval zaupanja oblikovanje;
  • modeli diskretne izbire.

Bistvo metode

klical ocena največje verjetnosti parameter. Tako je ocenjevalec največje verjetnosti ocenjevalec, ki maksimira funkcijo verjetnosti glede na realizacijo fiksnega vzorca.

Pogosto se namesto funkcije verjetnosti uporablja funkcija log-likelihood. Ker funkcija monotono narašča na celotnem področju definicije, je maksimum katere koli funkcije maksimum funkcije in obratno. torej

,

Če je funkcija verjetnosti diferenciabilna, potem potreben pogoj ekstrem - enakost nič njegovega gradienta:

Zadosten pogoj ekstrem lahko formuliramo kot negativno določenost Hessove - matrike drugih odvodov:

Pomembno Za ovrednotenje lastnosti ocen metode največje verjetnosti se uporablja tako imenovana informacijska matrika, ki je po definiciji enaka:

Na optimalni točki informacijska matrika sovpada z matematičnim pričakovanjem Hessiana, vzetega z znakom minus:

Lastnosti

  • Ocene največje verjetnosti so na splošno lahko pristranske (glejte primere), vendar so dosledne. asimptotično učinkovito in asimptotično normalno ocene. Asimptotična normalnost pomeni to

kjer je asimptotična informacijska matrika

Asimptotična učinkovitost pomeni, da je asimptotična kovariančna matrika spodnja meja za vse konsistentne asimptotično normalne ocenjevalce.

Primeri

Zadnjo enakost lahko prepišemo kot:

kjer je , iz česar je razvidno, da funkcija verjetnosti doseže svoj maksimum v točki . torej

. .

Da bi našli njegov maksimum, izenačimo delne odvode na nič:

- povprečje vzorca in - varianca vzorca.

Metoda pogojne največje verjetnosti

Pogojna metoda največja verjetnost (pogojni ML) uporablja v regresijskih modelih. Bistvo metode je, da nepopolna skupna distribucija vse spremenljivke (odvisne in regresorske), ampak le pogojno porazdelitev odvisne spremenljivke po faktorjih, torej pravzaprav porazdelitev naključne napake regresijski model. Popolna funkcija verodostojnost je izdelek " pogojna funkcija verjetnost" in gostoto porazdelitve faktorjev. Pogojni MMP je enakovreden celotna različica MMP v primeru, ko porazdelitev faktorjev ni v ničemer odvisna od ocenjenih parametrov. Ta pogoj je pogosto kršen v modelih časovnih vrst, kot je avtoregresivni model. IN v tem primeru, so regresorji pretekle vrednosti odvisne spremenljivke, kar pomeni, da tudi njihove vrednosti sledijo istemu AR modelu, to pomeni, da je porazdelitev regresorjev odvisna od ocenjenih parametrov. V takih primerih so rezultati uporabe pogojnika in polna metoda največja verjetnost se bo razlikovala.

Poglej tudi

Opombe

Literatura

  • Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Začetni tečaj. - M.: Delo, 2007. - 504 str. - ISBN 978-5-7749-0473-0

Fundacija Wikimedia. 2010.

  • Maršak, Boris Iljič
  • Vrstni red bajtov

Oglejte si, kaj je "metoda največje verjetnosti" v drugih slovarjih:

    metoda največje verjetnosti- — metoda največje verjetnosti B matematična statistika metoda za ocenjevanje parametrov porazdelitve, ki temelji na maksimiziranju tako imenovane funkcije verjetnosti... ...

    METODA NAJVEČJE VERJETNOSTI- metoda ocenjevanja neznanih parametrov porazdelitvene funkcije F(s; α1,..., αs) iz vzorca, kjer je α1, ..., αs neznani parametri. Če je vzorec n opazovanj razdeljen na r disjunktnih skupin s1,…, sr; р1,..., pr… … Geološka enciklopedija

    Metoda največje verjetnosti- v matematični statistiki metoda za ocenjevanje porazdelitvenih parametrov, ki temelji na maksimiranju tako imenovane funkcije verjetnosti ( gostota sklepov verjetnosti opazovanj z vrednostmi, ki so enake ... ... Ekonomski in matematični slovar

    metoda največje verjetnosti- maksimaliojo tikėtinumo metodas statusas T sritis avtomatika atitikmenys: engl. metoda največje verjetnosti vok. Methode der maksimalen Mutmaßlichkeit, f rus. metoda največje verjetnosti, m pranc. méthode de maximum de vraisemblance, f;… … Automatikos terminų žodynas

    metoda delnega odziva največje verjetnosti- Viterbi metoda detekcije signala, ki zagotavlja minimalna raven medsimbolno popačenje. Poglej tudi. Viterbijev algoritem. [L.M. Nevdjajev. Telekomunikacijske tehnologije. angleščina ruščina Slovar imenik. Uredil Yu.M. Priročnik za tehnične prevajalce

    detektor zaporedja z uporabo metode največje verjetnosti- Naprava za izračun ocene najverjetnejšega zaporedja simbolov, ki maksimira funkcijo verjetnosti sprejetega signala. [L.M. Nevdjajev. Telekomunikacijske tehnologije. Referenčna knjiga angleško-ruskega razlagalnega slovarja. Uredil Yu.M. Priročnik za tehnične prevajalce

    metoda največje verjetnosti- metoda največje verjetnosti - [L.G. Angleško-ruski slovar informacijske tehnologije. M.: Državno podjetje TsNIIS, 2003.] Teme Informacijska tehnologija na splošno Sinonimi metoda največje verjetnosti EN metoda največje verjetnosti ... Priročnik za tehnične prevajalce

    metoda največje verjetnosti - Splošna metoda izračun ocen parametrov. Iščejo se ocene, ki maksimirajo funkcijo verjetnosti vzorca, enako zmnožku vrednosti funkcije porazdelitve za vsako opazovano podatkovno vrednost. Metoda največje verjetnosti je boljša ... Slovar sociološke statistike

In drugi).

Ocena največje verjetnosti je priljubljena statistična metoda, ki se uporablja za ustvarjanje statističnega modela iz podatkov in zagotavljanje ocen parametrov modela.

Ustreza mnogim dobro znanim metodam ocenjevanja na področju statistike. Recimo, da vas zanima rast prebivalcev Ukrajine. Recimo, da imate podatke o višini za več ljudi in ne za celotno populacijo. Poleg tega se domneva, da je višina normalno porazdeljena spremenljivka z neznano varianco in povprečjem. Povprečna vrednost in varianca rasti vzorca sta najverjetneje povprečje in varianca celotne populacije.

Glede na fiksen nabor podatkov in osnovni verjetnostni model bomo z uporabo metode največje verjetnosti pridobili vrednosti za parametre modela, ki podatke "približajo" realnemu svetu. Ocena največje verjetnosti zagotavlja edinstven in preprost način za določanje rešitev v primeru normalne porazdelitve.

Ocena največje verjetnosti se uporablja za širok nabor statističnih modelov, vključno z:

  • linearni modeli in generalizirani linearni modeli;
  • faktorska analiza;
  • modeliranje strukturnih enačb;
  • številne situacije, v okviru testiranja hipotez in oblikovanja intervala zaupanja;
  • modeli diskretne izbire.

Bistvo metode

klical ocena največje verjetnosti parameter. Tako je ocenjevalec največje verjetnosti ocenjevalec, ki maksimira funkcijo verjetnosti glede na realizacijo fiksnega vzorca.

Pogosto se namesto funkcije verjetnosti uporablja funkcija log-likelihood. Ker funkcija monotono narašča na celotnem področju definicije, je maksimum katere koli funkcije maksimum funkcije in obratno. torej

,

Če je funkcija verjetnosti diferenciabilna, je nujen pogoj za ekstrem, da je njen gradient enak nič:

Zadosten pogoj za ekstrem lahko formuliramo kot negativno določenost Hessove - matrike drugih odvodov:

Tako imenovana informacijska matrika, ki je po definiciji enaka:

Na optimalni točki informacijska matrika sovpada z matematičnim pričakovanjem Hessiana, vzetega z znakom minus:

Lastnosti

  • Ocene največje verjetnosti so na splošno lahko pristranske (glejte primere), vendar so dosledne. asimptotično učinkovito in asimptotično normalno ocene. Asimptotična normalnost pomeni to

kjer je asimptotična informacijska matrika

Asimptotična učinkovitost pomeni, da je asimptotična kovariančna matrika spodnja meja za vse konsistentne asimptotično normalne ocenjevalce.

Primeri

Zadnjo enakost lahko prepišemo kot:

kjer je , iz česar je razvidno, da funkcija verjetnosti doseže svoj maksimum v točki . torej

. .

Da bi našli njegov maksimum, izenačimo delne odvode na nič:

- povprečje vzorca in - varianca vzorca.

Metoda pogojne največje verjetnosti

Pogojna največja verjetnost (pogojni ML) uporablja v regresijskih modelih. Bistvo metode je, da se ne uporablja popolna skupna porazdelitev vseh spremenljivk (odvisnih in regresorjev), temveč le pogojno porazdelitev odvisne spremenljivke po faktorjih, torej pravzaprav porazdelitev naključnih napak v regresijskem modelu. Funkcija skupne verjetnosti je produkt "pogojne funkcije verjetnosti" in gostote porazdelitve faktorjev. Pogojni MMP je enakovreden polni različici MMP v primeru, ko porazdelitev faktorjev ni v ničemer odvisna od ocenjenih parametrov. Ta pogoj je pogosto kršen v modelih časovnih vrst, kot je avtoregresivni model. V tem primeru so regresorji pretekle vrednosti odvisne spremenljivke, kar pomeni, da tudi njihove vrednosti sledijo istemu modelu AR, torej je porazdelitev regresorjev odvisna od ocenjenih parametrov. V takih primerih se bodo rezultati uporabe metode pogojne in popolne največje verjetnosti razlikovali.

Poglej tudi

Opombe

Literatura

  • Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Začetni tečaj. - M.: Delo, 2007. - 504 str. - ISBN 978-5-7749-0473-0

Fundacija Wikimedia. 2010.

Oglejte si, kaj je "metoda največje verjetnosti" v drugih slovarjih:

    metoda največje verjetnosti- - metoda največje verjetnosti V matematični statistiki je metoda za ocenjevanje porazdelitvenih parametrov, ki temelji na maksimiranju tako imenovane funkcije verjetnosti... ...

    Metoda za ocenjevanje neznanih parametrov porazdelitvene funkcije F(s; α1,..., αs) iz vzorca, kjer so α1, ..., αs neznani parametri. Če je vzorec n opazovanj razdeljen na r disjunktnih skupin s1,…, sr; р1,..., pr… … Geološka enciklopedija

    Metoda največje verjetnosti- v matematični statistiki metoda za ocenjevanje parametrov porazdelitve, ki temelji na maksimiziranju tako imenovane funkcije verjetnosti (skupna verjetnostna gostota opazovanj z vrednostmi, ki sestavljajo ... ... Ekonomski in matematični slovar

    metoda največje verjetnosti- maksimaliojo tikėtinumo metodas statusas T sritis avtomatika atitikmenys: engl. metoda največje verjetnosti vok. Methode der maksimalen Mutmaßlichkeit, f rus. metoda največje verjetnosti, m pranc. méthode de maximum de vraisemblance, f;… … Automatikos terminų žodynas

    metoda delnega odziva največje verjetnosti- Viterbi metoda detekcije signala, ki zagotavlja minimalno stopnjo medsimbolnega popačenja. Poglej tudi. Viterbijev algoritem. [L.M. Nevdjajev. Telekomunikacijske tehnologije. Priročnik angleško-ruskega razlagalnega slovarja. Uredil Yu.M. Priročnik za tehnične prevajalce

    detektor zaporedja z uporabo metode največje verjetnosti- Naprava za izračun ocene najverjetnejšega zaporedja simbolov, ki maksimira funkcijo verjetnosti sprejetega signala. [L.M. Nevdjajev. Telekomunikacijske tehnologije. Referenčna knjiga angleško-ruskega razlagalnega slovarja. Uredil Yu.M. Priročnik za tehnične prevajalce

    metoda največje verjetnosti- metoda največje verjetnosti - [L.G.Sumenko. Angleško-ruski slovar informacijske tehnologije. M.: Državno podjetje TsNIIS, 2003.] Teme informacijska tehnologija na splošno Sinonimi metoda največje verjetnosti EN metoda največje verjetnosti ... Priročnik za tehnične prevajalce

    metoda največje verjetnosti- Splošna metoda za izračun ocen parametrov. Iščejo se ocene, ki maksimirajo funkcijo verjetnosti vzorca, ki je enaka zmnožku vrednosti distribucijske funkcije za vsako opazovano vrednost podatkov. Metoda največje verjetnosti je boljša ... Slovar sociološke statistike

Priznani taksonomist Joe Felsenstein (1978) je prvi predlagal, da bi bilo treba filogenetske teorije vrednotiti na neparsimološki podlagi.

raziskav, ampak s pomočjo matematične statistike. Kot rezultat je bila razvita metoda največje verjetnosti. .

Ta metoda temelji na predhodnem znanju o možne načine evolucijo, to pomeni, da zahteva izdelavo modela sprememb lastnosti pred analizo. Za izdelavo teh modelov se uporabljajo zakoni statistike.

Spodaj prepričljiv razume se verjetnost opazovanja podatkov, če je določen model dogodkov sprejet. Različni modeli lahko naredi opazovane podatke bolj ali manj verjetne. Na primer, če vržete kovanec in dobite glavo le eno od stokrat, potem lahko sklepate, da je kovanec pokvarjen. Če sprejmete ta model, bo verjetnost dobljenega rezultata precej visoka. Če upoštevate model, da je kovanec pokvarjen, potem lahko pričakujete, da boste videli glave v petdesetih primerih in ne v enem. Dobiti samo eno glavo v 100 metih slabega kovanca je statistično malo verjetno. Z drugimi besedami, verjetnost, da dobimo rezultat ene "glave" v stotih "repih", je v modelu brezhibnega kovanca zelo nizka.

Verodostojnost je matematična količina. Običajno se izračuna po formuli:

kjer je Pr(D|H) verjetnost pridobitve podatkov D, če je hipoteza H sprejeta . Navpična vrstica v formuli se glasi "za dano." Ker se L pogosto izkaže za majhno vrednost, se običajno uporablja v študijah naravni logaritem verodostojnost.

Zelo pomembno je razlikovati med verjetnostjo pridobitve opazovanih podatkov in verjetnostjo, da je sprejeti model dogodkov pravilen. Verjetnost podatkov ne pove ničesar o verjetnosti samega modela. Filozof-biolog E. Sober uporablja naslednji primer da bi bilo to razlikovanje jasno. Predstavljajte si, da v sobi nad vami slišite glasen hrup. Lahko domnevate, da je to posledica palčkov, ki igrajo bowling na podstrešju. Pri tem modelu ima vaše opažanje (glasen hrup nad vami) veliko verjetnost (če bi škrati dejansko kegljali nad vami, bi to skoraj zagotovo slišali). Verjetnost, da je vaša hipoteza resnična, torej da so hrup povzročili škratje, pa je nekaj povsem drugega. Skoraj zagotovo niso bili škrati. Torej v tem primeru vaša hipoteza zagotavlja podatke z visoko verjetnostjo, vendar sama po sebi najvišja stopnja malo verjetno.

Uporaba ta sistem Metoda največje verjetnosti omogoča statistično ovrednotenje filogenetskih dreves, pridobljenih s tradicionalno kladistiko. V bistvu ta metoda zaključi

išče kladogram, ki zagotavlja največjo verjetnost razpoložljivega niza podatkov.

Oglejmo si primer, ki ponazarja uporabo metode največje verjetnosti. Predpostavimo, da imamo štiri taksone, za katere so določena nukleotidna zaporedja določenega mesta DNK (slika 16).

Če model predvideva možnost reverzij, potem lahko korenimo to drevo v katerem koli vozlišču. Eno od možnih koreninskih dreves je prikazano na sl. 17.2.

Ne vemo, kateri nukleotidi so bili prisotni v zadevnem lokusu v skupni predniki taksoni 1-4 (ti predniki ustrezajo vozliščema X in Y na kladogramu). Za vsako od teh vozlišč obstajajo štiri različice nukleotidov, ki bi lahko bile tam prisotne v oblikah prednikov, kar ima za posledico 16 filogenetskih scenarijev, ki vodijo do drevesa 2. Eden od teh scenarijev je prikazan na sl. 17.3.

Verjetnost tega scenarija je mogoče določiti s formulo:

kjer je P A verjetnost prisotnosti nukleotida A v korenu drevesa, ki je enaka povprečni frekvenci nukleotida A (v splošni primer= 0,25); P AG – verjetnost zamenjave A z G; P AC – verjetnost zamenjave A s C; P AT – verjetnost zamenjave A s T; zadnja dva množitelja sta verjetnost, da bo nukleotid T shranjen v vozliščih X oziroma Y.

Še ena možen scenarij, ki vam omogoča pridobitev istih podatkov, je prikazan na sl. 17.4. Ker obstaja 16 takih scenarijev, je mogoče določiti verjetnost vsakega od njih, vsota teh verjetnosti pa bo verjetnost drevesa, prikazanega na sl. 17.2:

Kjer je P drevo 2 verjetnost opazovanja podatkov na lokusu, označenem z zvezdico za drevo 2.

Verjetnost opazovanja vseh podatkov v vseh lokusih danega zaporedja je produkt verjetnosti za vsak lokus i od 1 do N:

Ker so te vrednosti zelo majhne, ​​se uporabi še en indikator - naravni logaritem verjetnosti lnL i za vsako mesto i. V tem primeru je log-verjetnost drevesa vsota log-verjetnosti za vsak lokus:

Vrednost drevesa lnL je logaritem verjetnosti opazovanja podatkov pri izbiri določenega evolucijskega modela in drevesa z njegovo značilnostjo.

zaporedje razvejanja in dolžina veje. Računalniški programi, ki se uporablja v metodi največje verjetnosti (npr. že omenjeni kladistični paket PAUP), poiščite drevo z največji indikator lnL. Podvojena razlika logaritemskih verjetnosti dveh modelov 2Δ (kjer je Δ = lnL drevo A- lnL drevoB) upošteva znano statistična porazdelitev x 2. To vam omogoča, da ocenite, ali je en model zanesljivo boljši od drugega. Zaradi tega je največja verjetnost močno orodje za preizkušanje hipotez.

V primeru štirih taksonov so izračuni lnL potrebni za 15 dreves. pri veliko število Izkaže se, da je nemogoče ovrednotiti vse taksone, zato se za iskanje uporabljajo hevristične metode (glej zgoraj).

V obravnavanem primeru smo uporabili vrednosti verjetnosti zamenjave (substitucije) nukleotidov v procesu evolucije. Izračun teh verjetnosti je sam po sebi statistična naloga. Da bi lahko rekonstruirali evolucijsko drevo, moramo narediti določene predpostavke o procesu zamenjave in te predpostavke izraziti v obliki modela.

V najpreprostejšem modelu velja, da so verjetnosti zamenjave katerega koli nukleotida s katerim koli drugim nukleotidom enake. to preprost model ima samo en parameter - stopnjo substitucije in je znan kot enoparametrski Jukes-Cantorjev model oz JC (Jukes in Cantor, 1969). Ko uporabljamo ta model, moramo poznati hitrost, s katero pride do zamenjave nukleotidov. Če to v trenutku vemo t= 0 na določenem mestu obstaja nukleotid G, potem lahko izračunamo verjetnost, da bo na tem mestu po določenem času t ostal nukleotid G, in verjetnost, da bo to mesto zamenjal drug nukleotid, npr. Te verjetnosti so označene kot P(gg) oziroma P(ga). Če je stopnja zamenjave enaka neki vrednosti α na časovno enoto, potem

Ker so glede na model z enim parametrom vse zamenjave enako verjetne, bi bolj splošna izjava izgledala takole:

Razviti so bili tudi bolj zapleteni evolucijski modeli. Empirična opazovanja kažejo, da lahko pride do nekaterih zamenjav

pogosteje kot drugi. Imenujejo se substitucije, zaradi katerih se en purin nadomesti z drugim prehodi, in imenujemo zamenjave purina s pirimidinom ali pirimidina s purinom transverzije. Lahko bi pričakovali, da se transverzije pojavljajo pogosteje kot prehodi, saj je le ena od treh možnih zamenjav za kateri koli nukleotid prehod. Vendar se navadno zgodi ravno nasprotno: prehodi se ponavadi pojavljajo pogosteje kot transverzije. To še posebej velja za mitohondrijsko DNK.

Drugi razlog, zakaj se nekatere nukleotidne substitucije pojavljajo pogosteje kot druge, je neenaka bazna razmerja. Na primer, mitohondrijska DNK žuželk je v primerjavi z vretenčarji bogatejša z adeninom in timinom. Če so nekateri razlogi pogostejši, lahko pričakujemo, da se bodo nekatere zamenjave pojavljale pogosteje kot druge. Na primer, če zaporedje vsebuje zelo malo gvanina, je malo verjetno, da bo prišlo do zamenjave tega nukleotida.

Modela se razlikujeta po tem, da pri nekaterih določen parameter ali parametri (na primer razmerje baz, stopnja substitucije) ostanejo fiksni, pri drugih pa se spreminjajo. Obstaja na desetine evolucijskih modelov. Spodaj predstavljamo najbolj znane med njimi.

Že omenjeno Model Jukes-Cantor (JC). značilno po tem, da so osnovne frekvence enake: π A = π C = πG = π T , transverzije in prehodi imajo enake stopnje α=β in vse zamenjave so enako verjetne.

Kimurin dvoparametrski (K2P) model predpostavlja enake frekvence baze π A =π C =π G =π T , transverzije in prehodi pa imajo različne hitrosti α≠β.

Model Felsenstein (F81) predpostavlja, da so osnovne frekvence različne π A ≠π C ≠π G ≠π T , in stopnje substitucije so enake α=β.

Splošni reverzibilni model (REV) predpostavlja različne osnovne frekvence π A ≠π C ≠π G ≠π T , in vseh šest parov zamenjav ima različne hitrosti.

Zgoraj omenjeni modeli predpostavljajo, da so stopnje zamenjave enake na vseh mestih. Vendar pa lahko model upošteva tudi razlike v stopnjah zamenjave na različnih mestih. Vrednosti osnovnih frekvenc in stopenj zamenjave se lahko dodelijo vnaprej ali pa se te vrednosti pridobijo iz podatkov z uporabo posebni programi, na primer PAUP.

Bayesova analiza

Metoda največje verjetnosti oceni verjetnost filogenetskih modelov, potem ko so bili ustvarjeni iz razpoložljivih podatkov. Vendar pa znanje splošni vzorci evolucija dane skupine omogoča ustvarjanje niza najverjetnejših modelov filogenije brez uporabe osnovnih podatkov (na primer nukleotidnih zaporedij). Ko so ti podatki pridobljeni, je mogoče oceniti ujemanje med njimi in vnaprej zgrajenimi modeli ter ponovno preučiti verjetnost teh začetnih modelov. Metoda, ki to omogoča, se imenuje Bayesova analiza , in je najnovejša metoda za proučevanje filogenije (glej. podroben pregled: Huelsenbeck et al., 2001).

V skladu s standardno terminologijo se začetne verjetnosti običajno imenujejo predhodne verjetnosti (ker so sprejeti, preden so podatki prejeti), revidirane verjetnosti pa so a posteriori (ker se izračunajo po prejemu podatkov).

Matematična osnova Bayesova analiza je Bayesov izrek, v katerem predhodna verjetnost drevo Pr[ Drevo] in verjetnost Pr[ Podatki|Drevo] se uporabljajo za izračun posteriorne verjetnosti drevesa Pr[ Drevo|Podatki]:

Posteriorno verjetnost drevesa lahko razumemo kot verjetnost, da drevo odraža pravi potek evolucije. Drevo z največjo posteriorno verjetnostjo je izbrano kot najverjetnejši model filogenije. Posteriorna verjetnostna porazdelitev dreves je izračunana z metodami računalniškega modeliranja.

Največja verjetnost in Bayesova analiza zahtevata evolucijske modele, ki opisujejo spremembe lastnosti. Ustvarjanje matematičnih modelov morfološka evolucija trenutno ni mogoča. Zaradi tega razloga statistične metode Filogenetske analize veljajo le za molekularne podatke.



Vam je bil članek všeč? Delite s prijatelji!