મહત્તમ સંભાવના અંદાજ. વિતરણ પરિમાણોનો પોઈન્ટ અંદાજ

કાર્યનો સાર બિંદુ અંદાજપરિમાણો

વિતરણ પરિમાણોનો પોઈન્ટ અંદાજ

બિંદુ અંદાજ એકમાત્ર શોધવાનો સમાવેશ થાય છે સંખ્યાત્મક મૂલ્ય, જે પરિમાણ મૂલ્ય તરીકે લેવામાં આવે છે. ED નું પ્રમાણ પૂરતું મોટું હોય તેવા કિસ્સાઓમાં આવા મૂલ્યાંકનને નિર્ધારિત કરવાની સલાહ આપવામાં આવે છે. તદુપરાંત, EDના પર્યાપ્ત વોલ્યુમનો કોઈ એક ખ્યાલ નથી તેનું મૂલ્ય મૂલ્યાંકન કરવામાં આવતા પરિમાણના પ્રકાર પર આધારિત છે (પદ્ધતિઓનો અભ્યાસ કરતી વખતે આ મુદ્દો પરત કરવામાં આવશે; અંતરાલ અંદાજપરિમાણો, અને પ્રારંભિક અમે ઓછામાં ઓછા 10 મૂલ્યો ધરાવતા પર્યાપ્ત નમૂનાને ધ્યાનમાં લઈશું). જ્યારે ED નું વોલ્યુમ નાનું હોય છે, ત્યારે પોઈન્ટ અંદાજો સાચા પરિમાણ મૂલ્યોથી નોંધપાત્ર રીતે અલગ હોઈ શકે છે, જે તેમને ઉપયોગ માટે અયોગ્ય બનાવે છે.

બિંદુ પરિમાણ અંદાજ સમસ્યા વી પ્રમાણભૂત સંસ્કરણઉત્પાદન નીચે મુજબ છે.

ઉપલબ્ધ: અવલોકનોનો નમૂનો ( x 1 , x 2 , …, x n) રેન્ડમ ચલ પાછળ એક્સ. નમૂનાનું કદ nનિશ્ચિત

જથ્થાના વિતરણ કાયદાનું સ્વરૂપ જાણીતું છે એક્સ, ઉદાહરણ તરીકે, વિતરણ ઘનતાના સ્વરૂપમાં f(Θ , x),જ્યાં Θ - અજ્ઞાત (માં સામાન્ય કેસવેક્ટર) વિતરણ પરિમાણ. પરિમાણ એ બિન-રેન્ડમ મૂલ્ય છે.

અંદાજ શોધવાની જરૂર છે Θ* પરિમાણ Θ વિતરણ કાયદો.

મર્યાદાઓ: નમૂના પ્રતિનિધિ છે.

બિંદુ પરિમાણ અંદાજની સમસ્યાને ઉકેલવા માટે ઘણી પદ્ધતિઓ છે, જેમાંથી સૌથી સામાન્ય મહત્તમ સંભાવના, ક્ષણો અને ક્વોન્ટાઇલ્સ પદ્ધતિઓ છે.

આ પદ્ધતિ આર. ફિશર દ્વારા 1912 માં પ્રસ્તાવિત કરવામાં આવી હતી. પદ્ધતિ અવલોકનોના નમૂના મેળવવાની સંભાવનાના અભ્યાસ પર આધારિત છે. (x 1 , x 2, …, x n). આ સંભાવના બરાબર છે

f(x 1, Θ) f(x 2, Θ) … f(x n, Θ) dx 1 dx 2 … dx n.

સંયુક્ત સંભાવના ઘનતા

L(x 1, x 2 ..., x n; Θ) = f(x 1, Θ) f(x 2, Θ) ... f(x n, Θ),(2.7)

પરિમાણના કાર્ય તરીકે ગણવામાં આવે છે Θ , કહેવાય છે સંભાવના કાર્ય .

આકારણી તરીકે Θ* પરિમાણ Θ વ્યક્તિએ તે મૂલ્ય લેવું જોઈએ જે સંભવિત કાર્યને મહત્તમ બનાવે. અંદાજ શોધવા માટે, સંભવિત કાર્યમાં બદલવું જરૂરી છે ટીચાલુ qઅને સમીકરણ ઉકેલો

dL/dΘ* = 0.

ગણતરીઓને સરળ બનાવવા માટે, અમે સંભાવના કાર્યમાંથી તેના લઘુગણક ln પર જઈએ છીએ એલ. આ પરિવર્તન અનુમતિપાત્ર છે, કારણ કે સંભાવના કાર્ય છે હકારાત્મક કાર્ય, અને તે તેના લઘુગણકના સમાન બિંદુએ મહત્તમ સુધી પહોંચે છે. જો વિતરણ પરિમાણ વેક્ટર જથ્થો

Θ* =(q 1, q 2, …, q n),

પછી અંદાજો મહત્તમ સંભાવનાસમીકરણોની સિસ્ટમમાંથી મળે છે


d ln L(q 1, q 2, …, q n) /d q 1 = 0;

d ln L(q 1, q 2, …, q n) /d q 2 = 0;

. . . . . . . . .



d ln L(q 1, q 2, …, q n) /d q n = 0.

શ્રેષ્ઠ બિંદુ મહત્તમ સંભાવના કાર્યને અનુરૂપ છે તે ચકાસવા માટે, આ કાર્યનું બીજું વ્યુત્પન્ન શોધવું જરૂરી છે. અને જો શ્રેષ્ઠ બિંદુ પરનું બીજું વ્યુત્પન્ન નકારાત્મક હોય, તો મળેલ પરિમાણ મૂલ્યો કાર્યને મહત્તમ કરે છે.

તેથી, મહત્તમ સંભાવના અંદાજો શોધવામાં નીચેના પગલાંનો સમાવેશ થાય છે: સંભાવના કાર્યનું નિર્માણ (તેના કુદરતી લઘુગણક); જરૂરી પરિમાણો અને સમીકરણોની સિસ્ટમનું સંકલન અનુસાર કાર્યનો તફાવત; અંદાજો શોધવા માટે સમીકરણોની સિસ્ટમ હલ કરવી; ફંક્શનનું બીજું ડેરિવેટિવ નક્કી કરવું, પ્રથમ ડેરિવેટિવના શ્રેષ્ઠ બિંદુ પર તેની નિશાની તપાસવી અને તારણો દોરવા.

ઉકેલ.વોલ્યુમના ED નમૂના માટે સંભાવના કાર્ય n

લોગ સંભાવના કાર્ય

પરિમાણ અંદાજ શોધવા માટે સમીકરણોની સિસ્ટમ

પ્રથમ સમીકરણથી તે નીચે મુજબ છે:

અથવા છેલ્લે

આમ, અંકગણિત સરેરાશ એ ગાણિતિક અપેક્ષા માટે મહત્તમ સંભાવના અંદાજ છે.

બીજા સમીકરણમાંથી આપણે શોધી શકીએ છીએ

.

પ્રયોગમૂલક તફાવત પક્ષપાતી છે. ઓફસેટ દૂર કર્યા પછી

વાસ્તવિક મૂલ્યોપરિમાણ અંદાજો: m =27,51, s 2 = 0,91.

ચકાસવા માટે કે પ્રાપ્ત અંદાજો સંભાવના કાર્યના મૂલ્યને મહત્તમ કરે છે, અમે બીજા ડેરિવેટિવ્ઝ લઈએ છીએ

ફંક્શનના બીજા ડેરિવેટિવ્ઝ ln( L(m,S)) પરિમાણ મૂલ્યોને ધ્યાનમાં લીધા વિના શૂન્ય કરતાં ઓછુંતેથી, મળેલ પરિમાણ મૂલ્યો મહત્તમ સંભાવના અંદાજ છે.

મહત્તમ સંભાવના પદ્ધતિ અમને સુસંગત, અસરકારક (જો કોઈ અસ્તિત્વમાં હોય, તો પરિણામી ઉકેલ આપશે) મેળવવા માટે પરવાનગી આપે છે અસરકારક મૂલ્યાંકન), પર્યાપ્ત, એસિમ્પટોટિક રીતે સામાન્ય રીતે વિતરિત અંદાજ. આ પદ્ધતિ બંને પક્ષપાતી અને નિષ્પક્ષ અંદાજો ઉત્પન્ન કરી શકે છે. સુધારાઓ રજૂ કરીને પૂર્વગ્રહ દૂર કરી શકાય છે. પદ્ધતિ ખાસ કરીને નાના નમૂનાઓ સાથે ઉપયોગી છે.

ઘનતા સાથે સતત રેન્ડમ ચલ ઘનતાનો પ્રકાર જાણીતો છે, પરંતુ પરિમાણોના મૂલ્યો અજ્ઞાત છે. તે જોવાનું સરળ છે કે સંભાવના કાર્યને સંભવિત અર્થ આપી શકાય છે, એટલે કે: એક રેન્ડમ વેક્ટરને ધ્યાનમાં લો કે જેના ઘટકો સ્વતંત્ર છે, કાયદા D(z) સાથે સામૂહિક રીતે સમાન રીતે વિતરિત રેન્ડમ ચલો. પછી વેક્ટર E ના સંભવિત તત્વનું સ્વરૂપ છે એટલે કે. સંભાવના કાર્ય P પ્રયોગોના ક્રમમાં નિશ્ચિત નમૂના મેળવવાની સંભાવના સાથે સંકળાયેલું છે. સંભાવના પદ્ધતિનો મુખ્ય વિચાર એ છે કે, પરિમાણો A ના અંદાજ તરીકે, આવા મૂલ્યો લેવાનો પ્રસ્તાવ છે (3) જે આપેલ નિશ્ચિત નમૂના માટે મહત્તમ સંભવિત કાર્ય પ્રદાન કરે છે, એટલે કે પ્રયોગમાં મેળવેલા નમૂનાને સૌથી વધુ સંભવિત તરીકે ધ્યાનમાં લેવાનો પ્રસ્તાવ છે. k સમીકરણોની સિસ્ટમ ઉકેલવા માટે pj નો અંદાજો શોધવામાં ઘટાડો થાય છે (k એ અજાણ્યા પરિમાણોની સંખ્યા છે): ફંક્શન લોગ L એ સંભાવના કાર્યની સમાન બિંદુએ મહત્તમ હોવાથી, સંભાવના સમીકરણોની સિસ્ટમ (19) છે. અજ્ઞાત પરિમાણોના અંદાજ તરીકે ઘણીવાર ફોર્મમાં લખવામાં આવે છે, વ્યક્તિએ સિસ્ટમ (19) અથવા (20) ના ઉકેલો લેવા જોઈએ જે ખરેખર નમૂના પર આધાર રાખે છે અને સ્થિર નથી. એવા કિસ્સામાં જ્યાં £ વિતરણ શ્રેણી સાથે અલગ હોય છે, સંભાવના કાર્યને ફંક્શન કહેવામાં આવે છે અને અંદાજો મહત્તમ સંભાવના પદ્ધતિ અથવા સમકક્ષ તરીકે માંગવામાં આવે છે. એ નોંધવું જોઇએ કે મહત્તમ સંભાવના પદ્ધતિ વધુ તરફ દોરી જાય છે જટિલ ગણતરીઓક્ષણોની પદ્ધતિ કરતાં, પરંતુ સૈદ્ધાંતિક રીતે તે વધુ અસરકારક છે, કારણ કે મહત્તમ સંભાવના અંદાજો ક્ષણોની પદ્ધતિનો ઉપયોગ કરીને મેળવેલા અંદાજો કરતાં અંદાજિત પરિમાણોના સાચા મૂલ્યોથી ઓછા વિચલિત થાય છે. એપ્લીકેશનોમાં મોટાભાગે જોવા મળતા વિતરણો માટે, ક્ષણોની પદ્ધતિનો ઉપયોગ કરીને મેળવેલ પરિમાણ અંદાજો અને મહત્તમ સંભાવના પદ્ધતિ મોટા ભાગના કિસ્સાઓમાં એકરૂપ થાય છે. પ્રશિર 1. વિચલન (નજીવા મૂલ્યમાંથી ભાગના કદનું સામાન્ય રીતે વિતરિત રેન્ડમ ચલ છે. તે નમૂનામાંથી વિચલનની પદ્ધતિસરની ભૂલ અને ભિન્નતા નક્કી કરવા માટે જરૂરી છે. M શરત દ્વારા (સામાન્ય રીતે વિતરિત રેન્ડમ ચલ છે ગાણિતિક અપેક્ષા (પદ્ધતિસરની ભૂલ) અને વિભિન્નતા n: X\>...yXn કદના નમૂનામાંથી અંદાજવામાં આવશે. આ કિસ્સામાં, સંભાવના ફંક્શન સિસ્ટમ (19) નું સ્વરૂપ છે તેથી, Xx પર નિર્ભર ન હોય તેવા ઉકેલોને બાદ કરતાં, અમે મેળવીએ છીએ એટલે કે આ કિસ્સામાં મહત્તમ સંભાવના અંદાજો અમને પહેલેથી જ જાણીતા પ્રયોગમૂલક સરેરાશ અને ભિન્નતા સાથે સુસંગત છે > ઉદાહરણ 2. ઘાતાંકીય રીતે વિતરિત રેન્ડમ ચલના નમૂનામાંથી પરિમાણ /i નો અંદાજ કાઢો. 4 સંભાવના કાર્યનું સ્વરૂપ છે સંભાવના સમીકરણ આપણને એવા ઉકેલ તરફ દોરી જાય છે જે ક્ષણોની પદ્ધતિ દ્વારા મેળવેલ સમાન પરિમાણના અંદાજ સાથે મેળ ખાય છે, જુઓ (17). ^ ઉદાહરણ 3. મહત્તમ સંભાવના પદ્ધતિનો ઉપયોગ કરીને, જો સિક્કાના દસ ટૉસ દરમિયાન, શસ્ત્રોનો કોટ 8 વખત દેખાયો, તો શસ્ત્રોના કોટના દેખાવની સંભાવનાનો અંદાજ કાઢો. -4 અનુમાનિત થવાની સંભાવનાને p બરાબર થવા દો. ચાલો વિચાર કરીએ રેન્ડમ ચલ(વિતરણ શ્રેણી સાથે. સંભાવના કાર્ય (21) ફોર્મ ધરાવે છે મહત્તમ સંભાવના પદ્ધતિ આ સમીકરણ અજ્ઞાત સંભાવનાના અંદાજ તરીકે આપે છે p પ્રયોગમાં કોટ ઓફ આર્મ્સના દેખાવની આવર્તન. શોધવા માટેની પદ્ધતિઓની ચર્ચાને સમાપ્ત કરીને અંદાજો, અમે ભારપૂર્વક કહીએ છીએ કે, પ્રાયોગિક ડેટાનો ખૂબ મોટો જથ્થો હોવા છતાં, અમે હજી પણ સૂચવી શકતા નથી ચોક્કસ મૂલ્યપરિમાણ અનુમાનિત કરવામાં આવે છે, વધુમાં, પહેલેથી જ ઘણી વખત નોંધ્યું છે, અમે જે અંદાજો મેળવીએ છીએ તે નજીક છે સાચા મૂલ્યોપરિમાણોનું મૂલ્યાંકન ફક્ત "સરેરાશ" અથવા "મોટા ભાગના કિસ્સાઓમાં" થાય છે. તેથી મહત્વપૂર્ણ આંકડાકીય સમસ્યા, જે અમે આગળ વિચારીશું, અમે જે આકારણી કરીએ છીએ તેની ચોકસાઈ અને વિશ્વસનીયતા નક્કી કરવાનું કાર્ય છે.

વિખ્યાત વર્ગીકરણશાસ્ત્રી જો ફેલસેન્સ્ટીન (1978) એ સૌપ્રથમ પ્રસ્તાવ મૂક્યો હતો કે ફિલોજેનેટિક સિદ્ધાંતોનું મૂલ્યાંકન બિન-પાર્સિમોલોજિકલ ધોરણે થવું જોઈએ.

સંશોધન, પરંતુ ગાણિતિક આંકડાઓ દ્વારા. પરિણામે, મહત્તમ સંભાવના પદ્ધતિ વિકસાવવામાં આવી હતી. .

આ પદ્ધતિ વિશે અગાઉના જ્ઞાન પર આધારિત છે શક્ય માર્ગોઉત્ક્રાંતિ, એટલે કે, તેને વિશ્લેષણ પહેલાં લક્ષણોમાં ફેરફારોનું મોડેલ બનાવવાની જરૂર છે. આ મોડેલો બનાવવા માટે આંકડાશાસ્ત્રના નિયમોનો ઉપયોગ કરવામાં આવે છે.

હેઠળ વિશ્વાસપાત્ર જો ઇવેન્ટ્સના ચોક્કસ મોડેલને સ્વીકારવામાં આવે તો ડેટાનું અવલોકન કરવાની સંભાવના. વિવિધ મોડેલોઅવલોકન કરેલ ડેટાને વધુ કે ઓછા સંભવિત બનાવી શકે છે. ઉદાહરણ તરીકે, જો તમે એક સિક્કો ફેંકી દો અને સો વખતમાંથી માત્ર એક જ માથા મેળવો, તો તમે ધારી શકો છો કે સિક્કો ખામીયુક્ત છે. જો તમે આ મોડેલને સ્વીકારો છો, તો પ્રાપ્ત પરિણામની સંભાવના ખૂબ ઊંચી હશે. જો તમે મોડેલ પર જાઓ છો કે સિક્કો ખામીયુક્ત છે, તો તમે એકને બદલે પચાસ કેસોમાં હેડ જોવાની અપેક્ષા રાખી શકો છો. ખરાબ સિક્કાના 100 ટોસમાં માત્ર એક જ માથું મેળવવું આંકડાકીય રીતે અસંભવિત છે. બીજા શબ્દોમાં કહીએ તો, બિન-ક્ષતિયુક્ત સિક્કાના મોડેલમાં સો પૂંછડીઓમાં એક માથાનું પરિણામ મેળવવાની સંભાવના ઘણી ઓછી છે.

વિશ્વસનીયતા છે ગાણિતિક જથ્થો. તે સામાન્ય રીતે સૂત્રનો ઉપયોગ કરીને ગણવામાં આવે છે:

જ્યાં Pr(D|H) એ ડેટા D મેળવવાની સંભાવના છે જો પૂર્વધારણા H સ્વીકારવામાં આવે . સૂત્રમાં ઊભી પટ્ટી "આપેલ માટે" વાંચે છે. કારણ કે L ઘણીવાર નાનું મૂલ્ય હોવાનું બહાર આવ્યું છે, અભ્યાસ સામાન્ય રીતે ઉપયોગ કરે છે કુદરતી લઘુગણકવિશ્વસનીયતા

અવલોકન કરેલ ડેટા મેળવવાની સંભાવના અને ઘટનાઓનું સ્વીકૃત મોડેલ સાચું છે તેની સંભાવના વચ્ચે તફાવત કરવો મહત્વપૂર્ણ છે. ડેટાની સંભાવના મોડેલની સંભાવના વિશે કશું કહેતી નથી. ફિલોસોફર-બાયોલોજીસ્ટ ઇ. સોબરનો ઉપયોગ કર્યો હતો આગામી ઉદાહરણઆ તફાવત સ્પષ્ટ કરવા માટે. કલ્પના કરો કે તમે તમારા ઉપરના રૂમમાં જોરથી અવાજ સાંભળો છો. તમે ધારી શકો છો કે આ એટિકમાં બોલિંગ રમતા જીનોમને કારણે થાય છે. આ મોડેલ માટે, તમારા અવલોકન (તમારી ઉપર એક મોટો અવાજ) ની ઉચ્ચ સંભાવના છે (જો વામન ખરેખર તમારી ઉપર બોલિંગ કરતા હતા, તો તમે લગભગ ચોક્કસપણે તે સાંભળશો). જો કે, તમારી પૂર્વધારણા સાચી હોવાની સંભાવના, એટલે કે, તે વામન હતા જેણે અવાજ કર્યો હતો, તે કંઈક સંપૂર્ણપણે અલગ છે. તેઓ લગભગ ચોક્કસપણે વામન ન હતા. તેથી, આ કિસ્સામાં, તમારી પૂર્વધારણા ઉચ્ચ બુદ્ધિગમ્યતા સાથે ડેટા પ્રદાન કરે છે, પરંતુ પોતે જ ઉચ્ચતમ ડિગ્રીઅસંભવિત

ઉપયોગ કરીને આ સિસ્ટમતર્ક, મહત્તમ સંભાવના પદ્ધતિ પરંપરાગત ક્લેડિસ્ટિક્સનો ઉપયોગ કરીને મેળવેલા ફાયલોજેનેટિક વૃક્ષોનું આંકડાકીય રીતે મૂલ્યાંકન કરવાનું શક્ય બનાવે છે. અનિવાર્યપણે, આ પદ્ધતિ તારણ આપે છે

ઉપલબ્ધ ડેટા સેટની સૌથી વધુ સંભાવના પૂરી પાડે છે તે ક્લેડોગ્રામ માટે શોધ કરે છે.

ચાલો મહત્તમ સંભાવના પદ્ધતિનો ઉપયોગ સમજાવતા ઉદાહરણને ધ્યાનમાં લઈએ. ચાલો ધારીએ કે આપણી પાસે ચાર ટેક્સા છે જેના માટે ચોક્કસ ડીએનએ સાઇટના ન્યુક્લિયોટાઇડ સિક્વન્સની સ્થાપના કરવામાં આવી છે (ફિગ. 16).

જો મોડેલ રિવર્ઝનની શક્યતા ધારે છે, તો પછી આપણે આ વૃક્ષને કોઈપણ નોડ પર રુટ કરી શકીએ છીએ. સંભવિત મૂળ વૃક્ષોમાંથી એક ફિગમાં બતાવવામાં આવ્યું છે. 17.2.

અમે જાણતા નથી કે પ્રશ્નમાં લોકસમાં કયા ન્યુક્લિયોટાઇડ્સ હાજર હતા સામાન્ય પૂર્વજોટેક્સા 1-4 (આ પૂર્વજો ક્લેડોગ્રામ પર X અને Y નોડ્સને અનુરૂપ છે). આ દરેક ગાંઠો માટે, ત્યાં ચાર ન્યુક્લિયોટાઇડ વેરિઅન્ટ્સ છે જે પૂર્વજોના સ્વરૂપમાં ત્યાં હાજર હોઈ શકે છે, પરિણામે 16 ફાયલોજેનેટિક દૃશ્યો વૃક્ષ 2 તરફ દોરી જાય છે. આમાંથી એક દૃશ્ય ફિગમાં દર્શાવવામાં આવ્યું છે. 17.3.

આ દૃશ્યની સંભાવના સૂત્ર દ્વારા નક્કી કરી શકાય છે:

જ્યાં P A એ વૃક્ષના મૂળમાં ન્યુક્લિયોટાઇડ Aની હાજરીની સંભાવના છે, જે ન્યુક્લિયોટાઇડ A ની સરેરાશ આવર્તન સમાન છે (સામાન્ય કિસ્સામાં = 0.25); P AG - A ને G સાથે બદલવાની સંભાવના; P AC - A ને C સાથે બદલવાની સંભાવના; P AT - A ને T સાથે બદલવાની સંભાવના; છેલ્લા બે ગુણક અનુક્રમે X અને Y નોડ્સમાં ન્યુક્લિયોટાઇડ T સંગ્રહિત થવાની સંભાવના છે.

અન્ય શક્ય દૃશ્ય, જે તમને સમાન ડેટા મેળવવા માટે પરવાનગી આપે છે, ફિગમાં બતાવેલ છે. 17.4. આવા 16 દૃશ્યો હોવાથી, તેમાંથી દરેકની સંભાવના નક્કી કરી શકાય છે, અને આ સંભાવનાઓનો સરવાળો એ ફિગમાં બતાવેલ વૃક્ષની સંભાવના હશે. 17.2:

જ્યાં પી ટ્રી 2 એ વૃક્ષ 2 માટે ફૂદડી દ્વારા દર્શાવેલ સ્થાન પરના ડેટાને જોવાની સંભાવના છે.

આપેલ ક્રમના તમામ સ્થાનોમાં તમામ ડેટાને અવલોકન કરવાની સંભાવના એ 1 થી N સુધીના દરેક સ્થાન i માટે સંભાવનાઓનું ઉત્પાદન છે:

આ મૂલ્યો ખૂબ નાના હોવાથી, અન્ય સૂચકનો ઉપયોગ થાય છે - દરેક સ્થાન i માટે lnL i ની સંભાવનાનો કુદરતી લઘુગણક. આ કિસ્સામાં, વૃક્ષની લોગ-સંભાવના એ દરેક સ્થાન માટે લોગ-સંભાવનાઓનો સરવાળો છે:

lnL વૃક્ષ મૂલ્ય એ ચોક્કસ ઉત્ક્રાંતિ મોડેલ અને તેની લાક્ષણિકતા ધરાવતા વૃક્ષને પસંદ કરતી વખતે ડેટાનું નિરીક્ષણ કરવાની સંભાવનાનું લઘુગણક છે.

શાખા ક્રમ અને શાખા લંબાઈ. કમ્પ્યુટર પ્રોગ્રામ્સ, મહત્તમ સંભાવના પદ્ધતિમાં વપરાય છે (ઉદાહરણ તરીકે, પહેલેથી જ ઉલ્લેખિત ક્લેડિસ્ટિક પેકેજ PAUP), સાથે વૃક્ષ માટે શોધો મહત્તમ સૂચક lnL બે મોડલ 2Δ (જ્યાં Δ = lnL ટ્રી A- lnL ટ્રીબી) ની લોગ-સંભવિતતાનો બમણો તફાવત જાણીતાનું પાલન કરે છે આંકડાકીય વિતરણ x 2. આ તમને મૂલ્યાંકન કરવાની મંજૂરી આપે છે કે શું એક મોડેલ બીજા કરતા વિશ્વસનીય રીતે વધુ સારું છે. આ પૂર્વધારણાઓનું પરીક્ષણ કરવા માટે મહત્તમ સંભાવનાને એક શક્તિશાળી સાધન બનાવે છે.

ચાર ટેક્સના કિસ્સામાં, 15 વૃક્ષો માટે lnL ગણતરી જરૂરી છે. મુ મોટી સંખ્યામાંટેક્સા માટે તમામ વૃક્ષોનું મૂલ્યાંકન કરવું અશક્ય હોવાનું બહાર આવ્યું છે, તેથી શોધ માટે સંશોધનાત્મક પદ્ધતિઓનો ઉપયોગ કરવામાં આવે છે (ઉપર જુઓ).

ધ્યાનમાં લીધેલા ઉદાહરણમાં, અમે ઉત્ક્રાંતિની પ્રક્રિયામાં ન્યુક્લિયોટાઇડ્સના રિપ્લેસમેન્ટ (અવેજી) ની સંભાવનાઓના મૂલ્યોનો ઉપયોગ કર્યો. આ સંભાવનાઓની ગણતરી કરવી એ પોતે એક આંકડાકીય કાર્ય છે. ઉત્ક્રાંતિના વૃક્ષનું પુનઃનિર્માણ કરવા માટે, આપણે અવેજી પ્રક્રિયા વિશે ચોક્કસ ધારણાઓ કરવી જોઈએ અને આ ધારણાઓને મોડેલના રૂપમાં વ્યક્ત કરવી જોઈએ.

સૌથી સરળ મોડેલમાં, કોઈપણ ન્યુક્લિયોટાઈડને અન્ય કોઈપણ ન્યુક્લિયોટાઈડ સાથે બદલવાની સંભાવનાઓ સમાન ગણવામાં આવે છે. આ સરળ મોડેલમાત્ર એક પરિમાણ ધરાવે છે - અવેજીનો દર અને તરીકે ઓળખાય છે એક-પેરામીટર જુક્સ-કેન્ટર મોડેલ અથવા જે.સી (જુક્સ અને કેન્ટર, 1969). આ મોડેલનો ઉપયોગ કરતી વખતે, આપણે ન્યુક્લિયોટાઇડ અવેજીકરણ થાય છે તે દર જાણવાની જરૂર છે. જો આપણે જાણીએ કે સમયની એક ક્ષણે t= 0 ચોક્કસ સાઇટમાં ન્યુક્લિયોટાઇડ G હોય છે, તો પછી અમે સંભાવનાની ગણતરી કરી શકીએ છીએ કે આ સાઇટમાં ચોક્કસ સમયગાળા પછી ન્યુક્લિયોટાઇડ G રહેશે, અને સંભાવના છે કે આ સાઇટ બીજા ન્યુક્લિયોટાઇડ દ્વારા બદલવામાં આવશે, ઉદાહરણ તરીકે A આ સંભાવનાઓને અનુક્રમે P(gg) અને P(ga) તરીકે દર્શાવવામાં આવે છે. જો અવેજીનો દર એકમ સમય દીઠ અમુક મૂલ્ય α જેટલો હોય, તો

કારણ કે, એક-પેરામીટર મોડેલ મુજબ, કોઈપણ અવેજીની સમાન સંભાવના છે, વધુ સામાન્ય નિવેદન આના જેવું દેખાશે:

વધુ જટિલ ઉત્ક્રાંતિ મોડેલો પણ વિકસાવવામાં આવ્યા છે. પ્રયોગમૂલક અવલોકનોસૂચવે છે કે કેટલાક અવેજી આવી શકે છે

અન્ય કરતા વધુ વખત. અવેજીકરણ, જેના પરિણામે એક પ્યુરિન બીજા પ્યુરિન દ્વારા બદલવામાં આવે છે, તેને કહેવામાં આવે છે સંક્રમણો,અને પ્યુરીનની બદલીને પાયરીમીડીન અથવા પ્યુરીન સાથે પ્યુરીમીડીન કહેવામાં આવે છે પરિવર્તનકોઈ એવી અપેક્ષા રાખી શકે છે કે રૂપાંતરણ સંક્રમણો કરતાં વધુ વારંવાર થાય છે, કારણ કે કોઈપણ ન્યુક્લિયોટાઈડ માટે ત્રણ સંભવિત અવેજીમાંથી માત્ર એક જ સંક્રમણ છે. જો કે, સામાન્ય રીતે વિપરીત થાય છે: સંક્રમણો રૂપાંતરણ કરતાં વધુ વારંવાર થાય છે. આ ખાસ કરીને મિટોકોન્ડ્રીયલ ડીએનએ માટે સાચું છે.

અન્ય એક કારણ કે કેટલાક ન્યુક્લિયોટાઇડ અવેજી અન્ય કરતા વધુ વારંવાર થાય છે તે અસમાન આધાર ગુણોત્તરને કારણે છે. ઉદાહરણ તરીકે, કરોડરજ્જુઓની તુલનામાં જંતુઓના માઇટોકોન્ડ્રીયલ ડીએનએ એડેનાઇન અને થાઇમીનમાં વધુ સમૃદ્ધ છે. જો કેટલાક આધારો વધુ સામાન્ય છે, તો અમે અપેક્ષા રાખી શકીએ છીએ કે કેટલાક અવેજી અન્ય કરતા વધુ વખત થાય. ઉદાહરણ તરીકે, જો કોઈ ક્રમમાં બહુ ઓછું ગ્વાનિન હોય, તો આ ન્યુક્લિયોટાઈડની અવેજીમાં થવાની શક્યતા નથી.

કેટલાક ચોક્કસ પરિમાણ અથવા પરિમાણોમાં (ઉદાહરણ તરીકે, પાયાનો ગુણોત્તર, અવેજીનો દર) નિશ્ચિત રહે છે અને અન્યમાં બદલાય છે. ત્યાં ડઝનેક ઉત્ક્રાંતિ મોડેલો છે. નીચે અમે તેમાંથી સૌથી પ્રખ્યાત રજૂ કરીએ છીએ.

પહેલેથી જ ઉલ્લેખ કર્યો છે જુક્સ-કેન્ટર (JC) મોડેલ એ હકીકત દ્વારા વર્ગીકૃત થયેલ છે કે બેઝ ફ્રીક્વન્સી સમાન છે: π A = πC = πG = π ટી , ટ્રાન્સવર્ઝન અને ટ્રાન્ઝિશનમાં α=β સમાન દરો હોય છે, અને તમામ અવેજીઓ સમાન રીતે સંભવિત છે.

કિમુરા ટુ-પેરામીટર (K2P) મોડલ ધારે છે સમાન ફ્રીક્વન્સીઝઆધારો π A =π C =π G =π T , અને રૂપાંતરણો અને સંક્રમણો હોય છે વિવિધ ગતિ α≠β.

ફેલસેનસ્ટીન મોડેલ (F81) ધારે છે કે બેઝ ફ્રીક્વન્સી અલગ છે π A ≠π C ≠π G ≠π T , અને અવેજીના દરો સમાન છે α=β.

સામાન્ય ઉલટાવી શકાય તેવું મોડેલ (REV) વિવિધ બેઝ ફ્રીક્વન્સીઝ ધારે છે π A ≠π C ≠π G ≠π T , અને અવેજીનાં તમામ છ જોડીની ગતિ જુદી જુદી હોય છે.

ઉપર જણાવેલ મોડેલો ધારે છે કે અવેજી દર તમામ સાઇટ્સ પર સમાન છે. જો કે, મોડેલ વિવિધ સાઇટ્સ પર અવેજી દરોમાં તફાવતને ધ્યાનમાં લઈ શકે છે. બેઝ ફ્રીક્વન્સીઝ અને અવેજી દરોના મૂલ્યોને કાં તો પ્રાથમિકતા સોંપી શકાય છે અથવા આ મૂલ્યોનો ઉપયોગ કરીને ડેટામાંથી મેળવી શકાય છે ખાસ કાર્યક્રમો, ઉદાહરણ તરીકે PAUP.

બાયસિયન વિશ્લેષણ

મહત્તમ સંભાવના પદ્ધતિ ફાયલોજેનેટિક મોડલ ઉપલબ્ધ ડેટામાંથી જનરેટ થયા પછી તેની સંભાવનાનો અંદાજ લગાવે છે. જો કે, જ્ઞાન સામાન્ય પેટર્નઆપેલ જૂથની ઉત્ક્રાંતિ મૂળભૂત ડેટા (ઉદાહરણ તરીકે, ન્યુક્લિયોટાઇડ સિક્વન્સ) નો ઉપયોગ કર્યા વિના ફાયલોજેનીના સૌથી સંભવિત મોડેલોની શ્રેણી બનાવવાનું શક્ય બનાવે છે. એકવાર આ ડેટા પ્રાપ્ત થઈ જાય, તે પછી તેમની અને પૂર્વ-બિલ્ટ મોડલ વચ્ચેની યોગ્યતાનું મૂલ્યાંકન કરવું અને આ પ્રારંભિક મોડલ્સની સંભાવના પર પુનર્વિચાર કરવો શક્ય છે. પદ્ધતિ કે જે આ કરવા માટે પરવાનગી આપે છે કહેવામાં આવે છે બાયસિયન વિશ્લેષણ , અને ફાયલોજેનીનો અભ્યાસ કરવા માટેની સૌથી નવી પદ્ધતિઓ છે (જુઓ. વિગતવાર સમીક્ષા: Huelsenbeck વગેરે, 2001).

પ્રમાણભૂત પરિભાષા અનુસાર, પ્રારંભિક સંભાવનાઓને સામાન્ય રીતે કહેવામાં આવે છે પૂર્વ સંભાવનાઓ (કારણ કે તેઓ ડેટા પ્રાપ્ત થાય તે પહેલાં સ્વીકારવામાં આવે છે) અને સુધારેલી સંભાવનાઓ છે પશ્ચાદવર્તી (કેમ કે ડેટા પ્રાપ્ત થયા પછી તેની ગણતરી કરવામાં આવે છે).

ગાણિતિક આધારબેયસિયન વિશ્લેષણ એ બેયસનું પ્રમેય છે, જેમાં પૂર્વ સંભાવનાવૃક્ષ પી[ વૃક્ષ] અને સંભાવના Pr[ ડેટા|વૃક્ષ]નો ઉપયોગ વૃક્ષ Pr[ની પાછળની સંભાવનાની ગણતરી કરવા માટે થાય છે. વૃક્ષ|ડેટા]:

વૃક્ષની પાછળની સંભાવના એ સંભાવના તરીકે વિચારી શકાય છે કે વૃક્ષ ઉત્ક્રાંતિના સાચા માર્ગને પ્રતિબિંબિત કરે છે. સૌથી વધુ પશ્ચાદવર્તી સંભાવના ધરાવતા વૃક્ષને ફાયલોજેનીના સૌથી સંભવિત મોડેલ તરીકે પસંદ કરવામાં આવે છે. વૃક્ષોના પશ્ચાદવર્તી સંભવિત વિતરણની ગણતરી કમ્પ્યુટર મોડેલિંગ પદ્ધતિઓનો ઉપયોગ કરીને કરવામાં આવે છે.

મહત્તમ સંભાવના અને બેયસિયન વિશ્લેષણ માટે ઉત્ક્રાંતિ મોડેલની જરૂર છે જે લક્ષણોમાં ફેરફારોનું વર્ણન કરે છે. સર્જન ગાણિતિક મોડેલોમોર્ફોલોજિકલ ઉત્ક્રાંતિ હાલમાં શક્ય નથી. આ કારણોસર, ફિલોજેનેટિક વિશ્લેષણની આંકડાકીય પદ્ધતિઓ ફક્ત મોલેક્યુલર ડેટા પર લાગુ થાય છે.

અને અન્ય).

મહત્તમ સંભાવના અંદાજ લોકપ્રિય છે આંકડાકીય પદ્ધતિ, જેનો ઉપયોગ ડેટામાંથી આંકડાકીય મૉડલ બનાવવા અને મૉડલ પરિમાણોના અંદાજો પ્રદાન કરવા માટે થાય છે.

આંકડાઓના ક્ષેત્રમાં ઘણી જાણીતી અંદાજ પદ્ધતિઓને અનુરૂપ છે. ઉદાહરણ તરીકે, ચાલો કહીએ કે તમને યુક્રેનના લોકોના વિકાસમાં રસ છે. ધારો કે તમારી પાસે સમગ્ર વસ્તીને બદલે સંખ્યાબંધ લોકો માટે ઊંચાઈનો ડેટા છે. વધુમાં, વૃદ્ધિ સામાન્ય હોવાનું માનવામાં આવે છે વિતરિત જથ્થોઅજ્ઞાત ભિન્નતા અને સરેરાશ સાથે. નમૂનાની વૃદ્ધિનો સરેરાશ અને ભિન્નતા એ સમગ્ર વસ્તીનો સરેરાશ અને તફાવત હોવાની સંભાવના છે.

નિશ્ચિત ડેટા સેટ અને મૂળભૂત માટે સંભવિત મોડેલ, મહત્તમ સંભાવના પદ્ધતિનો ઉપયોગ કરીને, અમે મોડેલ પરિમાણોના મૂલ્યો મેળવીશું જે ડેટાને વાસ્તવિક લોકોની "નજીક" બનાવે છે. મહત્તમ સંભાવના અંદાજ સામાન્ય વિતરણના કિસ્સામાં ઉકેલો નક્કી કરવા માટે એક અનન્ય અને સરળ રીત પ્રદાન કરે છે.

મહત્તમ સંભાવના અંદાજ પદ્ધતિનો ઉપયોગ થાય છે વિશાળ શ્રેણીઆંકડાકીય મોડેલો, જેમાં નીચેનાનો સમાવેશ થાય છે:

  • રેખીય મોડેલો અને સામાન્ય રેખીય મોડેલો;
  • પરિબળ વિશ્લેષણ;
  • માળખાકીય સમીકરણ મોડેલિંગ;
  • ઘણી પરિસ્થિતિઓ, પૂર્વધારણા પરીક્ષણના ભાગ રૂપે અને આત્મવિશ્વાસ અંતરાલરચના
  • સ્વતંત્ર પસંદગીના મોડલ.

પદ્ધતિનો સાર

કહેવાય છે મહત્તમ સંભાવના અંદાજપરિમાણ આમ, મહત્તમ સંભાવના અનુમાનકર્તા એ એક અનુમાનક છે જે નિશ્ચિત નમૂનાની અનુભૂતિને કારણે સંભાવના કાર્યને મહત્તમ કરે છે.

મોટે ભાગે, સંભાવના કાર્યને બદલે લોગ-સંભવિત કાર્યનો ઉપયોગ થાય છે. વ્યાખ્યાના સમગ્ર ડોમેન પર ફંક્શન એકવિધ રીતે વધે છે, તેથી કોઈપણ ફંક્શનની મહત્તમ એ ફંક્શનની મહત્તમ છે, અને ઊલટું. આમ

,

જો સંભાવના કાર્ય અલગ છે, તો પછી જરૂરી સ્થિતિઆત્યંતિક - તેના ઢાળના શૂન્યની સમાનતા:

પૂરતી સ્થિતિએક્સ્ટ્રીમમને હેસિયનની નકારાત્મક નિશ્ચિતતા તરીકે ઘડી શકાય છે - બીજા ડેરિવેટિવ્ઝનું મેટ્રિક્સ:

મહત્વપૂર્ણમહત્તમ સંભાવના પદ્ધતિ અંદાજોના ગુણધર્મોનું મૂલ્યાંકન કરવા માટે, કહેવાતા માહિતી મેટ્રિક્સનો ઉપયોગ કરવામાં આવે છે, વ્યાખ્યા દ્વારા સમાન:

શ્રેષ્ઠ બિંદુએ, માહિતી મેટ્રિક્સ હેસિયનની ગાણિતિક અપેક્ષા સાથે મેળ ખાય છે, જે માઈનસ ચિહ્ન સાથે લેવામાં આવે છે:

ગુણધર્મો

  • મહત્તમ સંભાવના અંદાજો, સામાન્ય રીતે કહીએ તો, પક્ષપાતી હોઈ શકે છે (ઉદાહરણ જુઓ), પરંતુ સુસંગત છે. એસિમ્પટોટિકલી કાર્યક્ષમ અને એસિમ્પટોટિકલી સામાન્યઅંદાજ એસિમ્પ્ટોટિક નોર્મલિટી એટલે કે

એસિમ્પ્ટોટિક માહિતી મેટ્રિક્સ ક્યાં છે

એસિમ્પ્ટોટિક કાર્યક્ષમતાનો અર્થ એ છે કે એસિમ્પ્ટોટિક કોવેરિયન્સ મેટ્રિક્સ એ તમામ સુસંગત અસમપ્રમાણિક રીતે સામાન્ય અંદાજકારો માટે નીચું બાઉન્ડ છે.

ઉદાહરણો

છેલ્લી સમાનતાને આ રીતે ફરીથી લખી શકાય છે:

જ્યાં , જેમાંથી તે જોઈ શકાય છે કે સંભાવના કાર્ય બિંદુ પર તેની મહત્તમ પહોંચે છે. આમ

. .

તેની મહત્તમ શોધવા માટે, અમે આંશિક ડેરિવેટિવ્સને શૂન્ય સાથે સરખાવીએ છીએ:

- નમૂનાનો સરેરાશ, અને - નમૂનાનો તફાવત.

શરતી મહત્તમ સંભાવના પદ્ધતિ

શરતી મહત્તમ સંભાવના (શરતી ML)રીગ્રેશન મોડલ્સમાં વપરાય છે. પદ્ધતિનો સાર એ અપૂર્ણ છે સંયુક્ત વિતરણબધા ચલો (આશ્રિત અને રીગ્રેસર્સ), પરંતુ માત્ર શરતીઆશ્રિત ચલનું સમગ્ર પરિબળોમાં વિતરણ, એટલે કે હકીકતમાં, વિતરણ રેન્ડમ ભૂલો રીગ્રેશન મોડલ. સંપૂર્ણ કાર્યસત્યતા એ ઉત્પાદન છે " શરતી કાર્યસંભાવના" અને પરિબળ વિતરણ ઘનતા. શરતી MMP સમકક્ષ છે સંપૂર્ણ સંસ્કરણએવા કિસ્સામાં MMP જ્યારે પરિબળોનું વિતરણ અંદાજિત પરિમાણો પર કોઈપણ રીતે આધાર રાખતું નથી. આ સ્થિતિ ઘણીવાર સમય શ્રેણીના મોડેલોમાં ઉલ્લંઘન કરવામાં આવે છે, જેમ કે ઑટોરેગ્રેસિવ મોડલ. IN આ કિસ્સામાં, રીગ્રેસર્સ એ આશ્રિત ચલના ભૂતકાળના મૂલ્યો છે, જેનો અર્થ છે કે તેમના મૂલ્યો સમાન એઆર મોડેલનું પણ પાલન કરે છે, એટલે કે, રીગ્રેસર્સનું વિતરણ અંદાજિત પરિમાણો પર આધારિત છે. આવા કિસ્સાઓમાં, શરતી લાગુ કરવાના પરિણામો અને સંપૂર્ણ પદ્ધતિમહત્તમ સંભાવનાઓ અલગ હશે.

પણ જુઓ

નોંધો

સાહિત્ય

  • મેગ્નસ વાય.આર., કાટિશેવ પી.કે., પેરેસેત્સ્કી એ.એ.ઇકોનોમેટ્રિક્સ. પ્રારંભિક અભ્યાસક્રમ. - એમ.: ડેલો, 2007. - 504 પૃ. - ISBN 978-5-7749-0473-0

વિકિમીડિયા ફાઉન્ડેશન.

2010.



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!