ચી ચોરસ વિતરણ કાર્યનું મૂલ્ય. CH2 વિતરણનો ઉપયોગ કરીને MS EXCEL કાર્ય કરે છે

ચી-ચોરસબે વર્ગીકૃત ચલો વચ્ચેના સંબંધના મહત્વને ચકાસવા માટે પીયર્સન એ સૌથી સરળ કસોટી છે. પીયર્સન માપદંડ એ હકીકત પર આધારિત છે કે બે-ઇનપુટ કોષ્ટકમાં અપેક્ષિતપૂર્વધારણા હેઠળ ફ્રીક્વન્સીઝ "ચલો વચ્ચે કોઈ અવલંબન નથી" સીધી ગણતરી કરી શકાય છે. કલ્પના કરો કે 20 પુરુષો અને 20 સ્ત્રીઓને સ્પાર્કલિંગ વોટર (બ્રાન્ડ અથવા બ્રાન્ડ બી). જો પસંદગી અને લિંગ વચ્ચે કોઈ જોડાણ નથી, તો સ્વાભાવિક રીતે અપેક્ષાબ્રાન્ડની સમાન પસંદગી અને બ્રાન્ડ્સ બીદરેક લિંગ માટે.

આંકડાઓનો અર્થ ચી-ચોરસઅને તેના મહત્વનું સ્તર અવલોકનોની કુલ સંખ્યા અને કોષ્ટકમાં કોષોની સંખ્યા પર આધારિત છે. વિભાગમાં ચર્ચા કરેલ સિદ્ધાંતો અનુસાર , જો અવલોકનોની સંખ્યા મોટી હોય તો અપેક્ષિત ફ્રીક્વન્સીઝના પ્રમાણમાં નાના વિચલનો નોંધપાત્ર સાબિત થશે.

માપદંડનો ઉપયોગ કરવામાં માત્ર એક નોંધપાત્ર મર્યાદા છે ચી-ચોરસ(અવલોકનોની અવ્યવસ્થિત પસંદગીની સ્પષ્ટ ધારણા સિવાય), જે એ છે કે અપેક્ષિત ફ્રીક્વન્સીઝ બહુ નાની ન હોવી જોઈએ. આ એ હકીકતને કારણે છે કે માપદંડ ચી-ચોરસસ્વભાવની તપાસ દ્વારા સંભાવનાઓદરેક કોષમાં; અને જો કોષોમાં અપેક્ષિત ફ્રીક્વન્સીઝ નાની થઈ જાય, ઉદાહરણ તરીકે 5 કરતાં ઓછી, તો ઉપલબ્ધ ફ્રીક્વન્સીઝનો ઉપયોગ કરીને આ સંભાવનાઓનો પૂરતી ચોકસાઈ સાથે અંદાજ લગાવી શકાતો નથી. વધુ ચર્ચા માટે, Everitt (1977), Hays (1988), અથવા Kendall and Stuart (1979) જુઓ.

ચી-સ્ક્વેર ટેસ્ટ (મહત્તમ સંભાવના પદ્ધતિ).મહત્તમ સંભાવના ચી-ચોરસમાપદંડ તરીકે આકસ્મિક કોષ્ટકોમાં સંબંધો સંબંધિત સમાન પૂર્વધારણાને ચકાસવાનો હેતુ છે ચી-ચોરસપીયર્સન. જો કે, તેની ગણતરી મહત્તમ સંભાવના પદ્ધતિ પર આધારિત છે. વ્યવહારમાં, એમપી આંકડા ચી-ચોરસનિયમિત પીયર્સન આંકડાની તીવ્રતામાં ખૂબ નજીક ચી-ચોરસ. આ આંકડાઓ વિશે વધુ માહિતી Bishop, Fienberg, and Holland (1975) અથવા Fienberg (1977) માં મળી શકે છે. વિભાગમાં લૉગલાઇનર વિશ્લેષણઆ આંકડાઓની વધુ વિગતવાર ચર્ચા કરવામાં આવી છે.

યેટ્સનો સુધારો.આંકડાઓનો અંદાજ ચી-ચોરસકોષોમાં નાની સંખ્યામાં અવલોકનો સાથેના 2x2 કોષ્ટકો માટે વર્ગીકરણ પહેલાં અપેક્ષિત અને અવલોકન કરેલ ફ્રીક્વન્સીઝ વચ્ચેના તફાવતના ચોક્કસ મૂલ્યને 0.5 સુધી ઘટાડીને સુધારી શકાય છે (કહેવાતા યેટ્સ સુધારો). યેટ્સ કરેક્શન, જે અંદાજને વધુ મધ્યમ બનાવે છે, તે સામાન્ય રીતે એવા કિસ્સાઓમાં લાગુ કરવામાં આવે છે કે જ્યાં કોષ્ટકોમાં માત્ર નાની ફ્રીક્વન્સી હોય છે, ઉદાહરણ તરીકે, જ્યારે કેટલીક અપેક્ષિત ફ્રીક્વન્સી 10 કરતા ઓછી થઈ જાય છે (વધુ ચર્ચા માટે જુઓ, Conover, 1974; Everitt, 1977; Hays , 1988; કેન્ડલ અને સ્ટુઅર્ટ, 1979 અને મેન્ટેલ, 1974).

ફિશરની ચોક્કસ કસોટી.આ માપદંડ ફક્ત 2x2 કોષ્ટકો માટે જ લાગુ પડે છે. માપદંડ નીચેના તર્ક પર આધારિત છે. કોષ્ટકમાં સીમાંત આવર્તન જોતાં, ધારો કે બંને ટેબ્યુલેટેડ ચલો સ્વતંત્ર છે. ચાલો આપણે આપણી જાતને પ્રશ્ન પૂછીએ: આપેલ સીમાંત રાશિઓના આધારે, કોષ્ટકમાં અવલોકન કરાયેલ ફ્રીક્વન્સીઝ મેળવવાની સંભાવના શું છે? તે તારણ આપે છે કે આ સંભાવનાની ગણતરી કરવામાં આવે છે બરાબરસીમાંતના આધારે બનાવી શકાય તેવા તમામ કોષ્ટકોની ગણતરી. આમ, ફિશરનો માપદંડ ગણતરી કરે છે ચોક્કસનલ પૂર્વધારણા હેઠળ અવલોકન કરેલ ફ્રીક્વન્સીઝની ઘટનાની સંભાવના (ટેબ્યુલેટેડ ચલો વચ્ચે કોઈ સંબંધ નથી). પરિણામોનું કોષ્ટક એકતરફી અને બે બાજુના સ્તરો દર્શાવે છે.

મેકનેમર ચી-સ્ક્વેર.આ માપદંડ લાગુ થાય છે જ્યારે 2x2 કોષ્ટકમાં ફ્રીક્વન્સીઝ રજૂ થાય છે આશ્રિતનમૂનાઓ ઉદાહરણ તરીકે, પ્રયોગ પહેલાં અને પછી સમાન વ્યક્તિઓના અવલોકનો. ખાસ કરીને, તમે સેમેસ્ટરની શરૂઆતમાં અને અંતે ગણિતમાં ન્યૂનતમ સિદ્ધિ ધરાવતા વિદ્યાર્થીઓની સંખ્યા અથવા જાહેરાત પહેલાં અને પછી સમાન ઉત્તરદાતાઓની પસંદગીઓની ગણતરી કરી શકો છો. બે મૂલ્યોની ગણતરી કરવામાં આવે છે ચી-ચોરસ: A/Dઅને B/C. A/D ચી-ચોરસકોષોમાં ફ્રીક્વન્સીઝની પૂર્વધારણાનું પરીક્ષણ કરે છે અને ડી(ઉપર ડાબે, નીચે જમણે) સમાન છે. B/C ચી-સ્ક્વેરકોષોમાં ફ્રીક્વન્સીઝની સમાનતા વિશેની પૂર્વધારણાનું પરીક્ષણ કરે છે બીઅને સી(ઉપર જમણે, નીચે ડાબે).

ફી ગુણાંક.ફી ચોરસ 2x2 કોષ્ટકમાં બે ચલો વચ્ચેના સંબંધનું માપ દર્શાવે છે. તેના મૂલ્યો થી બદલાય છે 0 (ચલો વચ્ચે કોઈ અવલંબન નથી; ચી-ચોરસ = 0.0 ) થી 1 (કોષ્ટકમાંના બે પરિબળો વચ્ચેનો સંપૂર્ણ સંબંધ). વિગતો માટે, કેસ્ટેલન અને સિગેલ (1988, પૃષ્ઠ 232) જુઓ.

ટેટ્રાકોરિક સહસંબંધ.આ આંકડાની ગણતરી માત્ર 2x2 ક્રોસસ્ટેબ્યુલેશન કોષ્ટકો પર કરવામાં આવે છે (અને લાગુ કરવામાં આવે છે). જો 2x2 કોષ્ટકને બે વર્ગોમાં બે સતત ચલોના મૂલ્યોના (કૃત્રિમ) વિભાજનના પરિણામ તરીકે જોઈ શકાય છે, તો ટેટ્રાકોરિક સહસંબંધ ગુણાંક આપણને આ બે ચલો વચ્ચેના સંબંધનો અંદાજ કાઢવાની મંજૂરી આપે છે.

જોડાણ ગુણાંક.આકસ્મિક ગુણાંક આંકડાકીય રીતે આધારિત છે ચી-ચોરસઆકસ્મિક કોષ્ટકમાં લક્ષણોના સંબંધનું માપ (પિયર્સન દ્વારા પ્રસ્તાવિત). પરંપરાગત આંકડાઓ પર આ ગુણાંકનો ફાયદો ચી-ચોરસઅર્થઘટન કરવું સરળ છે, કારણ કે તેના પરિવર્તનની શ્રેણી થી રેન્જમાં છે 0 થી 1 (જ્યાં 0 કોષ્ટકમાં લાક્ષણિકતાઓની સ્વતંત્રતાના કેસને અનુરૂપ છે, અને ગુણાંકમાં વધારો જોડાણની ડિગ્રીમાં વધારો દર્શાવે છે). આકસ્મિક ગુણાંકનો ગેરલાભ એ છે કે તેનું મહત્તમ મૂલ્ય કોષ્ટકના કદ પર "આધારિત" છે. વર્ગોની સંખ્યા મર્યાદિત ન હોય તો જ આ ગુણાંક 1 ના મૂલ્ય સુધી પહોંચી શકે છે (જુઓ સીગેલ, 1956, પૃષ્ઠ 201).

સંચાર પગલાંનું અર્થઘટન.જોડાણના માપદંડોની નોંધપાત્ર ખામી (ઉપર ચર્ચા કરવામાં આવી છે) એ સંભવના પરંપરાગત દ્રષ્ટિએ અથવા "વિવિધતાના પ્રમાણને સમજાવેલ" માં અર્થઘટન કરવામાં મુશ્કેલી છે, જેમ કે સહસંબંધ ગુણાંકના કિસ્સામાં. આરપીયર્સન (જુઓ સહસંબંધ). તેથી, કોઈ સામાન્ય રીતે સ્વીકૃત માપદંડ અથવા જોડાણનું ગુણાંક નથી.

રેન્ક પર આધારિત આંકડા.વ્યવહારમાં ઉદભવતી ઘણી સમસ્યાઓમાં, અમારી પાસે માત્ર માપન છે ક્રમબદ્ધ સ્કેલ (જુઓ આંકડાઓની મૂળભૂત વિભાવનાઓ). આ ખાસ કરીને મનોવિજ્ઞાન, સમાજશાસ્ત્ર અને માણસના અભ્યાસ સાથે સંબંધિત અન્ય વિદ્યાશાખાઓના ક્ષેત્રના માપને લાગુ પડે છે. ધારો કે તમે ચોક્કસ રમતો પ્રત્યેના તેમના વલણને જાણવા માટે સંખ્યાબંધ ઉત્તરદાતાઓની મુલાકાત લીધી. તમે નીચેની સ્થિતિઓ સાથે સ્કેલ પર માપનું પ્રતિનિધિત્વ કરો છો: (1) હંમેશા, (2) સામાન્ય રીતે, (3) ક્યારેકઅને (4) ક્યારેય નહીં. દેખીતી રીતે જવાબ ક્યારેક મને આશ્ચર્ય થાય છેજવાબ કરતાં પ્રતિવાદીનો ઓછો રસ દર્શાવે છે મને સામાન્ય રીતે રસ છેવગેરે આમ, ઉત્તરદાતાઓની રુચિની ડિગ્રીનો ઓર્ડર (ક્રમ) કરવો શક્ય છે. આ ઓર્ડિનલ સ્કેલનું એક વિશિષ્ટ ઉદાહરણ છે. ઑર્ડિનલ સ્કેલ પર માપવામાં આવતા ચલો તેમના પોતાના પ્રકારના સહસંબંધો ધરાવે છે જે નિર્ભરતાનું મૂલ્યાંકન કરવાનું શક્ય બનાવે છે.

આર સ્પીયરમેન.આંકડા આરસ્પીયરમેનનો અર્થ એ જ રીતે કરી શકાય છે જે રીતે પીયર્સન સહસંબંધ ( આરપિયર્સન) વિભિન્નતાના સ્પષ્ટ પ્રમાણના સંદર્ભમાં (ધ્યાનમાં રાખીને, જો કે, સ્પીયરમેનના આંકડાની ગણતરી રેન્ક દ્વારા કરવામાં આવે છે). એવું માનવામાં આવે છે કે ચલો ઓછામાં ઓછા માં માપવામાં આવે છે ક્રમબદ્ધસ્કેલ સ્પીયરમેનના ક્રમના સહસંબંધ, તેની શક્તિ અને અસરકારકતાની વ્યાપક ચર્ચાઓ મળી શકે છે, ઉદાહરણ તરીકે, ગિબન્સ (1985), હેઝ (1981), મેકનેમર (1969), સિગેલ (1956), સિગેલ અને કેસ્ટેલન (1988), કેન્ડલ (1948) , ઓલ્ડ્સ (1949) અને હોટેલિંગ એન્ડ પેબસ્ટ (1936).

ટાઉ કેન્ડલ.આંકડા tauકેન્ડલની સમકક્ષ આરકેટલીક મૂળભૂત ધારણાઓ હેઠળ સ્પીયરમેન. તેમની શક્તિઓ પણ સમકક્ષ હોય છે. જો કે, સામાન્ય રીતે મૂલ્યો આરસ્પીયરમેન અને tauકેન્ડલ અલગ છે કારણ કે તેઓ તેમના આંતરિક તર્ક અને તેમની ગણતરી કરવાની રીત બંનેમાં ભિન્ન છે. સિગેલ અને કેસ્ટેલન (1988) માં, લેખકોએ આ બે આંકડાઓ વચ્ચેનો સંબંધ નીચે પ્રમાણે વ્યક્ત કર્યો:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

વધુ અગત્યનું, કેન્ડલના આંકડા tauઅને સ્પીયરમેન આરવિવિધ અર્થઘટન છે: જ્યારે આંકડા આરસ્પીયરમેનને આંકડાઓના સીધા એનાલોગ તરીકે ગણી શકાય આરપીયર્સન, રેન્ક દ્વારા ગણવામાં આવે છે, કેન્ડલ આંકડા tauતેના બદલે પર આધારિત છે સંભાવનાઓ. વધુ સ્પષ્ટ રીતે, તે પરીક્ષણ કરે છે કે અવલોકન કરેલ ડેટા બે જથ્થા માટે સમાન ક્રમમાં હોવાની સંભાવના અને તે અલગ ક્રમમાં હોવાની સંભાવના વચ્ચે તફાવત છે. કેન્ડલ (1948, 1975), એવરિટ (1977), અને સિગેલ અને કેસ્ટેલન (1988) ખૂબ વિગતવાર ચર્ચા કરે છે tauકેન્ડલ. સામાન્ય રીતે બે આંકડાની ગણતરી કરવામાં આવે છે tauકેન્ડલ: tau bઅને tau c. આ પગલાં તેઓ જે રીતે મેળ ખાતા રેન્કને હેન્ડલ કરે છે તેમાં જ અલગ પડે છે. મોટા ભાગના કિસ્સાઓમાં તેમના અર્થ તદ્દન સમાન છે. જો મતભેદો ઊભા થાય, તો એવું લાગે છે કે બે મૂલ્યોમાંથી નાનાને ધ્યાનમાં લેવાનો સૌથી સલામત રસ્તો છે.

સોમરનો d ગુણાંક: d(X|Y), d(Y|X).આંકડા ડીસોમરનું માપ એ બે ચલો વચ્ચેના સંબંધનું બિન-સપ્રમાણ માપ છે. આ આંકડાની નજીક છે tau b(જુઓ સીગેલ અને કેસ્ટેલન, 1988, પૃષ્ઠ. 303-310).

ગામા આંકડા.જો ડેટા, આંકડાઓમાં ઘણા મેળ ખાતા મૂલ્યો છે ગામાપ્રાધાન્યક્ષમ આરસ્પીયરમેન અથવા tauકેન્ડલ. મૂળભૂત ધારણાઓ, આંકડાઓની દ્રષ્ટિએ ગામાઆંકડાની સમકક્ષ આરસ્પીયરમેન અથવા કેન્ડલની ટાઈ. તેનું અર્થઘટન અને ગણતરીઓ સ્પીયરમેનના આર આંકડા કરતાં કેન્ડલના ટાઉના આંકડાઓ સાથે વધુ સમાન છે. ટૂંકમાં કહીએ તો, ગામાપણ રજૂ કરે છે સંભાવના; વધુ સ્પષ્ટ રીતે કહીએ તો, બે ચલોનો રેન્ક ક્રમ મેળ ખાતી હોય તેવી સંભાવના વચ્ચેનો તફાવત, તે ન હોય તેવી સંભાવના બાદ, મેચોની સંભાવનાને એક બાદ કરીને ભાગ્યા. તેથી આંકડા ગામામૂળભૂત રીતે સમકક્ષ tauકેન્ડલ, સિવાય કે મેચોને સામાન્યીકરણમાં સ્પષ્ટપણે ધ્યાનમાં લેવામાં આવે છે. આંકડાઓની વિગતવાર ચર્ચા ગામા Goodman and Kruskal (1954, 1959, 1963, 1972), Siegel (1956), અને Siegel and Castellan (1988) માં શોધી શકાય છે.

અનિશ્ચિતતા ગુણાંક.આ ગુણાંક માપે છે માહિતી સંચારપરિબળો વચ્ચે (કોષ્ટકની પંક્તિઓ અને કૉલમ). ખ્યાલ માહિતી અવલંબનઆવર્તન કોષ્ટકોના વિશ્લેષણ માટે માહિતી-સૈદ્ધાંતિક અભિગમમાં ઉદ્દભવે છે, આ મુદ્દાની સ્પષ્ટતા માટે સંબંધિત માર્ગદર્શિકાઓનો સંદર્ભ લઈ શકાય છે (જુઓ કુલબેક, 1959; કુ અને કુલબેક, 1968; કુ, વર્નર, અને કુલબેક, 1971; બિશપ પણ જુઓ , ફિએનબર્ગ, અને હોલેન્ડ, 1975, પૃષ્ઠ 344-348). આંકડા એસ(Y, X) સપ્રમાણ છે અને ચલમાં માહિતીની માત્રાને માપે છે વાયચલને સંબંધિત એક્સઅથવા ચલમાં એક્સચલને સંબંધિત વાય. આંકડા S(X|Y)અને S(Y|X)દિશા નિર્ભરતા વ્યક્ત કરો.

બહુપરીમાણીય પ્રતિભાવો અને દ્વિભાષી. મલ્ટિવેરિયેટ રિસ્પોન્સ અને મલ્ટિવેરિયેટ ડિકોટોમીઝ જેવા ચલો એવી પરિસ્થિતિઓમાં ઉદ્ભવે છે જ્યાં સંશોધકને માત્ર ઘટનાઓની "સરળ" ફ્રીક્વન્સીમાં જ નહીં, પણ આ ઘટનાઓના કેટલાક (ઘણી વખત અસંરચિત) ગુણાત્મક ગુણધર્મોમાં પણ રસ હોય છે. બહુપરીમાણીય ચલો (પરિબળો) ની પ્રકૃતિ ઉદાહરણો દ્વારા શ્રેષ્ઠ રીતે સમજી શકાય છે.

  • · બહુપરીમાણીય પ્રતિભાવો
  • · બહુપરીમાણીય દ્વિપક્ષીયતા
  • · મલ્ટિવેરિયેટ રિસ્પોન્સ અને ડિકોટોમીઝનું ક્રોસસ્ટેબ્યુલેશન
  • મલ્ટિવેરિયેટ પ્રતિસાદો સાથે ચલોનું જોડી પ્રમાણે ક્રોસસ્ટેબ્યુલેશન
  • અંતિમ ટિપ્પણી

બહુપરીમાણીય પ્રતિભાવો.કલ્પના કરો કે મોટા માર્કેટિંગ સંશોધનની પ્રક્રિયામાં, તમે ગ્રાહકોને તેમના દૃષ્ટિકોણથી 3 શ્રેષ્ઠ સોફ્ટ ડ્રિંક્સનું નામ આપવાનું કહ્યું છે. એક સામાન્ય પ્રશ્ન આના જેવો દેખાઈ શકે છે.

). ચકાસવામાં આવી રહેલી પૂર્વધારણાની ચોક્કસ રચના દરેક કેસમાં બદલાશે.

આ પોસ્ટમાં હું વર્ણન કરીશ કે ઇમ્યુનોલોજીના (કાલ્પનિક) ઉદાહરણનો ઉપયોગ કરીને \(\chi^2\) માપદંડ કેવી રીતે કાર્ય કરે છે. ચાલો કલ્પના કરીએ કે જ્યારે શરીરમાં યોગ્ય એન્ટિબોડીઝ દાખલ કરવામાં આવે ત્યારે માઇક્રોબાયલ રોગના વિકાસને દબાવવાની અસરકારકતા નક્કી કરવા માટે અમે એક પ્રયોગ હાથ ધર્યો છે. પ્રયોગમાં કુલ 111 ઉંદર સામેલ હતા, જેને અમે અનુક્રમે 57 અને 54 પ્રાણીઓ સહિત બે જૂથોમાં વિભાજિત કર્યા છે. ઉંદરના પ્રથમ જૂથને પેથોજેનિક બેક્ટેરિયાના ઇન્જેક્શન મળ્યા, ત્યારબાદ આ બેક્ટેરિયા સામે એન્ટિબોડીઝ ધરાવતા લોહીના સીરમની રજૂઆત કરવામાં આવી. બીજા જૂથના પ્રાણીઓ નિયંત્રણ તરીકે સેવા આપતા હતા - તેઓને માત્ર બેક્ટેરિયલ ઇન્જેક્શન મળ્યા હતા. સેવનના થોડા સમય પછી, તે બહાર આવ્યું કે 38 ઉંદર મરી ગયા અને 73 બચી ગયા. મૃતકોમાંથી, 13 પ્રથમ જૂથના અને 25 બીજા (નિયંત્રણ) ના હતા. આ પ્રયોગમાં ચકાસાયેલ શૂન્ય પૂર્વધારણા નીચે પ્રમાણે ઘડી શકાય છે: એન્ટિબોડીઝ સાથે સીરમના વહીવટની ઉંદરના અસ્તિત્વ પર કોઈ અસર થતી નથી. બીજા શબ્દોમાં કહીએ તો, અમે એવી દલીલ કરીએ છીએ કે માઉસના અસ્તિત્વમાં જોવા મળેલા તફાવતો (પહેલા જૂથમાં 77.2% વિરુદ્ધ બીજા જૂથમાં 53.7%) સંપૂર્ણપણે રેન્ડમ છે અને એન્ટિબોડીઝની અસર સાથે સંબંધિત નથી.

પ્રયોગમાં મેળવેલ ડેટા કોષ્ટકના રૂપમાં રજૂ કરી શકાય છે:

કુલ

બેક્ટેરિયા + સીરમ

માત્ર બેક્ટેરિયા

કુલ

બતાવેલ કોષ્ટકોને આકસ્મિક કોષ્ટકો કહેવામાં આવે છે. વિચારણા હેઠળના ઉદાહરણમાં, કોષ્ટકનું પરિમાણ 2x2 છે: ત્યાં બે વર્ગની વસ્તુઓ છે (“બેક્ટેરિયા + સીરમ” અને “ફક્ત બેક્ટેરિયા”), જે બે માપદંડો (“મૃત” અને “બચી ગયેલા”) અનુસાર તપાસવામાં આવે છે. આકસ્મિક કોષ્ટકનો આ સૌથી સરળ કેસ છે: અલબત્ત, અભ્યાસ કરવામાં આવતા વર્ગોની સંખ્યા અને સુવિધાઓની સંખ્યા બંને વધારે હોઈ શકે છે.

ઉપર જણાવેલ શૂન્ય પૂર્વધારણાને ચકાસવા માટે, આપણે જાણવાની જરૂર છે કે જો એન્ટિબોડીઝ ખરેખર ઉંદરના અસ્તિત્વ પર કોઈ અસર ન કરે તો પરિસ્થિતિ શું હશે. બીજા શબ્દોમાં કહીએ તો, તમારે ગણતરી કરવાની જરૂર છે અપેક્ષિત આવર્તનઆકસ્મિક કોષ્ટકના અનુરૂપ કોષો માટે. આ કેવી રીતે કરવું? પ્રયોગમાં, કુલ 38 ઉંદર મૃત્યુ પામ્યા, જે સામેલ પ્રાણીઓની કુલ સંખ્યાના 34.2% છે. જો એન્ટિબોડીઝનું વહીવટ ઉંદરના અસ્તિત્વને અસર કરતું નથી, તો બંને પ્રાયોગિક જૂથોમાં મૃત્યુદરની સમાન ટકાવારી જોવા જોઈએ, એટલે કે 34.2%. 57 અને 54 ના 34.2% કેટલા છે તેની ગણતરી કરીએ તો, આપણને 19.5 અને 18.5 મળે છે. અમારા પ્રાયોગિક જૂથોમાં આ અપેક્ષિત મૃત્યુદર છે. અપેક્ષિત જીવન ટકાવી રાખવાના દરોની ગણતરી એ જ રીતે કરવામાં આવે છે: કુલ 73 ઉંદર બચી ગયા હોવાથી, અથવા કુલ સંખ્યાના 65.8%, અપેક્ષિત અસ્તિત્વ દર 37.5 અને 35.5 હશે. ચાલો હવે અપેક્ષિત ફ્રીક્વન્સીઝ સાથે નવું આકસ્મિક કોષ્ટક બનાવીએ:

મૃત

બચી ગયેલા

કુલ

બેક્ટેરિયા + સીરમ

માત્ર બેક્ટેરિયા

કુલ

જેમ આપણે જોઈ શકીએ છીએ, અપેક્ષિત ફ્રીક્વન્સીઝ અવલોકન કરતા તદ્દન અલગ છે, એટલે કે. એન્ટિબોડીઝના વહીવટની અસર પેથોજેનથી સંક્રમિત ઉંદરના અસ્તિત્વ પર પડે છે. અમે પીયર્સન ગુડનેસ-ઓફ-ફિટ ટેસ્ટ \(\chi^2\) નો ઉપયોગ કરીને આ છાપને માપી શકીએ છીએ:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


જ્યાં \(f_o\) અને \(f_e\) અનુક્રમે અવલોકન કરેલ અને અપેક્ષિત ફ્રીક્વન્સીઝ છે. સમીકરણ કોષ્ટકના તમામ કોષો પર કરવામાં આવે છે. તેથી, વિચારણા હેઠળના ઉદાહરણ માટે અમારી પાસે છે

\[\chi^2 = (13 – 19.5)^2/19.5 + (44 – 37.5)^2/37.5 + (25 – 18.5)^2/18.5 + (29 – 35.5)^2/35.5 = \]

શું \(\chi^2\) નું પરિણામી મૂલ્ય શૂન્ય પૂર્વધારણાને નકારવા માટે એટલું મોટું છે? આ પ્રશ્નનો જવાબ આપવા માટે માપદંડનું અનુરૂપ નિર્ણાયક મૂલ્ય શોધવું જરૂરી છે. \(\chi^2\) માટે સ્વતંત્રતાની ડિગ્રીની સંખ્યા \(df = (R - 1)(C - 1)\ તરીકે ગણવામાં આવે છે, જ્યાં \(R\) અને \(C\) એ સંખ્યા છે કોષ્ટક જોડાણમાં પંક્તિઓ અને કૉલમ. અમારા કિસ્સામાં \(df = (2 -1)(2 - 1) = 1\). સ્વતંત્રતાની ડિગ્રીની સંખ્યા જાણીને, હવે આપણે પ્રમાણભૂત R ફંક્શન qchisq() નો ઉપયોગ કરીને નિર્ણાયક મૂલ્ય \(\chi^2\) સરળતાથી શોધી શકીએ છીએ :


આમ, સ્વતંત્રતાની એક ડિગ્રી સાથે, માત્ર 5% કિસ્સાઓમાં માપદંડનું મૂલ્ય \(\chi^2\) 3.841 કરતાં વધી જાય છે. અમે મેળવેલ મૂલ્ય, 6.79, નોંધપાત્ર રીતે આ નિર્ણાયક મૂલ્ય કરતાં વધી જાય છે, જે અમને એન્ટિબોડીઝના વહીવટ અને ચેપગ્રસ્ત ઉંદરના અસ્તિત્વ વચ્ચે કોઈ જોડાણ નથી તેવી શૂન્ય પૂર્વધારણાને નકારવાનો અધિકાર આપે છે. આ પૂર્વધારણાને નકારવાથી, અમે 5% કરતા ઓછી સંભાવના સાથે ખોટા હોવાનું જોખમ લઈએ છીએ.

એ નોંધવું જોઈએ કે માપદંડ \(\chi^2\) માટે ઉપરોક્ત સૂત્ર 2x2 કદના આકસ્મિક કોષ્ટકો સાથે કામ કરતી વખતે સહેજ ફૂલેલા મૂલ્યો આપે છે. કારણ એ છે કે માપદંડનું વિતરણ \(\chi^2\) પોતે જ સતત છે, જ્યારે દ્વિસંગી વિશેષતાઓની ફ્રીક્વન્સીઝ ("મૃત્યુ પામ્યા" / "બચી ગયેલા") વ્યાખ્યા પ્રમાણે અલગ છે. આ સંદર્ભમાં, માપદંડની ગણતરી કરતી વખતે, કહેવાતા રજૂ કરવાનો રિવાજ છે સાતત્ય સુધારણા, અથવા યેટ્સ સુધારો :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

"યેટ્સ સાથેની ચી-સ્ક્વેર્ડ ટેસ્ટ" સાતત્ય સુધારણા ડેટા: ઉંદર X-ચોરસ = 5.7923, df = 1, p-વેલ્યુ = 0.0161


જેમ આપણે જોઈ શકીએ છીએ, R આપોઆપ યેટ્સ સાતત્ય સુધારણા લાગુ કરે છે ( યેટ્સ સાથે પીયર્સનની ચી-સ્ક્વેર્ડ ટેસ્ટ" સાતત્ય સુધારણા). પ્રોગ્રામ દ્વારા ગણતરી કરેલ \(\chi^2\) ની કિંમત 5.79213 હતી. અમે માત્ર 1% (p-વેલ્યુ = 0.0161) ની સંભાવના સાથે ખોટા હોવાના જોખમે કોઈ એન્ટિબોડી અસરની નલ પૂર્વધારણાને નકારી શકીએ છીએ.

19મી સદીના અંત સુધી, સામાન્ય વિતરણને ડેટામાં વિવિધતાનો સાર્વત્રિક કાયદો માનવામાં આવતો હતો. જો કે, કે. પીયરસને નોંધ્યું હતું કે પ્રયોગમૂલક ફ્રીક્વન્સીઝ સામાન્ય વિતરણ કરતાં ઘણી અલગ હોઈ શકે છે. આ કેવી રીતે સાબિત કરવું તે પ્રશ્ન ઊભો થયો. માત્ર એક ગ્રાફિકલ સરખામણી, જે વ્યક્તિલક્ષી છે, જરૂરી હતી, પણ એક કડક જથ્થાત્મક સમર્થન પણ જરૂરી હતું.

આ રીતે માપદંડની શોધ થઈ χ 2(ચી-ચોરસ), જે પ્રયોગમૂલક (નિરીક્ષણ) અને સૈદ્ધાંતિક (અપેક્ષિત) ફ્રીક્વન્સીઝ વચ્ચેના તફાવતના મહત્વની ચકાસણી કરે છે. આ 1900 માં થયું હતું, પરંતુ માપદંડ આજે પણ ઉપયોગમાં છે. તદુપરાંત, તે સમસ્યાઓની વિશાળ શ્રેણીને હલ કરવા માટે સ્વીકારવામાં આવ્યું છે. સૌ પ્રથમ, આ નજીવા ડેટાનું વિશ્લેષણ છે, એટલે કે. તે કે જે જથ્થા દ્વારા નહીં, પરંતુ અમુક શ્રેણી સાથે જોડાયેલા દ્વારા વ્યક્ત કરવામાં આવે છે. ઉદાહરણ તરીકે, કારનો વર્ગ, પ્રયોગમાં ભાગ લેનારનું લિંગ, છોડનો પ્રકાર વગેરે. આવા ડેટા પર સરવાળો અને ગુણાકાર જેવી ગાણિતિક ક્રિયાઓ ફક્ત તેમના માટે જ ગણી શકાય છે.

અમે અવલોકન કરેલ ફ્રીક્વન્સીઝ સૂચવીએ છીએ વિશે (નિરીક્ષણ), અપેક્ષિત - ઇ (અપેક્ષિત). ઉદાહરણ તરીકે, ચાલો 60 વખત ડાઇ રોલ કરવાનું પરિણામ લઈએ. જો તે સપ્રમાણ અને સમાન હોય, તો કોઈપણ બાજુ મેળવવાની સંભાવના 1/6 છે અને તેથી દરેક બાજુ મેળવવાની અપેક્ષિત સંખ્યા 10 (1/6∙60) છે. અમે કોષ્ટકમાં અવલોકન કરેલ અને અપેક્ષિત ફ્રીક્વન્સીઝ લખીએ છીએ અને હિસ્ટોગ્રામ દોરીએ છીએ.

શૂન્ય પૂર્વધારણા એ છે કે ફ્રીક્વન્સીઝ સુસંગત છે, એટલે કે, વાસ્તવિક ડેટા અપેક્ષિત ડેટા સાથે વિરોધાભાસી નથી. વૈકલ્પિક પૂર્વધારણા એ છે કે ફ્રીક્વન્સીઝમાં વિચલનો રેન્ડમ વધઘટથી આગળ વધે છે, એટલે કે, વિસંગતતાઓ આંકડાકીય રીતે નોંધપાત્ર છે. સખત નિષ્કર્ષ દોરવા માટે, અમને જરૂર છે.

  1. અવલોકન કરેલ અને અપેક્ષિત ફ્રીક્વન્સીઝ વચ્ચેની વિસંગતતાનું સારાંશ માપ.
  2. આ માપનું વિતરણ જો કોઈ ભિન્નતા નથી તેવી પૂર્વધારણા સાચી છે.

ચાલો ફ્રીક્વન્સી વચ્ચેના અંતરથી શરૂઆત કરીએ. જો તમે માત્ર તફાવત લો ઓ - ઇ, તો પછી આવા માપ ડેટાના સ્કેલ (ફ્રીક્વન્સીઝ) પર આધારિત રહેશે. ઉદાહરણ તરીકે, 20 - 5 = 15 અને 1020 - 1005 = 15. બંને કિસ્સાઓમાં, તફાવત 15 છે. પરંતુ પ્રથમ કિસ્સામાં, અપેક્ષિત ફ્રીક્વન્સીઝ અવલોકન કરતા 3 ગણી ઓછી છે, અને બીજા કિસ્સામાં - માત્ર 1.5 %. અમને સંબંધિત માપની જરૂર છે જે સ્કેલ પર આધારિત નથી.

ચાલો નીચેના તથ્યો પર ધ્યાન આપીએ. સામાન્ય રીતે, ગ્રેડેશનની સંખ્યા કે જેમાં ફ્રીક્વન્સીઝ માપવામાં આવે છે તે ઘણી મોટી હોઈ શકે છે, તેથી એક અવલોકન એક કે બીજી કેટેગરીમાં આવે તેવી સંભાવના ઘણી ઓછી છે. જો એમ હોય, તો આવા રેન્ડમ ચલનું વિતરણ દુર્લભ ઘટનાઓના કાયદાનું પાલન કરશે, જેને પોઈસનનો કાયદો. પોઈસનના કાયદામાં, જેમ કે જાણીતું છે, ગાણિતિક અપેક્ષા અને તફાવતનું મૂલ્ય એકરૂપ થાય છે (પેરામીટર λ ). આનો અર્થ એ છે કે નામાંકિત ચલની અમુક શ્રેણી માટે અપેક્ષિત આવર્તન ઇ iએક સાથે હશે અને તેનું વિખેરવું. વધુમાં, પોઈસનનો નિયમ મોટી સંખ્યામાં અવલોકનો સાથે સામાન્ય છે. આ બે તથ્યોને જોડીને, અમે મેળવીએ છીએ કે જો અવલોકન કરેલ અને અપેક્ષિત ફ્રીક્વન્સીઝ વચ્ચેના કરાર વિશેની પૂર્વધારણા સાચી હોય, તો, મોટી સંખ્યામાં અવલોકનો સાથે, અભિવ્યક્તિ

હશે.

તે યાદ રાખવું અગત્યનું છે કે સામાન્યતા ફક્ત પૂરતી ઊંચી ફ્રીક્વન્સીઝ પર જ દેખાશે. આંકડાઓમાં, તે સામાન્ય રીતે સ્વીકારવામાં આવે છે કે અવલોકનોની કુલ સંખ્યા (આવર્તનનો સરવાળો) ઓછામાં ઓછો 50 હોવો જોઈએ અને દરેક ગ્રેડેશનમાં અપેક્ષિત આવર્તન ઓછામાં ઓછી 5 હોવી જોઈએ. માત્ર આ કિસ્સામાં, ઉપર દર્શાવેલ મૂલ્ય પ્રમાણભૂત સામાન્ય હશે. વિતરણ ચાલો માની લઈએ કે આ શરત પૂરી થઈ છે.

પ્રમાણભૂત સામાન્ય વિતરણમાં લગભગ તમામ મૂલ્યો ±3 (ત્રણ-સિગ્મા નિયમ) ની અંદર હોય છે. આમ, અમે એક ગ્રેડેશન માટે ફ્રીક્વન્સીઝમાં સંબંધિત તફાવત મેળવ્યો. અમને સામાન્યીકરણ કરી શકાય તેવા માપની જરૂર છે. તમે ફક્ત તમામ વિચલનો ઉમેરી શકતા નથી - અમને 0 મળે છે (શા માટે અનુમાન કરો). પિયરસને આ વિચલનોના વર્ગો ઉમેરવાનું સૂચન કર્યું.

આ નિશાની છે માપદંડ χ 2પીયર્સન. જો ફ્રીક્વન્સી ખરેખર અપેક્ષિત લોકોને અનુરૂપ હોય, તો માપદંડનું મૂલ્ય પ્રમાણમાં નાનું હશે (કારણ કે મોટાભાગના વિચલનો શૂન્યની આસપાસ છે). પરંતુ જો માપદંડ મોટો હોય, તો આ ફ્રીક્વન્સીઝ વચ્ચે નોંધપાત્ર તફાવત સૂચવે છે.

માપદંડ "મોટો" બની જાય છે જ્યારે આવા અથવા તેનાથી વધુ મૂલ્યની ઘટના અસંભવિત બને છે. અને આવી સંભાવનાની ગણતરી કરવા માટે, જ્યારે આવર્તન કરારની પૂર્વધારણા સાચી હોય ત્યારે પ્રયોગ ઘણી વખત પુનરાવર્તિત થાય ત્યારે માપદંડનું વિતરણ જાણવું જરૂરી છે.

જોવામાં સરળ છે તેમ, ચી-સ્ક્વેર મૂલ્ય પણ શરતોની સંખ્યા પર આધારિત છે. જેટલું વધારે છે, માપદંડનું મૂલ્ય જેટલું વધારે હોવું જોઈએ, કારણ કે દરેક શબ્દ કુલમાં ફાળો આપશે. તેથી, દરેક જથ્થા માટે સ્વતંત્રશરતો, તેનું પોતાનું વિતરણ હશે. તે તારણ આપે છે કે χ 2વિતરણનો આખો પરિવાર છે.

અને અહીં આપણે એક નાજુક ક્ષણ પર આવીએ છીએ. સંખ્યા શું છે સ્વતંત્રશરતો? એવું લાગે છે કે કોઈપણ શબ્દ (એટલે ​​​​કે વિચલન) સ્વતંત્ર છે. કે. પીયર્સન પણ આવું વિચારતા હતા, પરંતુ તે ખોટા નીકળ્યા. વાસ્તવમાં, સ્વતંત્ર પદોની સંખ્યા નામાંકિત ચલના ગ્રેડેશનની સંખ્યા કરતાં એક ઓછી હશે. n. શા માટે? કારણ કે જો આપણી પાસે એવો નમૂનો હોય કે જેના માટે ફ્રીક્વન્સીના સરવાળાની પહેલેથી જ ગણતરી કરવામાં આવી હોય, તો ફ્રીક્વન્સીમાંથી એક હંમેશા કુલ સંખ્યા અને અન્ય તમામના સરવાળા વચ્ચેના તફાવત તરીકે નક્કી કરી શકાય છે. આથી ભિન્નતા થોડી ઓછી હશે. રોનાલ્ડ ફિશરે પીયર્સન દ્વારા તેનો માપદંડ વિકસાવ્યાના 20 વર્ષ પછી આ હકીકતની નોંધ લીધી. ટેબલો પણ ફરીથી કરવા પડ્યા.

આ પ્રસંગે ફિશરે આંકડાશાસ્ત્રમાં એક નવો ખ્યાલ રજૂ કર્યો - સ્વતંત્રતાની ડિગ્રી(સ્વતંત્રતાની ડિગ્રી), જે સરવાળામાં સ્વતંત્ર પદોની સંખ્યા દર્શાવે છે. સ્વતંત્રતાની ડિગ્રીની વિભાવનામાં ગાણિતિક સમજૂતી હોય છે અને તે સામાન્ય (વિદ્યાર્થી, ફિશર-સ્નેડેકોર અને ચી-સ્ક્વેર પોતે) સાથે સંકળાયેલા વિતરણમાં જ દેખાય છે.

સ્વતંત્રતાની ડિગ્રીના અર્થને વધુ સારી રીતે સમજવા માટે, ચાલો આપણે ભૌતિક એનાલોગ તરફ વળીએ. ચાલો અવકાશમાં મુક્તપણે ફરતા બિંદુની કલ્પના કરીએ. તેની પાસે સ્વતંત્રતાની 3 ડિગ્રી છે, કારણ કે ત્રિ-પરિમાણીય અવકાશમાં કોઈપણ દિશામાં આગળ વધી શકે છે. જો કોઈ બિંદુ કોઈપણ સપાટી સાથે આગળ વધે છે, તો તે પહેલાથી જ બે ડિગ્રી સ્વતંત્રતા ધરાવે છે (આગળ અને પાછળ, ડાબે અને જમણે), જો કે તે ત્રિ-પરિમાણીય અવકાશમાં ચાલુ રહે છે. ઝરણાની સાથે ફરતું બિંદુ ફરીથી ત્રિ-પરિમાણીય અવકાશમાં છે, પરંતુ તેમાં માત્ર એક ડિગ્રી સ્વતંત્રતા છે, કારણ કે આગળ કે પાછળ જઈ શકે છે. જેમ તમે જોઈ શકો છો, ઑબ્જેક્ટ જ્યાં સ્થિત છે તે જગ્યા હંમેશા ચળવળની વાસ્તવિક સ્વતંત્રતાને અનુરૂપ નથી.

લગભગ એ જ રીતે, આંકડાકીય માપદંડનું વિતરણ તેની ગણતરી કરવા માટે જરૂરી શરતો કરતાં ઘટકોની નાની સંખ્યા પર આધારિત હોઈ શકે છે. સામાન્ય રીતે, સ્વતંત્રતાની ડિગ્રીની સંખ્યા વર્તમાન અવલંબનની સંખ્યા દ્વારા અવલોકનોની સંખ્યા કરતા ઓછી છે. આ શુદ્ધ ગણિત છે, કોઈ જાદુ નથી.

તેથી વિતરણ χ 2વિતરણનું કુટુંબ છે, જેમાંથી દરેક સ્વતંત્રતા પરિમાણની ડિગ્રી પર આધારિત છે. અને ચી-સ્ક્વેર ટેસ્ટની ઔપચારિક વ્યાખ્યા નીચે મુજબ છે. વિતરણ χ 2(ચી-ચોરસ) s kસ્વતંત્રતાની ડિગ્રી એ ચોરસના સરવાળાનું વિતરણ છે kસ્વતંત્ર પ્રમાણભૂત સામાન્ય રેન્ડમ ચલો.

આગળ, આપણે સૂત્ર પર જ આગળ વધી શકીએ છીએ, જે ચી-સ્ક્વેર ડિસ્ટ્રિબ્યુશન ફંક્શનની ગણતરી કરે છે, પરંતુ, સદભાગ્યે, આપણા માટે દરેક વસ્તુની લાંબા સમયથી ગણતરી કરવામાં આવી છે. રસની સંભાવના મેળવવા માટે, તમે અનુરૂપ આંકડાકીય કોષ્ટકનો ઉપયોગ કરી શકો છો અથવા વિશિષ્ટ સૉફ્ટવેરમાં તૈયાર ફંક્શનનો ઉપયોગ કરી શકો છો, જે એક્સેલમાં પણ ઉપલબ્ધ છે.

સ્વતંત્રતાની ડિગ્રીની સંખ્યાના આધારે ચી-સ્ક્વેર વિતરણનો આકાર કેવી રીતે બદલાય છે તે જોવું રસપ્રદ છે.

સ્વતંત્રતાની વધતી જતી ડિગ્રી સાથે, ચી-સ્ક્વેર વિતરણ સામાન્ય થવાનું વલણ ધરાવે છે. આ કેન્દ્રીય મર્યાદા પ્રમેયની ક્રિયા દ્વારા સમજાવવામાં આવ્યું છે, જે મુજબ મોટી સંખ્યામાં સ્વતંત્ર રેન્ડમ ચલોનો સરવાળો સામાન્ય વિતરણ ધરાવે છે. તે ચોરસ વિશે કશું કહેતું નથી)).

ચિ-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીને પૂર્વધારણા પરીક્ષણ

હવે આપણે chi-square પદ્ધતિનો ઉપયોગ કરીને પૂર્વધારણાઓનું પરીક્ષણ કરવા આવીએ છીએ. સામાન્ય રીતે, ટેકનોલોજી રહે છે. શૂન્ય પૂર્વધારણા એ છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝ અપેક્ષિત રાશિઓને અનુરૂપ છે (એટલે ​​​​કે તેમની વચ્ચે કોઈ તફાવત નથી કારણ કે તે સમાન વસ્તીમાંથી લેવામાં આવ્યા છે). જો આવું છે, તો સ્કેટર પ્રમાણમાં નાનું હશે, રેન્ડમ વધઘટની મર્યાદામાં. ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીને વિક્ષેપનું માપ નક્કી કરવામાં આવે છે. આગળ, ક્યાં તો માપદંડની તુલના નિર્ણાયક મૂલ્ય (અનુરૂપ મહત્વના સ્તર અને સ્વતંત્રતાની ડિગ્રી માટે) સાથે કરવામાં આવે છે, અથવા, જે વધુ સાચું છે, નિરીક્ષણ કરેલ પી-સ્તરની ગણતરી કરવામાં આવે છે, એટલે કે. જો નલ પૂર્વધારણા સાચી હોય તો સમાન અથવા તેનાથી વધુ માપદંડ મૂલ્ય મેળવવાની સંભાવના.

કારણ કે અમે ફ્રીક્વન્સીઝના કરારમાં રસ ધરાવીએ છીએ, પછી જ્યારે માપદંડ નિર્ણાયક સ્તર કરતા વધારે હોય ત્યારે પૂર્વધારણાને નકારી કાઢવામાં આવશે. તે. માપદંડ એકતરફી છે. જો કે, કેટલીકવાર (ક્યારેક) ડાબા હાથની પૂર્વધારણાની ચકાસણી કરવી જરૂરી છે. ઉદાહરણ તરીકે, જ્યારે પ્રયોગમૂલક ડેટા સૈદ્ધાંતિક ડેટા સાથે ખૂબ સમાન હોય છે. પછી માપદંડ અસંભવિત પ્રદેશમાં આવી શકે છે, પરંતુ ડાબી બાજુએ. હકીકત એ છે કે કુદરતી પરિસ્થિતિઓમાં તે ફ્રીક્વન્સીઝ મેળવવાની શક્યતા નથી જે વ્યવહારિક રીતે સૈદ્ધાંતિક રાશિઓ સાથે સુસંગત હોય. હંમેશા કેટલીક રેન્ડમનેસ હોય છે જે ભૂલ આપે છે. પરંતુ જો આવી કોઈ ભૂલ નથી, તો કદાચ ડેટા ખોટો હતો. પરંતુ હજુ પણ, જમણી બાજુની પૂર્વધારણા સામાન્ય રીતે પરીક્ષણ કરવામાં આવે છે.

ચાલો ડાઇસ સમસ્યા પર પાછા ફરો. ચાલો ઉપલબ્ધ ડેટાનો ઉપયોગ કરીને ચી-સ્ક્વેર ટેસ્ટના મૂલ્યની ગણતરી કરીએ.

હવે ચાલો સ્વતંત્રતાના 5 ડિગ્રી પર માપદંડનું કોષ્ટક મૂલ્ય શોધીએ ( k) અને મહત્વ સ્તર 0.05 ( α ).

એટલે કે χ 2 0.05; 5 = 11,1.

ચાલો વાસ્તવિક અને ટેબ્યુલેટેડ મૂલ્યોની તુલના કરીએ. 3.4 ( χ 2) < 11,1 (χ 2 0.05; 5). ગણતરી કરેલ માપદંડ નાનો હોવાનું બહાર આવ્યું છે, જેનો અર્થ છે કે ફ્રીક્વન્સીઝની સમાનતા (કરાર) ની પૂર્વધારણાને નકારી કાઢવામાં આવી નથી. આકૃતિમાં, પરિસ્થિતિ આના જેવી દેખાય છે.

જો ગણતરી કરેલ મૂલ્ય નિર્ણાયક ક્ષેત્રની અંદર આવે છે, તો નલ પૂર્વધારણા નકારવામાં આવશે.

પી-લેવલની પણ ગણતરી કરવી વધુ યોગ્ય રહેશે. આ કરવા માટે, તમારે સ્વતંત્રતાની ડિગ્રીની આપેલ સંખ્યા માટે કોષ્ટકમાં સૌથી નજીકનું મૂલ્ય શોધવાની અને અનુરૂપ મહત્વના સ્તરને જોવાની જરૂર છે. પણ આ છેલ્લી સદી છે. અમે વ્યક્તિગત કમ્પ્યુટરનો ઉપયોગ કરીશું, ખાસ કરીને એમએસ એક્સેલ. એક્સેલમાં ચી-સ્ક્વેર સંબંધિત અનેક કાર્યો છે.

નીચે તેમનું સંક્ષિપ્ત વર્ણન છે.

CH2.OBR- ડાબી બાજુએ આપેલ સંભાવના પર માપદંડનું નિર્ણાયક મૂલ્ય (આંકડાકીય કોષ્ટકોની જેમ)

CH2.OBR.PH- જમણી બાજુએ આપેલ સંભાવના માટે માપદંડનું નિર્ણાયક મૂલ્ય. ફંક્શન અનિવાર્યપણે પાછલા એકનું ડુપ્લિકેટ કરે છે. પરંતુ અહીં તમે તરત જ સ્તર સૂચવી શકો છો α , તેને 1 માંથી બાદ કરવાને બદલે. આ વધુ અનુકૂળ છે, કારણ કે મોટાભાગના કિસ્સાઓમાં, તે વિતરણની યોગ્ય પૂંછડી છે જે જરૂરી છે.

CH2.DIST– ડાબી બાજુએ પી-લેવલ (ઘનતાની ગણતરી કરી શકાય છે).

CH2.DIST.PH- જમણી બાજુએ પી-લેવલ.

CHI2.TEST- આપેલ બે ફ્રીક્વન્સી રેન્જ માટે તરત જ ચી-સ્ક્વેર ટેસ્ટ કરે છે. સ્વતંત્રતાની ડિગ્રીની સંખ્યાને કૉલમમાં ફ્રીક્વન્સીની સંખ્યા કરતાં એક ઓછી ગણવામાં આવે છે (જેમ કે તે હોવું જોઈએ), પી-લેવલ મૂલ્ય પરત કરે છે.

ચાલો આપણા પ્રયોગ માટે 5 ડિગ્રી સ્વતંત્રતા અને આલ્ફા 0.05 માટે નિર્ણાયક (ટેબ્યુલર) મૂલ્યની ગણતરી કરીએ. એક્સેલ ફોર્મ્યુલા આના જેવો દેખાશે:

CH2.OBR(0.95;5)

CH2.OBR.PH(0.05;5)

પરિણામ સમાન હશે - 11.0705. આ તે મૂલ્ય છે જે આપણે કોષ્ટકમાં જોઈએ છીએ (1 દશાંશ સ્થાન પર ગોળાકાર).

ચાલો છેલ્લે સ્વતંત્રતા માપદંડના 5 ડિગ્રી માટે p-સ્તરની ગણતરી કરીએ χ 2= 3.4. અમને જમણી બાજુની સંભાવનાની જરૂર છે, તેથી અમે HH (જમણી પૂંછડી) ના ઉમેરા સાથે ફંક્શન લઈએ છીએ.

CH2.DIST.PH(3.4;5) = 0.63857

આનો અર્થ એ છે કે સ્વતંત્રતાના 5 ડિગ્રી સાથે માપદંડ મૂલ્ય મેળવવાની સંભાવના છે χ 2= 3.4 અને વધુ લગભગ 64% બરાબર છે. સ્વાભાવિક રીતે, પૂર્વધારણાને નકારવામાં આવતી નથી (p-સ્તર 5% કરતા વધારે છે), ફ્રીક્વન્સીઝ ખૂબ સારી સમજૂતીમાં છે.

હવે ચાલો CHI2.TEST ફંક્શનનો ઉપયોગ કરીને ફ્રીક્વન્સી એગ્રીમેન્ટ વિશેની પૂર્વધારણા તપાસીએ.

કોઈ કોષ્ટકો નથી, કોઈ બોજારૂપ ગણતરીઓ નથી. ફંક્શન આર્ગ્યુમેન્ટ્સ તરીકે અવલોકન કરેલ અને અપેક્ષિત ફ્રીક્વન્સી સાથે કૉલમનો ઉલ્લેખ કરીને, અમે તરત જ પી-લેવલ મેળવીએ છીએ. સુંદરતા.

હવે કલ્પના કરો કે તમે કોઈ શંકાસ્પદ વ્યક્તિ સાથે ડાઇસ રમી રહ્યા છો. 1 થી 5 સુધીના પોઈન્ટનું વિતરણ સમાન રહે છે, પરંતુ તે 26 છગ્ગા ફટકારે છે (થ્રોની કુલ સંખ્યા 78 થઈ જાય છે).

આ કિસ્સામાં પી-લેવલ 0.003 છે, જે 0.05 કરતા ઘણું ઓછું છે. ડાઇસની માન્યતા પર શંકા કરવાના સારા કારણો છે. ચી-સ્ક્વેર વિતરણ ચાર્ટ પર તે સંભાવના કેવી દેખાય છે તે અહીં છે.

અહીં ચી-સ્ક્વેર માપદંડ પોતે 17.8 છે, જે, કુદરતી રીતે, કોષ્ટક એક (11.1) કરતા વધારે છે.

મને આશા છે કે હું સમજૂતીનો માપદંડ શું છે તે સમજાવવામાં સક્ષમ હતો χ 2(પિયર્સન ચી-સ્ક્વેર) અને આંકડાકીય પૂર્વધારણાઓને ચકાસવા માટે તેનો ઉપયોગ કેવી રીતે કરી શકાય.

છેલ્લે, ફરી એકવાર એક મહત્વપૂર્ણ સ્થિતિ વિશે! ચી-સ્ક્વેર ટેસ્ટ માત્ર ત્યારે જ યોગ્ય રીતે કાર્ય કરે છે જ્યારે તમામ ફ્રીક્વન્સીઝની સંખ્યા 50 કરતાં વધી જાય અને દરેક ગ્રેડેશન માટે લઘુત્તમ અપેક્ષિત મૂલ્ય 5 કરતાં ઓછું ન હોય. જો કોઈપણ કેટેગરીમાં અપેક્ષિત આવર્તન 5 કરતાં ઓછી હોય, પરંતુ તમામ ફ્રીક્વન્સીઝનો સરવાળો ઓળંગે. 50, પછી આવી શ્રેણીને સૌથી નજીકની સાથે જોડવામાં આવે છે જેથી તેમની કુલ આવર્તન 5 કરતાં વધી જાય. જો આ શક્ય ન હોય, અથવા ફ્રીક્વન્સીનો સરવાળો 50 કરતા ઓછો હોય, તો અનુમાનના પરીક્ષણની વધુ સચોટ પદ્ધતિઓનો ઉપયોગ કરવો જોઈએ. અમે તેમના વિશે બીજી વાર વાત કરીશું.

નીચે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીને એક્સેલમાં પૂર્વધારણા કેવી રીતે ચકાસવી તે અંગેનો વિડિઓ છે.

કાઈ-સ્ક્વેર ટેસ્ટ એ પ્રયોગના પરિણામો અને ઉપયોગમાં લેવાતા આંકડાકીય મોડેલ વચ્ચેના કરારને ચકાસવા માટેની સાર્વત્રિક પદ્ધતિ છે.

પીયર્સન અંતર X 2

Pyatnitsky A.M.

રશિયન સ્ટેટ મેડિકલ યુનિવર્સિટી

1900 માં, કાર્લ પીયર્સન મોડેલ આગાહીઓ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને ચકાસવા માટે એક સરળ, સાર્વત્રિક અને અસરકારક રીતનો પ્રસ્તાવ મૂક્યો. તેમણે પ્રસ્તાવિત "ચી-સ્ક્વેર ટેસ્ટ" એ સૌથી મહત્વપૂર્ણ અને સૌથી વધુ ઉપયોગમાં લેવાતી આંકડાકીય કસોટી છે. અજ્ઞાત મોડલ પેરામીટર્સનો અંદાજ કાઢવા અને મોડેલ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને તપાસવા સંબંધિત મોટાભાગની સમસ્યાઓ તેની મદદથી ઉકેલી શકાય છે.

જે ઑબ્જેક્ટ અથવા પ્રક્રિયાનો અભ્યાસ કરવામાં આવી રહ્યો છે તેનું પ્રાયોરી ("પૂર્વ-પ્રાયોગિક") મોડલ હોવા દો (આંકડાઓમાં તેઓ "નલ પૂર્વધારણા" H 0 વિશે બોલે છે), અને આ ઑબ્જેક્ટ સાથેના પ્રયોગના પરિણામો. તે નક્કી કરવું જરૂરી છે કે શું મોડેલ પર્યાપ્ત છે (શું તે વાસ્તવિકતાને અનુરૂપ છે)? શું પ્રાયોગિક પરિણામો વાસ્તવિકતા કેવી રીતે કાર્ય કરે છે તે વિશેના અમારા વિચારોનો વિરોધાભાસ કરે છે, અથવા બીજા શબ્દોમાં કહીએ તો, H0 ને નકારી કાઢવો જોઈએ? ઘણીવાર આ કાર્યને અવલોકન કરેલ (O i = અવલોકન કરેલ) અને મોડેલ (E i = અપેક્ષિત) ચોક્કસ ઘટનાઓની ઘટનાની સરેરાશ ફ્રીક્વન્સીઝ અનુસાર અપેક્ષિત સરખામણી કરવા માટે ઘટાડી શકાય છે. એવું માનવામાં આવે છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝ સતત (!) પરિસ્થિતિઓ હેઠળ કરવામાં આવેલા N સ્વતંત્ર (!) અવલોકનોની શ્રેણીમાં મેળવવામાં આવી હતી. દરેક અવલોકનના પરિણામે, M ઘટનાઓમાંથી એક રેકોર્ડ કરવામાં આવે છે. આ ઘટનાઓ એક સાથે થઈ શકતી નથી (તેઓ જોડીમાં અસંગત છે) અને તેમાંથી એક આવશ્યકપણે થાય છે (તેમનું સંયોજન એક વિશ્વસનીય ઘટના બનાવે છે). તમામ અવલોકનોની સંપૂર્ણતા ફ્રીક્વન્સીઝ (O i )=(O 1 , … O M ) ના કોષ્ટક (વેક્ટર) સુધી ઘટાડવામાં આવે છે, જે પ્રયોગના પરિણામોનું સંપૂર્ણ વર્ણન કરે છે. મૂલ્ય O 2 =4 નો અર્થ છે કે ઘટના નંબર 2 4 વખત આવી. ફ્રીક્વન્સીઝનો સરવાળો O 1 +… O M =N. બે કિસ્સાઓ વચ્ચે તફાવત કરવો મહત્વપૂર્ણ છે: N – નિશ્ચિત, બિન-રેન્ડમ, N – રેન્ડમ ચલ. પ્રયોગોની નિશ્ચિત કુલ સંખ્યા N માટે, ફ્રીક્વન્સીઝનું બહુપદી વિતરણ હોય છે. ચાલો આ સામાન્ય યોજનાને એક સરળ ઉદાહરણથી સમજાવીએ.

સરળ પૂર્વધારણાઓ ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો.

મૉડલ (નલ હાયપોથિસિસ H 0) એ રહેવા દો કે મૃત્યુ વાજબી છે - p i =1/6, i =, M=6 સંભાવના સાથે બધા ચહેરા સમાન રીતે દેખાય છે. એક પ્રયોગ હાથ ધરવામાં આવ્યો હતો જેમાં 60 વખત ડાઇ ફેંકવામાં આવી હતી (N = 60 સ્વતંત્ર ટ્રાયલ હાથ ધરવામાં આવી હતી). મોડેલ મુજબ, અમે અપેક્ષા રાખીએ છીએ કે ઘટના 1,2,... 6 પોઈન્ટની તમામ અવલોકન કરેલ ફ્રીક્વન્સીઝ તેમના સરેરાશ મૂલ્યો E i =Np i =60∙(1/6)=10 ની નજીક હોવા જોઈએ. H 0 મુજબ, સરેરાશ ફ્રીક્વન્સીઝનો વેક્ટર (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (ઉપકલ્પનાઓ કે જેમાં પ્રયોગની શરૂઆત પહેલા સરેરાશ ફ્રીક્વન્સીઝ સંપૂર્ણપણે જાણીતી હોય તેને સરળ કહેવામાં આવે છે.) જો અવલોકન કરેલ વેક્ટર (O i ) બરાબર (34,0,0,0,0,26) હોય, તો તે તરત જ સ્પષ્ટ કરો કે મોડેલ ખોટું છે - હાડકું સાચું હોઈ શકતું નથી, કારણ કે માત્ર 1 અને 6 જ 60 વખત ફેરવવામાં આવ્યા હતા. જો કે, મોડેલ અને અનુભવ વચ્ચે આવી સ્પષ્ટ વિસંગતતાઓનો દેખાવ એક અપવાદ છે. અવલોકન કરેલ ફ્રીક્વન્સીઝ (O i ) ના વેક્ટરને (5, 15, 6, 14, 4, 16) બરાબર થવા દો. શું આ H0 સાથે સુસંગત છે? તેથી, આપણે બે ફ્રીક્વન્સી વેક્ટર (E i) અને (O i) ની સરખામણી કરવાની જરૂર છે. આ કિસ્સામાં, અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર (Ei) રેન્ડમ નથી, પરંતુ અવલોકન કરાયેલ ફ્રીક્વન્સીઝ (Oi) નું વેક્ટર રેન્ડમ છે - આગામી પ્રયોગ દરમિયાન (60 થ્રોની નવી શ્રેણીમાં) તે અલગ હશે. સમસ્યાનું ભૌમિતિક અર્થઘટન રજૂ કરવું ઉપયોગી છે અને માની લો કે આવર્તન અવકાશમાં (આ કિસ્સામાં 6-પરિમાણીય) કોઓર્ડિનેટ્સ (5, 15, 6, 14, 4, 16) અને (10, 10, 16) સાથે બે બિંદુઓ આપવામાં આવે છે. 10, 10, 10, 10) શું તેઓ આને H 0 સાથે અસંગત ગણવા માટે પર્યાપ્ત દૂર છે? બીજા શબ્દોમાં કહીએ તો, અમને જરૂર છે:

  1. ફ્રીક્વન્સીઝ (ફ્રીક્વન્સી સ્પેસમાં પોઈન્ટ) વચ્ચેનું અંતર માપવાનું શીખો,
  2. શું અંતર પણ ગણવું જોઈએ તે માટે એક માપદંડ છે ("અસ્પષ્ટપણે") મોટું, એટલે કે, H 0 સાથે અસંગત.

સામાન્ય યુક્લિડિયન અંતરનો વર્ગ બરાબર હશે:

X 2 યુક્લિડ = એસ(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

આ કિસ્સામાં, સપાટીઓ X 2 યુક્લિડ = કોન્સ્ટ હંમેશા ગોળા હોય છે જો આપણે E i ના મૂલ્યોને ઠીક કરીએ અને O i ને બદલીએ. કાર્લ પીયર્સન નોંધ્યું હતું કે આવર્તન અવકાશમાં યુક્લિડિયન અંતરનો ઉપયોગ કરવો જોઈએ નહીં. આમ, તે ધારવું ખોટું છે કે બિંદુઓ (O = 1030 અને E = 1000) અને (O = 40 અને E = 10) એકબીજાથી સમાન અંતરે છે, જો કે બંને કિસ્સાઓમાં તફાવત O -E = 30 છે. છેવટે, અપેક્ષિત આવર્તન જેટલી ઊંચી છે, તેમાંથી વધુ વિચલનો શક્ય ગણવા જોઈએ. તેથી, પોઈન્ટ (O =1030 અને E =1000)ને "બંધ" અને પોઈન્ટ (O =40 અને E =10) એકબીજાથી "દૂર" ગણવા જોઈએ. તે બતાવી શકાય છે કે જો પૂર્વધારણા H 0 સાચી હોય, તો E i ની સાપેક્ષ O i ની આવર્તન વધઘટ E i ના વર્ગમૂળ(!) ના ક્રમની છે. તેથી, પિયરસને, અંતરની ગણતરી કરતી વખતે, તફાવતો (O i -E i) નહીં, પરંતુ સામાન્યકૃત તફાવતો (O i -E i)/E i 1/2નો વર્ગ કરવાનો પ્રસ્તાવ મૂક્યો હતો. તો અહીં પિયર્સન અંતરની ગણતરી કરવા માટેનું સૂત્ર છે (તે વાસ્તવમાં અંતરનો વર્ગ છે):

X 2 પીયર્સન = એસ((O i -E i)/E i 1/2) 2 = એસ(O i -E i) 2 /E i

અમારા ઉદાહરણમાં:

X 2 પીયર્સન = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

નિયમિત મૃત્યુ માટે, તમામ અપેક્ષિત ફ્રીક્વન્સીઝ E i સમાન હોય છે, પરંતુ સામાન્ય રીતે તે અલગ હોય છે, તેથી સપાટીઓ કે જેના પર પીયર્સનનું અંતર સ્થિર હોય છે (X 2 પીયર્સન = કોન્સ્ટ) એલિપ્સોઇડ્સ હોય છે, ગોળા નહીં.

હવે જ્યારે અંતરની ગણતરી કરવા માટેનું સૂત્ર પસંદ કરવામાં આવ્યું છે, તે શોધવા માટે જરૂરી છે કે કયા અંતરને "ખૂબ મોટું નથી" (H 0 સાથે સુસંગત) ગણવું જોઈએ, ઉદાહરણ તરીકે, આપણે 15.4ની ગણતરી કરેલ અંતર વિશે શું કહી શકીએ ? નિયમિત ડાઇ સાથે પ્રયોગો કરતી વખતે કેટલા ટકા કિસ્સાઓમાં (અથવા કેટલી સંભાવના સાથે) આપણે 15.4 કરતા વધુ અંતર મેળવીશું? જો આ ટકાવારી ઓછી હોય તો (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

સમજૂતી. નંબર i સાથે કોષ્ટક કોષમાં આવતા O i માપનની સંખ્યા પરિમાણો સાથે દ્વિપદી વિતરણ ધરાવે છે: m =Np i =E i,σ =(Np i (1-p i)) 1/2, જ્યાં N એ સંખ્યા છે માપન (N " 1), p i એ આપેલ કોષમાં એક માપ આવવાની સંભાવના છે (યાદ કરો કે માપ સ્વતંત્ર છે અને સતત પરિસ્થિતિઓમાં હાથ ધરવામાં આવે છે). જો p i નાનું હોય, તો: σ≈(Np i ) 1/2 =E i અને દ્વિપદી વિતરણ પોઈસનની નજીક છે, જેમાં અવલોકનોની સરેરાશ સંખ્યા E i =λ, અને પ્રમાણભૂત વિચલન σ=λ 1/2 = E i 1/ 2. λ≥5 માટે, પોઈસન વિતરણ સામાન્ય N (m =E i =λ, σ=E i 1/2 =λ 1/2), અને સામાન્યકૃત મૂલ્ય (O i - E i )/E i 1 ની નજીક છે /2 ≈ N (0 ,1).

પીયરસને રેન્ડમ વેરીએબલ χ 2 n – “સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેર” ને n સ્વતંત્ર માનક સામાન્ય રેન્ડમ ચલોના ચોરસના સરવાળા તરીકે વ્યાખ્યાયિત કર્યું:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,દરેક ક્યાં છે T i = N(0,1) - n ઓ. આર. સાથે. વી.

ચાલો આંકડાઓમાં આ સૌથી મહત્વપૂર્ણ રેન્ડમ ચલનો અર્થ સ્પષ્ટપણે સમજવાનો પ્રયાસ કરીએ. આ કરવા માટે, પ્લેન પર (n = 2 સાથે) અથવા અવકાશમાં (n = 3 સાથે) અમે બિંદુઓનો વાદળ રજૂ કરીએ છીએ જેના કોઓર્ડિનેટ્સ સ્વતંત્ર છે અને T (x) ~ exp (-x 2 /2) પ્રમાણભૂત સામાન્ય વિતરણ ધરાવે છે. ). પ્લેન પર, "બે સિગ્મા" નિયમ અનુસાર, જે સ્વતંત્ર રીતે બંને કોઓર્ડિનેટ્સ પર લાગુ થાય છે, 90% (0.95*0.95≈0.90) બિંદુઓ ચોરસ (-2) ની અંદર સમાયેલ છે

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

સ્વતંત્રતા n (n > 30) ની પૂરતી મોટી સંખ્યામાં ડિગ્રી સાથે, ચી-સ્ક્વેર વિતરણ સામાન્ય પહોંચે છે: N (m = n; σ = (2n) ½). આ "કેન્દ્રીય મર્યાદા પ્રમેય" નું પરિણામ છે: મર્યાદિત ભિન્નતા સાથે સમાન રીતે વિતરિત જથ્થાઓનો સરવાળો જેમ જેમ શરતોની સંખ્યા વધે છે તેમ સામાન્ય કાયદાની નજીક આવે છે.

વ્યવહારમાં, તમારે યાદ રાખવાની જરૂર છે કે અંતરનો સરેરાશ ચોરસ m (χ 2 n) = n ની બરાબર છે, અને તેનો તફાવત σ 2 (χ 2 n) = 2n છે. અહીંથી એ નિષ્કર્ષ કાઢવો સરળ છે કે કયા ચી-સ્ક્વેર મૂલ્યોને ખૂબ નાના અને ખૂબ મોટા ગણવા જોઈએ: મોટાભાગનું વિતરણ n -2∙(2n) ½ થી n +2∙(2n) ½ સુધીની રેન્જમાં છે.

તેથી, પીયર્સન અંતર નોંધપાત્ર રીતે n +2∙ (2n) ½ કરતાં વધી જાય તેવું અસ્પષ્ટપણે મોટું ગણવું જોઈએ (H 0 સાથે અસંગત). જો પરિણામ n +2∙(2n) ½ ની નજીક છે, તો તમારે કોષ્ટકોનો ઉપયોગ કરવો જોઈએ જેમાં તમે ચોક્કસ રીતે શોધી શકો છો કે આવા અને મોટા ચી-સ્ક્વેર મૂલ્યો કયા પ્રમાણમાં દેખાઈ શકે છે.

સ્વતંત્રતાની ડિગ્રીની સંખ્યા માટે યોગ્ય મૂલ્ય કેવી રીતે પસંદ કરવું તે જાણવું મહત્વપૂર્ણ છે (સંક્ષિપ્તમાં n.d.f.). એવું માનવું સ્વાભાવિક લાગ્યું કે n એ અંકોની સંખ્યાની બરાબર છે: n =M. તેમના લેખમાં, પીયર્સન જેટલું સૂચન કરે છે. ડાઇસ ઉદાહરણમાં, આનો અર્થ એ થશે કે n = 6. જો કે, ઘણા વર્ષો પછી તે બતાવવામાં આવ્યું હતું કે પીયર્સન ભૂલથી હતો. જો રેન્ડમ ચલ O i વચ્ચે જોડાણો હોય તો સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા કરતા હંમેશા ઓછી હોય છે. ડાઇસ ઉદાહરણ માટે, સરવાળો O i 60 છે, અને માત્ર 5 ફ્રીક્વન્સીઝ સ્વતંત્ર રીતે બદલી શકાય છે, તેથી સાચી કિંમત n = 6-1 = 5 છે. n ની આ કિંમત માટે આપણને n +2∙(2n) ½ =5+2∙(10) ½ =11.3 મળે છે. 15.4>11.3 થી, પછી પૂર્વધારણા H 0 - ડાઇ સાચો છે, તેને નકારવી જોઈએ.

ભૂલની સ્પષ્ટતા કર્યા પછી, હાલના χ 2 કોષ્ટકોને પૂરક બનાવવાની હતી, કારણ કે શરૂઆતમાં તેમની પાસે કેસ n = 1 ન હતો, કારણ કે અંકોની સૌથી નાની સંખ્યા = 2. હવે તે તારણ આપે છે કે એવા કિસ્સાઓ હોઈ શકે છે જ્યારે પિયર્સન અંતરનું વિતરણ χ 2 n =1 હોય.

ઉદાહરણ. 100 સિક્કાના ટૉસ સાથે, હેડની સંખ્યા O 1 = 65 છે, અને પૂંછડીઓની સંખ્યા O 2 = 35 છે. અંકોની સંખ્યા M = 2 છે. જો સિક્કો સપ્રમાણ હોય, તો અપેક્ષિત આવર્તન E 1 =50, E 2 =50 છે.

X 2 પીયર્સન = એસ(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

પરિણામી મૂલ્યની તુલના રેન્ડમ ચલ χ 2 n =1 લઈ શકે છે તેની સાથે કરવી જોઈએ, જે પ્રમાણભૂત સામાન્ય મૂલ્ય χ 2 n =1 =T 1 2 ≥ 9 ના વર્ગ તરીકે વ્યાખ્યાયિત થાય છે. ó T 1 ≥3 અથવા T 1 ≤-3. આવી ઘટનાની સંભાવના ખૂબ ઓછી છે P (χ 2 n =1 ≥9) = 0.006. તેથી, સિક્કાને સપ્રમાણ ગણી શકાય નહીં: H 0 નકારવો જોઈએ. હકીકત એ છે કે સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા જેટલી ન હોઈ શકે તે હકીકત પરથી સ્પષ્ટ થાય છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝનો સરવાળો હંમેશા અપેક્ષિત રાશિઓના સરવાળા જેટલો જ હોય ​​છે, ઉદાહરણ તરીકે O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. તેથી, કોઓર્ડિનેટ્સ O 1 અને O 2 સાથેના રેન્ડમ બિંદુઓ સીધી રેખા પર સ્થિત છે: O 1 +O 2 =E 1 +E 2 =100 અને કેન્દ્રનું અંતર જો આ પ્રતિબંધ અસ્તિત્વમાં ન હોય તો તેના કરતા ઓછું હોવાનું બહાર આવ્યું છે અને તેઓ સમગ્ર વિમાનમાં સ્થિત હતા. ખરેખર, ગાણિતિક અપેક્ષાઓ E 1 =50, E 2 =50 સાથેના બે સ્વતંત્ર રેન્ડમ ચલો માટે, તેમની અનુભૂતિનો સરવાળો હંમેશા 100 ની બરાબર હોવો જોઈએ નહીં - ઉદાહરણ તરીકે, મૂલ્યો O 1 =60, O 2 =55 હશે સ્વીકાર્ય બનો.

સમજૂતી. ચાલો M = 2 પરના પિયર્સન માપદંડના પરિણામની સરખામણી કરીએ જ્યારે N સ્વતંત્ર બર્નૌલી પરીક્ષણોની શ્રેણીમાં ν =K /N ની સંભાવના p ધરાવતા ઘટનાની ઘટનાની આવૃત્તિમાં રેન્ડમ વધઘટનો અંદાજ કાઢતી વખતે મોઇવર-લાપ્લેસ સૂત્ર શું આપે છે ( K એ સફળતાઓની સંખ્યા છે):

χ 2 n =1 = એસ(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N) 1-ν)-N (1-p)) 2 /(N (1-p))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

મૂલ્ય T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) સાથે σ(K)=(Npq) ½ ≥3. આપણે જોઈએ છીએ કે આ કિસ્સામાં પીયર્સનનું પરિણામ દ્વિપદી વિતરણ માટે સામાન્ય અંદાજ જે આપે છે તેની સાથે બરાબર મેળ ખાય છે.

અત્યાર સુધી અમે સરળ પૂર્વધારણાઓ ધ્યાનમાં લીધી છે જેના માટે અપેક્ષિત સરેરાશ ફ્રીક્વન્સી E i સંપૂર્ણપણે અગાઉથી જાણીતી છે. જટિલ પૂર્વધારણાઓ માટે સ્વતંત્રતાની ડિગ્રીની સાચી સંખ્યા કેવી રીતે પસંદ કરવી તે અંગેની માહિતી માટે, નીચે જુઓ.

જટિલ પૂર્વધારણાઓને ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો

નિયમિત ડાઇ અને સિક્કા સાથેના ઉદાહરણોમાં, અપેક્ષિત ફ્રીક્વન્સીઝ પ્રયોગ પહેલાં(!) નક્કી કરી શકાય છે. આવી પૂર્વધારણાઓને "સરળ" કહેવામાં આવે છે. વ્યવહારમાં, "જટિલ પૂર્વધારણાઓ" વધુ સામાન્ય છે. તદુપરાંત, અપેક્ષિત ફ્રીક્વન્સીઝ E i શોધવા માટે, પહેલા એક અથવા અનેક જથ્થાઓ (મોડેલ પરિમાણો) નો અંદાજ કાઢવો જરૂરી છે, અને આ ફક્ત પ્રાયોગિક ડેટાનો ઉપયોગ કરીને કરી શકાય છે. પરિણામે, "જટિલ પૂર્વધારણાઓ" માટે અપેક્ષિત ફ્રીક્વન્સીઝ E i અવલોકન કરાયેલ ફ્રીક્વન્સીઝ O i પર આધાર રાખે છે અને તેથી તે પ્રયોગના પરિણામોના આધારે અલગ અલગ, રેન્ડમ ચલ બની જાય છે. પરિમાણો પસંદ કરવાની પ્રક્રિયામાં, પિયર્સન અંતર ઘટે છે - પરિમાણો પસંદ કરવામાં આવે છે જેથી મોડેલ અને પ્રયોગ વચ્ચેના કરારને સુધારી શકાય. તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં ઘટાડો થવો જોઈએ.

મોડેલ પરિમાણોનો અંદાજ કેવી રીતે કરવો? ત્યાં ઘણી અલગ અંદાજ પદ્ધતિઓ છે - "મહત્તમ સંભાવના પદ્ધતિ", "ક્ષણોની પદ્ધતિ", "અવેજી પદ્ધતિ". જો કે, તમે કોઈપણ વધારાના ભંડોળનો ઉપયોગ કરી શકતા નથી અને પિયર્સન અંતર ઘટાડીને પરિમાણ અંદાજ શોધી શકતા નથી. પૂર્વ-કમ્પ્યુટર યુગમાં, આ અભિગમનો ભાગ્યે જ ઉપયોગ થતો હતો: તે મેન્યુઅલ ગણતરીઓ માટે અસુવિધાજનક છે અને, એક નિયમ તરીકે, વિશ્લેષણાત્મક રીતે ઉકેલી શકાતું નથી. કમ્પ્યુટર પર ગણતરી કરતી વખતે, સંખ્યાત્મક લઘુત્તમીકરણ સામાન્ય રીતે હાથ ધરવા માટે સરળ હોય છે, અને આ પદ્ધતિનો ફાયદો તેની વૈવિધ્યતા છે. તેથી, "ચી-સ્ક્વેર મિનિમાઇઝેશન પદ્ધતિ" અનુસાર, અમે અજ્ઞાત પરિમાણોના મૂલ્યો પસંદ કરીએ છીએ જેથી કરીને પિયર્સન અંતર સૌથી નાનું બને. (માર્ગ દ્વારા, આ અંતરમાં મળેલા લઘુત્તમને સંબંધિત નાના વિસ્થાપન સાથેના ફેરફારોનો અભ્યાસ કરીને, તમે અંદાજની ચોકસાઈના માપનો અંદાજ લગાવી શકો છો: આત્મવિશ્વાસ અંતરાલ બનાવો.) પરિમાણો અને આ લઘુત્તમ અંતર પોતે જ મળી ગયા પછી, તે છે તે પૂરતું નાનું છે કે કેમ તે પ્રશ્નનો જવાબ આપવા માટે ફરીથી જરૂરી છે.

ક્રિયાઓનો સામાન્ય ક્રમ નીચે મુજબ છે:

  1. મોડલ પસંદગી (પૂર્તિકલ્પના H 0).
  2. બિટ્સની પસંદગી અને અવલોકન કરેલ ફ્રીક્વન્સીઝ O i ના વેક્ટરનું નિર્ધારણ.
  3. અજાણ્યા મોડલ પરિમાણોનો અંદાજ અને તેમના માટે આત્મવિશ્વાસના અંતરાલોનું નિર્માણ (ઉદાહરણ તરીકે, ન્યૂનતમ પિયરસન અંતરની શોધ કરીને).
  4. અપેક્ષિત ફ્રીક્વન્સીઝની ગણતરી E i .
  5. પિયર્સન અંતર X 2 ના મળેલ મૂલ્યની chi-square χ 2 crit ના નિર્ણાયક મૂલ્ય સાથે સરખામણી - સૌથી મોટું, જે હજુ પણ બુદ્ધિગમ્ય માનવામાં આવે છે, H 0 સાથે સુસંગત છે. આપણે સમીકરણ ઉકેલીને કોષ્ટકોમાંથી મૂલ્ય χ 2 crit શોધીએ છીએ

P (χ 2 n > χ 2 ક્રિટ)=1-α,

જ્યાં α એ "મહત્વનું સ્તર" અથવા "માપદંડનું કદ" અથવા "પ્રથમ પ્રકારની ભૂલની તીવ્રતા" (સામાન્ય મૂલ્ય α = 0.05) છે.

સામાન્ય રીતે સ્વતંત્રતા n ની ડિગ્રીની સંખ્યા સૂત્રનો ઉપયોગ કરીને ગણવામાં આવે છે

n = (અંકોની સંખ્યા) – 1 – (અંદાજિત કરવાના પરિમાણોની સંખ્યા)

જો X 2 > χ 2 ક્રિટ હોય, તો પૂર્વધારણા H 0 નકારવામાં આવે છે, અન્યથા તે સ્વીકારવામાં આવે છે. α∙100% કિસ્સાઓમાં (એટલે ​​​​કે, ખૂબ જ ભાગ્યે જ), H 0 ને તપાસવાની આ પદ્ધતિ "પ્રથમ પ્રકારની ભૂલ" તરફ દોરી જશે: H 0 ની પૂર્વધારણાને ભૂલથી નકારી કાઢવામાં આવશે.

ઉદાહરણ. 100 બીજની 10 શ્રેણીના અભ્યાસમાં, લીલી આંખોવાળી માખીથી ચેપગ્રસ્ત લોકોની સંખ્યા ગણવામાં આવી હતી. પ્રાપ્ત ડેટા: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

અહીં અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર અગાઉથી અજ્ઞાત છે. જો ડેટા સજાતીય હોય અને દ્વિપદી વિતરણ માટે મેળવેલ હોય, તો એક પરિમાણ અજ્ઞાત છે: ચેપગ્રસ્ત બીજનું પ્રમાણ p. નોંધ કરો કે મૂળ કોષ્ટકમાં વાસ્તવમાં 10 નહીં પરંતુ 20 ફ્રીક્વન્સીઝ છે જે 10 જોડાણોને સંતોષે છે: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

જોડીમાં શબ્દોને જોડીને (જેમ કે સિક્કા સાથેના ઉદાહરણમાં), અમે પીયર્સન માપદંડ લખવાનું સ્વરૂપ મેળવીએ છીએ, જે સામાન્ય રીતે તરત જ લખવામાં આવે છે:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

હવે, જો લઘુત્તમ પિયર્સન અંતરનો ઉપયોગ p ના અંદાજ માટે પદ્ધતિ તરીકે કરવામાં આવે છે, તો તે માટે એક p શોધવું જરૂરી છે જેના માટે X 2 = મિનિટ. (મૉડલ, જો શક્ય હોય તો, પ્રાયોગિક ડેટાને "એડજસ્ટ" કરવાનો પ્રયાસ કરે છે.)

પિયર્સન માપદંડ આંકડાઓમાં વપરાતા તમામમાં સૌથી વધુ સાર્વત્રિક છે. તે અવિભાજ્ય અને બહુવિધ ડેટા, માત્રાત્મક અને ગુણાત્મક સુવિધાઓ પર લાગુ કરી શકાય છે. જો કે, ચોક્કસપણે તેની વૈવિધ્યતાને કારણે, ભૂલો ન થાય તેની કાળજી લેવી જોઈએ.

મહત્વપૂર્ણ મુદ્દાઓ

1. વર્ગોની પસંદગી.

  • જો વિતરણ અલગ હોય, તો સામાન્ય રીતે અંકોની પસંદગીમાં કોઈ મનસ્વીતા હોતી નથી.
  • જો વિતરણ સતત હોય, તો મનસ્વીતા અનિવાર્ય છે. આંકડાકીય રીતે સમકક્ષ બ્લોક્સનો ઉપયોગ કરી શકાય છે (બધા O સમાન છે, ઉદાહરણ તરીકે =10). જો કે, અંતરાલોની લંબાઈ અલગ છે. મેન્યુઅલ ગણતરી કરતી વખતે, તેઓએ અંતરાલ સમાન બનાવવાનો પ્રયાસ કર્યો. અવિભાજ્ય લક્ષણના વિતરણનો અભ્યાસ કરતી વખતે અંતરાલ સમાન હોવા જોઈએ? ના.
  • અંકો એવી રીતે જોડવા જોઈએ કે અપેક્ષિત (અવલોકન ન કરાયેલ!) ફ્રીક્વન્સીઝ બહુ નાની ન હોય (≥5). ચાલો યાદ કરીએ કે X 2 ની ગણતરી કરતી વખતે તેઓ (E i) છેદમાં હોય છે! એક-પરિમાણીય લાક્ષણિકતાઓનું વિશ્લેષણ કરતી વખતે, તેને બે આત્યંતિક અંકો E 1 =E મહત્તમ =1 માં આ નિયમનું ઉલ્લંઘન કરવાની મંજૂરી છે. જો અંકોની સંખ્યા મોટી હોય અને અપેક્ષિત ફ્રીક્વન્સી નજીક હોય, તો X 2 એ E i =2 માટે પણ χ 2 નું સારું અનુમાન છે.

પરિમાણ અંદાજ. "હોમમેઇડ", બિનકાર્યક્ષમ અંદાજ પદ્ધતિઓનો ઉપયોગ પીયર્સન અંતરના મૂલ્યોને વધારી શકે છે.

સ્વતંત્રતાની ડિગ્રીની યોગ્ય સંખ્યા પસંદ કરી રહ્યા છીએ. જો પરિમાણનો અંદાજ ફ્રીક્વન્સીઝથી નહીં, પરંતુ સીધા ડેટામાંથી બનાવવામાં આવે છે (ઉદાહરણ તરીકે, અંકગણિત સરેરાશને સરેરાશના અંદાજ તરીકે લેવામાં આવે છે), તો પછી સ્વતંત્રતા n ની ડિગ્રીની ચોક્કસ સંખ્યા અજાણ છે. અમે માત્ર જાણીએ છીએ કે તે અસમાનતાને સંતોષે છે:

(અંકોની સંખ્યા - 1 - મૂલ્યાંકન કરવામાં આવતા પરિમાણોની સંખ્યા)< n < (число разрядов – 1)

તેથી, n ની આ શ્રેણીમાં ગણતરી કરેલ χ 2 ક્રિટના નિર્ણાયક મૂલ્યો સાથે X 2 ની સરખામણી કરવી જરૂરી છે.

અસ્પષ્ટપણે નાના ચી-સ્ક્વેર મૂલ્યોનું અર્થઘટન કેવી રીતે કરવું?જો સિક્કો 10,000 ટૉસ કર્યા પછી, તે 5,000 વખત કોટ ઓફ આર્મ્સ પર ઉતરે તો તેને સપ્રમાણ ગણવો જોઈએ? અગાઉ, ઘણા આંકડાશાસ્ત્રીઓ માનતા હતા કે H 0 ને પણ નકારી કાઢવો જોઈએ. હવે બીજો અભિગમ પ્રસ્તાવિત છે: H 0 સ્વીકારો, પરંતુ ડેટા અને તેમના વિશ્લેષણ માટેની પદ્ધતિને વધારાની ચકાસણીને આધીન કરો. ત્યાં બે શક્યતાઓ છે: કાં તો પિયર્સનનું અંતર ખૂબ નાનું હોવાનો અર્થ એ છે કે મોડલ પરિમાણોની સંખ્યામાં વધારો સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં યોગ્ય ઘટાડો સાથે થયો ન હતો, અથવા ડેટા પોતે જ ખોટો હતો (કદાચ અજાણતાં અપેક્ષિત રીતે સમાયોજિત કરવામાં આવ્યો હતો. પરિણામ).

ઉદાહરણ.બે સંશોધકો A અને B એ AA * aa મોનોહાઇબ્રિડ ક્રોસની બીજી પેઢીમાં રિસેસિવ હોમોઝાયગોટ્સ aa ના પ્રમાણની ગણતરી કરી. મેન્ડેલના કાયદા અનુસાર, આ અપૂર્ણાંક 0.25 છે. દરેક સંશોધકે 5 પ્રયોગો કર્યા અને દરેક પ્રયોગમાં 100 સજીવોનો અભ્યાસ કરવામાં આવ્યો.

પરિણામો A: 25, 24, 26, 25, 24. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો સાચો છે(?).

પરિણામો B: 29, 21, 23, 30, 19. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો વાજબી નથી(?).

જો કે, મેન્ડેલનો નિયમ આંકડાકીય પ્રકૃતિનો છે, અને પરિણામોનું માત્રાત્મક પૃથ્થકરણ તારણોને ઉલટાવી દે છે! પાંચ પ્રયોગોને એકમાં જોડીને, અમે 5 ડિગ્રી સ્વતંત્રતા સાથે ચી-સ્ક્વેર વિતરણ પર પહોંચીએ છીએ (એક સરળ પૂર્વધારણાનું પરીક્ષણ કરવામાં આવે છે):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

સરેરાશ મૂલ્ય m [χ 2 n =5 ]=5, પ્રમાણભૂત વિચલન σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

તેથી, કોષ્ટકોના સંદર્ભ વિના, તે સ્પષ્ટ છે કે X 2 B નું મૂલ્ય લાક્ષણિક છે, અને X 2 A નું મૂલ્ય અસ્પષ્ટપણે નાનું છે. કોષ્ટકો P અનુસાર (χ 2 n =5<0.16)<0.0001.

આ ઉદાહરણ 1930 ના દાયકામાં બનેલા વાસ્તવિક કેસનું અનુકૂલન છે (કોલ્મોગોરોવનું કાર્ય "મેન્ડેલના કાયદાના અન્ય પુરાવા પર" જુઓ). રસપ્રદ વાત એ છે કે, સંશોધક A જિનેટિક્સના સમર્થક હતા, અને સંશોધક B તેની વિરુદ્ધ હતા.

નોટેશનમાં મૂંઝવણ.ચી-સ્ક્વેર રેન્ડમ ચલની ગાણિતિક વિભાવનામાંથી પિયર્સન અંતરને અલગ પાડવું જરૂરી છે, જેને તેની ગણતરીમાં વધારાના સંમેલનોની જરૂર છે. ચોક્કસ પરિસ્થિતિઓમાં પીયર્સન અંતર સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેરની નજીકનું વિતરણ ધરાવે છે. તેથી, પીયર્સન અંતરને χ 2 n ચિહ્ન દ્વારા દર્શાવવાની સલાહ આપવામાં આવતી નથી, પરંતુ સમાન પરંતુ અલગ સંકેત X 2 નો ઉપયોગ કરવાની સલાહ આપવામાં આવે છે.

પીયર્સન માપદંડ સર્વશક્તિમાન નથી. H 0 માટે અસંખ્ય વિકલ્પો છે જેને તે ધ્યાનમાં લેવામાં અસમર્થ છે. ધારો કે તમે અનુમાનનું પરીક્ષણ કરી રહ્યાં છો કે લક્ષણનું સમાન વિતરણ છે, તમારી પાસે 10 અંકો છે અને અવલોકન કરેલ ફ્રીક્વન્સીઝનું વેક્ટર (130,125,121,118,116,115,114,113,111,110) બરાબર છે. પીયર્સન માપદંડ "નોટિસ" કરી શકતું નથી કે ફ્રીક્વન્સી એકવિધ રીતે ઘટી રહી છે અને H 0 નકારવામાં આવશે નહીં. જો તે શ્રેણીના માપદંડ સાથે પૂરક હોત, તો હા!

જૈવિક સંશોધનની પ્રેક્ટિસમાં, ઘણીવાર એક અથવા બીજી પૂર્વધારણાનું પરીક્ષણ કરવું જરૂરી છે, એટલે કે, પ્રયોગકર્તા દ્વારા મેળવેલી વાસ્તવિક સામગ્રી સૈદ્ધાંતિક ધારણાને કેટલી હદ સુધી પુષ્ટિ આપે છે તે શોધવા માટે, અને વિશ્લેષણ કરાયેલ ડેટા સૈદ્ધાંતિક રીતે અપેક્ષિત સાથે કેટલી હદ સુધી સુસંગત છે. રાશિઓ વાસ્તવિક ડેટા અને સૈદ્ધાંતિક અપેક્ષા વચ્ચેના તફાવતનું આંકડાકીય રીતે મૂલ્યાંકન કરવાનું કાર્ય ઉદ્ભવે છે, કયા કિસ્સાઓમાં અને કયા ડિગ્રીની સંભાવના સાથે આ તફાવતને વિશ્વસનીય ગણી શકાય અને, તેનાથી વિપરીત, જ્યારે તેને તકની મર્યાદામાં મામૂલી, મામૂલી ગણવું જોઈએ. પછીના કિસ્સામાં, પૂર્વધારણા જાળવી રાખવામાં આવે છે, જેના આધારે સૈદ્ધાંતિક રીતે અપેક્ષિત ડેટા અથવા સૂચકાંકોની ગણતરી કરવામાં આવે છે. પૂર્વધારણાને ચકાસવા માટેની આવી વૈવિધ્યસભર-આંકડાકીય તકનીક પદ્ધતિ છે ચી-ચોરસ (χ 2). આ માપને ઘણીવાર "ફીટ માપદંડ" અથવા "પિયર્સનની સારી-સુવિધા-યોગ્ય કસોટી" કહેવામાં આવે છે. તેની સહાયથી, કોઈ પણ વ્યક્તિ, વિવિધ સંભાવનાઓ સાથે, સૈદ્ધાંતિક રીતે અપેક્ષિત લોકો સાથે પ્રાયોગિક રીતે મેળવેલા ડેટાના પત્રવ્યવહારની ડિગ્રી નક્કી કરી શકે છે.

ઔપચારિક દૃષ્ટિકોણથી, બે વિવિધતા શ્રેણી, બે વસ્તીની તુલના કરવામાં આવે છે: એક પ્રયોગમૂલક વિતરણ છે, અન્ય સમાન પરિમાણો સાથેનો નમૂનો છે ( n, એમ, એસવગેરે) એ પ્રયોગમૂલક સમાન છે, પરંતુ તેનું આવર્તન વિતરણ પસંદ કરેલા સૈદ્ધાંતિક કાયદા (સામાન્ય, પોઈસન, દ્વિપદી, વગેરે) અનુસાર સખત રીતે બાંધવામાં આવ્યું છે, જે અભ્યાસ હેઠળના રેન્ડમ ચલની વર્તણૂકનું પાલન કરવાનું માનવામાં આવે છે. .

સામાન્ય રીતે, પાલન માપદંડ માટે સૂત્ર નીચે પ્રમાણે લખી શકાય છે:

જ્યાં a -અવલોકનોની વાસ્તવિક આવર્તન,

એ -આપેલ વર્ગ માટે સૈદ્ધાંતિક રીતે અપેક્ષિત આવર્તન.

નલ પૂર્વધારણા ધારે છે કે તુલનાત્મક વિતરણો વચ્ચે કોઈ નોંધપાત્ર તફાવત નથી. આ તફાવતોના મહત્વનું મૂલ્યાંકન કરવા માટે, તમારે જટિલ ચી-સ્ક્વેર મૂલ્યોના વિશેષ કોષ્ટકનો સંદર્ભ લેવો જોઈએ (કોષ્ટક 9 પી) અને, ગણતરી કરેલ મૂલ્યની તુલના χ કોષ્ટક સાથે 2, નક્કી કરો કે પ્રયોગમૂલક વિતરણ સૈદ્ધાંતિક વિતરણથી વિશ્વસનીય છે કે અવિશ્વસનીય રીતે વિચલિત થાય છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને કાં તો રદિયો આપવામાં આવશે અથવા અમલમાં મૂકવામાં આવશે. જો ગણતરી કરેલ મૂલ્ય χ 2 કોષ્ટકની બરાબર અથવા તેનાથી વધી જાય છે χ ² ( α , ડીએફ), નક્કી કરો કે પ્રાયોગિક વિતરણ સૈદ્ધાંતિક કરતાં નોંધપાત્ર રીતે અલગ છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને રદિયો આપવામાં આવશે. જો χ ² < χ ² ( α , ડીએફ), શૂન્ય પૂર્વધારણા માન્ય રહે છે. તે સામાન્ય રીતે સ્વીકારવામાં આવે છે કે સ્વીકાર્ય સ્તરનું મહત્વ α = 0.05, કારણ કે આ કિસ્સામાં શૂન્ય પૂર્વધારણા સાચી હોવાની માત્ર 5% તક છે અને તેથી, તેને નકારવા માટે પૂરતું કારણ (95%) છે.


ચોક્કસ સમસ્યા એ સ્વતંત્રતાની ડિગ્રીની સંખ્યાનું યોગ્ય નિર્ધારણ છે ( ડીએફ), જેના માટે માપદંડ મૂલ્યો કોષ્ટકમાંથી લેવામાં આવે છે. વર્ગોની કુલ સંખ્યામાંથી સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરવા kતમારે અવરોધોની સંખ્યા બાદ કરવાની જરૂર છે (એટલે ​​​​કે સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરી કરવા માટે વપરાતા પરિમાણોની સંખ્યા).

અભ્યાસ કરવામાં આવતી લાક્ષણિકતાના વિતરણના પ્રકાર પર આધાર રાખીને, સ્વતંત્રતાની ડિગ્રીની સંખ્યાની ગણતરી માટેનું સૂત્ર બદલાશે. માટે વૈકલ્પિકવિતરણ ( k= 2) માત્ર એક પરિમાણ (નમૂનાનું કદ) ગણતરીમાં સામેલ છે, તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−1=2−1=1. માટે બહુપદીવિતરણ સૂત્ર સમાન છે: ડીએફ= k−1. વિતરણ માટે વિવિધતા શ્રેણીના પત્રવ્યવહારને તપાસવા માટે પોઈસનબે પરિમાણો પહેલેથી ઉપયોગમાં લેવાય છે - નમૂનાનું કદ અને સરેરાશ મૂલ્ય (સંખ્યાત્મક રીતે વિક્ષેપ સાથે સુસંગત); સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−2. પ્રયોગમૂલક વિતરણની સુસંગતતા તપાસતી વખતે, વિકલ્પ સામાન્યઅથવા દ્વિપદીકાયદા અનુસાર, સ્વતંત્રતાની ડિગ્રીની સંખ્યાને શ્રેણીના નિર્માણ માટે વાસ્તવિક વર્ગો બાદની ત્રણ શરતો તરીકે લેવામાં આવે છે - નમૂનાનું કદ, સરેરાશ અને વિચલન, ડીએફ= k−3. તે તરત જ નોંધવું યોગ્ય છે કે χ² માપદંડ ફક્ત નમૂનાઓ માટે જ કાર્ય કરે છે ઓછામાં ઓછા 25 પ્રકારનું વોલ્યુમ, અને વ્યક્તિગત વર્ગોની ફ્રીક્વન્સી હોવી જોઈએ 4 કરતા ઓછું નથી.

પ્રથમ, અમે વિશ્લેષણના ઉદાહરણનો ઉપયોગ કરીને ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ સમજાવીએ છીએ વૈકલ્પિક પરિવર્તનશીલતા. ટામેટાંની આનુવંશિકતાનો અભ્યાસ કરવાના એક પ્રયોગમાં 3629 લાલ અને 1176 પીળા ફળો મળી આવ્યા હતા. બીજી હાઇબ્રિડ જનરેશનમાં અક્ષરોના વિભાજન માટે ફ્રીક્વન્સીઝનો સૈદ્ધાંતિક ગુણોત્તર 3:1 (75% થી 25%) હોવો જોઈએ. શું તેનો અમલ થઈ રહ્યો છે? બીજા શબ્દોમાં કહીએ તો, શું આ નમૂનો એવી વસ્તીમાંથી લેવામાં આવ્યો છે જેમાં આવર્તન ગુણોત્તર 3:1 અથવા 0.75:0.25 છે?

ચાલો એક કોષ્ટક બનાવીએ (કોષ્ટક 4), પ્રયોગમૂલક ફ્રીક્વન્સીઝના મૂલ્યો અને સૂત્રનો ઉપયોગ કરીને સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરીના પરિણામો ભરીને:

A = n∙p,

જ્યાં પી- સૈદ્ધાંતિક ફ્રીક્વન્સીઝ (આ પ્રકારના વેરિઅન્ટના અપૂર્ણાંક),

n -નમૂનાનું કદ.

ઉદાહરણ તરીકે, 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!
પણ વાંચો