1. તુલનાત્મક સૂચકાંકો માપવામાં આવશ્યક છે નજીવા સ્કેલ(ઉદાહરણ તરીકે, દર્દીનું લિંગ પુરુષ કે સ્ત્રી છે) અથવા માં ક્રમબદ્ધ(ઉદાહરણ તરીકે, ધમનીના હાયપરટેન્શનની ડિગ્રી, 0 થી 3 સુધીના મૂલ્યો લેતી).
2. આ પદ્ધતિજ્યારે પરિબળ અને પરિણામ બંને દ્વિસંગી ચલો છે, એટલે કે, તેમની પાસે માત્ર બે જ છે શક્ય મૂલ્યો(ઉદાહરણ તરીકે, પુરૂષ અથવા સ્ત્રી લિંગ, એનામેનેસિસમાં ચોક્કસ રોગની હાજરી અથવા ગેરહાજરી...). જ્યારે પરિબળ અને (અથવા) પરિણામ ત્રણ અથવા વધુ મૂલ્યો લે છે ત્યારે પીયર્સન ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ મલ્ટિ-ફિલ્ડ કોષ્ટકોના વિશ્લેષણના કિસ્સામાં પણ થઈ શકે છે.
3. તુલનાત્મક જૂથો સ્વતંત્ર હોવા જોઈએ, એટલે કે, "પહેલાં-પછી" અવલોકનોની સરખામણી કરતી વખતે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ થવો જોઈએ નહીં. મેકનેમર ટેસ્ટ(બે સંબંધિત વસ્તીની સરખામણી કરતી વખતે) અથવા ગણતરી કરેલ કોકરાનની ક્યૂ ટેસ્ટ(ત્રણ અથવા વધુ જૂથોની સરખામણીના કિસ્સામાં).
4. ચાર-ક્ષેત્ર કોષ્ટકોનું વિશ્લેષણ કરતી વખતે અપેક્ષિત મૂલ્યોદરેક કોષમાં ઓછામાં ઓછા 10 હોવા જોઈએ. જો ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટના 5 થી 9 સુધીનું મૂલ્ય લે છે, તો ચી-સ્ક્વેર ટેસ્ટની ગણતરી કરવી આવશ્યક છે યેટ્સના સુધારા સાથે. જો ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટના 5 કરતા ઓછી હોય, તો વિશ્લેષણનો ઉપયોગ કરવો જોઈએ ફિશરની ચોક્કસ કસોટી.
5. મલ્ટિફિલ્ડ કોષ્ટકોનું વિશ્લેષણ કરતી વખતે, 20% કરતા વધુ કોષોમાં અવલોકનોની અપેક્ષિત સંખ્યા 5 કરતા ઓછી હોવી જોઈએ નહીં.
ચી-સ્ક્વેર ટેસ્ટની ગણતરી કરવા માટે તમારે આની જરૂર છે:
1. અવલોકનોની અપેક્ષિત સંખ્યાની ગણતરી કરોપંક્તિઓ અને કૉલમના સરવાળાને ગુણાકાર કરીને અને પછી પરિણામી ઉત્પાદનને વિભાજીત કરીને કુલ સંખ્યાઅવલોકનો સામાન્ય દૃશ્યઅપેક્ષિત મૂલ્યોનું કોષ્ટક નીચે પ્રસ્તુત છે:
ત્યાં એક પરિણામ છે (1) | કોઈ પરિણામ નથી (0) | કુલ | |
એક જોખમ પરિબળ છે (1) | (A+B)*(A+C) / (A+B+C+D) | (A+B)*(B+D)/ (A+B+C+D) | A+B |
કોઈ જોખમ પરિબળ નથી (0) | (C+D)*(A+C)/ (A+B+C+D) | (C+D)*(B+D)/ (A+B+C+D) | C+D |
કુલ | A+C | B+D | A+B+C+D |
2. χ 2 માપદંડની કિંમત શોધવીદ્વારા નીચેનું સૂત્ર:
જ્યાં i- લાઇન નંબર (1 થી આર સુધી), j- કૉલમ નંબર (1 થી c સુધી), ઓ આઈજી- સેલ ij માં અવલોકનોની વાસ્તવિક સંખ્યા, ઇ આઇ.જી- સેલ ij માં અવલોકનોની અપેક્ષિત સંખ્યા.
ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટનાની સંખ્યા 10 કરતા ઓછી હોય તેવા કિસ્સામાં, ચાર-ક્ષેત્ર કોષ્ટકોનું વિશ્લેષણ કરતી વખતે, તેની ગણતરી કરવી જોઈએ. યેટ્સ કરેક્શન સાથે ચી-સ્ક્વેર ટેસ્ટ. આ સુધારો પ્રકાર 1 ભૂલની સંભાવનાને ઘટાડે છે, એટલે કે, જ્યાં કોઈ ન હોય ત્યાં તફાવતો શોધવા. યેટ્સ કરેક્શન માંથી 0.5 બાદ કરવાનું છે સંપૂર્ણ મૂલ્યદરેક કોષમાં અવલોકનોની વાસ્તવિક અને અપેક્ષિત સંખ્યા વચ્ચેનો તફાવત, જે ચી-સ્ક્વેર ટેસ્ટના મૂલ્યમાં ઘટાડો તરફ દોરી જાય છે.
યેટ્સ કરેક્શન સાથે χ 2 માપદંડની ગણતરી માટેનું સૂત્ર નીચે મુજબ છે:
3. સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરવીસૂત્ર અનુસાર: f = (r – 1) × (c – 1). તદનુસાર, 2 પંક્તિઓ (r = 2) અને 2 કૉલમ (c = 2) સાથેના ચાર-ક્ષેત્રના કોષ્ટક માટે, સ્વતંત્રતાની ડિગ્રીની સંખ્યા f 2x2 = (2 - 1)*(2 - 1) = 1 છે.
4. અમે χ 2 માપદંડના મૂલ્યને નિર્ણાયક મૂલ્ય સાથે સરખાવીએ છીએસ્વતંત્રતા f ની ડિગ્રીની સંખ્યા પર (કોષ્ટક મુજબ).
આ અલ્ગોરિધમચાર-ક્ષેત્ર અને મલ્ટી-ફિલ્ડ કોષ્ટકો બંને માટે લાગુ.
પીયર્સન ચી-સ્ક્વેર ટેસ્ટના મૂલ્યનું અર્થઘટન કેવી રીતે કરવું?
જો χ 2 માપદંડનું પ્રાપ્ત મૂલ્ય નિર્ણાયક મૂલ્ય કરતાં વધારે હોય, તો અમે તારણ કાઢીએ છીએ કે અભ્યાસ કરેલ જોખમ પરિબળ અને મહત્વના યોગ્ય સ્તરે પરિણામ વચ્ચે આંકડાકીય સંબંધ છે.
પિયર્સન ચી-સ્ક્વેર ટેસ્ટની ગણતરીનું ઉદાહરણ
ચાલો વ્યાખ્યાયિત કરીએ આંકડાકીય મહત્વઉપર ચર્ચા કરેલ કોષ્ટક અનુસાર ધમનીના હાયપરટેન્શનની ઘટનાઓ પર ધૂમ્રપાન પરિબળનો પ્રભાવ:
1. દરેક કોષ માટે અપેક્ષિત મૂલ્યોની ગણતરી કરો:
2. પીયર્સન ચી-સ્ક્વેર ટેસ્ટનું મૂલ્ય શોધો:
χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.
3. સ્વતંત્રતાની ડિગ્રીની સંખ્યા f = (2-1)*(2-1) = 1. કોષ્ટકમાંથી શોધો નિર્ણાયક મૂલ્યપીયર્સનનો ચી-સ્ક્વેર ટેસ્ટ, જે p=0.05 ના મહત્વના સ્તરે અને 1 ની સ્વતંત્રતાની ડિગ્રીની સંખ્યા 3.841 છે.
4. અમે ચી-સ્ક્વેર ટેસ્ટના મેળવેલ મૂલ્યની નિર્ણાયક સાથે સરખામણી કરીએ છીએ: 4.396 > 3.841, તેથી, ધૂમ્રપાનની હાજરી પર ધમનીના હાયપરટેન્શનની ઘટનાઓની અવલંબન આંકડાકીય રીતે નોંધપાત્ર છે. આ સંબંધનું મહત્વ સ્તર p ને અનુરૂપ છે<0.05.
સ્વતંત્રતાની ડિગ્રીની સંખ્યા, એફ | p=0.05 પર χ 2 | p=0.01 પર χ 2 |
3.841 | 6.635 | |
5.991 | 9.21 | |
7.815 | 11.345 | |
9.488 | 13.277 | |
11.07 | 15.086 | |
12.592 | 16.812 | |
14.067 | 18.475 | |
15.507 | 20.09 | |
16.919 | 21.666 | |
18.307 | 23.209 | |
19.675 | 24.725 | |
21.026 | 26.217 | |
22.362 | 27.688 | |
23.685 | 29.141 | |
24.996 | 30.578 | |
26.296 | ||
27.587 | 33.409 | |
28.869 | 34.805 | |
30.144 | 36.191 | |
31.41 | 37.566 |
જૈવિક સંશોધનની પ્રેક્ટિસમાં, ઘણીવાર એક અથવા બીજી પૂર્વધારણાનું પરીક્ષણ કરવું જરૂરી છે, એટલે કે, પ્રયોગકર્તા દ્વારા મેળવેલી વાસ્તવિક સામગ્રી સૈદ્ધાંતિક ધારણાને કેટલી હદ સુધી પુષ્ટિ આપે છે તે શોધવા માટે, અને વિશ્લેષણ કરાયેલ ડેટા સૈદ્ધાંતિક રીતે અપેક્ષિત સાથે કેટલી હદ સુધી સુસંગત છે. રાશિઓ વાસ્તવિક ડેટા અને સૈદ્ધાંતિક અપેક્ષા વચ્ચેના તફાવતનું આંકડાકીય રીતે મૂલ્યાંકન કરવાનું કાર્ય ઉદ્ભવે છે, કયા કિસ્સાઓમાં અને કયા ડિગ્રીની સંભાવના સાથે આ તફાવતને વિશ્વસનીય ગણી શકાય અને, તેનાથી વિપરીત, જ્યારે તેને તકની મર્યાદામાં મામૂલી, મામૂલી ગણવું જોઈએ. પછીના કિસ્સામાં, પૂર્વધારણા જાળવી રાખવામાં આવે છે, જેના આધારે સૈદ્ધાંતિક રીતે અપેક્ષિત ડેટા અથવા સૂચકાંકોની ગણતરી કરવામાં આવે છે. પૂર્વધારણાને ચકાસવા માટેની આવી વૈવિધ્યસભર-આંકડાકીય તકનીક પદ્ધતિ છે ચી-ચોરસ (χ 2). આ માપને ઘણીવાર "ફીટ માપદંડ" અથવા "પિયર્સનની સારી-સુવિધા-યોગ્ય કસોટી" કહેવામાં આવે છે. તેની સહાયથી, કોઈ પણ વ્યક્તિ, વિવિધ સંભાવનાઓ સાથે, સૈદ્ધાંતિક રીતે અપેક્ષિત લોકો સાથે પ્રાયોગિક રીતે મેળવેલા ડેટાના પત્રવ્યવહારની ડિગ્રી નક્કી કરી શકે છે.
ઔપચારિક દૃષ્ટિકોણથી, બે વિવિધતા શ્રેણી, બે વસ્તીની તુલના કરવામાં આવે છે: એક પ્રયોગમૂલક વિતરણ છે, અન્ય સમાન પરિમાણો સાથેનો નમૂનો છે ( n, એમ, એસવગેરે) એ પ્રયોગમૂલક સમાન છે, પરંતુ તેનું આવર્તન વિતરણ પસંદ કરેલા સૈદ્ધાંતિક કાયદા (સામાન્ય, પોઈસન, દ્વિપદી, વગેરે) અનુસાર સખત રીતે બાંધવામાં આવ્યું છે, જે અભ્યાસ હેઠળના રેન્ડમ ચલની વર્તણૂકનું પાલન કરવાનું માનવામાં આવે છે. .
સામાન્ય રીતે, પાલન માપદંડ માટે સૂત્ર નીચે પ્રમાણે લખી શકાય છે:
જ્યાં a -અવલોકનોની વાસ્તવિક આવર્તન,
એ -આપેલ વર્ગ માટે સૈદ્ધાંતિક રીતે અપેક્ષિત આવર્તન.
નલ પૂર્વધારણા ધારે છે કે તુલનાત્મક વિતરણો વચ્ચે કોઈ નોંધપાત્ર તફાવત નથી. આ તફાવતોના મહત્વનું મૂલ્યાંકન કરવા માટે, તમારે જટિલ ચી-સ્ક્વેર મૂલ્યોના વિશેષ કોષ્ટકનો સંદર્ભ લેવો જોઈએ (કોષ્ટક 9 પી) અને, ગણતરી કરેલ મૂલ્યની તુલના χ કોષ્ટક સાથે 2, નક્કી કરો કે પ્રયોગમૂલક વિતરણ સૈદ્ધાંતિક વિતરણથી વિશ્વસનીય છે કે અવિશ્વસનીય રીતે વિચલિત થાય છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને કાં તો રદિયો આપવામાં આવશે અથવા અમલમાં મૂકવામાં આવશે. જો ગણતરી કરેલ મૂલ્ય χ 2 કોષ્ટકની બરાબર અથવા તેનાથી વધી જાય છે χ ² ( α , ડીએફ), નક્કી કરો કે પ્રાયોગિક વિતરણ સૈદ્ધાંતિક કરતાં નોંધપાત્ર રીતે અલગ છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને રદિયો આપવામાં આવશે. જો χ ² < χ ² ( α , ડીએફ), શૂન્ય પૂર્વધારણા માન્ય રહે છે. તે સામાન્ય રીતે સ્વીકારવામાં આવે છે કે સ્વીકાર્ય સ્તરનું મહત્વ α = 0.05, કારણ કે આ કિસ્સામાં શૂન્ય પૂર્વધારણા સાચી હોવાની માત્ર 5% તક છે અને તેથી, તેને નકારવા માટે પૂરતું કારણ (95%) છે.
ચોક્કસ સમસ્યા એ સ્વતંત્રતાની ડિગ્રીની સંખ્યાનું યોગ્ય નિર્ધારણ છે ( ડીએફ), જેના માટે માપદંડ મૂલ્યો કોષ્ટકમાંથી લેવામાં આવે છે. વર્ગોની કુલ સંખ્યામાંથી સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરવા kતમારે અવરોધોની સંખ્યા બાદ કરવાની જરૂર છે (એટલે કે સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરી કરવા માટે વપરાતા પરિમાણોની સંખ્યા).
અભ્યાસ કરવામાં આવતી લાક્ષણિકતાના વિતરણના પ્રકાર પર આધાર રાખીને, સ્વતંત્રતાની ડિગ્રીની સંખ્યાની ગણતરી માટેનું સૂત્ર બદલાશે. માટે વૈકલ્પિકવિતરણ ( k= 2) માત્ર એક પરિમાણ (નમૂનાનું કદ) ગણતરીમાં સામેલ છે, તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−1=2−1=1. માટે બહુપદીવિતરણ સૂત્ર સમાન છે: ડીએફ= k−1. વિતરણ માટે વિવિધતા શ્રેણીના પત્રવ્યવહારને તપાસવા માટે પોઈસનબે પરિમાણો પહેલેથી ઉપયોગમાં લેવાય છે - નમૂનાનું કદ અને સરેરાશ મૂલ્ય (સંખ્યાત્મક રીતે વિક્ષેપ સાથે સુસંગત); સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−2. પ્રયોગમૂલક વિતરણની સુસંગતતા તપાસતી વખતે, વિકલ્પ સામાન્યઅથવા દ્વિપદીકાયદા અનુસાર, સ્વતંત્રતાની ડિગ્રીની સંખ્યાને શ્રેણીના નિર્માણ માટે વાસ્તવિક વર્ગો બાદની ત્રણ શરતો તરીકે લેવામાં આવે છે - નમૂનાનું કદ, સરેરાશ અને વિચલન, ડીએફ= k−3. તે તરત જ નોંધવું યોગ્ય છે કે χ² માપદંડ ફક્ત નમૂનાઓ માટે જ કાર્ય કરે છે ઓછામાં ઓછા 25 પ્રકારનું વોલ્યુમ, અને વ્યક્તિગત વર્ગોની ફ્રીક્વન્સી હોવી જોઈએ 4 કરતા ઓછું નથી.
પ્રથમ, અમે વિશ્લેષણના ઉદાહરણનો ઉપયોગ કરીને ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ સમજાવીએ છીએ વૈકલ્પિક પરિવર્તનશીલતા. ટામેટાંની આનુવંશિકતાનો અભ્યાસ કરવાના એક પ્રયોગમાં 3629 લાલ અને 1176 પીળા ફળો મળી આવ્યા હતા. બીજી હાઇબ્રિડ જનરેશનમાં અક્ષરોના વિભાજન માટે ફ્રીક્વન્સીઝનો સૈદ્ધાંતિક ગુણોત્તર 3:1 (75% થી 25%) હોવો જોઈએ. શું તેનો અમલ થઈ રહ્યો છે? બીજા શબ્દોમાં કહીએ તો, શું આ નમૂનો એવી વસ્તીમાંથી લેવામાં આવ્યો છે જેમાં આવર્તન ગુણોત્તર 3:1 અથવા 0.75:0.25 છે?
ચાલો એક કોષ્ટક બનાવીએ (કોષ્ટક 4), પ્રયોગમૂલક ફ્રીક્વન્સીઝના મૂલ્યો અને સૂત્રનો ઉપયોગ કરીને સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરીના પરિણામો ભરીને:
A = n∙p,
જ્યાં પી- સૈદ્ધાંતિક ફ્રીક્વન્સીઝ (આ પ્રકારના વેરિઅન્ટના અપૂર્ણાંક),
n -નમૂનાનું કદ.
ઉદાહરણ તરીકે, એ 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.
રશિયન ફેડરેશનના શિક્ષણ અને વિજ્ઞાન મંત્રાલય
ઇર્કુત્સ્ક શહેરની શિક્ષણ માટેની ફેડરલ એજન્સી
બૈકલ સ્ટેટ યુનિવર્સિટી ઓફ ઇકોનોમિક્સ એન્ડ લો
ઇન્ફોર્મેટિક્સ અને સાયબરનેટિક્સ વિભાગ
ચી-સ્ક્વેર વિતરણ અને તેની એપ્લિકેશનો
કોલ્મીકોવા અન્ના એન્ડ્રીવના
2 જી વર્ષનો વિદ્યાર્થી
જૂથ IS-09-1
પ્રાપ્ત ડેટા પર પ્રક્રિયા કરવા માટે અમે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીએ છીએ.
આ કરવા માટે, અમે પ્રયોગમૂલક ફ્રીક્વન્સીઝના વિતરણનું ટેબલ બનાવીશું, એટલે કે. તે ફ્રીક્વન્સીઝ કે જે આપણે અવલોકન કરીએ છીએ:
સૈદ્ધાંતિક રીતે, અમે અપેક્ષા રાખીએ છીએ કે ફ્રીક્વન્સી સમાન રીતે વિતરિત કરવામાં આવશે, એટલે કે. આવર્તન છોકરાઓ અને છોકરીઓ વચ્ચે પ્રમાણસર વહેંચવામાં આવશે. ચાલો સૈદ્ધાંતિક ફ્રીક્વન્સીઝનું ટેબલ બનાવીએ. આ કરવા માટે, પંક્તિના સરવાળાને કૉલમના સરવાળા વડે ગુણાકાર કરો અને પરિણામી સંખ્યાને કુલ સરવાળા (ઓ) વડે વિભાજીત કરો.
ગણતરીઓ માટેનું અંતિમ કોષ્ટક આના જેવું દેખાશે:
χ2 = ∑(E - T)² / T
n = (R - 1), જ્યાં R એ કોષ્ટકમાં પંક્તિઓની સંખ્યા છે.
અમારા કિસ્સામાં, ચી-સ્ક્વેર = 4.21; n = 2.
માપદંડના નિર્ણાયક મૂલ્યોના કોષ્ટકનો ઉપયોગ કરીને, અમે શોધીએ છીએ: n = 2 અને 0.05 ના ભૂલ સ્તર સાથે, નિર્ણાયક મૂલ્ય χ2 = 5.99 છે.
પરિણામી મૂલ્ય નિર્ણાયક મૂલ્ય કરતાં ઓછું છે, જેનો અર્થ છે કે નલ પૂર્વધારણા સ્વીકારવામાં આવે છે.
નિષ્કર્ષ: શિક્ષકો બાળકની લાક્ષણિકતાઓ લખતી વખતે તેના લિંગને મહત્વ આપતા નથી.
અરજી
χ2 વિતરણના નિર્ણાયક બિંદુઓ
કોષ્ટક 1
નિષ્કર્ષ
લગભગ તમામ વિશેષતાઓના વિદ્યાર્થીઓ ઉચ્ચ ગણિતના અભ્યાસક્રમના અંતે "સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા" વિભાગનો અભ્યાસ કરે છે, વાસ્તવમાં, તેઓ ફક્ત કેટલાક મૂળભૂત ખ્યાલો અને પરિણામોથી પરિચિત થાય છે, જે સ્પષ્ટપણે વ્યવહારિક કાર્ય માટે પૂરતા નથી. વિદ્યાર્થીઓને વિશેષ અભ્યાસક્રમોમાં કેટલીક ગાણિતિક સંશોધન પદ્ધતિઓનો પરિચય આપવામાં આવે છે (ઉદાહરણ તરીકે, “આગાહી અને તકનીકી અને આર્થિક આયોજન”, “તકનીકી અને આર્થિક વિશ્લેષણ”, “ઉત્પાદન ગુણવત્તા નિયંત્રણ”, “માર્કેટિંગ”, “નિયંત્રણ”, “આગાહીની ગાણિતિક પદ્ધતિઓ ")", "આંકડાશાસ્ત્ર", વગેરે. - આર્થિક વિશેષતાના વિદ્યાર્થીઓના કિસ્સામાં), જો કે, મોટાભાગના કિસ્સાઓમાં પ્રસ્તુતિ ખૂબ જ સંક્ષિપ્ત અને ફોર્મ્યુલાયુક્ત પ્રકૃતિની હોય છે. પરિણામે, લાગુ આંકડાશાસ્ત્રીઓનું જ્ઞાન અપૂરતું છે.
તેથી, ટેકનિકલ યુનિવર્સિટીઓમાં "એપ્લાઇડ સ્ટેટિસ્ટિક્સ" કોર્સ ખૂબ મહત્વ ધરાવે છે, અને આર્થિક યુનિવર્સિટીઓમાં "ઇકોનોમેટ્રિક્સ" કોર્સ, કારણ કે અર્થમેટ્રિક્સ, જેમ જાણીતું છે, ચોક્કસ આર્થિક ડેટાનું આંકડાકીય વિશ્લેષણ છે.
સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા લાગુ આંકડાઓ અને અર્થમિતિશાસ્ત્ર માટે મૂળભૂત જ્ઞાન પ્રદાન કરે છે.
તેઓ વ્યવહારુ કાર્ય માટે નિષ્ણાતો માટે જરૂરી છે.
મેં સતત પ્રોબેબિલિસ્ટિક મોડલ જોયું અને ઉદાહરણો સાથે તેનો ઉપયોગ બતાવવાનો પ્રયાસ કર્યો.
વપરાયેલ સાહિત્યની સૂચિ
1. ઓર્લોવ એ.આઈ. લાગુ આંકડા. એમ.: પબ્લિશિંગ હાઉસ "પરીક્ષા", 2004.
2. Gmurman V.E. સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા. એમ.: ઉચ્ચ શાળા, 1999. - 479 પૃષ્ઠ.
3. Ayvozyan S.A. સંભાવના સિદ્ધાંત અને લાગુ આંકડા, વોલ્યુમ 1. એમ.: યુનિટી, 2001. - 656 પૃષ્ઠ.
4. ખામિટોવ જી.પી., વેડેર્નિકોવા ટી.આઈ. સંભાવનાઓ અને આંકડા. ઇર્કુત્સ્ક: BGUEP, 2006 – 272 p.
5. એઝોવા એલ.એન. ઇકોનોમેટ્રિક્સ. ઇર્કુત્સ્ક: BGUEP, 2002. – 314 p.
6. મોસ્ટેલર એફ. ઉકેલો સાથે પચાસ મનોરંજક સંભવિત સમસ્યાઓ. એમ.: નૌકા, 1975. - 111 પૃષ્ઠ.
7. મોસ્ટેલર એફ. સંભાવના. એમ.: મીર, 1969. - 428 પૃષ્ઠ.
8. યાગ્લોમ એ.એમ. સંભાવના અને માહિતી. એમ.: નૌકા, 1973. - 511 પૃષ્ઠ.
9. ચિસ્ત્યાકોવ વી.પી. સંભાવના સિદ્ધાંત કોર્સ. એમ.: નૌકા, 1982. - 256 પૃષ્ઠ.
10. ક્રેમર N.Sh. સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા. એમ.: યુનિટી, 2000. - 543 પૃષ્ઠ.
11. ગાણિતિક જ્ઞાનકોશ, ભાગ 1. એમ.: સોવિયેત જ્ઞાનકોશ, 1976. - 655 પૃષ્ઠ.
12. http://psystat.at.ua/ - મનોવિજ્ઞાન અને શિક્ષણ શાસ્ત્રમાં આંકડા. લેખ ચી-સ્ક્વેર ટેસ્ટ.
માપદંડનું વર્ણન
માપદંડનો હેતુ
પીયર્સનની ચી-સ્ક્વેર ટેસ્ટ
વ્યાખ્યાન સામગ્રી
વિષય 6. લક્ષણના વિતરણમાં તફાવતોને ઓળખવા
પીયર્સન માપદંડ: માપદંડનો હેતુ, તેનું વર્ણન, એપ્લિકેશનનો અવકાશ, ગણતરી અલ્ગોરિધમ.
જથ્થાત્મક માપનના પરિણામોની તુલના કરવા માટે કોલ્મોગોરોવ-સ્મિરનોવ માપદંડ: માપદંડનો હેતુ, તેનું વર્ણન, એપ્લિકેશનનો અવકાશ, ગણતરી અલ્ગોરિધમ.
આ વિષયનો અભ્યાસ કરતી વખતે, તે ધ્યાનમાં લેવું જરૂરી છે કે બંને માપદંડ નોનપેરામેટ્રિક છે તેઓ ફ્રીક્વન્સીઝ સાથે કાર્ય કરે છે. ધ્યાનમાં લેવાયેલા માપદંડ માટે નિર્ણયના નિયમો પર વિશેષ ધ્યાન આપો: આ નિયમો વિરુદ્ધ હોઈ શકે છે. કૃપા કરીને માપદંડની અરજીમાં મર્યાદાઓની કાળજીપૂર્વક સમીક્ષા કરો.
વ્યાખ્યાન સામગ્રીનો અભ્યાસ કર્યા પછી, પરીક્ષણ પ્રશ્નોના જવાબ આપો અને તમારી નોંધોમાં જવાબો લખો.
પીયર્સન ચી-સ્ક્વેર ટેસ્ટ વિતરણની સરખામણી સહિત અનેક સમસ્યાઓનું નિરાકરણ લાવી શકે છે.
χ 2 પરીક્ષણનો ઉપયોગ બે હેતુઓ માટે થાય છે;
1) સરખામણી માટે પ્રયોગમૂલકસાથે લાક્ષણિકતાનું વિતરણ સૈદ્ધાંતિક -સમાન, સામાન્ય અથવા અન્યથા;
2) સરખામણી માટે બે, ત્રણ અથવા વધુ પ્રયોગમૂલકસમાન લાક્ષણિકતાના વિતરણો, એટલે કે, તેમની એકરૂપતા તપાસવા માટે;
3) રેન્ડમ ઘટનાઓની સિસ્ટમમાં સ્ટોકેસ્ટિક (સંભવિત) સ્વતંત્રતાનું મૂલ્યાંકન કરવું, વગેરે.
χ 2 માપદંડ પ્રયોગમૂલક અને સૈદ્ધાંતિક વિતરણમાં અથવા બે અથવા વધુ પ્રયોગમૂલક વિતરણોમાં સમાન આવર્તન સાથે લાક્ષણિકતાના વિવિધ મૂલ્યો થાય છે કે કેમ તે પ્રશ્નનો જવાબ આપે છે.
પદ્ધતિનો ફાયદો એ છે કે તે નામોના સ્કેલથી શરૂ કરીને, કોઈપણ સ્કેલ પર પ્રસ્તુત સુવિધાઓના વિતરણની તુલના કરવાની મંજૂરી આપે છે. વૈકલ્પિક વિતરણના સૌથી સરળ કિસ્સામાં ("હા - ના", "ખામીને મંજૂરી આપી - ખામીને મંજૂરી આપી નથી", "સમસ્યા હલ કરી - સમસ્યા હલ કરી નથી", વગેરે), અમે પહેલેથી જ χ 2 માપદંડ લાગુ કરી શકીએ છીએ. .
1. નમૂનાનું કદ પૂરતું મોટું હોવું જોઈએ: N>30. જ્યારે એન<30 критерий χ 2 дает весьма приближенные значения. Точность критерия повышается при больших N.
2. દરેક કોષ્ટક કોષ માટે સૈદ્ધાંતિક આવર્તન 5: f ≥ 5 કરતા ઓછી ન હોવી જોઈએ . આનો અર્થ એ છે કે જો અંકોની સંખ્યા પૂર્વનિર્ધારિત હોય અને બદલી શકાતી નથી, તો આપણે χ 2 પદ્ધતિ લાગુ કરી શકતા નથી. , અવલોકનોની ચોક્કસ લઘુત્તમ સંખ્યા એકઠા કર્યા વિના. જો, ઉદાહરણ તરીકે, અમે અમારી ધારણાઓને ચકાસવા માગીએ છીએ કે ટ્રસ્ટ ટેલિફોન સેવા પર કૉલ્સની આવર્તન અઠવાડિયાના 7 દિવસમાં અસમાન રીતે વિતરિત કરવામાં આવે છે, તો અમને 5-7 = 35 કૉલ્સની જરૂર પડશે. આમ, જો અંકોની સંખ્યા (k)અગાઉથી આપેલ છે, જેમ કે આ કિસ્સામાં, અવલોકનોની ન્યૂનતમ સંખ્યા (N મિનિટ) સૂત્ર દ્વારા નક્કી કરવામાં આવે છે: .
3. પસંદ કરેલ શ્રેણીઓએ સમગ્ર વિતરણને "સ્કૂપ આઉટ" કરવું જોઈએ, એટલે કે, લાક્ષણિકતાઓની વિવિધતાની સમગ્ર શ્રેણીને આવરી લેવી જોઈએ. આ કિસ્સામાં, વર્ગોમાં જૂથીકરણ તમામ તુલનાત્મક વિતરણોમાં સમાન હોવું જોઈએ.
4. માત્ર 2 મૂલ્યો લેતી સુવિધાઓના વિતરણની સરખામણી કરતી વખતે "સતત સુધારણા" કરવી જરૂરી છે. કરેક્શન કરતી વખતે, χ 2 નું મૂલ્ય ઘટે છે (સતત સુધારણા સાથેનું ઉદાહરણ જુઓ).
5. શ્રેણીઓ બિન-ઓવરલેપિંગ હોવી જોઈએ: જો કોઈ અવલોકન એક શ્રેણીને સોંપવામાં આવ્યું હોય, તો પછી તે અન્ય કોઈપણ શ્રેણીને સોંપી શકાશે નહીં. રેન્ક દ્વારા અવલોકનોનો સરવાળો હંમેશા અવલોકનોની કુલ સંખ્યા જેટલો હોવો જોઈએ.
χ 2 માપદંડની ગણતરી માટે અલ્ગોરિધમ
1. નીચેના પ્રકારનાં લક્ષણ મૂલ્યોના પરસ્પર જોડાણનું કોષ્ટક બનાવો (આવશ્યક રીતે, આ એક દ્વિ-પરિમાણીય વિવિધતા શ્રેણી છે જેમાં સંયુક્ત વિશેષતા મૂલ્યોની ઘટનાની આવર્તન દર્શાવેલ છે) - કોષ્ટક 19. કોષ્ટકમાં શામેલ છે શરતી ફ્રીક્વન્સીઝ, જેને આપણે સામાન્ય શબ્દોમાં f ij તરીકે દર્શાવીશું. ઉદાહરણ તરીકે, લાક્ષણિકતાના ગ્રેડેશનની સંખ્યા એક્સ 3 (k=3) બરાબર છે, લાક્ષણિકતાના ક્રમાંકની સંખ્યા ખાતેબરાબર 4 (m=4); પછી i 1 થી k સુધી બદલાય છે, અને j 1 થી m સુધી બદલાય છે.
કોષ્ટક 19
x i y j | x 1 | x 2 | x 3 | ∑ |
1 પર | f 11 | f 21 | f 31 | f -1 |
2 પર | f 12 | f 22 | f 32 | f -2 |
3 પર | f 13 | f 23 | f 33 | f -3 |
4 પર | f 14 | f 24 | f 34 | f -4 |
∑ | f 1- | f 2- | f 3- | એન |
2. આગળ, ગણતરીની સગવડ માટે, અમે પરસ્પર આકસ્મિકતાના મૂળ કોષ્ટકને નીચેના સ્વરૂપના કોષ્ટકમાં રૂપાંતરિત કરીએ છીએ (કોષ્ટક 20), શરતી ફ્રીક્વન્સી સાથે કૉલમને એકની નીચે મૂકીને: કોષ્ટકમાં શ્રેણીઓના નામ દાખલ કરો (કૉલમ 1 અને 2) અને અનુરૂપ પ્રયોગમૂલક ફ્રીક્વન્સીઝ (3જી કૉલમ ).
કોષ્ટક 20
x i | y જે | f ij | f ij * | f ij - f ij * | (f ij – f ij *) 2 | (f ij – f ij *) 2 / f ij * |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
x 1 | 1 પર | f 11 | f 11* | |||
x 1 | 2 પર | f 12 | f 12* | |||
x 1 | 3 પર | f 13 | f 13* | |||
x 1 | 4 પર | f 14 | f 14* | |||
x 2 | 1 પર | f 21 | f 21 * | |||
x 2 | 2 પર | f 22 | f 22 * | |||
x 2 | 3 પર | f 23 | f 23 * | |||
x 2 | 4 પર | f 24 | f 24 * | |||
x 3 | 1 પર | f 31 | f 31 * | |||
x 3 | 2 પર | f 32 | f 32 * | |||
x 3 | 3 પર | f 33 | f 33 * | |||
x 3 | 4 પર | f 34 | f 34* | |||
∑=…………. |
3. દરેક પ્રયોગમૂલક આવર્તનની બાજુમાં, સૈદ્ધાંતિક આવર્તન (4 થી સ્તંભ) લખો, જેની ગણતરી નીચેના સૂત્રનો ઉપયોગ કરીને કરવામાં આવે છે (સંબંધિત લાઇનમાંની કુલ આવર્તન અનુરૂપ સ્તંભમાં કુલ આવર્તન દ્વારા ગુણાકાર કરવામાં આવે છે અને કુલ સંખ્યા વડે ભાગવામાં આવે છે. અવલોકનો):
5. સૂત્રનો ઉપયોગ કરીને સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરો: ν=(k-1)(m-1) , જ્યાં k-વિશેષતા અંકોની સંખ્યા એક્સ, m - ચિહ્નના અંકોની સંખ્યા ખાતે.
જો ν=1 હોય, તો "સતતતા" માટે સુધારો કરો અને તેને કૉલમ 5a માં લખો.
સાતત્ય સુધારણામાં શરતી અને સૈદ્ધાંતિક ફ્રીક્વન્સીઝ વચ્ચેના તફાવતમાંથી અન્ય 0.5 બાદબાકીનો સમાવેશ થાય છે. પછી અમારા કોષ્ટકમાં કૉલમ હેડિંગ આના જેવો દેખાશે (કોષ્ટક 21):
કોષ્ટક 21
એક્સ | ખાતે | f ij | f ij * | f ij - f ij * | f ij – f ij * – 0.5 | (f ij – f ij * – 0.5) 2 | (f ij – f ij * – 0.5) 2 / f ij * |
1 | 2 | 3 | 4 | 5 | 5a | 6 | 7 |
6. પરિણામી તફાવતોને ચોરસ કરો અને તેમને 6ઠ્ઠી કૉલમમાં દાખલ કરો.
7. પરિણામી ચોરસ તફાવતોને સૈદ્ધાંતિક આવર્તન દ્વારા વિભાજીત કરો અને 7મી કૉલમમાં પરિણામો લખો.
8. 7મી કૉલમના મૂલ્યોનો સરવાળો કરો. પરિણામી રકમ χ 2 em તરીકે નિયુક્ત કરવામાં આવી છે.
9. નિર્ણય નિયમ:
માપદંડના ગણતરી કરેલ મૂલ્યની તુલના નિર્ણાયક (અથવા ટેબ્યુલેટેડ) મૂલ્ય સાથે કરવી આવશ્યક છે. નિર્ણાયક મૂલ્ય પીયર્સન χ 2 માપદંડના નિર્ણાયક મૂલ્યોના કોષ્ટક અનુસાર સ્વતંત્રતાની ડિગ્રીની સંખ્યા પર આધારિત છે (જુઓ પરિશિષ્ટ 1.6).
જો χ 2 calc ≥ χ 2 કોષ્ટક હોય, તો વિતરણો વચ્ચેની વિસંગતતા આંકડાકીય રીતે નોંધપાત્ર છે, અથવા લાક્ષણિકતાઓ સતત બદલાતી રહે છે, અથવા લાક્ષણિકતાઓ વચ્ચેનો સંબંધ આંકડાકીય રીતે નોંધપાત્ર છે.
જો χ 2 ની ગણતરી કરવામાં આવે< χ 2 табл, то расхождения между распределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.
કાઈ-સ્ક્વેર ટેસ્ટ એ પ્રયોગના પરિણામો અને ઉપયોગમાં લેવાતા આંકડાકીય મોડેલ વચ્ચેના કરારને ચકાસવા માટેની સાર્વત્રિક પદ્ધતિ છે.
પીયર્સન અંતર X 2
Pyatnitsky A.M.
રશિયન સ્ટેટ મેડિકલ યુનિવર્સિટી
1900 માં, કાર્લ પીયર્સન મોડેલ આગાહીઓ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને ચકાસવા માટે એક સરળ, સાર્વત્રિક અને અસરકારક રીતનો પ્રસ્તાવ મૂક્યો. તેમણે પ્રસ્તાવિત "ચી-સ્ક્વેર ટેસ્ટ" એ સૌથી મહત્વપૂર્ણ અને સૌથી વધુ ઉપયોગમાં લેવાતી આંકડાકીય કસોટી છે. અજ્ઞાત મોડલ પેરામીટર્સનો અંદાજ કાઢવા અને મોડેલ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને તપાસવા સંબંધિત મોટાભાગની સમસ્યાઓ તેની મદદથી ઉકેલી શકાય છે.
જે ઑબ્જેક્ટ અથવા પ્રક્રિયાનો અભ્યાસ કરવામાં આવી રહ્યો છે તેનું પ્રાયોરી ("પૂર્વ-પ્રાયોગિક") મોડલ હોવા દો (આંકડાઓમાં તેઓ "નલ પૂર્વધારણા" H 0 વિશે બોલે છે), અને આ ઑબ્જેક્ટ સાથેના પ્રયોગના પરિણામો. તે નક્કી કરવું જરૂરી છે કે શું મોડેલ પર્યાપ્ત છે (શું તે વાસ્તવિકતાને અનુરૂપ છે)? શું પ્રાયોગિક પરિણામો વાસ્તવિકતા કેવી રીતે કાર્ય કરે છે તે વિશેના અમારા વિચારોનો વિરોધાભાસ કરે છે, અથવા બીજા શબ્દોમાં કહીએ તો, H0 ને નકારી કાઢવો જોઈએ? ઘણીવાર આ કાર્યને અવલોકન કરેલ (O i = અવલોકન કરેલ) અને મોડેલ (E i = અપેક્ષિત) ચોક્કસ ઘટનાઓની ઘટનાની સરેરાશ ફ્રીક્વન્સીઝ અનુસાર અપેક્ષિત સરખામણી કરવા માટે ઘટાડી શકાય છે. એવું માનવામાં આવે છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝ સતત (!) પરિસ્થિતિઓ હેઠળ કરવામાં આવેલા N સ્વતંત્ર (!) અવલોકનોની શ્રેણીમાં મેળવવામાં આવી હતી. દરેક અવલોકનના પરિણામે, M ઘટનાઓમાંથી એક રેકોર્ડ કરવામાં આવે છે. આ ઘટનાઓ એક સાથે થઈ શકતી નથી (તેઓ જોડીમાં અસંગત છે) અને તેમાંથી એક આવશ્યકપણે થાય છે (તેમનું સંયોજન એક વિશ્વસનીય ઘટના બનાવે છે). તમામ અવલોકનોની સંપૂર્ણતા ફ્રીક્વન્સીઝ (O i )=(O 1 , … O M ) ના કોષ્ટક (વેક્ટર) સુધી ઘટાડવામાં આવે છે, જે પ્રયોગના પરિણામોનું સંપૂર્ણ વર્ણન કરે છે. મૂલ્ય O 2 =4 નો અર્થ છે કે ઘટના નંબર 2 4 વખત આવી. ફ્રીક્વન્સીઝનો સરવાળો O 1 +… O M =N. બે કિસ્સાઓ વચ્ચે તફાવત કરવો મહત્વપૂર્ણ છે: N – નિશ્ચિત, બિન-રેન્ડમ, N – રેન્ડમ ચલ. પ્રયોગોની નિશ્ચિત કુલ સંખ્યા N માટે, ફ્રીક્વન્સીઝનું બહુપદી વિતરણ હોય છે. ચાલો આ સામાન્ય યોજનાને એક સરળ ઉદાહરણથી સમજાવીએ.
સરળ પૂર્વધારણાઓ ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો.
મૉડલ (નલ હાયપોથિસિસ H 0) એ રહેવા દો કે મૃત્યુ વાજબી છે - p i =1/6, i =, M=6 સંભાવના સાથે બધા ચહેરા સમાન રીતે દેખાય છે. એક પ્રયોગ હાથ ધરવામાં આવ્યો હતો જેમાં 60 વખત ડાઇ ફેંકવામાં આવી હતી (N = 60 સ્વતંત્ર ટ્રાયલ હાથ ધરવામાં આવી હતી). મોડેલ મુજબ, અમે અપેક્ષા રાખીએ છીએ કે ઘટના 1,2,... 6 પોઈન્ટની તમામ અવલોકન કરેલ ફ્રીક્વન્સીઝ તેમના સરેરાશ મૂલ્યો E i =Np i =60∙(1/6)=10 ની નજીક હોવા જોઈએ. H 0 મુજબ, સરેરાશ ફ્રીક્વન્સીઝનો વેક્ટર (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (ઉપકલ્પનાઓ કે જેમાં પ્રયોગની શરૂઆત પહેલા સરેરાશ ફ્રીક્વન્સીઝ સંપૂર્ણપણે જાણીતી હોય તેને સરળ કહેવામાં આવે છે.) જો અવલોકન કરેલ વેક્ટર (O i ) બરાબર (34,0,0,0,0,26) હોય, તો તે તરત જ સ્પષ્ટ કરો કે મોડેલ ખોટું છે - હાડકું સાચું હોઈ શકતું નથી, કારણ કે માત્ર 1 અને 6 જ 60 વખત ફેરવવામાં આવ્યા હતા. જો કે, મોડેલ અને અનુભવ વચ્ચે આવી સ્પષ્ટ વિસંગતતાઓનો દેખાવ એક અપવાદ છે. અવલોકન કરેલ ફ્રીક્વન્સીઝ (O i ) ના વેક્ટરને (5, 15, 6, 14, 4, 16) બરાબર થવા દો. શું આ H0 સાથે સુસંગત છે? તેથી, આપણે બે ફ્રીક્વન્સી વેક્ટર (E i) અને (O i) ની સરખામણી કરવાની જરૂર છે. આ કિસ્સામાં, અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર (Ei) રેન્ડમ નથી, પરંતુ અવલોકન કરાયેલ ફ્રીક્વન્સીઝ (Oi) નું વેક્ટર રેન્ડમ છે - આગામી પ્રયોગ દરમિયાન (60 થ્રોની નવી શ્રેણીમાં) તે અલગ હશે. સમસ્યાનું ભૌમિતિક અર્થઘટન રજૂ કરવું ઉપયોગી છે અને માની લો કે આવર્તન અવકાશમાં (આ કિસ્સામાં 6-પરિમાણીય) કોઓર્ડિનેટ્સ (5, 15, 6, 14, 4, 16) અને (10, 10, 16) સાથે બે બિંદુઓ આપવામાં આવે છે. 10, 10, 10, 10) શું તેઓ આને H 0 સાથે અસંગત ગણવા માટે પર્યાપ્ત દૂર છે? બીજા શબ્દોમાં કહીએ તો, અમને જરૂર છે:
- ફ્રીક્વન્સીઝ (ફ્રીક્વન્સી સ્પેસમાં પોઈન્ટ) વચ્ચેનું અંતર માપવાનું શીખો,
- શું અંતર પણ ગણવું જોઈએ તે માટે એક માપદંડ છે ("અસ્પષ્ટપણે") મોટું, એટલે કે, H 0 સાથે અસંગત.
સામાન્ય યુક્લિડિયન અંતરનો વર્ગ બરાબર હશે:
X 2 યુક્લિડ = એસ(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2
આ કિસ્સામાં, સપાટીઓ X 2 યુક્લિડ = કોન્સ્ટ હંમેશા ગોળા હોય છે જો આપણે E i ના મૂલ્યોને ઠીક કરીએ અને O i ને બદલીએ. કાર્લ પીયર્સન નોંધ્યું હતું કે આવર્તન અવકાશમાં યુક્લિડિયન અંતરનો ઉપયોગ કરવો જોઈએ નહીં. આમ, તે ધારવું ખોટું છે કે બિંદુઓ (O = 1030 અને E = 1000) અને (O = 40 અને E = 10) એકબીજાથી સમાન અંતરે છે, જો કે બંને કિસ્સાઓમાં તફાવત O -E = 30 છે. છેવટે, અપેક્ષિત આવર્તન જેટલી ઊંચી છે, તેમાંથી વધુ વિચલનો શક્ય ગણવા જોઈએ. તેથી, પોઈન્ટ (O =1030 અને E =1000)ને "બંધ" અને પોઈન્ટ (O =40 અને E =10) એકબીજાથી "દૂર" ગણવા જોઈએ. તે બતાવી શકાય છે કે જો પૂર્વધારણા H 0 સાચી હોય, તો E i ની સાપેક્ષ O i ની આવર્તન વધઘટ E i ના વર્ગમૂળ(!) ના ક્રમની છે. તેથી, પિયરસને, અંતરની ગણતરી કરતી વખતે, તફાવતો (O i -E i) નહીં, પરંતુ સામાન્યકૃત તફાવતો (O i -E i)/E i 1/2નો વર્ગ કરવાનો પ્રસ્તાવ મૂક્યો હતો. તો અહીં પિયર્સન અંતરની ગણતરી કરવા માટેનું સૂત્ર છે (તે વાસ્તવમાં અંતરનો વર્ગ છે):
X 2 પીયર્સન = એસ((O i -E i)/E i 1/2) 2 = એસ(O i -E i) 2 /E i
અમારા ઉદાહરણમાં:
X 2 પીયર્સન = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4
નિયમિત મૃત્યુ માટે, તમામ અપેક્ષિત ફ્રીક્વન્સીઝ E i સમાન હોય છે, પરંતુ સામાન્ય રીતે તે અલગ હોય છે, તેથી સપાટીઓ કે જેના પર પીયર્સનનું અંતર સ્થિર હોય છે (X 2 પીયર્સન = કોન્સ્ટ) એલિપ્સોઇડ્સ હોય છે, ગોળા નહીં.
હવે જ્યારે અંતરની ગણતરી કરવા માટેનું સૂત્ર પસંદ કરવામાં આવ્યું છે, તે શોધવા માટે જરૂરી છે કે કયા અંતરને "ખૂબ મોટું નથી" (H 0 સાથે સુસંગત) ગણવું જોઈએ, ઉદાહરણ તરીકે, આપણે 15.4ની ગણતરી કરેલ અંતર વિશે શું કહી શકીએ ? નિયમિત ડાઇ સાથે પ્રયોગો કરતી વખતે કેટલા ટકા કિસ્સાઓમાં (અથવા કેટલી સંભાવના સાથે) આપણે 15.4 કરતા વધુ અંતર મેળવીશું? જો આ ટકાવારી ઓછી હોય તો (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).
સમજૂતી. નંબર i સાથે કોષ્ટક કોષમાં આવતા O i માપનની સંખ્યા પરિમાણો સાથે દ્વિપદી વિતરણ ધરાવે છે: m =Np i =E i,σ =(Np i (1-p i)) 1/2, જ્યાં N એ સંખ્યા છે માપન (N " 1), p i એ આપેલ કોષમાં એક માપ આવવાની સંભાવના છે (યાદ કરો કે માપ સ્વતંત્ર છે અને સતત પરિસ્થિતિઓમાં હાથ ધરવામાં આવે છે). જો p i નાનું હોય, તો: σ≈(Np i ) 1/2 =E i અને દ્વિપદી વિતરણ પોઈસનની નજીક છે, જેમાં અવલોકનોની સરેરાશ સંખ્યા E i =λ, અને પ્રમાણભૂત વિચલન σ=λ 1/2 = E i 1/ 2. λ≥5 માટે, પોઈસન વિતરણ સામાન્ય N (m =E i =λ, σ=E i 1/2 =λ 1/2), અને સામાન્યકૃત મૂલ્ય (O i - E i )/E i 1 ની નજીક છે /2 ≈ N (0 ,1).
પીયરસને રેન્ડમ વેરીએબલ χ 2 n – “સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેર” ને n સ્વતંત્ર માનક સામાન્ય રેન્ડમ ચલોના ચોરસના સરવાળા તરીકે વ્યાખ્યાયિત કર્યું:
χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,દરેક ક્યાં છે T i = N(0,1) - n ઓ. આર. સાથે. વી.
ચાલો આંકડાઓમાં આ સૌથી મહત્વપૂર્ણ રેન્ડમ ચલનો અર્થ સ્પષ્ટપણે સમજવાનો પ્રયાસ કરીએ. આ કરવા માટે, પ્લેન પર (n = 2 સાથે) અથવા અવકાશમાં (n = 3 સાથે) અમે બિંદુઓનો વાદળ રજૂ કરીએ છીએ જેના કોઓર્ડિનેટ્સ સ્વતંત્ર છે અને T (x) ~ exp (-x 2 /2) પ્રમાણભૂત સામાન્ય વિતરણ ધરાવે છે. ). પ્લેન પર, "બે સિગ્મા" નિયમ અનુસાર, જે સ્વતંત્ર રીતે બંને કોઓર્ડિનેટ્સ પર લાગુ થાય છે, 90% (0.95*0.95≈0.90) બિંદુઓ ચોરસ (-2) ની અંદર સમાયેલ છે f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2). સ્વતંત્રતા n (n > 30) ની પૂરતી મોટી સંખ્યામાં ડિગ્રી સાથે, ચી-સ્ક્વેર વિતરણ સામાન્ય પહોંચે છે: N (m = n; σ = (2n) ½). આ "કેન્દ્રીય મર્યાદા પ્રમેય" નું પરિણામ છે: મર્યાદિત ભિન્નતા સાથે સમાન રીતે વિતરિત જથ્થાઓનો સરવાળો જેમ જેમ શરતોની સંખ્યા વધે છે તેમ સામાન્ય કાયદાની નજીક આવે છે. વ્યવહારમાં, તમારે યાદ રાખવાની જરૂર છે કે અંતરનો સરેરાશ ચોરસ m (χ 2 n) = n ની બરાબર છે, અને તેનો તફાવત σ 2 (χ 2 n) = 2n છે. અહીંથી એ નિષ્કર્ષ કાઢવો સરળ છે કે કયા ચી-સ્ક્વેર મૂલ્યોને ખૂબ નાના અને ખૂબ મોટા ગણવા જોઈએ: મોટાભાગનું વિતરણ n -2∙(2n) ½ થી n +2∙(2n) ½ સુધીની રેન્જમાં છે. તેથી, પીયર્સન અંતર નોંધપાત્ર રીતે n +2∙ (2n) ½ કરતાં વધી જાય તેવું અસ્પષ્ટપણે મોટું ગણવું જોઈએ (H 0 સાથે અસંગત). જો પરિણામ n +2∙(2n) ½ ની નજીક છે, તો તમારે કોષ્ટકોનો ઉપયોગ કરવો જોઈએ જેમાં તમે ચોક્કસ રીતે શોધી શકો છો કે આવા અને મોટા ચી-સ્ક્વેર મૂલ્યો કયા પ્રમાણમાં દેખાઈ શકે છે. સ્વતંત્રતાની ડિગ્રીની સંખ્યા માટે યોગ્ય મૂલ્ય કેવી રીતે પસંદ કરવું તે જાણવું મહત્વપૂર્ણ છે (સંક્ષિપ્તમાં n.d.f.). એવું માનવું સ્વાભાવિક લાગ્યું કે n એ અંકોની સંખ્યાની બરાબર છે: n =M. તેમના લેખમાં, પીયર્સન જેટલું સૂચન કરે છે. ડાઇસ ઉદાહરણમાં, આનો અર્થ એ થશે કે n = 6. જો કે, ઘણા વર્ષો પછી તે બતાવવામાં આવ્યું હતું કે પીયર્સન ભૂલથી હતો. જો રેન્ડમ ચલ O i વચ્ચે જોડાણો હોય તો સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા કરતા હંમેશા ઓછી હોય છે. ડાઇસ ઉદાહરણ માટે, સરવાળો O i 60 છે, અને માત્ર 5 ફ્રીક્વન્સીઝ સ્વતંત્ર રીતે બદલી શકાય છે, તેથી સાચી કિંમત n = 6-1 = 5 છે. n ની આ કિંમત માટે આપણને n +2∙(2n) ½ =5+2∙(10) ½ =11.3 મળે છે. 15.4>11.3 થી, પછી પૂર્વધારણા H 0 - ડાઇ સાચો છે, તેને નકારવી જોઈએ. ભૂલની સ્પષ્ટતા કર્યા પછી, હાલના χ 2 કોષ્ટકોને પૂરક બનાવવાની હતી, કારણ કે શરૂઆતમાં તેમની પાસે કેસ n = 1 ન હતો, કારણ કે અંકોની સૌથી નાની સંખ્યા = 2. હવે તે તારણ આપે છે કે એવા કિસ્સાઓ હોઈ શકે છે જ્યારે પિયર્સન અંતરનું વિતરણ χ 2 n =1 હોય. ઉદાહરણ. 100 સિક્કાના ટૉસ સાથે, હેડની સંખ્યા O 1 = 65 છે, અને પૂંછડીઓની સંખ્યા O 2 = 35 છે. અંકોની સંખ્યા M = 2 છે. જો સિક્કો સપ્રમાણ હોય, તો અપેક્ષિત આવર્તન E 1 =50, E 2 =50 છે. X 2 પીયર્સન = એસ(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9. પરિણામી મૂલ્યની તુલના રેન્ડમ ચલ χ 2 n =1 લઈ શકે છે તેની સાથે કરવી જોઈએ, જે પ્રમાણભૂત સામાન્ય મૂલ્ય χ 2 n =1 =T 1 2 ≥ 9 ના વર્ગ તરીકે વ્યાખ્યાયિત થાય છે. ó
T 1 ≥3 અથવા T 1 ≤-3. આવી ઘટનાની સંભાવના ખૂબ ઓછી છે P (χ 2 n =1 ≥9) = 0.006. તેથી, સિક્કાને સપ્રમાણ ગણી શકાય નહીં: H 0 નકારવો જોઈએ. હકીકત એ છે કે સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા જેટલી ન હોઈ શકે તે હકીકત પરથી સ્પષ્ટ થાય છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝનો સરવાળો હંમેશા અપેક્ષિત રાશિઓના સરવાળા જેટલો જ હોય છે, ઉદાહરણ તરીકે O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. તેથી, કોઓર્ડિનેટ્સ O 1 અને O 2 સાથેના રેન્ડમ બિંદુઓ સીધી રેખા પર સ્થિત છે: O 1 +O 2 =E 1 +E 2 =100 અને કેન્દ્રનું અંતર જો આ પ્રતિબંધ અસ્તિત્વમાં ન હોય તો તેના કરતા ઓછું હોવાનું બહાર આવ્યું છે અને તેઓ સમગ્ર વિમાનમાં સ્થિત હતા. ખરેખર, ગાણિતિક અપેક્ષાઓ E 1 =50, E 2 =50 સાથેના બે સ્વતંત્ર રેન્ડમ ચલો માટે, તેમની અનુભૂતિનો સરવાળો હંમેશા 100 ની બરાબર હોવો જોઈએ નહીં - ઉદાહરણ તરીકે, મૂલ્યો O 1 =60, O 2 =55 હશે સ્વીકાર્ય બનો. સમજૂતી. ચાલો M = 2 પરના પિયર્સન માપદંડના પરિણામની સરખામણી કરીએ જ્યારે N સ્વતંત્ર બર્નૌલી પરીક્ષણોની શ્રેણીમાં ν =K /N ની સંભાવના p ધરાવતા ઘટનાની ઘટનાની આવૃત્તિમાં રેન્ડમ વધઘટનો અંદાજ કાઢતી વખતે મોઇવર-લાપ્લેસ સૂત્ર શું આપે છે ( K એ સફળતાઓની સંખ્યા છે): χ 2 n =1 = એસ(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N) 1-ν)-N (1-p)) 2 /(N (1-p))= =(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2 મૂલ્ય T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) સાથે σ(K)=(Npq) ½ ≥3. આપણે જોઈએ છીએ કે આ કિસ્સામાં પીયર્સનનું પરિણામ દ્વિપદી વિતરણ માટે સામાન્ય અંદાજ જે આપે છે તેની સાથે બરાબર મેળ ખાય છે. અત્યાર સુધી અમે સરળ પૂર્વધારણાઓ ધ્યાનમાં લીધી છે જેના માટે અપેક્ષિત સરેરાશ ફ્રીક્વન્સી E i સંપૂર્ણપણે અગાઉથી જાણીતી છે. જટિલ પૂર્વધારણાઓ માટે સ્વતંત્રતાની ડિગ્રીની સાચી સંખ્યા કેવી રીતે પસંદ કરવી તે અંગેની માહિતી માટે, નીચે જુઓ. નિયમિત ડાઇ અને સિક્કા સાથેના ઉદાહરણોમાં, અપેક્ષિત ફ્રીક્વન્સીઝ પ્રયોગ પહેલાં(!) નક્કી કરી શકાય છે. આવી પૂર્વધારણાઓને "સરળ" કહેવામાં આવે છે. વ્યવહારમાં, "જટિલ પૂર્વધારણાઓ" વધુ સામાન્ય છે. તદુપરાંત, અપેક્ષિત ફ્રીક્વન્સીઝ E i શોધવા માટે, પહેલા એક અથવા અનેક જથ્થાઓ (મોડેલ પરિમાણો) નો અંદાજ કાઢવો જરૂરી છે, અને આ ફક્ત પ્રાયોગિક ડેટાનો ઉપયોગ કરીને કરી શકાય છે. પરિણામે, "જટિલ પૂર્વધારણાઓ" માટે અપેક્ષિત ફ્રીક્વન્સીઝ E i અવલોકન કરાયેલ ફ્રીક્વન્સીઝ O i પર આધાર રાખે છે અને તેથી તે પ્રયોગના પરિણામોના આધારે અલગ અલગ, રેન્ડમ ચલ બની જાય છે. પરિમાણો પસંદ કરવાની પ્રક્રિયામાં, પિયર્સન અંતર ઘટે છે - પરિમાણો પસંદ કરવામાં આવે છે જેથી મોડેલ અને પ્રયોગ વચ્ચેના કરારને સુધારી શકાય. તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં ઘટાડો થવો જોઈએ. મોડેલ પરિમાણોનો અંદાજ કેવી રીતે કરવો? ત્યાં ઘણી અલગ અંદાજ પદ્ધતિઓ છે - "મહત્તમ સંભાવના પદ્ધતિ", "ક્ષણોની પદ્ધતિ", "અવેજી પદ્ધતિ". જો કે, તમે કોઈપણ વધારાના ભંડોળનો ઉપયોગ કરી શકતા નથી અને પિયર્સન અંતર ઘટાડીને પરિમાણ અંદાજ શોધી શકતા નથી. પૂર્વ-કમ્પ્યુટર યુગમાં, આ અભિગમનો ભાગ્યે જ ઉપયોગ થતો હતો: તે મેન્યુઅલ ગણતરીઓ માટે અસુવિધાજનક છે અને, એક નિયમ તરીકે, વિશ્લેષણાત્મક રીતે ઉકેલી શકાતું નથી. કમ્પ્યુટર પર ગણતરી કરતી વખતે, સંખ્યાત્મક લઘુત્તમીકરણ સામાન્ય રીતે હાથ ધરવા માટે સરળ હોય છે, અને આ પદ્ધતિનો ફાયદો તેની વૈવિધ્યતા છે. તેથી, "ચી-સ્ક્વેર મિનિમાઇઝેશન પદ્ધતિ" અનુસાર, અમે અજ્ઞાત પરિમાણોના મૂલ્યો પસંદ કરીએ છીએ જેથી કરીને પિયર્સન અંતર સૌથી નાનું બને. (માર્ગ દ્વારા, આ અંતરમાં મળેલા લઘુત્તમને સંબંધિત નાના વિસ્થાપન સાથેના ફેરફારોનો અભ્યાસ કરીને, તમે અંદાજની ચોકસાઈના માપનો અંદાજ લગાવી શકો છો: આત્મવિશ્વાસ અંતરાલ બનાવો.) પરિમાણો અને આ લઘુત્તમ અંતર પોતે જ મળી ગયા પછી, તે છે તે પૂરતું નાનું છે કે કેમ તે પ્રશ્નનો જવાબ આપવા માટે ફરીથી જરૂરી છે. ક્રિયાઓનો સામાન્ય ક્રમ નીચે મુજબ છે: P (χ 2 n > χ 2 ક્રિટ)=1-α, જ્યાં α એ "મહત્વનું સ્તર" અથવા "માપદંડનું કદ" અથવા "પ્રથમ પ્રકારની ભૂલની તીવ્રતા" (સામાન્ય મૂલ્ય α = 0.05) છે. સામાન્ય રીતે સ્વતંત્રતા n ની ડિગ્રીની સંખ્યા સૂત્રનો ઉપયોગ કરીને ગણવામાં આવે છે n = (અંકોની સંખ્યા) – 1 – (અંદાજિત કરવાના પરિમાણોની સંખ્યા) જો X 2 > χ 2 ક્રિટ હોય, તો પૂર્વધારણા H 0 નકારવામાં આવે છે, અન્યથા તે સ્વીકારવામાં આવે છે. α∙100% કિસ્સાઓમાં (એટલે કે, ખૂબ જ ભાગ્યે જ), H 0 ને તપાસવાની આ પદ્ધતિ "પ્રથમ પ્રકારની ભૂલ" તરફ દોરી જશે: H 0 ની પૂર્વધારણાને ભૂલથી નકારી કાઢવામાં આવશે. ઉદાહરણ. 100 બીજની 10 શ્રેણીના અભ્યાસમાં, લીલી આંખોવાળી માખીથી ચેપગ્રસ્ત લોકોની સંખ્યા ગણવામાં આવી હતી. પ્રાપ્ત ડેટા: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21); અહીં અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર અગાઉથી અજ્ઞાત છે. જો ડેટા સજાતીય હોય અને દ્વિપદી વિતરણ માટે મેળવેલ હોય, તો એક પરિમાણ અજ્ઞાત છે: ચેપગ્રસ્ત બીજનું પ્રમાણ p. નોંધ કરો કે મૂળ કોષ્ટકમાં વાસ્તવમાં 10 નહીં પરંતુ 20 ફ્રીક્વન્સીઝ છે જે 10 જોડાણોને સંતોષે છે: 16+84=100, ... 21+79=100. X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+ (21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p)) જોડીમાં શબ્દોને જોડીને (જેમ કે સિક્કા સાથેના ઉદાહરણમાં), અમે પીયર્સન માપદંડ લખવાનું સ્વરૂપ મેળવીએ છીએ, જે સામાન્ય રીતે તરત જ લખવામાં આવે છે: X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)). હવે, જો લઘુત્તમ પિયર્સન અંતરનો ઉપયોગ p ના અંદાજ માટે પદ્ધતિ તરીકે કરવામાં આવે છે, તો તે માટે એક p શોધવું જરૂરી છે જેના માટે X 2 = મિનિટ. (મૉડલ, જો શક્ય હોય તો, પ્રાયોગિક ડેટાને "એડજસ્ટ" કરવાનો પ્રયાસ કરે છે.) પિયર્સન માપદંડ આંકડાઓમાં વપરાતા તમામમાં સૌથી વધુ સાર્વત્રિક છે. તે અવિભાજ્ય અને બહુવિધ ડેટા, માત્રાત્મક અને ગુણાત્મક સુવિધાઓ પર લાગુ કરી શકાય છે. જો કે, ચોક્કસપણે તેની વૈવિધ્યતાને કારણે, ભૂલો ન થાય તેની કાળજી લેવી જોઈએ. 1. વર્ગોની પસંદગી. પરિમાણ અંદાજ. "હોમમેઇડ", બિનકાર્યક્ષમ અંદાજ પદ્ધતિઓનો ઉપયોગ પીયર્સન અંતરના મૂલ્યોને વધારી શકે છે. સ્વતંત્રતાની ડિગ્રીની યોગ્ય સંખ્યા પસંદ કરી રહ્યા છીએ. જો પરિમાણનો અંદાજ ફ્રીક્વન્સીઝથી નહીં, પરંતુ સીધા ડેટામાંથી બનાવવામાં આવે છે (ઉદાહરણ તરીકે, અંકગણિત સરેરાશને સરેરાશના અંદાજ તરીકે લેવામાં આવે છે), તો પછી સ્વતંત્રતા n ની ડિગ્રીની ચોક્કસ સંખ્યા અજાણ છે. અમે માત્ર જાણીએ છીએ કે તે અસમાનતાને સંતોષે છે: (અંકોની સંખ્યા - 1 - મૂલ્યાંકન કરવામાં આવતા પરિમાણોની સંખ્યા)< n
< (число разрядов – 1) તેથી, n ની આ શ્રેણીમાં ગણતરી કરેલ χ 2 ક્રિટના નિર્ણાયક મૂલ્યો સાથે X 2 ની સરખામણી કરવી જરૂરી છે. અસ્પષ્ટપણે નાના ચી-સ્ક્વેર મૂલ્યોનું અર્થઘટન કેવી રીતે કરવું?જો સિક્કો 10,000 ટૉસ કર્યા પછી, તે 5,000 વખત કોટ ઓફ આર્મ્સ પર ઉતરે તો તેને સપ્રમાણ ગણવો જોઈએ? અગાઉ, ઘણા આંકડાશાસ્ત્રીઓ માનતા હતા કે H 0 ને પણ નકારી કાઢવો જોઈએ. હવે બીજો અભિગમ પ્રસ્તાવિત છે: H 0 સ્વીકારો, પરંતુ ડેટા અને તેમના વિશ્લેષણ માટેની પદ્ધતિને વધારાની ચકાસણીને આધીન કરો. ત્યાં બે શક્યતાઓ છે: કાં તો પિયર્સનનું અંતર ખૂબ નાનું હોવાનો અર્થ એ છે કે મોડલ પરિમાણોની સંખ્યામાં વધારો સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં યોગ્ય ઘટાડો સાથે થયો ન હતો, અથવા ડેટા પોતે જ ખોટો હતો (કદાચ અજાણતાં અપેક્ષિત રીતે સમાયોજિત કરવામાં આવ્યો હતો. પરિણામ). ઉદાહરણ.બે સંશોધકો A અને B એ AA * aa મોનોહાઇબ્રિડ ક્રોસની બીજી પેઢીમાં રિસેસિવ હોમોઝાયગોટ્સ aa ના પ્રમાણની ગણતરી કરી. મેન્ડેલના કાયદા અનુસાર, આ અપૂર્ણાંક 0.25 છે. દરેક સંશોધકે 5 પ્રયોગો કર્યા અને દરેક પ્રયોગમાં 100 સજીવોનો અભ્યાસ કરવામાં આવ્યો. પરિણામો A: 25, 24, 26, 25, 24. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો સાચો છે(?). પરિણામો B: 29, 21, 23, 30, 19. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો વાજબી નથી(?). જો કે, મેન્ડેલનો નિયમ આંકડાકીય પ્રકૃતિનો છે, અને પરિણામોનું માત્રાત્મક પૃથ્થકરણ તારણોને ઉલટાવી દે છે! પાંચ પ્રયોગોને એકમાં જોડીને, અમે 5 ડિગ્રી સ્વતંત્રતા સાથે ચી-સ્ક્વેર વિતરણ પર પહોંચીએ છીએ (એક સરળ પૂર્વધારણાનું પરીક્ષણ કરવામાં આવે છે): X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16 X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17 સરેરાશ મૂલ્ય m [χ 2 n =5 ]=5, પ્રમાણભૂત વિચલન σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2. તેથી, કોષ્ટકોના સંદર્ભ વિના, તે સ્પષ્ટ છે કે X 2 B નું મૂલ્ય લાક્ષણિક છે, અને X 2 A નું મૂલ્ય અસ્પષ્ટપણે નાનું છે. કોષ્ટકો P અનુસાર (χ 2 n =5<0.16)<0.0001. આ ઉદાહરણ 1930 ના દાયકામાં બનેલા વાસ્તવિક કેસનું અનુકૂલન છે (કોલ્મોગોરોવનું કાર્ય "મેન્ડેલના કાયદાના અન્ય પુરાવા પર" જુઓ). રસપ્રદ વાત એ છે કે, સંશોધક A જિનેટિક્સના સમર્થક હતા, અને સંશોધક B તેની વિરુદ્ધ હતા. નોટેશનમાં મૂંઝવણ.ચી-સ્ક્વેર રેન્ડમ ચલની ગાણિતિક વિભાવનામાંથી પિયર્સન અંતરને અલગ પાડવું જરૂરી છે, જેને તેની ગણતરીમાં વધારાના સંમેલનોની જરૂર છે. ચોક્કસ પરિસ્થિતિઓમાં પીયર્સન અંતર સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેરની નજીકનું વિતરણ ધરાવે છે. તેથી, પીયર્સન અંતરને χ 2 n ચિહ્ન દ્વારા દર્શાવવાની સલાહ આપવામાં આવતી નથી, પરંતુ સમાન પરંતુ અલગ સંકેત X 2 નો ઉપયોગ કરવાની સલાહ આપવામાં આવે છે. પીયર્સન માપદંડ સર્વશક્તિમાન નથી. H 0 માટે અસંખ્ય વિકલ્પો છે જેને તે ધ્યાનમાં લેવામાં અસમર્થ છે. ધારો કે તમે અનુમાનનું પરીક્ષણ કરી રહ્યાં છો કે લક્ષણનું સમાન વિતરણ છે, તમારી પાસે 10 અંકો છે અને અવલોકન કરેલ ફ્રીક્વન્સીઝનું વેક્ટર (130,125,121,118,116,115,114,113,111,110) બરાબર છે. પીયર્સન માપદંડ "નોટિસ" કરી શકતું નથી કે ફ્રીક્વન્સી એકવિધ રીતે ઘટી રહી છે અને H 0 નકારવામાં આવશે નહીં. જો તે શ્રેણીના માપદંડ સાથે પૂરક હોત, તો હા!જટિલ પૂર્વધારણાઓને ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો
મહત્વપૂર્ણ મુદ્દાઓ