ચી સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીને. પીયર્સન ગુડનેસ-ઓફ-ફિટ ટેસ્ટ (ચી-સ્ક્વેર ટેસ્ટ)

1. તુલનાત્મક સૂચકાંકો માપવામાં આવશ્યક છે નજીવા સ્કેલ(ઉદાહરણ તરીકે, દર્દીનું લિંગ પુરુષ કે સ્ત્રી છે) અથવા માં ક્રમબદ્ધ(ઉદાહરણ તરીકે, ધમનીના હાયપરટેન્શનની ડિગ્રી, 0 થી 3 સુધીના મૂલ્યો લેતી).

2. આ પદ્ધતિજ્યારે પરિબળ અને પરિણામ બંને દ્વિસંગી ચલો છે, એટલે કે, તેમની પાસે માત્ર બે જ છે શક્ય મૂલ્યો(ઉદાહરણ તરીકે, પુરૂષ અથવા સ્ત્રી લિંગ, એનામેનેસિસમાં ચોક્કસ રોગની હાજરી અથવા ગેરહાજરી...). જ્યારે પરિબળ અને (અથવા) પરિણામ ત્રણ અથવા વધુ મૂલ્યો લે છે ત્યારે પીયર્સન ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ મલ્ટિ-ફિલ્ડ કોષ્ટકોના વિશ્લેષણના કિસ્સામાં પણ થઈ શકે છે.

3. તુલનાત્મક જૂથો સ્વતંત્ર હોવા જોઈએ, એટલે કે, "પહેલાં-પછી" અવલોકનોની સરખામણી કરતી વખતે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ થવો જોઈએ નહીં. મેકનેમર ટેસ્ટ(બે સંબંધિત વસ્તીની સરખામણી કરતી વખતે) અથવા ગણતરી કરેલ કોકરાનની ક્યૂ ટેસ્ટ(ત્રણ અથવા વધુ જૂથોની સરખામણીના કિસ્સામાં).

4. ચાર-ક્ષેત્ર કોષ્ટકોનું વિશ્લેષણ કરતી વખતે અપેક્ષિત મૂલ્યોદરેક કોષમાં ઓછામાં ઓછા 10 હોવા જોઈએ. જો ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટના 5 થી 9 સુધીનું મૂલ્ય લે છે, તો ચી-સ્ક્વેર ટેસ્ટની ગણતરી કરવી આવશ્યક છે યેટ્સના સુધારા સાથે. જો ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટના 5 કરતા ઓછી હોય, તો વિશ્લેષણનો ઉપયોગ કરવો જોઈએ ફિશરની ચોક્કસ કસોટી.

5. મલ્ટિફિલ્ડ કોષ્ટકોનું વિશ્લેષણ કરતી વખતે, 20% કરતા વધુ કોષોમાં અવલોકનોની અપેક્ષિત સંખ્યા 5 કરતા ઓછી હોવી જોઈએ નહીં.

ચી-સ્ક્વેર ટેસ્ટની ગણતરી કરવા માટે તમારે આની જરૂર છે:

1. અવલોકનોની અપેક્ષિત સંખ્યાની ગણતરી કરોપંક્તિઓ અને કૉલમના સરવાળાને ગુણાકાર કરીને અને પછી પરિણામી ઉત્પાદનને વિભાજીત કરીને કુલ સંખ્યાઅવલોકનો સામાન્ય દૃશ્યઅપેક્ષિત મૂલ્યોનું કોષ્ટક નીચે પ્રસ્તુત છે:

ત્યાં એક પરિણામ છે (1) કોઈ પરિણામ નથી (0) કુલ
એક જોખમ પરિબળ છે (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
કોઈ જોખમ પરિબળ નથી (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
કુલ A+C B+D A+B+C+D

2. χ 2 માપદંડની કિંમત શોધવીદ્વારા નીચેનું સૂત્ર:

જ્યાં i- લાઇન નંબર (1 થી આર સુધી), j- કૉલમ નંબર (1 થી c સુધી), ઓ આઈજી- સેલ ij માં અવલોકનોની વાસ્તવિક સંખ્યા, ઇ આઇ.જી- સેલ ij માં અવલોકનોની અપેક્ષિત સંખ્યા.

ઓછામાં ઓછા એક કોષમાં અપેક્ષિત ઘટનાની સંખ્યા 10 કરતા ઓછી હોય તેવા કિસ્સામાં, ચાર-ક્ષેત્ર કોષ્ટકોનું વિશ્લેષણ કરતી વખતે, તેની ગણતરી કરવી જોઈએ. યેટ્સ કરેક્શન સાથે ચી-સ્ક્વેર ટેસ્ટ. આ સુધારો પ્રકાર 1 ભૂલની સંભાવનાને ઘટાડે છે, એટલે કે, જ્યાં કોઈ ન હોય ત્યાં તફાવતો શોધવા. યેટ્સ કરેક્શન માંથી 0.5 બાદ કરવાનું છે સંપૂર્ણ મૂલ્યદરેક કોષમાં અવલોકનોની વાસ્તવિક અને અપેક્ષિત સંખ્યા વચ્ચેનો તફાવત, જે ચી-સ્ક્વેર ટેસ્ટના મૂલ્યમાં ઘટાડો તરફ દોરી જાય છે.

યેટ્સ કરેક્શન સાથે χ 2 માપદંડની ગણતરી માટેનું સૂત્ર નીચે મુજબ છે:

3. સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરવીસૂત્ર અનુસાર: f = (r – 1) × (c – 1). તદનુસાર, 2 પંક્તિઓ (r = 2) અને 2 કૉલમ (c = 2) સાથેના ચાર-ક્ષેત્રના કોષ્ટક માટે, સ્વતંત્રતાની ડિગ્રીની સંખ્યા f 2x2 = (2 - 1)*(2 - 1) = 1 છે.

4. અમે χ 2 માપદંડના મૂલ્યને નિર્ણાયક મૂલ્ય સાથે સરખાવીએ છીએસ્વતંત્રતા f ની ડિગ્રીની સંખ્યા પર (કોષ્ટક મુજબ).

આ અલ્ગોરિધમચાર-ક્ષેત્ર અને મલ્ટી-ફિલ્ડ કોષ્ટકો બંને માટે લાગુ.

પીયર્સન ચી-સ્ક્વેર ટેસ્ટના મૂલ્યનું અર્થઘટન કેવી રીતે કરવું?

જો χ 2 માપદંડનું પ્રાપ્ત મૂલ્ય નિર્ણાયક મૂલ્ય કરતાં વધારે હોય, તો અમે તારણ કાઢીએ છીએ કે અભ્યાસ કરેલ જોખમ પરિબળ અને મહત્વના યોગ્ય સ્તરે પરિણામ વચ્ચે આંકડાકીય સંબંધ છે.

પિયર્સન ચી-સ્ક્વેર ટેસ્ટની ગણતરીનું ઉદાહરણ

ચાલો વ્યાખ્યાયિત કરીએ આંકડાકીય મહત્વઉપર ચર્ચા કરેલ કોષ્ટક અનુસાર ધમનીના હાયપરટેન્શનની ઘટનાઓ પર ધૂમ્રપાન પરિબળનો પ્રભાવ:

1. દરેક કોષ માટે અપેક્ષિત મૂલ્યોની ગણતરી કરો:

2. પીયર્સન ચી-સ્ક્વેર ટેસ્ટનું મૂલ્ય શોધો:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. સ્વતંત્રતાની ડિગ્રીની સંખ્યા f = (2-1)*(2-1) = 1. કોષ્ટકમાંથી શોધો નિર્ણાયક મૂલ્યપીયર્સનનો ચી-સ્ક્વેર ટેસ્ટ, જે p=0.05 ના મહત્વના સ્તરે અને 1 ની સ્વતંત્રતાની ડિગ્રીની સંખ્યા 3.841 છે.

4. અમે ચી-સ્ક્વેર ટેસ્ટના મેળવેલ મૂલ્યની નિર્ણાયક સાથે સરખામણી કરીએ છીએ: 4.396 > 3.841, તેથી, ધૂમ્રપાનની હાજરી પર ધમનીના હાયપરટેન્શનની ઘટનાઓની અવલંબન આંકડાકીય રીતે નોંધપાત્ર છે. આ સંબંધનું મહત્વ સ્તર p ને અનુરૂપ છે<0.05.

સ્વતંત્રતાની ડિગ્રીની સંખ્યા, એફ p=0.05 પર χ 2 p=0.01 પર χ 2
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

જૈવિક સંશોધનની પ્રેક્ટિસમાં, ઘણીવાર એક અથવા બીજી પૂર્વધારણાનું પરીક્ષણ કરવું જરૂરી છે, એટલે કે, પ્રયોગકર્તા દ્વારા મેળવેલી વાસ્તવિક સામગ્રી સૈદ્ધાંતિક ધારણાને કેટલી હદ સુધી પુષ્ટિ આપે છે તે શોધવા માટે, અને વિશ્લેષણ કરાયેલ ડેટા સૈદ્ધાંતિક રીતે અપેક્ષિત સાથે કેટલી હદ સુધી સુસંગત છે. રાશિઓ વાસ્તવિક ડેટા અને સૈદ્ધાંતિક અપેક્ષા વચ્ચેના તફાવતનું આંકડાકીય રીતે મૂલ્યાંકન કરવાનું કાર્ય ઉદ્ભવે છે, કયા કિસ્સાઓમાં અને કયા ડિગ્રીની સંભાવના સાથે આ તફાવતને વિશ્વસનીય ગણી શકાય અને, તેનાથી વિપરીત, જ્યારે તેને તકની મર્યાદામાં મામૂલી, મામૂલી ગણવું જોઈએ. પછીના કિસ્સામાં, પૂર્વધારણા જાળવી રાખવામાં આવે છે, જેના આધારે સૈદ્ધાંતિક રીતે અપેક્ષિત ડેટા અથવા સૂચકાંકોની ગણતરી કરવામાં આવે છે. પૂર્વધારણાને ચકાસવા માટેની આવી વૈવિધ્યસભર-આંકડાકીય તકનીક પદ્ધતિ છે ચી-ચોરસ (χ 2). આ માપને ઘણીવાર "ફીટ માપદંડ" અથવા "પિયર્સનની સારી-સુવિધા-યોગ્ય કસોટી" કહેવામાં આવે છે. તેની સહાયથી, કોઈ પણ વ્યક્તિ, વિવિધ સંભાવનાઓ સાથે, સૈદ્ધાંતિક રીતે અપેક્ષિત લોકો સાથે પ્રાયોગિક રીતે મેળવેલા ડેટાના પત્રવ્યવહારની ડિગ્રી નક્કી કરી શકે છે.

ઔપચારિક દૃષ્ટિકોણથી, બે વિવિધતા શ્રેણી, બે વસ્તીની તુલના કરવામાં આવે છે: એક પ્રયોગમૂલક વિતરણ છે, અન્ય સમાન પરિમાણો સાથેનો નમૂનો છે ( n, એમ, એસવગેરે) એ પ્રયોગમૂલક સમાન છે, પરંતુ તેનું આવર્તન વિતરણ પસંદ કરેલા સૈદ્ધાંતિક કાયદા (સામાન્ય, પોઈસન, દ્વિપદી, વગેરે) અનુસાર સખત રીતે બાંધવામાં આવ્યું છે, જે અભ્યાસ હેઠળના રેન્ડમ ચલની વર્તણૂકનું પાલન કરવાનું માનવામાં આવે છે. .

સામાન્ય રીતે, પાલન માપદંડ માટે સૂત્ર નીચે પ્રમાણે લખી શકાય છે:

જ્યાં a -અવલોકનોની વાસ્તવિક આવર્તન,

એ -આપેલ વર્ગ માટે સૈદ્ધાંતિક રીતે અપેક્ષિત આવર્તન.

નલ પૂર્વધારણા ધારે છે કે તુલનાત્મક વિતરણો વચ્ચે કોઈ નોંધપાત્ર તફાવત નથી. આ તફાવતોના મહત્વનું મૂલ્યાંકન કરવા માટે, તમારે જટિલ ચી-સ્ક્વેર મૂલ્યોના વિશેષ કોષ્ટકનો સંદર્ભ લેવો જોઈએ (કોષ્ટક 9 પી) અને, ગણતરી કરેલ મૂલ્યની તુલના χ કોષ્ટક સાથે 2, નક્કી કરો કે પ્રયોગમૂલક વિતરણ સૈદ્ધાંતિક વિતરણથી વિશ્વસનીય છે કે અવિશ્વસનીય રીતે વિચલિત થાય છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને કાં તો રદિયો આપવામાં આવશે અથવા અમલમાં મૂકવામાં આવશે. જો ગણતરી કરેલ મૂલ્ય χ 2 કોષ્ટકની બરાબર અથવા તેનાથી વધી જાય છે χ ² ( α , ડીએફ), નક્કી કરો કે પ્રાયોગિક વિતરણ સૈદ્ધાંતિક કરતાં નોંધપાત્ર રીતે અલગ છે. આમ, આ તફાવતોની ગેરહાજરી વિશેની પૂર્વધારણાને રદિયો આપવામાં આવશે. જો χ ² < χ ² ( α , ડીએફ), શૂન્ય પૂર્વધારણા માન્ય રહે છે. તે સામાન્ય રીતે સ્વીકારવામાં આવે છે કે સ્વીકાર્ય સ્તરનું મહત્વ α = 0.05, કારણ કે આ કિસ્સામાં શૂન્ય પૂર્વધારણા સાચી હોવાની માત્ર 5% તક છે અને તેથી, તેને નકારવા માટે પૂરતું કારણ (95%) છે.


ચોક્કસ સમસ્યા એ સ્વતંત્રતાની ડિગ્રીની સંખ્યાનું યોગ્ય નિર્ધારણ છે ( ડીએફ), જેના માટે માપદંડ મૂલ્યો કોષ્ટકમાંથી લેવામાં આવે છે. વર્ગોની કુલ સંખ્યામાંથી સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરવા kતમારે અવરોધોની સંખ્યા બાદ કરવાની જરૂર છે (એટલે ​​​​કે સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરી કરવા માટે વપરાતા પરિમાણોની સંખ્યા).

અભ્યાસ કરવામાં આવતી લાક્ષણિકતાના વિતરણના પ્રકાર પર આધાર રાખીને, સ્વતંત્રતાની ડિગ્રીની સંખ્યાની ગણતરી માટેનું સૂત્ર બદલાશે. માટે વૈકલ્પિકવિતરણ ( k= 2) માત્ર એક પરિમાણ (નમૂનાનું કદ) ગણતરીમાં સામેલ છે, તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−1=2−1=1. માટે બહુપદીવિતરણ સૂત્ર સમાન છે: ડીએફ= k−1. વિતરણ માટે વિવિધતા શ્રેણીના પત્રવ્યવહારને તપાસવા માટે પોઈસનબે પરિમાણો પહેલેથી ઉપયોગમાં લેવાય છે - નમૂનાનું કદ અને સરેરાશ મૂલ્ય (સંખ્યાત્મક રીતે વિક્ષેપ સાથે સુસંગત); સ્વતંત્રતાની ડિગ્રીની સંખ્યા ડીએફ= k−2. પ્રયોગમૂલક વિતરણની સુસંગતતા તપાસતી વખતે, વિકલ્પ સામાન્યઅથવા દ્વિપદીકાયદા અનુસાર, સ્વતંત્રતાની ડિગ્રીની સંખ્યાને શ્રેણીના નિર્માણ માટે વાસ્તવિક વર્ગો બાદની ત્રણ શરતો તરીકે લેવામાં આવે છે - નમૂનાનું કદ, સરેરાશ અને વિચલન, ડીએફ= k−3. તે તરત જ નોંધવું યોગ્ય છે કે χ² માપદંડ ફક્ત નમૂનાઓ માટે જ કાર્ય કરે છે ઓછામાં ઓછા 25 પ્રકારનું વોલ્યુમ, અને વ્યક્તિગત વર્ગોની ફ્રીક્વન્સી હોવી જોઈએ 4 કરતા ઓછું નથી.

પ્રથમ, અમે વિશ્લેષણના ઉદાહરણનો ઉપયોગ કરીને ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ સમજાવીએ છીએ વૈકલ્પિક પરિવર્તનશીલતા. ટામેટાંની આનુવંશિકતાનો અભ્યાસ કરવાના એક પ્રયોગમાં 3629 લાલ અને 1176 પીળા ફળો મળી આવ્યા હતા. બીજી હાઇબ્રિડ જનરેશનમાં અક્ષરોના વિભાજન માટે ફ્રીક્વન્સીઝનો સૈદ્ધાંતિક ગુણોત્તર 3:1 (75% થી 25%) હોવો જોઈએ. શું તેનો અમલ થઈ રહ્યો છે? બીજા શબ્દોમાં કહીએ તો, શું આ નમૂનો એવી વસ્તીમાંથી લેવામાં આવ્યો છે જેમાં આવર્તન ગુણોત્તર 3:1 અથવા 0.75:0.25 છે?

ચાલો એક કોષ્ટક બનાવીએ (કોષ્ટક 4), પ્રયોગમૂલક ફ્રીક્વન્સીઝના મૂલ્યો અને સૂત્રનો ઉપયોગ કરીને સૈદ્ધાંતિક ફ્રીક્વન્સીઝની ગણતરીના પરિણામો ભરીને:

A = n∙p,

જ્યાં પી- સૈદ્ધાંતિક ફ્રીક્વન્સીઝ (આ પ્રકારના વેરિઅન્ટના અપૂર્ણાંક),

n -નમૂનાનું કદ.

ઉદાહરણ તરીકે, 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

રશિયન ફેડરેશનના શિક્ષણ અને વિજ્ઞાન મંત્રાલય

ઇર્કુત્સ્ક શહેરની શિક્ષણ માટેની ફેડરલ એજન્સી

બૈકલ સ્ટેટ યુનિવર્સિટી ઓફ ઇકોનોમિક્સ એન્ડ લો

ઇન્ફોર્મેટિક્સ અને સાયબરનેટિક્સ વિભાગ

ચી-સ્ક્વેર વિતરણ અને તેની એપ્લિકેશનો

કોલ્મીકોવા અન્ના એન્ડ્રીવના

2 જી વર્ષનો વિદ્યાર્થી

જૂથ IS-09-1

પ્રાપ્ત ડેટા પર પ્રક્રિયા કરવા માટે અમે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરીએ છીએ.

આ કરવા માટે, અમે પ્રયોગમૂલક ફ્રીક્વન્સીઝના વિતરણનું ટેબલ બનાવીશું, એટલે કે. તે ફ્રીક્વન્સીઝ કે જે આપણે અવલોકન કરીએ છીએ:

સૈદ્ધાંતિક રીતે, અમે અપેક્ષા રાખીએ છીએ કે ફ્રીક્વન્સી સમાન રીતે વિતરિત કરવામાં આવશે, એટલે કે. આવર્તન છોકરાઓ અને છોકરીઓ વચ્ચે પ્રમાણસર વહેંચવામાં આવશે. ચાલો સૈદ્ધાંતિક ફ્રીક્વન્સીઝનું ટેબલ બનાવીએ. આ કરવા માટે, પંક્તિના સરવાળાને કૉલમના સરવાળા વડે ગુણાકાર કરો અને પરિણામી સંખ્યાને કુલ સરવાળા (ઓ) વડે વિભાજીત કરો.


ગણતરીઓ માટેનું અંતિમ કોષ્ટક આના જેવું દેખાશે:

χ2 = ∑(E - T)² / T

n = (R - 1), જ્યાં R એ કોષ્ટકમાં પંક્તિઓની સંખ્યા છે.

અમારા કિસ્સામાં, ચી-સ્ક્વેર = 4.21; n = 2.

માપદંડના નિર્ણાયક મૂલ્યોના કોષ્ટકનો ઉપયોગ કરીને, અમે શોધીએ છીએ: n = 2 અને 0.05 ના ભૂલ સ્તર સાથે, નિર્ણાયક મૂલ્ય χ2 = 5.99 છે.

પરિણામી મૂલ્ય નિર્ણાયક મૂલ્ય કરતાં ઓછું છે, જેનો અર્થ છે કે નલ પૂર્વધારણા સ્વીકારવામાં આવે છે.

નિષ્કર્ષ: શિક્ષકો બાળકની લાક્ષણિકતાઓ લખતી વખતે તેના લિંગને મહત્વ આપતા નથી.

અરજી

χ2 વિતરણના નિર્ણાયક બિંદુઓ

કોષ્ટક 1

નિષ્કર્ષ

લગભગ તમામ વિશેષતાઓના વિદ્યાર્થીઓ ઉચ્ચ ગણિતના અભ્યાસક્રમના અંતે "સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા" વિભાગનો અભ્યાસ કરે છે, વાસ્તવમાં, તેઓ ફક્ત કેટલાક મૂળભૂત ખ્યાલો અને પરિણામોથી પરિચિત થાય છે, જે સ્પષ્ટપણે વ્યવહારિક કાર્ય માટે પૂરતા નથી. વિદ્યાર્થીઓને વિશેષ અભ્યાસક્રમોમાં કેટલીક ગાણિતિક સંશોધન પદ્ધતિઓનો પરિચય આપવામાં આવે છે (ઉદાહરણ તરીકે, “આગાહી અને તકનીકી અને આર્થિક આયોજન”, “તકનીકી અને આર્થિક વિશ્લેષણ”, “ઉત્પાદન ગુણવત્તા નિયંત્રણ”, “માર્કેટિંગ”, “નિયંત્રણ”, “આગાહીની ગાણિતિક પદ્ધતિઓ ")", "આંકડાશાસ્ત્ર", વગેરે. - આર્થિક વિશેષતાના વિદ્યાર્થીઓના કિસ્સામાં), જો કે, મોટાભાગના કિસ્સાઓમાં પ્રસ્તુતિ ખૂબ જ સંક્ષિપ્ત અને ફોર્મ્યુલાયુક્ત પ્રકૃતિની હોય છે. પરિણામે, લાગુ આંકડાશાસ્ત્રીઓનું જ્ઞાન અપૂરતું છે.

તેથી, ટેકનિકલ યુનિવર્સિટીઓમાં "એપ્લાઇડ સ્ટેટિસ્ટિક્સ" કોર્સ ખૂબ મહત્વ ધરાવે છે, અને આર્થિક યુનિવર્સિટીઓમાં "ઇકોનોમેટ્રિક્સ" કોર્સ, કારણ કે અર્થમેટ્રિક્સ, જેમ જાણીતું છે, ચોક્કસ આર્થિક ડેટાનું આંકડાકીય વિશ્લેષણ છે.

સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા લાગુ આંકડાઓ અને અર્થમિતિશાસ્ત્ર માટે મૂળભૂત જ્ઞાન પ્રદાન કરે છે.

તેઓ વ્યવહારુ કાર્ય માટે નિષ્ણાતો માટે જરૂરી છે.

મેં સતત પ્રોબેબિલિસ્ટિક મોડલ જોયું અને ઉદાહરણો સાથે તેનો ઉપયોગ બતાવવાનો પ્રયાસ કર્યો.

વપરાયેલ સાહિત્યની સૂચિ

1. ઓર્લોવ એ.આઈ. લાગુ આંકડા. એમ.: પબ્લિશિંગ હાઉસ "પરીક્ષા", 2004.

2. Gmurman V.E. સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા. એમ.: ઉચ્ચ શાળા, 1999. - 479 પૃષ્ઠ.

3. Ayvozyan S.A. સંભાવના સિદ્ધાંત અને લાગુ આંકડા, વોલ્યુમ 1. એમ.: યુનિટી, 2001. - 656 પૃષ્ઠ.

4. ખામિટોવ જી.પી., વેડેર્નિકોવા ટી.આઈ. સંભાવનાઓ અને આંકડા. ઇર્કુત્સ્ક: BGUEP, 2006 – 272 p.

5. એઝોવા એલ.એન. ઇકોનોમેટ્રિક્સ. ઇર્કુત્સ્ક: BGUEP, 2002. – 314 p.

6. મોસ્ટેલર એફ. ઉકેલો સાથે પચાસ મનોરંજક સંભવિત સમસ્યાઓ. એમ.: નૌકા, 1975. - 111 પૃષ્ઠ.

7. મોસ્ટેલર એફ. સંભાવના. એમ.: મીર, 1969. - 428 પૃષ્ઠ.

8. યાગ્લોમ એ.એમ. સંભાવના અને માહિતી. એમ.: નૌકા, 1973. - 511 પૃષ્ઠ.

9. ચિસ્ત્યાકોવ વી.પી. સંભાવના સિદ્ધાંત કોર્સ. એમ.: નૌકા, 1982. - 256 પૃષ્ઠ.

10. ક્રેમર N.Sh. સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા. એમ.: યુનિટી, 2000. - 543 પૃષ્ઠ.

11. ગાણિતિક જ્ઞાનકોશ, ભાગ 1. એમ.: સોવિયેત જ્ઞાનકોશ, 1976. - 655 પૃષ્ઠ.

12. http://psystat.at.ua/ - મનોવિજ્ઞાન અને શિક્ષણ શાસ્ત્રમાં આંકડા. લેખ ચી-સ્ક્વેર ટેસ્ટ.

માપદંડનું વર્ણન

માપદંડનો હેતુ

પીયર્સનની ચી-સ્ક્વેર ટેસ્ટ

વ્યાખ્યાન સામગ્રી

વિષય 6. લક્ષણના વિતરણમાં તફાવતોને ઓળખવા

પીયર્સન માપદંડ: માપદંડનો હેતુ, તેનું વર્ણન, એપ્લિકેશનનો અવકાશ, ગણતરી અલ્ગોરિધમ.

જથ્થાત્મક માપનના પરિણામોની તુલના કરવા માટે કોલ્મોગોરોવ-સ્મિરનોવ માપદંડ: માપદંડનો હેતુ, તેનું વર્ણન, એપ્લિકેશનનો અવકાશ, ગણતરી અલ્ગોરિધમ.

આ વિષયનો અભ્યાસ કરતી વખતે, તે ધ્યાનમાં લેવું જરૂરી છે કે બંને માપદંડ નોનપેરામેટ્રિક છે તેઓ ફ્રીક્વન્સીઝ સાથે કાર્ય કરે છે. ધ્યાનમાં લેવાયેલા માપદંડ માટે નિર્ણયના નિયમો પર વિશેષ ધ્યાન આપો: આ નિયમો વિરુદ્ધ હોઈ શકે છે. કૃપા કરીને માપદંડની અરજીમાં મર્યાદાઓની કાળજીપૂર્વક સમીક્ષા કરો.

વ્યાખ્યાન સામગ્રીનો અભ્યાસ કર્યા પછી, પરીક્ષણ પ્રશ્નોના જવાબ આપો અને તમારી નોંધોમાં જવાબો લખો.

પીયર્સન ચી-સ્ક્વેર ટેસ્ટ વિતરણની સરખામણી સહિત અનેક સમસ્યાઓનું નિરાકરણ લાવી શકે છે.

χ 2 પરીક્ષણનો ઉપયોગ બે હેતુઓ માટે થાય છે;

1) સરખામણી માટે પ્રયોગમૂલકસાથે લાક્ષણિકતાનું વિતરણ સૈદ્ધાંતિક -સમાન, સામાન્ય અથવા અન્યથા;

2) સરખામણી માટે બે, ત્રણ અથવા વધુ પ્રયોગમૂલકસમાન લાક્ષણિકતાના વિતરણો, એટલે કે, તેમની એકરૂપતા તપાસવા માટે;

3) રેન્ડમ ઘટનાઓની સિસ્ટમમાં સ્ટોકેસ્ટિક (સંભવિત) સ્વતંત્રતાનું મૂલ્યાંકન કરવું, વગેરે.

χ 2 માપદંડ પ્રયોગમૂલક અને સૈદ્ધાંતિક વિતરણમાં અથવા બે અથવા વધુ પ્રયોગમૂલક વિતરણોમાં સમાન આવર્તન સાથે લાક્ષણિકતાના વિવિધ મૂલ્યો થાય છે કે કેમ તે પ્રશ્નનો જવાબ આપે છે.

પદ્ધતિનો ફાયદો એ છે કે તે નામોના સ્કેલથી શરૂ કરીને, કોઈપણ સ્કેલ પર પ્રસ્તુત સુવિધાઓના વિતરણની તુલના કરવાની મંજૂરી આપે છે. વૈકલ્પિક વિતરણના સૌથી સરળ કિસ્સામાં ("હા - ના", "ખામીને મંજૂરી આપી - ખામીને મંજૂરી આપી નથી", "સમસ્યા હલ કરી - સમસ્યા હલ કરી નથી", વગેરે), અમે પહેલેથી જ χ 2 માપદંડ લાગુ કરી શકીએ છીએ. .

1. નમૂનાનું કદ પૂરતું મોટું હોવું જોઈએ: N>30. જ્યારે એન<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. દરેક કોષ્ટક કોષ માટે સૈદ્ધાંતિક આવર્તન 5: f ≥ 5 કરતા ઓછી ન હોવી જોઈએ . આનો અર્થ એ છે કે જો અંકોની સંખ્યા પૂર્વનિર્ધારિત હોય અને બદલી શકાતી નથી, તો આપણે χ 2 પદ્ધતિ લાગુ કરી શકતા નથી. , અવલોકનોની ચોક્કસ લઘુત્તમ સંખ્યા એકઠા કર્યા વિના. જો, ઉદાહરણ તરીકે, અમે અમારી ધારણાઓને ચકાસવા માગીએ છીએ કે ટ્રસ્ટ ટેલિફોન સેવા પર કૉલ્સની આવર્તન અઠવાડિયાના 7 દિવસમાં અસમાન રીતે વિતરિત કરવામાં આવે છે, તો અમને 5-7 = 35 કૉલ્સની જરૂર પડશે. આમ, જો અંકોની સંખ્યા (k)અગાઉથી આપેલ છે, જેમ કે આ કિસ્સામાં, અવલોકનોની ન્યૂનતમ સંખ્યા (N મિનિટ) સૂત્ર દ્વારા નક્કી કરવામાં આવે છે: .



3. પસંદ કરેલ શ્રેણીઓએ સમગ્ર વિતરણને "સ્કૂપ આઉટ" કરવું જોઈએ, એટલે કે, લાક્ષણિકતાઓની વિવિધતાની સમગ્ર શ્રેણીને આવરી લેવી જોઈએ. આ કિસ્સામાં, વર્ગોમાં જૂથીકરણ તમામ તુલનાત્મક વિતરણોમાં સમાન હોવું જોઈએ.

4. માત્ર 2 મૂલ્યો લેતી સુવિધાઓના વિતરણની સરખામણી કરતી વખતે "સતત સુધારણા" કરવી જરૂરી છે. કરેક્શન કરતી વખતે, χ 2 નું મૂલ્ય ઘટે છે (સતત સુધારણા સાથેનું ઉદાહરણ જુઓ).

5. શ્રેણીઓ બિન-ઓવરલેપિંગ હોવી જોઈએ: જો કોઈ અવલોકન એક શ્રેણીને સોંપવામાં આવ્યું હોય, તો પછી તે અન્ય કોઈપણ શ્રેણીને સોંપી શકાશે નહીં. રેન્ક દ્વારા અવલોકનોનો સરવાળો હંમેશા અવલોકનોની કુલ સંખ્યા જેટલો હોવો જોઈએ.

χ 2 માપદંડની ગણતરી માટે અલ્ગોરિધમ

1. નીચેના પ્રકારનાં લક્ષણ મૂલ્યોના પરસ્પર જોડાણનું કોષ્ટક બનાવો (આવશ્યક રીતે, આ એક દ્વિ-પરિમાણીય વિવિધતા શ્રેણી છે જેમાં સંયુક્ત વિશેષતા મૂલ્યોની ઘટનાની આવર્તન દર્શાવેલ છે) - કોષ્ટક 19. કોષ્ટકમાં શામેલ છે શરતી ફ્રીક્વન્સીઝ, જેને આપણે સામાન્ય શબ્દોમાં f ij તરીકે દર્શાવીશું. ઉદાહરણ તરીકે, લાક્ષણિકતાના ગ્રેડેશનની સંખ્યા એક્સ 3 (k=3) બરાબર છે, લાક્ષણિકતાના ક્રમાંકની સંખ્યા ખાતેબરાબર 4 (m=4); પછી i 1 થી k સુધી બદલાય છે, અને j 1 થી m સુધી બદલાય છે.

કોષ્ટક 19

x i y j x 1 x 2 x 3
1 પર f 11 f 21 f 31 f -1
2 પર f 12 f 22 f 32 f -2
3 પર f 13 f 23 f 33 f -3
4 પર f 14 f 24 f 34 f -4
f 1- f 2- f 3- એન

2. આગળ, ગણતરીની સગવડ માટે, અમે પરસ્પર આકસ્મિકતાના મૂળ કોષ્ટકને નીચેના સ્વરૂપના કોષ્ટકમાં રૂપાંતરિત કરીએ છીએ (કોષ્ટક 20), શરતી ફ્રીક્વન્સી સાથે કૉલમને એકની નીચે મૂકીને: કોષ્ટકમાં શ્રેણીઓના નામ દાખલ કરો (કૉલમ 1 અને 2) અને અનુરૂપ પ્રયોગમૂલક ફ્રીક્વન્સીઝ (3જી કૉલમ ).

કોષ્ટક 20

x i y જે f ij f ij * f ij - f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 1 પર f 11 f 11*
x 1 2 પર f 12 f 12*
x 1 3 પર f 13 f 13*
x 1 4 પર f 14 f 14*
x 2 1 પર f 21 f 21 *
x 2 2 પર f 22 f 22 *
x 2 3 પર f 23 f 23 *
x 2 4 પર f 24 f 24 *
x 3 1 પર f 31 f 31 *
x 3 2 પર f 32 f 32 *
x 3 3 પર f 33 f 33 *
x 3 4 પર f 34 f 34*
∑=………….

3. દરેક પ્રયોગમૂલક આવર્તનની બાજુમાં, સૈદ્ધાંતિક આવર્તન (4 થી સ્તંભ) લખો, જેની ગણતરી નીચેના સૂત્રનો ઉપયોગ કરીને કરવામાં આવે છે (સંબંધિત લાઇનમાંની કુલ આવર્તન અનુરૂપ સ્તંભમાં કુલ આવર્તન દ્વારા ગુણાકાર કરવામાં આવે છે અને કુલ સંખ્યા વડે ભાગવામાં આવે છે. અવલોકનો):

5. સૂત્રનો ઉપયોગ કરીને સ્વતંત્રતાની ડિગ્રીની સંખ્યા નક્કી કરો: ν=(k-1)(m-1) , જ્યાં k-વિશેષતા અંકોની સંખ્યા એક્સ, m - ચિહ્નના અંકોની સંખ્યા ખાતે.

જો ν=1 હોય, તો "સતતતા" માટે સુધારો કરો અને તેને કૉલમ 5a માં લખો.

સાતત્ય સુધારણામાં શરતી અને સૈદ્ધાંતિક ફ્રીક્વન્સીઝ વચ્ચેના તફાવતમાંથી અન્ય 0.5 બાદબાકીનો સમાવેશ થાય છે. પછી અમારા કોષ્ટકમાં કૉલમ હેડિંગ આના જેવો દેખાશે (કોષ્ટક 21):

કોષ્ટક 21

એક્સ ખાતે f ij f ij * f ij - f ij * f ij – f ij * – 0.5 (f ij – f ij * – 0.5) 2 (f ij – f ij * – 0.5) 2 / f ij *
1 2 3 4 5 5a 6 7

6. પરિણામી તફાવતોને ચોરસ કરો અને તેમને 6ઠ્ઠી કૉલમમાં દાખલ કરો.

7. પરિણામી ચોરસ તફાવતોને સૈદ્ધાંતિક આવર્તન દ્વારા વિભાજીત કરો અને 7મી કૉલમમાં પરિણામો લખો.

8. 7મી કૉલમના મૂલ્યોનો સરવાળો કરો. પરિણામી રકમ χ 2 em તરીકે નિયુક્ત કરવામાં આવી છે.

9. નિર્ણય નિયમ:

માપદંડના ગણતરી કરેલ મૂલ્યની તુલના નિર્ણાયક (અથવા ટેબ્યુલેટેડ) મૂલ્ય સાથે કરવી આવશ્યક છે. નિર્ણાયક મૂલ્ય પીયર્સન χ 2 માપદંડના નિર્ણાયક મૂલ્યોના કોષ્ટક અનુસાર સ્વતંત્રતાની ડિગ્રીની સંખ્યા પર આધારિત છે (જુઓ પરિશિષ્ટ 1.6).

જો χ 2 calc ≥ χ 2 કોષ્ટક હોય, તો વિતરણો વચ્ચેની વિસંગતતા આંકડાકીય રીતે નોંધપાત્ર છે, અથવા લાક્ષણિકતાઓ સતત બદલાતી રહે છે, અથવા લાક્ષણિકતાઓ વચ્ચેનો સંબંધ આંકડાકીય રીતે નોંધપાત્ર છે.

જો χ 2 ની ગણતરી કરવામાં આવે< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

કાઈ-સ્ક્વેર ટેસ્ટ એ પ્રયોગના પરિણામો અને ઉપયોગમાં લેવાતા આંકડાકીય મોડેલ વચ્ચેના કરારને ચકાસવા માટેની સાર્વત્રિક પદ્ધતિ છે.

પીયર્સન અંતર X 2

Pyatnitsky A.M.

રશિયન સ્ટેટ મેડિકલ યુનિવર્સિટી

1900 માં, કાર્લ પીયર્સન મોડેલ આગાહીઓ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને ચકાસવા માટે એક સરળ, સાર્વત્રિક અને અસરકારક રીતનો પ્રસ્તાવ મૂક્યો. તેમણે પ્રસ્તાવિત "ચી-સ્ક્વેર ટેસ્ટ" એ સૌથી મહત્વપૂર્ણ અને સૌથી વધુ ઉપયોગમાં લેવાતી આંકડાકીય કસોટી છે. અજ્ઞાત મોડલ પેરામીટર્સનો અંદાજ કાઢવા અને મોડેલ અને પ્રાયોગિક ડેટા વચ્ચેના કરારને તપાસવા સંબંધિત મોટાભાગની સમસ્યાઓ તેની મદદથી ઉકેલી શકાય છે.

જે ઑબ્જેક્ટ અથવા પ્રક્રિયાનો અભ્યાસ કરવામાં આવી રહ્યો છે તેનું પ્રાયોરી ("પૂર્વ-પ્રાયોગિક") મોડલ હોવા દો (આંકડાઓમાં તેઓ "નલ પૂર્વધારણા" H 0 વિશે બોલે છે), અને આ ઑબ્જેક્ટ સાથેના પ્રયોગના પરિણામો. તે નક્કી કરવું જરૂરી છે કે શું મોડેલ પર્યાપ્ત છે (શું તે વાસ્તવિકતાને અનુરૂપ છે)? શું પ્રાયોગિક પરિણામો વાસ્તવિકતા કેવી રીતે કાર્ય કરે છે તે વિશેના અમારા વિચારોનો વિરોધાભાસ કરે છે, અથવા બીજા શબ્દોમાં કહીએ તો, H0 ને નકારી કાઢવો જોઈએ? ઘણીવાર આ કાર્યને અવલોકન કરેલ (O i = અવલોકન કરેલ) અને મોડેલ (E i = અપેક્ષિત) ચોક્કસ ઘટનાઓની ઘટનાની સરેરાશ ફ્રીક્વન્સીઝ અનુસાર અપેક્ષિત સરખામણી કરવા માટે ઘટાડી શકાય છે. એવું માનવામાં આવે છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝ સતત (!) પરિસ્થિતિઓ હેઠળ કરવામાં આવેલા N સ્વતંત્ર (!) અવલોકનોની શ્રેણીમાં મેળવવામાં આવી હતી. દરેક અવલોકનના પરિણામે, M ઘટનાઓમાંથી એક રેકોર્ડ કરવામાં આવે છે. આ ઘટનાઓ એક સાથે થઈ શકતી નથી (તેઓ જોડીમાં અસંગત છે) અને તેમાંથી એક આવશ્યકપણે થાય છે (તેમનું સંયોજન એક વિશ્વસનીય ઘટના બનાવે છે). તમામ અવલોકનોની સંપૂર્ણતા ફ્રીક્વન્સીઝ (O i )=(O 1 , … O M ) ના કોષ્ટક (વેક્ટર) સુધી ઘટાડવામાં આવે છે, જે પ્રયોગના પરિણામોનું સંપૂર્ણ વર્ણન કરે છે. મૂલ્ય O 2 =4 નો અર્થ છે કે ઘટના નંબર 2 4 વખત આવી. ફ્રીક્વન્સીઝનો સરવાળો O 1 +… O M =N. બે કિસ્સાઓ વચ્ચે તફાવત કરવો મહત્વપૂર્ણ છે: N – નિશ્ચિત, બિન-રેન્ડમ, N – રેન્ડમ ચલ. પ્રયોગોની નિશ્ચિત કુલ સંખ્યા N માટે, ફ્રીક્વન્સીઝનું બહુપદી વિતરણ હોય છે. ચાલો આ સામાન્ય યોજનાને એક સરળ ઉદાહરણથી સમજાવીએ.

સરળ પૂર્વધારણાઓ ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો.

મૉડલ (નલ હાયપોથિસિસ H 0) એ રહેવા દો કે મૃત્યુ વાજબી છે - p i =1/6, i =, M=6 સંભાવના સાથે બધા ચહેરા સમાન રીતે દેખાય છે. એક પ્રયોગ હાથ ધરવામાં આવ્યો હતો જેમાં 60 વખત ડાઇ ફેંકવામાં આવી હતી (N = 60 સ્વતંત્ર ટ્રાયલ હાથ ધરવામાં આવી હતી). મોડેલ મુજબ, અમે અપેક્ષા રાખીએ છીએ કે ઘટના 1,2,... 6 પોઈન્ટની તમામ અવલોકન કરેલ ફ્રીક્વન્સીઝ તેમના સરેરાશ મૂલ્યો E i =Np i =60∙(1/6)=10 ની નજીક હોવા જોઈએ. H 0 મુજબ, સરેરાશ ફ્રીક્વન્સીઝનો વેક્ટર (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (ઉપકલ્પનાઓ કે જેમાં પ્રયોગની શરૂઆત પહેલા સરેરાશ ફ્રીક્વન્સીઝ સંપૂર્ણપણે જાણીતી હોય તેને સરળ કહેવામાં આવે છે.) જો અવલોકન કરેલ વેક્ટર (O i ) બરાબર (34,0,0,0,0,26) હોય, તો તે તરત જ સ્પષ્ટ કરો કે મોડેલ ખોટું છે - હાડકું સાચું હોઈ શકતું નથી, કારણ કે માત્ર 1 અને 6 જ 60 વખત ફેરવવામાં આવ્યા હતા. જો કે, મોડેલ અને અનુભવ વચ્ચે આવી સ્પષ્ટ વિસંગતતાઓનો દેખાવ એક અપવાદ છે. અવલોકન કરેલ ફ્રીક્વન્સીઝ (O i ) ના વેક્ટરને (5, 15, 6, 14, 4, 16) બરાબર થવા દો. શું આ H0 સાથે સુસંગત છે? તેથી, આપણે બે ફ્રીક્વન્સી વેક્ટર (E i) અને (O i) ની સરખામણી કરવાની જરૂર છે. આ કિસ્સામાં, અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર (Ei) રેન્ડમ નથી, પરંતુ અવલોકન કરાયેલ ફ્રીક્વન્સીઝ (Oi) નું વેક્ટર રેન્ડમ છે - આગામી પ્રયોગ દરમિયાન (60 થ્રોની નવી શ્રેણીમાં) તે અલગ હશે. સમસ્યાનું ભૌમિતિક અર્થઘટન રજૂ કરવું ઉપયોગી છે અને માની લો કે આવર્તન અવકાશમાં (આ કિસ્સામાં 6-પરિમાણીય) કોઓર્ડિનેટ્સ (5, 15, 6, 14, 4, 16) અને (10, 10, 16) સાથે બે બિંદુઓ આપવામાં આવે છે. 10, 10, 10, 10) શું તેઓ આને H 0 સાથે અસંગત ગણવા માટે પર્યાપ્ત દૂર છે? બીજા શબ્દોમાં કહીએ તો, અમને જરૂર છે:

  1. ફ્રીક્વન્સીઝ (ફ્રીક્વન્સી સ્પેસમાં પોઈન્ટ) વચ્ચેનું અંતર માપવાનું શીખો,
  2. શું અંતર પણ ગણવું જોઈએ તે માટે એક માપદંડ છે ("અસ્પષ્ટપણે") મોટું, એટલે કે, H 0 સાથે અસંગત.

સામાન્ય યુક્લિડિયન અંતરનો વર્ગ બરાબર હશે:

X 2 યુક્લિડ = એસ(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

આ કિસ્સામાં, સપાટીઓ X 2 યુક્લિડ = કોન્સ્ટ હંમેશા ગોળા હોય છે જો આપણે E i ના મૂલ્યોને ઠીક કરીએ અને O i ને બદલીએ. કાર્લ પીયર્સન નોંધ્યું હતું કે આવર્તન અવકાશમાં યુક્લિડિયન અંતરનો ઉપયોગ કરવો જોઈએ નહીં. આમ, તે ધારવું ખોટું છે કે બિંદુઓ (O = 1030 અને E = 1000) અને (O = 40 અને E = 10) એકબીજાથી સમાન અંતરે છે, જો કે બંને કિસ્સાઓમાં તફાવત O -E = 30 છે. છેવટે, અપેક્ષિત આવર્તન જેટલી ઊંચી છે, તેમાંથી વધુ વિચલનો શક્ય ગણવા જોઈએ. તેથી, પોઈન્ટ (O =1030 અને E =1000)ને "બંધ" અને પોઈન્ટ (O =40 અને E =10) એકબીજાથી "દૂર" ગણવા જોઈએ. તે બતાવી શકાય છે કે જો પૂર્વધારણા H 0 સાચી હોય, તો E i ની સાપેક્ષ O i ની આવર્તન વધઘટ E i ના વર્ગમૂળ(!) ના ક્રમની છે. તેથી, પિયરસને, અંતરની ગણતરી કરતી વખતે, તફાવતો (O i -E i) નહીં, પરંતુ સામાન્યકૃત તફાવતો (O i -E i)/E i 1/2નો વર્ગ કરવાનો પ્રસ્તાવ મૂક્યો હતો. તો અહીં પિયર્સન અંતરની ગણતરી કરવા માટેનું સૂત્ર છે (તે વાસ્તવમાં અંતરનો વર્ગ છે):

X 2 પીયર્સન = એસ((O i -E i)/E i 1/2) 2 = એસ(O i -E i) 2 /E i

અમારા ઉદાહરણમાં:

X 2 પીયર્સન = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

નિયમિત મૃત્યુ માટે, તમામ અપેક્ષિત ફ્રીક્વન્સીઝ E i સમાન હોય છે, પરંતુ સામાન્ય રીતે તે અલગ હોય છે, તેથી સપાટીઓ કે જેના પર પીયર્સનનું અંતર સ્થિર હોય છે (X 2 પીયર્સન = કોન્સ્ટ) એલિપ્સોઇડ્સ હોય છે, ગોળા નહીં.

હવે જ્યારે અંતરની ગણતરી કરવા માટેનું સૂત્ર પસંદ કરવામાં આવ્યું છે, તે શોધવા માટે જરૂરી છે કે કયા અંતરને "ખૂબ મોટું નથી" (H 0 સાથે સુસંગત) ગણવું જોઈએ, ઉદાહરણ તરીકે, આપણે 15.4ની ગણતરી કરેલ અંતર વિશે શું કહી શકીએ ? નિયમિત ડાઇ સાથે પ્રયોગો કરતી વખતે કેટલા ટકા કિસ્સાઓમાં (અથવા કેટલી સંભાવના સાથે) આપણે 15.4 કરતા વધુ અંતર મેળવીશું? જો આ ટકાવારી ઓછી હોય તો (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

સમજૂતી. નંબર i સાથે કોષ્ટક કોષમાં આવતા O i માપનની સંખ્યા પરિમાણો સાથે દ્વિપદી વિતરણ ધરાવે છે: m =Np i =E i,σ =(Np i (1-p i)) 1/2, જ્યાં N એ સંખ્યા છે માપન (N " 1), p i એ આપેલ કોષમાં એક માપ આવવાની સંભાવના છે (યાદ કરો કે માપ સ્વતંત્ર છે અને સતત પરિસ્થિતિઓમાં હાથ ધરવામાં આવે છે). જો p i નાનું હોય, તો: σ≈(Np i ) 1/2 =E i અને દ્વિપદી વિતરણ પોઈસનની નજીક છે, જેમાં અવલોકનોની સરેરાશ સંખ્યા E i =λ, અને પ્રમાણભૂત વિચલન σ=λ 1/2 = E i 1/ 2. λ≥5 માટે, પોઈસન વિતરણ સામાન્ય N (m =E i =λ, σ=E i 1/2 =λ 1/2), અને સામાન્યકૃત મૂલ્ય (O i - E i )/E i 1 ની નજીક છે /2 ≈ N (0 ,1).

પીયરસને રેન્ડમ વેરીએબલ χ 2 n – “સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેર” ને n સ્વતંત્ર માનક સામાન્ય રેન્ડમ ચલોના ચોરસના સરવાળા તરીકે વ્યાખ્યાયિત કર્યું:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,દરેક ક્યાં છે T i = N(0,1) - n ઓ. આર. સાથે. વી.

ચાલો આંકડાઓમાં આ સૌથી મહત્વપૂર્ણ રેન્ડમ ચલનો અર્થ સ્પષ્ટપણે સમજવાનો પ્રયાસ કરીએ. આ કરવા માટે, પ્લેન પર (n = 2 સાથે) અથવા અવકાશમાં (n = 3 સાથે) અમે બિંદુઓનો વાદળ રજૂ કરીએ છીએ જેના કોઓર્ડિનેટ્સ સ્વતંત્ર છે અને T (x) ~ exp (-x 2 /2) પ્રમાણભૂત સામાન્ય વિતરણ ધરાવે છે. ). પ્લેન પર, "બે સિગ્મા" નિયમ અનુસાર, જે સ્વતંત્ર રીતે બંને કોઓર્ડિનેટ્સ પર લાગુ થાય છે, 90% (0.95*0.95≈0.90) બિંદુઓ ચોરસ (-2) ની અંદર સમાયેલ છે

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

સ્વતંત્રતા n (n > 30) ની પૂરતી મોટી સંખ્યામાં ડિગ્રી સાથે, ચી-સ્ક્વેર વિતરણ સામાન્ય પહોંચે છે: N (m = n; σ = (2n) ½). આ "કેન્દ્રીય મર્યાદા પ્રમેય" નું પરિણામ છે: મર્યાદિત ભિન્નતા સાથે સમાન રીતે વિતરિત જથ્થાઓનો સરવાળો જેમ જેમ શરતોની સંખ્યા વધે છે તેમ સામાન્ય કાયદાની નજીક આવે છે.

વ્યવહારમાં, તમારે યાદ રાખવાની જરૂર છે કે અંતરનો સરેરાશ ચોરસ m (χ 2 n) = n ની બરાબર છે, અને તેનો તફાવત σ 2 (χ 2 n) = 2n છે. અહીંથી એ નિષ્કર્ષ કાઢવો સરળ છે કે કયા ચી-સ્ક્વેર મૂલ્યોને ખૂબ નાના અને ખૂબ મોટા ગણવા જોઈએ: મોટાભાગનું વિતરણ n -2∙(2n) ½ થી n +2∙(2n) ½ સુધીની રેન્જમાં છે.

તેથી, પીયર્સન અંતર નોંધપાત્ર રીતે n +2∙ (2n) ½ કરતાં વધી જાય તેવું અસ્પષ્ટપણે મોટું ગણવું જોઈએ (H 0 સાથે અસંગત). જો પરિણામ n +2∙(2n) ½ ની નજીક છે, તો તમારે કોષ્ટકોનો ઉપયોગ કરવો જોઈએ જેમાં તમે ચોક્કસ રીતે શોધી શકો છો કે આવા અને મોટા ચી-સ્ક્વેર મૂલ્યો કયા પ્રમાણમાં દેખાઈ શકે છે.

સ્વતંત્રતાની ડિગ્રીની સંખ્યા માટે યોગ્ય મૂલ્ય કેવી રીતે પસંદ કરવું તે જાણવું મહત્વપૂર્ણ છે (સંક્ષિપ્તમાં n.d.f.). એવું માનવું સ્વાભાવિક લાગ્યું કે n એ અંકોની સંખ્યાની બરાબર છે: n =M. તેમના લેખમાં, પીયર્સન જેટલું સૂચન કરે છે. ડાઇસ ઉદાહરણમાં, આનો અર્થ એ થશે કે n = 6. જો કે, ઘણા વર્ષો પછી તે બતાવવામાં આવ્યું હતું કે પીયર્સન ભૂલથી હતો. જો રેન્ડમ ચલ O i વચ્ચે જોડાણો હોય તો સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા કરતા હંમેશા ઓછી હોય છે. ડાઇસ ઉદાહરણ માટે, સરવાળો O i 60 છે, અને માત્ર 5 ફ્રીક્વન્સીઝ સ્વતંત્ર રીતે બદલી શકાય છે, તેથી સાચી કિંમત n = 6-1 = 5 છે. n ની આ કિંમત માટે આપણને n +2∙(2n) ½ =5+2∙(10) ½ =11.3 મળે છે. 15.4>11.3 થી, પછી પૂર્વધારણા H 0 - ડાઇ સાચો છે, તેને નકારવી જોઈએ.

ભૂલની સ્પષ્ટતા કર્યા પછી, હાલના χ 2 કોષ્ટકોને પૂરક બનાવવાની હતી, કારણ કે શરૂઆતમાં તેમની પાસે કેસ n = 1 ન હતો, કારણ કે અંકોની સૌથી નાની સંખ્યા = 2. હવે તે તારણ આપે છે કે એવા કિસ્સાઓ હોઈ શકે છે જ્યારે પિયર્સન અંતરનું વિતરણ χ 2 n =1 હોય.

ઉદાહરણ. 100 સિક્કાના ટૉસ સાથે, હેડની સંખ્યા O 1 = 65 છે, અને પૂંછડીઓની સંખ્યા O 2 = 35 છે. અંકોની સંખ્યા M = 2 છે. જો સિક્કો સપ્રમાણ હોય, તો અપેક્ષિત આવર્તન E 1 =50, E 2 =50 છે.

X 2 પીયર્સન = એસ(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

પરિણામી મૂલ્યની તુલના રેન્ડમ ચલ χ 2 n =1 લઈ શકે છે તેની સાથે કરવી જોઈએ, જે પ્રમાણભૂત સામાન્ય મૂલ્ય χ 2 n =1 =T 1 2 ≥ 9 ના વર્ગ તરીકે વ્યાખ્યાયિત થાય છે. ó T 1 ≥3 અથવા T 1 ≤-3. આવી ઘટનાની સંભાવના ખૂબ ઓછી છે P (χ 2 n =1 ≥9) = 0.006. તેથી, સિક્કાને સપ્રમાણ ગણી શકાય નહીં: H 0 નકારવો જોઈએ. હકીકત એ છે કે સ્વતંત્રતાની ડિગ્રીની સંખ્યા અંકોની સંખ્યા જેટલી ન હોઈ શકે તે હકીકત પરથી સ્પષ્ટ થાય છે કે અવલોકન કરાયેલ ફ્રીક્વન્સીઝનો સરવાળો હંમેશા અપેક્ષિત રાશિઓના સરવાળા જેટલો જ હોય ​​છે, ઉદાહરણ તરીકે O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. તેથી, કોઓર્ડિનેટ્સ O 1 અને O 2 સાથેના રેન્ડમ બિંદુઓ સીધી રેખા પર સ્થિત છે: O 1 +O 2 =E 1 +E 2 =100 અને કેન્દ્રનું અંતર જો આ પ્રતિબંધ અસ્તિત્વમાં ન હોય તો તેના કરતા ઓછું હોવાનું બહાર આવ્યું છે અને તેઓ સમગ્ર વિમાનમાં સ્થિત હતા. ખરેખર, ગાણિતિક અપેક્ષાઓ E 1 =50, E 2 =50 સાથેના બે સ્વતંત્ર રેન્ડમ ચલો માટે, તેમની અનુભૂતિનો સરવાળો હંમેશા 100 ની બરાબર હોવો જોઈએ નહીં - ઉદાહરણ તરીકે, મૂલ્યો O 1 =60, O 2 =55 હશે સ્વીકાર્ય બનો.

સમજૂતી. ચાલો M = 2 પરના પિયર્સન માપદંડના પરિણામની સરખામણી કરીએ જ્યારે N સ્વતંત્ર બર્નૌલી પરીક્ષણોની શ્રેણીમાં ν =K /N ની સંભાવના p ધરાવતા ઘટનાની ઘટનાની આવૃત્તિમાં રેન્ડમ વધઘટનો અંદાજ કાઢતી વખતે મોઇવર-લાપ્લેસ સૂત્ર શું આપે છે ( K એ સફળતાઓની સંખ્યા છે):

χ 2 n =1 = એસ(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N) 1-ν)-N (1-p)) 2 /(N (1-p))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

મૂલ્ય T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) સાથે σ(K)=(Npq) ½ ≥3. આપણે જોઈએ છીએ કે આ કિસ્સામાં પીયર્સનનું પરિણામ દ્વિપદી વિતરણ માટે સામાન્ય અંદાજ જે આપે છે તેની સાથે બરાબર મેળ ખાય છે.

અત્યાર સુધી અમે સરળ પૂર્વધારણાઓ ધ્યાનમાં લીધી છે જેના માટે અપેક્ષિત સરેરાશ ફ્રીક્વન્સી E i સંપૂર્ણપણે અગાઉથી જાણીતી છે. જટિલ પૂર્વધારણાઓ માટે સ્વતંત્રતાની ડિગ્રીની સાચી સંખ્યા કેવી રીતે પસંદ કરવી તે અંગેની માહિતી માટે, નીચે જુઓ.

જટિલ પૂર્વધારણાઓને ચકાસવા માટે ચી-સ્ક્વેર ટેસ્ટનો ઉપયોગ કરવો

નિયમિત ડાઇ અને સિક્કા સાથેના ઉદાહરણોમાં, અપેક્ષિત ફ્રીક્વન્સીઝ પ્રયોગ પહેલાં(!) નક્કી કરી શકાય છે. આવી પૂર્વધારણાઓને "સરળ" કહેવામાં આવે છે. વ્યવહારમાં, "જટિલ પૂર્વધારણાઓ" વધુ સામાન્ય છે. તદુપરાંત, અપેક્ષિત ફ્રીક્વન્સીઝ E i શોધવા માટે, પહેલા એક અથવા અનેક જથ્થાઓ (મોડેલ પરિમાણો) નો અંદાજ કાઢવો જરૂરી છે, અને આ ફક્ત પ્રાયોગિક ડેટાનો ઉપયોગ કરીને કરી શકાય છે. પરિણામે, "જટિલ પૂર્વધારણાઓ" માટે અપેક્ષિત ફ્રીક્વન્સીઝ E i અવલોકન કરાયેલ ફ્રીક્વન્સીઝ O i પર આધાર રાખે છે અને તેથી તે પ્રયોગના પરિણામોના આધારે અલગ અલગ, રેન્ડમ ચલ બની જાય છે. પરિમાણો પસંદ કરવાની પ્રક્રિયામાં, પિયર્સન અંતર ઘટે છે - પરિમાણો પસંદ કરવામાં આવે છે જેથી મોડેલ અને પ્રયોગ વચ્ચેના કરારને સુધારી શકાય. તેથી, સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં ઘટાડો થવો જોઈએ.

મોડેલ પરિમાણોનો અંદાજ કેવી રીતે કરવો? ત્યાં ઘણી અલગ અંદાજ પદ્ધતિઓ છે - "મહત્તમ સંભાવના પદ્ધતિ", "ક્ષણોની પદ્ધતિ", "અવેજી પદ્ધતિ". જો કે, તમે કોઈપણ વધારાના ભંડોળનો ઉપયોગ કરી શકતા નથી અને પિયર્સન અંતર ઘટાડીને પરિમાણ અંદાજ શોધી શકતા નથી. પૂર્વ-કમ્પ્યુટર યુગમાં, આ અભિગમનો ભાગ્યે જ ઉપયોગ થતો હતો: તે મેન્યુઅલ ગણતરીઓ માટે અસુવિધાજનક છે અને, એક નિયમ તરીકે, વિશ્લેષણાત્મક રીતે ઉકેલી શકાતું નથી. કમ્પ્યુટર પર ગણતરી કરતી વખતે, સંખ્યાત્મક લઘુત્તમીકરણ સામાન્ય રીતે હાથ ધરવા માટે સરળ હોય છે, અને આ પદ્ધતિનો ફાયદો તેની વૈવિધ્યતા છે. તેથી, "ચી-સ્ક્વેર મિનિમાઇઝેશન પદ્ધતિ" અનુસાર, અમે અજ્ઞાત પરિમાણોના મૂલ્યો પસંદ કરીએ છીએ જેથી કરીને પિયર્સન અંતર સૌથી નાનું બને. (માર્ગ દ્વારા, આ અંતરમાં મળેલા લઘુત્તમને સંબંધિત નાના વિસ્થાપન સાથેના ફેરફારોનો અભ્યાસ કરીને, તમે અંદાજની ચોકસાઈના માપનો અંદાજ લગાવી શકો છો: આત્મવિશ્વાસ અંતરાલ બનાવો.) પરિમાણો અને આ લઘુત્તમ અંતર પોતે જ મળી ગયા પછી, તે છે તે પૂરતું નાનું છે કે કેમ તે પ્રશ્નનો જવાબ આપવા માટે ફરીથી જરૂરી છે.

ક્રિયાઓનો સામાન્ય ક્રમ નીચે મુજબ છે:

  1. મોડલ પસંદગી (પૂર્તિકલ્પના H 0).
  2. બિટ્સની પસંદગી અને અવલોકન કરેલ ફ્રીક્વન્સીઝ O i ના વેક્ટરનું નિર્ધારણ.
  3. અજાણ્યા મોડલ પરિમાણોનો અંદાજ અને તેમના માટે આત્મવિશ્વાસના અંતરાલોનું નિર્માણ (ઉદાહરણ તરીકે, ન્યૂનતમ પિયરસન અંતરની શોધ કરીને).
  4. અપેક્ષિત ફ્રીક્વન્સીઝની ગણતરી E i .
  5. પિયર્સન અંતર X 2 ના મળેલ મૂલ્યની chi-square χ 2 crit ના નિર્ણાયક મૂલ્ય સાથે સરખામણી - સૌથી મોટું, જે હજુ પણ બુદ્ધિગમ્ય માનવામાં આવે છે, H 0 સાથે સુસંગત છે. આપણે સમીકરણ ઉકેલીને કોષ્ટકોમાંથી મૂલ્ય χ 2 crit શોધીએ છીએ

P (χ 2 n > χ 2 ક્રિટ)=1-α,

જ્યાં α એ "મહત્વનું સ્તર" અથવા "માપદંડનું કદ" અથવા "પ્રથમ પ્રકારની ભૂલની તીવ્રતા" (સામાન્ય મૂલ્ય α = 0.05) છે.

સામાન્ય રીતે સ્વતંત્રતા n ની ડિગ્રીની સંખ્યા સૂત્રનો ઉપયોગ કરીને ગણવામાં આવે છે

n = (અંકોની સંખ્યા) – 1 – (અંદાજિત કરવાના પરિમાણોની સંખ્યા)

જો X 2 > χ 2 ક્રિટ હોય, તો પૂર્વધારણા H 0 નકારવામાં આવે છે, અન્યથા તે સ્વીકારવામાં આવે છે. α∙100% કિસ્સાઓમાં (એટલે ​​​​કે, ખૂબ જ ભાગ્યે જ), H 0 ને તપાસવાની આ પદ્ધતિ "પ્રથમ પ્રકારની ભૂલ" તરફ દોરી જશે: H 0 ની પૂર્વધારણાને ભૂલથી નકારી કાઢવામાં આવશે.

ઉદાહરણ. 100 બીજની 10 શ્રેણીના અભ્યાસમાં, લીલી આંખોવાળી માખીથી ચેપગ્રસ્ત લોકોની સંખ્યા ગણવામાં આવી હતી. પ્રાપ્ત ડેટા: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

અહીં અપેક્ષિત ફ્રીક્વન્સીઝનું વેક્ટર અગાઉથી અજ્ઞાત છે. જો ડેટા સજાતીય હોય અને દ્વિપદી વિતરણ માટે મેળવેલ હોય, તો એક પરિમાણ અજ્ઞાત છે: ચેપગ્રસ્ત બીજનું પ્રમાણ p. નોંધ કરો કે મૂળ કોષ્ટકમાં વાસ્તવમાં 10 નહીં પરંતુ 20 ફ્રીક્વન્સીઝ છે જે 10 જોડાણોને સંતોષે છે: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

જોડીમાં શબ્દોને જોડીને (જેમ કે સિક્કા સાથેના ઉદાહરણમાં), અમે પીયર્સન માપદંડ લખવાનું સ્વરૂપ મેળવીએ છીએ, જે સામાન્ય રીતે તરત જ લખવામાં આવે છે:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

હવે, જો લઘુત્તમ પિયર્સન અંતરનો ઉપયોગ p ના અંદાજ માટે પદ્ધતિ તરીકે કરવામાં આવે છે, તો તે માટે એક p શોધવું જરૂરી છે જેના માટે X 2 = મિનિટ. (મૉડલ, જો શક્ય હોય તો, પ્રાયોગિક ડેટાને "એડજસ્ટ" કરવાનો પ્રયાસ કરે છે.)

પિયર્સન માપદંડ આંકડાઓમાં વપરાતા તમામમાં સૌથી વધુ સાર્વત્રિક છે. તે અવિભાજ્ય અને બહુવિધ ડેટા, માત્રાત્મક અને ગુણાત્મક સુવિધાઓ પર લાગુ કરી શકાય છે. જો કે, ચોક્કસપણે તેની વૈવિધ્યતાને કારણે, ભૂલો ન થાય તેની કાળજી લેવી જોઈએ.

મહત્વપૂર્ણ મુદ્દાઓ

1. વર્ગોની પસંદગી.

  • જો વિતરણ અલગ હોય, તો સામાન્ય રીતે અંકોની પસંદગીમાં કોઈ મનસ્વીતા હોતી નથી.
  • જો વિતરણ સતત હોય, તો મનસ્વીતા અનિવાર્ય છે. આંકડાકીય રીતે સમકક્ષ બ્લોક્સનો ઉપયોગ કરી શકાય છે (બધા O સમાન છે, ઉદાહરણ તરીકે =10). જો કે, અંતરાલોની લંબાઈ અલગ છે. મેન્યુઅલ ગણતરી કરતી વખતે, તેઓએ અંતરાલ સમાન બનાવવાનો પ્રયાસ કર્યો. અવિભાજ્ય લક્ષણના વિતરણનો અભ્યાસ કરતી વખતે અંતરાલ સમાન હોવા જોઈએ? ના.
  • અંકો એવી રીતે જોડવા જોઈએ કે અપેક્ષિત (અવલોકન ન કરાયેલ!) ફ્રીક્વન્સીઝ બહુ નાની ન હોય (≥5). ચાલો યાદ કરીએ કે X 2 ની ગણતરી કરતી વખતે તેઓ (E i) છેદમાં હોય છે! એક-પરિમાણીય લાક્ષણિકતાઓનું વિશ્લેષણ કરતી વખતે, તેને બે આત્યંતિક અંકો E 1 =E મહત્તમ =1 માં આ નિયમનું ઉલ્લંઘન કરવાની મંજૂરી છે. જો અંકોની સંખ્યા મોટી હોય અને અપેક્ષિત ફ્રીક્વન્સી નજીક હોય, તો X 2 એ E i =2 માટે પણ χ 2 નું સારું અનુમાન છે.

પરિમાણ અંદાજ. "હોમમેઇડ", બિનકાર્યક્ષમ અંદાજ પદ્ધતિઓનો ઉપયોગ પીયર્સન અંતરના મૂલ્યોને વધારી શકે છે.

સ્વતંત્રતાની ડિગ્રીની યોગ્ય સંખ્યા પસંદ કરી રહ્યા છીએ. જો પરિમાણનો અંદાજ ફ્રીક્વન્સીઝથી નહીં, પરંતુ સીધા ડેટામાંથી બનાવવામાં આવે છે (ઉદાહરણ તરીકે, અંકગણિત સરેરાશને સરેરાશના અંદાજ તરીકે લેવામાં આવે છે), તો પછી સ્વતંત્રતા n ની ડિગ્રીની ચોક્કસ સંખ્યા અજાણ છે. અમે માત્ર જાણીએ છીએ કે તે અસમાનતાને સંતોષે છે:

(અંકોની સંખ્યા - 1 - મૂલ્યાંકન કરવામાં આવતા પરિમાણોની સંખ્યા)< n < (число разрядов – 1)

તેથી, n ની આ શ્રેણીમાં ગણતરી કરેલ χ 2 ક્રિટના નિર્ણાયક મૂલ્યો સાથે X 2 ની સરખામણી કરવી જરૂરી છે.

અસ્પષ્ટપણે નાના ચી-સ્ક્વેર મૂલ્યોનું અર્થઘટન કેવી રીતે કરવું?જો સિક્કો 10,000 ટૉસ કર્યા પછી, તે 5,000 વખત કોટ ઓફ આર્મ્સ પર ઉતરે તો તેને સપ્રમાણ ગણવો જોઈએ? અગાઉ, ઘણા આંકડાશાસ્ત્રીઓ માનતા હતા કે H 0 ને પણ નકારી કાઢવો જોઈએ. હવે બીજો અભિગમ પ્રસ્તાવિત છે: H 0 સ્વીકારો, પરંતુ ડેટા અને તેમના વિશ્લેષણ માટેની પદ્ધતિને વધારાની ચકાસણીને આધીન કરો. ત્યાં બે શક્યતાઓ છે: કાં તો પિયર્સનનું અંતર ખૂબ નાનું હોવાનો અર્થ એ છે કે મોડલ પરિમાણોની સંખ્યામાં વધારો સ્વતંત્રતાની ડિગ્રીની સંખ્યામાં યોગ્ય ઘટાડો સાથે થયો ન હતો, અથવા ડેટા પોતે જ ખોટો હતો (કદાચ અજાણતાં અપેક્ષિત રીતે સમાયોજિત કરવામાં આવ્યો હતો. પરિણામ).

ઉદાહરણ.બે સંશોધકો A અને B એ AA * aa મોનોહાઇબ્રિડ ક્રોસની બીજી પેઢીમાં રિસેસિવ હોમોઝાયગોટ્સ aa ના પ્રમાણની ગણતરી કરી. મેન્ડેલના કાયદા અનુસાર, આ અપૂર્ણાંક 0.25 છે. દરેક સંશોધકે 5 પ્રયોગો કર્યા અને દરેક પ્રયોગમાં 100 સજીવોનો અભ્યાસ કરવામાં આવ્યો.

પરિણામો A: 25, 24, 26, 25, 24. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો સાચો છે(?).

પરિણામો B: 29, 21, 23, 30, 19. સંશોધકનું નિષ્કર્ષ: મેન્ડેલનો કાયદો વાજબી નથી(?).

જો કે, મેન્ડેલનો નિયમ આંકડાકીય પ્રકૃતિનો છે, અને પરિણામોનું માત્રાત્મક પૃથ્થકરણ તારણોને ઉલટાવી દે છે! પાંચ પ્રયોગોને એકમાં જોડીને, અમે 5 ડિગ્રી સ્વતંત્રતા સાથે ચી-સ્ક્વેર વિતરણ પર પહોંચીએ છીએ (એક સરળ પૂર્વધારણાનું પરીક્ષણ કરવામાં આવે છે):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

સરેરાશ મૂલ્ય m [χ 2 n =5 ]=5, પ્રમાણભૂત વિચલન σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

તેથી, કોષ્ટકોના સંદર્ભ વિના, તે સ્પષ્ટ છે કે X 2 B નું મૂલ્ય લાક્ષણિક છે, અને X 2 A નું મૂલ્ય અસ્પષ્ટપણે નાનું છે. કોષ્ટકો P અનુસાર (χ 2 n =5<0.16)<0.0001.

આ ઉદાહરણ 1930 ના દાયકામાં બનેલા વાસ્તવિક કેસનું અનુકૂલન છે (કોલ્મોગોરોવનું કાર્ય "મેન્ડેલના કાયદાના અન્ય પુરાવા પર" જુઓ). રસપ્રદ વાત એ છે કે, સંશોધક A જિનેટિક્સના સમર્થક હતા, અને સંશોધક B તેની વિરુદ્ધ હતા.

નોટેશનમાં મૂંઝવણ.ચી-સ્ક્વેર રેન્ડમ ચલની ગાણિતિક વિભાવનામાંથી પિયર્સન અંતરને અલગ પાડવું જરૂરી છે, જેને તેની ગણતરીમાં વધારાના સંમેલનોની જરૂર છે. ચોક્કસ પરિસ્થિતિઓમાં પીયર્સન અંતર સ્વતંત્રતાના n ડિગ્રી સાથે ચી-સ્ક્વેરની નજીકનું વિતરણ ધરાવે છે. તેથી, પીયર્સન અંતરને χ 2 n ચિહ્ન દ્વારા દર્શાવવાની સલાહ આપવામાં આવતી નથી, પરંતુ સમાન પરંતુ અલગ સંકેત X 2 નો ઉપયોગ કરવાની સલાહ આપવામાં આવે છે.

પીયર્સન માપદંડ સર્વશક્તિમાન નથી. H 0 માટે અસંખ્ય વિકલ્પો છે જેને તે ધ્યાનમાં લેવામાં અસમર્થ છે. ધારો કે તમે અનુમાનનું પરીક્ષણ કરી રહ્યાં છો કે લક્ષણનું સમાન વિતરણ છે, તમારી પાસે 10 અંકો છે અને અવલોકન કરેલ ફ્રીક્વન્સીઝનું વેક્ટર (130,125,121,118,116,115,114,113,111,110) બરાબર છે. પીયર્સન માપદંડ "નોટિસ" કરી શકતું નથી કે ફ્રીક્વન્સી એકવિધ રીતે ઘટી રહી છે અને H 0 નકારવામાં આવશે નહીં. જો તે શ્રેણીના માપદંડ સાથે પૂરક હોત, તો હા!



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!
પણ વાંચો