એક અલગ ભિન્નતા શ્રેણી દોરવી. આંકડાકીય જૂથો બનાવવા માટેના સિદ્ધાંતો

મોટી માત્રામાં માહિતીની પ્રક્રિયા કરતી વખતે, જે આધુનિક વૈજ્ઞાનિક વિકાસ હાથ ધરતી વખતે ખાસ કરીને મહત્વપૂર્ણ છે, સંશોધકને સ્રોત ડેટાને યોગ્ય રીતે જૂથબદ્ધ કરવાનું ગંભીર કાર્યનો સામનો કરવો પડે છે. જો ડેટા પ્રકૃતિમાં અલગ હોય, તો પછી, જેમ આપણે જોયું તેમ, કોઈ સમસ્યા ઊભી થતી નથી - તમારે ફક્ત દરેક સુવિધાની આવૃત્તિની ગણતરી કરવાની જરૂર છે. જો અભ્યાસ હેઠળની લાક્ષણિકતા છે સતતપાત્ર (જે વ્યવહારમાં વધુ સામાન્ય છે), પછી વિશેષતા જૂથ અંતરાલોની શ્રેષ્ઠ સંખ્યા પસંદ કરવી એ કોઈ પણ રીતે તુચ્છ કાર્ય નથી.

સતત રેન્ડમ ચલોનું જૂથ કરવા માટે, લાક્ષણિકતાની સમગ્ર વિવિધતા શ્રેણીને અમુક ચોક્કસ સંખ્યામાં અંતરાલોમાં વિભાજિત કરવામાં આવે છે. થી.

જૂથ અંતરાલ (સતત) વિવિધતા શ્રેણીએટ્રિબ્યુટ () ના મૂલ્ય દ્વારા ક્રમાંકિત અંતરાલો કહેવામાં આવે છે, જ્યાં i"th અંતરાલમાં આવતા અવલોકનોની સંખ્યા અથવા સંબંધિત ફ્રીક્વન્સીઝ (), અનુરૂપ ફ્રીક્વન્સીઝ () સાથે એકસાથે સૂચવવામાં આવે છે:

લાક્ષણિક મૂલ્ય અંતરાલો
mi આવર્તન

હિસ્ટોગ્રામઅને ક્યુમ્યુલેટ (ઓગીવા),અમારા દ્વારા પહેલાથી જ વિગતવાર ચર્ચા કરવામાં આવી છે, તે ડેટા વિઝ્યુલાઇઝેશનનું એક ઉત્તમ માધ્યમ છે, જે તમને ડેટાના બંધારણનો પ્રાથમિક વિચાર મેળવવા માટે પરવાનગી આપે છે. આવા આલેખ (ફિગ. 1.15) એ સ્વતંત્ર ડેટાની જેમ જ સતત ડેટા માટે બનાવવામાં આવે છે, માત્ર એ હકીકતને ધ્યાનમાં લેતા કે સતત ડેટા કોઈપણ મૂલ્યોને લઈને, તેમના સંભવિત મૂલ્યોના પ્રદેશને સંપૂર્ણપણે ભરે છે.

ચોખા. 1.15.

તેથી જ હિસ્ટોગ્રામ અને ક્યુમ્યુલેટ પરના સ્તંભો એકબીજાને સ્પર્શતા હોવા જોઈએ અને એવા કોઈ ક્ષેત્રો ન હોવા જોઈએ કે જ્યાં એટ્રિબ્યુટ વેલ્યુ શક્ય તેટલી અંદર ન આવતી હોય(એટલે કે, હિસ્ટોગ્રામ અને ક્યુમ્યુલેટ્સમાં એબ્સીસા અક્ષ સાથે "છિદ્રો" ન હોવા જોઈએ, જેમાં ફિગ. 1.16ની જેમ અભ્યાસ કરવામાં આવતા ચલના મૂલ્યો શામેલ નથી). બારની ઊંચાઈ આવર્તનને અનુરૂપ છે - આપેલ અંતરાલમાં આવતા અવલોકનોની સંખ્યા અથવા સંબંધિત આવર્તન - અવલોકનોનું પ્રમાણ. અંતરાલ છેદવું જોઈએ નહીંઅને સામાન્ય રીતે સમાન પહોળાઈ હોય છે.

ચોખા. 1.16.

હિસ્ટોગ્રામ અને બહુકોણ એ સંભાવના ઘનતા વળાંક (વિભેદક કાર્ય) ના અંદાજો છે. f(x)સૈદ્ધાંતિક વિતરણ, સંભાવના સિદ્ધાંતના અભ્યાસક્રમમાં ગણવામાં આવે છે. તેથી, માત્રાત્મક સતત ડેટાની પ્રાથમિક આંકડાકીય પ્રક્રિયામાં તેમનું બાંધકામ એટલું મહત્વનું છે - તેમના દેખાવ દ્વારા કોઈ કાલ્પનિક વિતરણ કાયદાનો નિર્ણય કરી શકે છે.

ક્યુમ્યુલેટ – અંતરાલ વિવિધતા શ્રેણીની સંચિત ફ્રીક્વન્સીઝ (આવર્તન) નો વળાંક. સંચિત વિતરણ કાર્યના આલેખને ક્યુમ્યુલેટ સાથે સરખાવવામાં આવે છે F(x), સંભાવના સિદ્ધાંત અભ્યાસક્રમમાં પણ ચર્ચા કરવામાં આવી છે.

મૂળભૂત રીતે, હિસ્ટોગ્રામ અને ક્યુમ્યુલેટની વિભાવનાઓ ખાસ કરીને સતત ડેટા અને તેમની અંતરાલ વિવિધતા શ્રેણી સાથે સંકળાયેલા છે, કારણ કે તેમના આલેખ અનુક્રમે સંભાવના ઘનતા કાર્ય અને વિતરણ કાર્યના પ્રયોગમૂલક અંદાજો છે.

અંતરાલ વિવિધતા શ્રેણીનું નિર્માણ અંતરાલોની સંખ્યા નક્કી કરવા સાથે શરૂ થાય છે kઅને આ કાર્ય કદાચ અભ્યાસ હેઠળના મુદ્દામાં સૌથી મુશ્કેલ, મહત્વપૂર્ણ અને વિવાદાસ્પદ છે.

અંતરાલોની સંખ્યા ખૂબ નાની ન હોવી જોઈએ, કારણ કે આ હિસ્ટોગ્રામને ખૂબ સરળ બનાવશે ( ઓવરસ્મૂથ),મૂળ ડેટાની પરિવર્તનશીલતાની તમામ સુવિધાઓ ગુમાવે છે - ફિગમાં. 1.17 તમે જોઈ શકો છો કે તે જ ડેટા કે જેના પર ફિગમાં આલેખ છે. 1.15, ઓછા અંતરાલ (ડાબે ગ્રાફ) સાથે હિસ્ટોગ્રામ બનાવવા માટે વપરાય છે.

તે જ સમયે, અંતરાલોની સંખ્યા ખૂબ મોટી હોવી જોઈએ નહીં - અન્યથા અમે આંકડાકીય અક્ષ સાથે અભ્યાસ કરેલા ડેટાની વિતરણ ઘનતાનો અંદાજ લગાવી શકીશું નહીં: હિસ્ટોગ્રામ ઓછી સ્મૂથ હશે. (અંડર સ્મૂથ),ખાલી અંતરાલ સાથે, અસમાન (ફિગ. 1.17, જમણો ગ્રાફ જુઓ).

ચોખા. 1.17.

અંતરાલોની સૌથી વધુ પ્રાધાન્યક્ષમ સંખ્યા કેવી રીતે નક્કી કરવી?

1926 માં પાછા, હર્બર્ટ સ્ટર્જ્સે અંતરાલોની સંખ્યાની ગણતરી માટે એક સૂત્ર પ્રસ્તાવિત કર્યું જેમાં અભ્યાસ કરવામાં આવી રહેલા લાક્ષણિકતાના મૂલ્યોના મૂળ સમૂહને વિભાજિત કરવું જરૂરી છે. આ સૂત્ર ખરેખર અત્યંત લોકપ્રિય બની ગયું છે - મોટાભાગના આંકડાકીય પાઠ્યપુસ્તકો તેને ઓફર કરે છે, અને ઘણા આંકડાકીય પેકેજો મૂળભૂત રીતે તેનો ઉપયોગ કરે છે. આ કેટલું વાજબી છે અને તમામ સંજોગોમાં તે ખૂબ જ ગંભીર પ્રશ્ન છે.

તો, સ્ટર્જ્સ ફોર્મ્યુલા શેના પર આધારિત છે?

દ્વિપદી વિતરણને ધ્યાનમાં લો)