મોટી માત્રામાં માહિતીની પ્રક્રિયા કરતી વખતે, જે આધુનિક વૈજ્ઞાનિક વિકાસ હાથ ધરતી વખતે ખાસ કરીને મહત્વપૂર્ણ છે, સંશોધકને સ્રોત ડેટાને યોગ્ય રીતે જૂથબદ્ધ કરવાનું ગંભીર કાર્યનો સામનો કરવો પડે છે. જો ડેટા પ્રકૃતિમાં અલગ હોય, તો પછી, જેમ આપણે જોયું તેમ, કોઈ સમસ્યા ઊભી થતી નથી - તમારે ફક્ત દરેક સુવિધાની આવૃત્તિની ગણતરી કરવાની જરૂર છે. જો અભ્યાસ હેઠળની લાક્ષણિકતા છે સતતપાત્ર (જે વ્યવહારમાં વધુ સામાન્ય છે), પછી વિશેષતા જૂથ અંતરાલોની શ્રેષ્ઠ સંખ્યા પસંદ કરવી એ કોઈ પણ રીતે તુચ્છ કાર્ય નથી.
સતત રેન્ડમ ચલોનું જૂથ કરવા માટે, લાક્ષણિકતાની સમગ્ર વિવિધતા શ્રેણીને અમુક ચોક્કસ સંખ્યામાં અંતરાલોમાં વિભાજિત કરવામાં આવે છે. થી.
જૂથ અંતરાલ (સતત) વિવિધતા શ્રેણીએટ્રિબ્યુટ () ના મૂલ્ય દ્વારા ક્રમાંકિત અંતરાલો કહેવામાં આવે છે, જ્યાં i"th અંતરાલમાં આવતા અવલોકનોની સંખ્યા અથવા સંબંધિત ફ્રીક્વન્સીઝ (), અનુરૂપ ફ્રીક્વન્સીઝ () સાથે એકસાથે સૂચવવામાં આવે છે:
લાક્ષણિક મૂલ્ય અંતરાલો |
||||||
mi આવર્તન |
હિસ્ટોગ્રામઅને ક્યુમ્યુલેટ (ઓગીવા),અમારા દ્વારા પહેલાથી જ વિગતવાર ચર્ચા કરવામાં આવી છે, તે ડેટા વિઝ્યુલાઇઝેશનનું એક ઉત્તમ માધ્યમ છે, જે તમને ડેટાના બંધારણનો પ્રાથમિક વિચાર મેળવવા માટે પરવાનગી આપે છે. આવા આલેખ (ફિગ. 1.15) એ સ્વતંત્ર ડેટાની જેમ જ સતત ડેટા માટે બનાવવામાં આવે છે, માત્ર એ હકીકતને ધ્યાનમાં લેતા કે સતત ડેટા કોઈપણ મૂલ્યોને લઈને, તેમના સંભવિત મૂલ્યોના પ્રદેશને સંપૂર્ણપણે ભરે છે.
ચોખા. 1.15.
તેથી જ હિસ્ટોગ્રામ અને ક્યુમ્યુલેટ પરના સ્તંભો એકબીજાને સ્પર્શતા હોવા જોઈએ અને એવા કોઈ ક્ષેત્રો ન હોવા જોઈએ કે જ્યાં એટ્રિબ્યુટ વેલ્યુ શક્ય તેટલી અંદર ન આવતી હોય(એટલે કે, હિસ્ટોગ્રામ અને ક્યુમ્યુલેટ્સમાં એબ્સીસા અક્ષ સાથે "છિદ્રો" ન હોવા જોઈએ, જેમાં ફિગ. 1.16ની જેમ અભ્યાસ કરવામાં આવતા ચલના મૂલ્યો શામેલ નથી). બારની ઊંચાઈ આવર્તનને અનુરૂપ છે - આપેલ અંતરાલમાં આવતા અવલોકનોની સંખ્યા અથવા સંબંધિત આવર્તન - અવલોકનોનું પ્રમાણ. અંતરાલ છેદવું જોઈએ નહીંઅને સામાન્ય રીતે સમાન પહોળાઈ હોય છે.
ચોખા. 1.16.
હિસ્ટોગ્રામ અને બહુકોણ એ સંભાવના ઘનતા વળાંક (વિભેદક કાર્ય) ના અંદાજો છે. f(x)સૈદ્ધાંતિક વિતરણ, સંભાવના સિદ્ધાંતના અભ્યાસક્રમમાં ગણવામાં આવે છે. તેથી, માત્રાત્મક સતત ડેટાની પ્રાથમિક આંકડાકીય પ્રક્રિયામાં તેમનું બાંધકામ એટલું મહત્વનું છે - તેમના દેખાવ દ્વારા કોઈ કાલ્પનિક વિતરણ કાયદાનો નિર્ણય કરી શકે છે.
ક્યુમ્યુલેટ – અંતરાલ વિવિધતા શ્રેણીની સંચિત ફ્રીક્વન્સીઝ (આવર્તન) નો વળાંક. સંચિત વિતરણ કાર્યના આલેખને ક્યુમ્યુલેટ સાથે સરખાવવામાં આવે છે F(x), સંભાવના સિદ્ધાંત અભ્યાસક્રમમાં પણ ચર્ચા કરવામાં આવી છે.
મૂળભૂત રીતે, હિસ્ટોગ્રામ અને ક્યુમ્યુલેટની વિભાવનાઓ ખાસ કરીને સતત ડેટા અને તેમની અંતરાલ વિવિધતા શ્રેણી સાથે સંકળાયેલા છે, કારણ કે તેમના આલેખ અનુક્રમે સંભાવના ઘનતા કાર્ય અને વિતરણ કાર્યના પ્રયોગમૂલક અંદાજો છે.
અંતરાલ વિવિધતા શ્રેણીનું નિર્માણ અંતરાલોની સંખ્યા નક્કી કરવા સાથે શરૂ થાય છે kઅને આ કાર્ય કદાચ અભ્યાસ હેઠળના મુદ્દામાં સૌથી મુશ્કેલ, મહત્વપૂર્ણ અને વિવાદાસ્પદ છે.
અંતરાલોની સંખ્યા ખૂબ નાની ન હોવી જોઈએ, કારણ કે આ હિસ્ટોગ્રામને ખૂબ સરળ બનાવશે ( ઓવરસ્મૂથ),મૂળ ડેટાની પરિવર્તનશીલતાની તમામ સુવિધાઓ ગુમાવે છે - ફિગમાં. 1.17 તમે જોઈ શકો છો કે તે જ ડેટા કે જેના પર ફિગમાં આલેખ છે. 1.15, ઓછા અંતરાલ (ડાબે ગ્રાફ) સાથે હિસ્ટોગ્રામ બનાવવા માટે વપરાય છે.
તે જ સમયે, અંતરાલોની સંખ્યા ખૂબ મોટી હોવી જોઈએ નહીં - અન્યથા અમે આંકડાકીય અક્ષ સાથે અભ્યાસ કરેલા ડેટાની વિતરણ ઘનતાનો અંદાજ લગાવી શકીશું નહીં: હિસ્ટોગ્રામ ઓછી સ્મૂથ હશે. (અંડર સ્મૂથ),ખાલી અંતરાલ સાથે, અસમાન (ફિગ. 1.17, જમણો ગ્રાફ જુઓ).
ચોખા. 1.17.
અંતરાલોની સૌથી વધુ પ્રાધાન્યક્ષમ સંખ્યા કેવી રીતે નક્કી કરવી?
1926 માં પાછા, હર્બર્ટ સ્ટર્જ્સે અંતરાલોની સંખ્યાની ગણતરી માટે એક સૂત્ર પ્રસ્તાવિત કર્યું જેમાં અભ્યાસ કરવામાં આવી રહેલા લાક્ષણિકતાના મૂલ્યોના મૂળ સમૂહને વિભાજિત કરવું જરૂરી છે. આ સૂત્ર ખરેખર અત્યંત લોકપ્રિય બની ગયું છે - મોટાભાગના આંકડાકીય પાઠ્યપુસ્તકો તેને ઓફર કરે છે, અને ઘણા આંકડાકીય પેકેજો મૂળભૂત રીતે તેનો ઉપયોગ કરે છે. આ કેટલું વાજબી છે અને તમામ સંજોગોમાં તે ખૂબ જ ગંભીર પ્રશ્ન છે.
તો, સ્ટર્જ્સ ફોર્મ્યુલા શેના પર આધારિત છે?
દ્વિપદી વિતરણને ધ્યાનમાં લો)