રીગ્રેસન વિશ્લેષણ સિદ્ધાંત. એ) સરળ રેખીય રીગ્રેસનનું ગ્રાફિકલ વિશ્લેષણ

એ) સરળ રેખીય રીગ્રેસનનું ગ્રાફિકલ વિશ્લેષણ.

સરળ રેખીય રીગ્રેશન સમીકરણ y=a+bx. જો રેન્ડમ ચલ Y અને X વચ્ચે સહસંબંધ હોય, તો મૂલ્ય y = ý + ,

જ્યાં ý એ સમીકરણ ý = f(x) થી મેળવેલ y નું સૈદ્ધાંતિક મૂલ્ય છે,

 - વાસ્તવિક (પ્રાયોગિક) ડેટામાંથી સૈદ્ધાંતિક સમીકરણ ý ના વિચલનની ભૂલ.

x પર સરેરાશ મૂલ્ય ý ની અવલંબન માટેનું સમીકરણ, એટલે કે, ý = f(x), રીગ્રેશન સમીકરણ કહેવાય છે. રીગ્રેસન વિશ્લેષણમાં ચાર તબક્કાઓનો સમાવેશ થાય છે:

1) સમસ્યા સુયોજિત કરો અને જોડાણ માટે કારણો સ્થાપિત કરો.

2) સંશોધન ઑબ્જેક્ટની મર્યાદા, આંકડાકીય માહિતીનો સંગ્રહ.

3) એકત્રિત ડેટાના વિશ્લેષણ અને પ્રકૃતિના આધારે જોડાણ સમીકરણની પસંદગી.

4) સંખ્યાત્મક મૂલ્યોની ગણતરી, સહસંબંધ જોડાણોની લાક્ષણિકતાઓ.

જો બે ચલો એવી રીતે સંબંધિત હોય કે એક ચલમાં ફેરફાર અન્ય ચલમાં વ્યવસ્થિત ફેરફારને અનુરૂપ હોય, તો રીગ્રેશન વિશ્લેષણનો ઉપયોગ અંદાજ કાઢવા અને તેમની વચ્ચેના સંબંધ માટે સમીકરણ પસંદ કરવા માટે કરવામાં આવે છે જો આ ચલ જાણીતા હોય. રીગ્રેશન વિશ્લેષણથી વિપરીત, સહસંબંધ વિશ્લેષણનો ઉપયોગ X અને Y વચ્ચેના સંબંધની નિકટતાનું વિશ્લેષણ કરવા માટે થાય છે.

ચાલો રીગ્રેસન વિશ્લેષણમાં સીધી રેખા શોધવાનો વિચાર કરીએ:

સૈદ્ધાંતિક રીગ્રેસન સમીકરણ.

"સરળ રીગ્રેસન" શબ્દ સૂચવે છે કે એક ચલનું મૂલ્ય બીજા ચલ વિશેના જ્ઞાનના આધારે અંદાજવામાં આવે છે. સરળ મલ્ટિવેરિયેટ રીગ્રેશનથી વિપરીત, તેનો ઉપયોગ બે, ત્રણ અથવા વધુ ચલોના જ્ઞાનના આધારે ચલનો અંદાજ કાઢવા માટે થાય છે. ચાલો સરળ રેખીય રીગ્રેસનનું ગ્રાફિકલ વિશ્લેષણ જોઈએ.

ધારો કે પૂર્વ-રોજગાર અને શ્રમ ઉત્પાદકતા પર સ્ક્રીનીંગ પરીક્ષણોના પરિણામો છે.

પસંદગીના પરિણામો (100 પોઈન્ટ), x

ઉત્પાદકતા (20 પોઈન્ટ), વાય

ગ્રાફ પર પોઈન્ટનું કાવતરું કરીને, આપણે સ્કેટર ડાયાગ્રામ (ક્ષેત્ર) મેળવીએ છીએ. અમે તેનો ઉપયોગ પસંદગી પરીક્ષણો અને શ્રમ ઉત્પાદકતાના પરિણામોનું વિશ્લેષણ કરવા માટે કરીએ છીએ.

ચાલો સ્કેટરપ્લોટનો ઉપયોગ કરીને રીગ્રેસન રેખાનું વિશ્લેષણ કરીએ. રીગ્રેસન વિશ્લેષણમાં, ઓછામાં ઓછા બે ચલો હંમેશા નિર્દિષ્ટ કરવામાં આવે છે. એક ચલમાં વ્યવસ્થિત ફેરફાર બીજામાં ફેરફાર સાથે સંકળાયેલ છે. મુખ્ય ધ્યેય રીગ્રેસન વિશ્લેષણજો બીજા ચલનું મૂલ્ય જાણીતું હોય તો એક ચલની કિંમતનો અંદાજ કાઢવાનો સમાવેશ થાય છે. સંપૂર્ણ કાર્ય માટે, શ્રમ ઉત્પાદકતાનું મૂલ્યાંકન મહત્વપૂર્ણ છે.

સ્વતંત્ર ચલરીગ્રેસન વિશ્લેષણમાં, એક જથ્થો કે જેનો ઉપયોગ અન્ય ચલનું વિશ્લેષણ કરવા માટેના આધાર તરીકે થાય છે. આ કિસ્સામાં, આ પસંદગી પરીક્ષણોના પરિણામો છે (X અક્ષ સાથે).

આશ્રિત ચલઅંદાજિત મૂલ્ય (Y અક્ષ સાથે) કહેવાય છે. રીગ્રેસન વિશ્લેષણમાં, માત્ર એક આશ્રિત ચલ અને એક કરતાં વધુ સ્વતંત્ર ચલ હોઈ શકે છે.

સરળ રીગ્રેસન વિશ્લેષણ માટે, અવલંબનને બે-સંકલન પ્રણાલી (x અને y) માં રજૂ કરી શકાય છે, જેમાં X અક્ષ સ્વતંત્ર ચલ છે અને Y અક્ષ આશ્રિત ચલ છે. અમે આંતરછેદ બિંદુઓને કાવતરું કરીએ છીએ જેથી ગ્રાફ પર મૂલ્યોની જોડી રજૂ થાય. શેડ્યૂલ કહેવામાં આવે છે સ્કેટરપ્લોટ. તેનું બાંધકામ રીગ્રેસન વિશ્લેષણનો બીજો તબક્કો છે, કારણ કે પ્રથમ વિશ્લેષણ મૂલ્યોની પસંદગી અને નમૂના ડેટાનો સંગ્રહ છે. આમ, રીગ્રેશન વિશ્લેષણનો ઉપયોગ આંકડાકીય વિશ્લેષણ માટે થાય છે. ચાર્ટમાં નમૂનાના ડેટા વચ્ચેનો સંબંધ રેખીય છે.

ચલ x પર આધારિત ચલ y ની તીવ્રતાનો અંદાજ કાઢવા માટે, સ્કેટરપ્લોટ પરના બિંદુઓના સ્થાનના આધારે x અને y વચ્ચેના સંબંધને શ્રેષ્ઠ રીતે રજૂ કરતી રેખાની સ્થિતિ નક્કી કરવી જરૂરી છે. અમારા ઉદાહરણમાં, આ પ્રદર્શન વિશ્લેષણ છે. સ્કેટરિંગ પોઈન્ટ દ્વારા દોરવામાં આવેલી રેખા - રીગ્રેસન રેખા. દ્રશ્ય અનુભવના આધારે રીગ્રેસન લાઇન બનાવવાની એક રીત ફ્રીહેન્ડ પદ્ધતિ છે. અમારી રીગ્રેશન લાઇનનો ઉપયોગ શ્રમ ઉત્પાદકતા નક્કી કરવા માટે થઈ શકે છે. રીગ્રેસન રેખાનું સમીકરણ શોધતી વખતે

ઓછામાં ઓછા ચોરસ પરીક્ષણનો વારંવાર ઉપયોગ થાય છે. સૌથી યોગ્ય રેખા એ છે જ્યાં વર્ગ વિચલનોનો સરવાળો ન્યૂનતમ હોય

વૃદ્ધિ રેખાનું ગાણિતિક સમીકરણ અંકગણિત પ્રગતિમાં વૃદ્ધિના નિયમનું પ્રતિનિધિત્વ કરે છે:

ખાતે = bએક્સ.

વાય = + bએક્સ- એક પરિમાણ સાથે આપેલ સમીકરણ એ કપલિંગ સમીકરણનો સૌથી સરળ પ્રકાર છે. તે સરેરાશ મૂલ્યો માટે સ્વીકાર્ય છે. વચ્ચેના સંબંધને વધુ સચોટ રીતે વ્યક્ત કરવા માટે એક્સઅને ખાતે, વધારાની પ્રમાણસરતા ગુણાંક રજૂ કરવામાં આવે છે b, જે રીગ્રેસન લાઇનનો ઢોળાવ સૂચવે છે.

બી) સૈદ્ધાંતિક રીગ્રેસન લાઇનનું નિર્માણ.

તેને શોધવાની પ્રક્રિયામાં વળાંકના પ્રકારને પસંદ કરવા અને ન્યાયી ઠેરવવા અને પરિમાણોની ગણતરી કરવાનો સમાવેશ થાય છે. , b, સાથેવગેરે બાંધકામ પ્રક્રિયાને લેવલિંગ કહેવામાં આવે છે, અને સાદડી દ્વારા ઓફર કરાયેલ વળાંકોનો પુરવઠો. વિશ્લેષણ, વૈવિધ્યસભર. મોટેભાગે, આર્થિક સમસ્યાઓમાં, વણાંકોના કુટુંબનો ઉપયોગ થાય છે, સમીકરણો કે જે હકારાત્મક પૂર્ણાંક શક્તિઓના બહુપદી દ્વારા વ્યક્ત કરવામાં આવે છે.

1)
- સીધી રેખાનું સમીકરણ,

2)
- હાઇપરબોલા સમીકરણ,

3)
- પેરાબોલાનું સમીકરણ,

જ્યાં ý એ સૈદ્ધાંતિક રીગ્રેશન લાઇનના ઓર્ડિનેટ્સ છે.

સમીકરણનો પ્રકાર પસંદ કર્યા પછી, તમારે પરિમાણો શોધવાની જરૂર છે કે જેના પર આ સમીકરણ આધાર રાખે છે. ઉદાહરણ તરીકે, સ્કેટરિંગ ફીલ્ડમાં પોઈન્ટના સ્થાનની પ્રકૃતિ દર્શાવે છે કે સૈદ્ધાંતિક રીગ્રેસન રેખા સીધી છે.

સ્કેટરપ્લોટ તમને રીગ્રેસન વિશ્લેષણનો ઉપયોગ કરીને શ્રમ ઉત્પાદકતાનું પ્રતિનિધિત્વ કરવાની મંજૂરી આપે છે. અર્થશાસ્ત્રમાં, રીગ્રેસન વિશ્લેષણનો ઉપયોગ અંતિમ ઉત્પાદનને અસર કરતી ઘણી લાક્ષણિકતાઓની આગાહી કરવા માટે થાય છે (ખાતામાં કિંમતો ધ્યાનમાં લેતા).

બી) સીધી રેખા શોધવા માટે સૌથી નાની ફ્રેમનો માપદંડ.

સ્કેટરપ્લોટમાં યોગ્ય રીગ્રેસન લાઇન માટે આપણે અરજી કરી શકીએ તે એક માપદંડ એ લીટી પસંદ કરવા પર આધારિત છે જેના માટે સ્ક્વેર્ડ ભૂલોનો સરવાળો ન્યૂનતમ છે.

સીધી રેખાના સ્કેટરિંગ પોઇન્ટ્સની નિકટતા સેગમેન્ટ્સના ઓર્ડિનેટ્સ દ્વારા માપવામાં આવે છે. આ બિંદુઓના વિચલનો હકારાત્મક અને નકારાત્મક હોઈ શકે છે, પરંતુ પ્રાયોગિક રેખામાંથી સૈદ્ધાંતિક રેખાના વિચલનોના વર્ગોનો સરવાળો હંમેશા હકારાત્મક હોય છે અને તે ન્યૂનતમ હોવો જોઈએ. હકીકત એ છે કે તમામ છૂટાછવાયા બિંદુઓ રીગ્રેસન લાઇનની સ્થિતિ સાથે સુસંગત નથી, પ્રાયોગિક અને સૈદ્ધાંતિક ડેટા વચ્ચે વિસંગતતાનું અસ્તિત્વ સૂચવે છે. આમ, આપણે કહી શકીએ કે એક સિવાય અન્ય કોઈ રીગ્રેસન લાઇન, પ્રાયોગિક અને પ્રાયોગિક ડેટા વચ્ચેના વિચલનોની નાની માત્રા આપી શકતી નથી. તેથી, સૈદ્ધાંતિક સમીકરણ શોધી કાઢ્યા ý અને રીગ્રેશન લાઇન, અમે ઓછામાં ઓછા ચોરસની જરૂરિયાતને સંતોષીએ છીએ.

આ જોડાણ સમીકરણનો ઉપયોગ કરીને કરવામાં આવે છે
પરિમાણો શોધવા માટે સૂત્રોનો ઉપયોગ અને b. સૈદ્ધાંતિક મૂલ્ય લેવું
અને દ્વારા સમીકરણની ડાબી બાજુ સૂચવે છે f, આપણને ફંક્શન મળે છે
અજાણ્યા પરિમાણોમાંથી અને b. મૂલ્યો અને bન્યૂનતમ કાર્યને સંતોષશે fઅને આંશિક વિભેદક સમીકરણોમાંથી જોવા મળે છે
અને
. આ જરૂરી સ્થિતિ, જો કે, સકારાત્મક ચતુર્ભુજ કાર્ય માટે આ શોધવા માટે પણ પૂરતી સ્થિતિ છે અને b.

ચાલો આંશિક વ્યુત્પન્ન સમીકરણોમાંથી પરિમાણ સૂત્રો મેળવીએ અને b:



અમે સમીકરણોની સિસ્ટમ મેળવીએ છીએ:

જ્યાં
- અંકગણિત સરેરાશ ભૂલો.

સંખ્યાત્મક મૂલ્યોને બદલીને, અમે પરિમાણો શોધીએ છીએ અને b.

એક ખ્યાલ છે
. આ અંદાજિત પરિબળ છે.

જો < 33%, то модель приемлема для дальнейшего анализа;

જો > 33%, પછી આપણે હાયપરબોલા, પેરાબોલા, વગેરે લઈએ છીએ. આ વિવિધ પરિસ્થિતિઓમાં વિશ્લેષણનો અધિકાર આપે છે.

નિષ્કર્ષ: અંદાજિત ગુણાંકના માપદંડ અનુસાર, સૌથી યોગ્ય રેખા તે છે જેના માટે

, અને અમારી સમસ્યા માટે અન્ય કોઈ રીગ્રેશન લાઇન ન્યૂનતમ વિચલન આપતી નથી.

ડી) અંદાજની ચોરસ ભૂલ, તેમની લાક્ષણિકતા તપાસવી.

વસ્તીના સંબંધમાં જેમાં સંશોધન પરિમાણોની સંખ્યા 30 કરતા ઓછી છે ( n < 30), для проверки типичности параметров уравнения регрессии используется t- વિદ્યાર્થીની ટી-ટેસ્ટ. આ વાસ્તવિક મૂલ્યની ગણતરી કરે છે t- માપદંડ:

અહીંથી

જ્યાં - શેષ રુટ-મીન-ચોરસ ભૂલ. પ્રાપ્ત t aઅને t bજટિલ સાથે સરખામણી t kસ્વીકૃત મહત્વના સ્તરને ધ્યાનમાં લેતા વિદ્યાર્થીના ટેબલમાંથી ( = 0.01 = 99% અથવા  = 0.05 = 95%). પી = f = k 1 = m- અભ્યાસ હેઠળના સમીકરણના પરિમાણોની સંખ્યા (સ્વતંત્રતાની ડિગ્રી). ઉદાહરણ તરીકે, જો y = a + bx; m = 2, k 2 = f 2 = પી 2 = n – (m+ 1), ક્યાં n- અભ્યાસ કરેલ લાક્ષણિકતાઓની સંખ્યા.

t a < t k < t b .

નિષ્કર્ષ: લાક્ષણિકતા માટે ચકાસાયેલ રીગ્રેસન સમીકરણના પરિમાણોનો ઉપયોગ કરીને, સંચારનું ગાણિતિક મોડેલ બનાવવામાં આવે છે
. આ કિસ્સામાં, વિશ્લેષણમાં વપરાતા ગાણિતિક કાર્યના પરિમાણો (રેખીય, હાયપરબોલા, પેરાબોલા) અનુરૂપ જથ્થાત્મક મૂલ્યો પ્રાપ્ત કરે છે. આ રીતે મેળવેલ મોડેલોની સિમેન્ટીક સામગ્રી એ છે કે તેઓ પરિણામી લાક્ષણિકતાના સરેરાશ મૂલ્યને લાક્ષણિકતા આપે છે.
પરિબળ ચિહ્નમાંથી એક્સ.

ડી) કર્વિલિનિયર રીગ્રેસન.

ઘણી વાર, જ્યારે વેરિયેબલ્સ વચ્ચે બદલાતા સંબંધની સ્થાપના કરવામાં આવે છે ત્યારે વક્રીય સંબંધ થાય છે. વધારો (ઘટાડો) ની તીવ્રતા X ના સ્તર પર આધાર રાખે છે. વિવિધ પ્રકારના વક્રીય અવલંબન છે. ઉદાહરણ તરીકે, પાકની ઉપજ અને વરસાદ વચ્ચેના સંબંધને ધ્યાનમાં લો. સમાન કુદરતી પરિસ્થિતિઓમાં વરસાદમાં વધારા સાથે, ઉપજમાં સઘન વધારો થાય છે, પરંતુ ચોક્કસ મર્યાદા સુધી. નિર્ણાયક બિંદુ પછી, વરસાદ અતિશય હોવાનું બહાર આવે છે, અને ઉપજ આપત્તિજનક રીતે ઘટે છે. ઉદાહરણ બતાવે છે કે પહેલા સંબંધ સકારાત્મક હતો અને પછી નકારાત્મક હતો. નિર્ણાયક બિંદુ એ એટ્રિબ્યુટ Xનું શ્રેષ્ઠ સ્તર છે, જે એટ્રિબ્યુટ Yના મહત્તમ અથવા ન્યૂનતમ મૂલ્યને અનુરૂપ છે.

અર્થશાસ્ત્રમાં, આવો સંબંધ કિંમત અને વપરાશ, ઉત્પાદકતા અને અનુભવ વચ્ચે જોવા મળે છે.

પેરાબોલિક અવલંબન.

જો ડેટા દર્શાવે છે કે પરિબળ લાક્ષણિકતામાં વધારો પરિણામી લાક્ષણિકતામાં વધારો તરફ દોરી જાય છે, તો પછી બીજા ક્રમના સમીકરણ (પેરાબોલા) ને રીગ્રેસન સમીકરણ તરીકે લેવામાં આવે છે.

. ગુણાંક a,b,c આંશિક વિભેદક સમીકરણોમાંથી જોવા મળે છે:

અમને સમીકરણોની સિસ્ટમ મળે છે:

વક્રીય સમીકરણોના પ્રકાર:

,

,

અમને એમ માનવાનો અધિકાર છે કે શ્રમ ઉત્પાદકતા અને પસંદગી પરીક્ષણના સ્કોર્સ વચ્ચે વક્રીય સંબંધ છે. આનો અર્થ એ છે કે જેમ જેમ સ્કોરિંગ સિસ્ટમ વધે છે તેમ તેમ પ્રદર્શન અમુક સ્તરે ઘટવાનું શરૂ થશે, તેથી સીધું મોડલ વક્રીલીન થઈ શકે છે.

ત્રીજું મોડેલ હાઇપરબોલા હશે, અને તમામ સમીકરણોમાં ચલ x અભિવ્યક્તિ દ્વારા બદલવામાં આવશે.

પરિણામોનું નિષ્કર્ષ

કોષ્ટક 8.3a.
રીગ્રેસન આંકડા
બહુવચન આર 0,998364
આર-ચોરસ 0,99673
સામાન્યકૃત R-ચોરસ 0,996321
માનક ભૂલ 0,42405
અવલોકનો 10

પ્રથમ, ચાલો ગણતરીના ટોચના ભાગને જોઈએ, જે કોષ્ટક 8.3a માં પ્રસ્તુત છે - રીગ્રેસન આંકડા.

મૂલ્ય R-ચોરસ, જેને નિશ્ચિતતાનું માપ પણ કહેવાય છે, પરિણામી રીગ્રેસન રેખાની ગુણવત્તા દર્શાવે છે. આ ગુણવત્તા સ્ત્રોત ડેટા અને રીગ્રેસન મોડેલ (ગણતરી કરેલ ડેટા) વચ્ચેના પત્રવ્યવહારની ડિગ્રી દ્વારા વ્યક્ત કરવામાં આવે છે. નિશ્ચિતતાનું માપ હંમેશા અંતરાલની અંદર હોય છે.

મોટાભાગના કિસ્સાઓમાં, આર-સ્ક્વેર મૂલ્ય આ મૂલ્યો વચ્ચે આવે છે, જેને આત્યંતિક મૂલ્યો કહેવાય છે, એટલે કે. શૂન્ય અને એક વચ્ચે.

જો આર-સ્ક્વેર્ડ મૂલ્ય એકની નજીક છે, તો તેનો અર્થ એ છે કે બાંધવામાં આવેલ મોડેલ સંબંધિત ચલોમાં લગભગ તમામ પરિવર્તનશીલતાને સમજાવે છે. તેનાથી વિપરિત, શૂન્યની નજીક આર-સ્ક્વેર મૂલ્યનો અર્થ છે કે બાંધવામાં આવેલા મોડલની ગુણવત્તા નબળી છે.

અમારા ઉદાહરણમાં, નિશ્ચિતતાનું માપ 0.99673 છે, જે મૂળ ડેટા માટે રીગ્રેસન લાઇનની ખૂબ સારી ફિટ સૂચવે છે.

બહુવચન આર- બહુવિધ સહસંબંધ ગુણાંક R - સ્વતંત્ર ચલ (X) અને આશ્રિત ચલ (Y) ની અવલંબનની ડિગ્રી વ્યક્ત કરે છે.

બહુવિધ R એ નિર્ધારણના ગુણાંકના વર્ગમૂળ સમાન છે; આ જથ્થા શૂન્યથી એક સુધીની શ્રેણીમાં મૂલ્યો લે છે.

સરળ રેખીય રીગ્રેસન વિશ્લેષણમાં, બહુવિધ R એ પીયર્સન સહસંબંધ ગુણાંક સમાન છે. ખરેખર, અમારા કેસમાં બહુવિધ R એ અગાઉના ઉદાહરણ (0.998364) ના પીયર્સન સહસંબંધ ગુણાંકની બરાબર છે.

કોષ્ટક 8.3b.
રીગ્રેસન ગુણાંક માનક ભૂલ મતભેદ
t-આંકડા 2,694545455 0,33176878 8,121757129
Y-છેદન 2,305454545 0,04668634 49,38177965
ચલ X 1

* ગણતરીઓનું કાપેલું સંસ્કરણ પ્રદાન કરવામાં આવ્યું છે

હવે ગણતરીના મધ્ય ભાગને ધ્યાનમાં લો, જે કોષ્ટક 8.3b માં પ્રસ્તુત છે. અહીં રીગ્રેશન ગુણાંક b (2.305454545) અને ઓર્ડિનેટ અક્ષ સાથે વિસ્થાપન આપવામાં આવે છે, એટલે કે. સતત a (2.694545455).

ગણતરીઓના આધારે, અમે નીચે પ્રમાણે રીગ્રેસન સમીકરણ લખી શકીએ છીએ:

Y= x*2.305454545+2.694545455 ચલો વચ્ચેના સંબંધની દિશા સંકેતો (નકારાત્મક અથવા હકારાત્મક) ના આધારે નક્કી કરવામાં આવે છે.રીગ્રેસન ગુણાંક

(ગુણાંક b). જો સાઇન પરરીગ્રેસન ગુણાંક

(ગુણાંક b). જો સાઇન પર- હકારાત્મક, આશ્રિત ચલ અને સ્વતંત્ર ચલ વચ્ચેનો સંબંધ હકારાત્મક હશે. અમારા કિસ્સામાં, રીગ્રેસન ગુણાંકનું ચિહ્ન હકારાત્મક છે, તેથી, સંબંધ પણ હકારાત્મક છે.

કોષ્ટક 8.3c માં. અવશેષોના વ્યુત્પત્તિના પરિણામો રજૂ કરવામાં આવ્યા છે. આ પરિણામો રિપોર્ટમાં દેખાય તે માટે, તમારે "રીગ્રેશન" ટૂલ ચલાવતી વખતે "અવશેષો" ચેકબોક્સ સક્રિય કરવું આવશ્યક છે.

બાકીના પાછા ખેંચવા

કોષ્ટક 8.3c.
બાકી અવલોકન આગાહી વાય બાકી
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

પ્રમાણભૂત બેલેન્સ

અહેવાલના આ ભાગનો ઉપયોગ કરીને, આપણે બાંધેલી રીગ્રેસન રેખામાંથી દરેક બિંદુના વિચલનો જોઈ શકીએ છીએ. સૌથી મોટું સંપૂર્ણ મૂલ્ય

આંકડાકીય મોડેલિંગમાં, રીગ્રેસન વિશ્લેષણ એ એક અભ્યાસ છે જેનો ઉપયોગ ચલો વચ્ચેના સંબંધનું મૂલ્યાંકન કરવા માટે થાય છે. આ ગાણિતિક પદ્ધતિમાં બહુવિધ ચલોના મોડેલિંગ અને વિશ્લેષણ માટે અન્ય ઘણી તકનીકોનો સમાવેશ થાય છે જ્યાં ધ્યાન કેન્દ્રિત ચલ અને એક અથવા વધુ સ્વતંત્ર વચ્ચેના સંબંધ પર હોય છે. વધુ વિશિષ્ટ રીતે, રીગ્રેસન વિશ્લેષણ આપણને એ સમજવામાં મદદ કરે છે કે જો સ્વતંત્ર ચલોમાંનું એક બદલાય છે જ્યારે અન્ય સ્વતંત્ર ચલ સ્થિર રહે છે તો આશ્રિત ચલનું લાક્ષણિક મૂલ્ય કેવી રીતે બદલાય છે.

તમામ કિસ્સાઓમાં, લક્ષ્ય અંદાજ સ્વતંત્ર ચલોનું કાર્ય છે અને તેને રીગ્રેસન કાર્ય કહેવામાં આવે છે. રીગ્રેસન પૃથ્થકરણમાં, આશ્રિત ચલમાં ફેરફારને રીગ્રેસન ફંક્શન તરીકે દર્શાવવામાં પણ રુચિ છે, જેનું વર્ણન સંભવિત વિતરણનો ઉપયોગ કરીને કરી શકાય છે.

રીગ્રેસન વિશ્લેષણ સમસ્યાઓ

આ આંકડાકીય સંશોધન પદ્ધતિનો વ્યાપકપણે આગાહી કરવા માટે ઉપયોગ કરવામાં આવે છે, જ્યાં તેનો ઉપયોગ નોંધપાત્ર લાભ ધરાવે છે, પરંતુ કેટલીકવાર તે ભ્રમણા અથવા ખોટા સંબંધો તરફ દોરી શકે છે, તેથી તે બાબતમાં કાળજીપૂર્વક તેનો ઉપયોગ કરવાની ભલામણ કરવામાં આવે છે, કારણ કે, ઉદાહરણ તરીકે, સહસંબંધનો અર્થ નથી. કારણ

આંકડાકીય સંશોધન પદ્ધતિ તરીકે, વ્યવહારમાં રીગ્રેસન પૃથ્થકરણ ડેટા જનરેશન પ્રક્રિયાના સ્વરૂપ અને રીગ્રેસન અભિગમ સાથે તે કેવી રીતે સંબંધિત છે તેના પર આધાર રાખે છે. ડેટા પ્રોસેસ જનરેટ કરવાનું સાચું સ્વરૂપ સામાન્ય રીતે અજાણી સંખ્યા હોવાથી, ડેટાનું રીગ્રેસન પૃથ્થકરણ ઘણીવાર પ્રક્રિયા વિશેની ધારણાઓ પર અમુક અંશે આધાર રાખે છે. જો પૂરતો ડેટા ઉપલબ્ધ હોય તો આ ધારણાઓ ક્યારેક પરીક્ષણ કરી શકાય છે. ધારણાઓનું સાધારણ ઉલ્લંઘન કરવામાં આવે ત્યારે પણ રીગ્રેસન મોડલ ઘણી વખત ઉપયોગી થાય છે, જો કે તેઓ ટોચની કાર્યક્ષમતા પર પ્રદર્શન કરી શકતા નથી.

વધુ સંકુચિત અર્થમાં, વર્ગીકરણમાં ઉપયોગમાં લેવાતા અલગ પ્રતિસાદ ચલોથી વિપરીત, રીગ્રેસન ખાસ કરીને સતત પ્રતિભાવ ચલોના અંદાજને સંદર્ભિત કરી શકે છે. સતત આઉટપુટ વેરીએબલ કેસને સંબંધિત સમસ્યાઓથી અલગ પાડવા માટે તેને મેટ્રિક રીગ્રેસન પણ કહેવામાં આવે છે.

વાર્તા

રીગ્રેસનનું સૌથી જૂનું સ્વરૂપ જાણીતી ઓછામાં ઓછી ચોરસ પદ્ધતિ છે. તે 1805 માં લિજેન્ડ્રે અને 1809 માં ગૌસ દ્વારા પ્રકાશિત કરવામાં આવ્યું હતું. લિજેન્ડ્રે અને ગૌસે સૂર્યની આસપાસના શરીરની ભ્રમણકક્ષા (મોટાભાગે ધૂમકેતુઓ, પરંતુ પછીથી નવા શોધાયેલા નાના ગ્રહો પણ) ખગોળશાસ્ત્રીય અવલોકનોથી નક્કી કરવાની સમસ્યા માટે પદ્ધતિ લાગુ કરી હતી. ગૌસે 1821માં લઘુત્તમ ચોરસ સિદ્ધાંતનો વધુ વિકાસ પ્રકાશિત કર્યો, જેમાં ગૌસ-માર્કોવ પ્રમેયની આવૃત્તિનો સમાવેશ થાય છે.

જૈવિક ઘટનાનું વર્ણન કરવા માટે 19મી સદીમાં ફ્રાન્સિસ ગેલ્ટન દ્વારા "રીગ્રેસન" શબ્દની રચના કરવામાં આવી હતી. વિચાર એવો હતો કે તેમના પૂર્વજોના વંશજોની ઊંચાઈ સામાન્ય સરેરાશ તરફ નીચે તરફ જાય છે. ગેલ્ટન માટે, રીગ્રેશનનો માત્ર આ જ જૈવિક અર્થ હતો, પરંતુ પાછળથી તેમનું કાર્ય ઉડની યોલી અને કાર્લ પીયર્સન દ્વારા ચાલુ રાખવામાં આવ્યું અને વધુ સામાન્ય આંકડાકીય સંદર્ભમાં લાવવામાં આવ્યું. યુલ અને પીયર્સનના કાર્યમાં, પ્રતિભાવ અને સમજૂતીત્મક ચલોનું સંયુક્ત વિતરણ ગૌસીયન હોવાનું માનવામાં આવે છે. ફિશર દ્વારા 1922 અને 1925ના કાગળોમાં આ ધારણાને નકારી કાઢવામાં આવી હતી. ફિશરે સૂચવ્યું કે પ્રતિભાવ ચલનું શરતી વિતરણ ગૌસીયન છે, પરંતુ સંયુક્ત વિતરણ હોવું જરૂરી નથી. આ સંદર્ભમાં, ફિશરની દરખાસ્ત 1821ની ગૌસની રચનાની નજીક છે. 1970 પહેલા, રીગ્રેસન વિશ્લેષણનું પરિણામ મેળવવામાં ક્યારેક 24 કલાક જેટલો સમય લાગતો હતો.

રીગ્રેસન પૃથ્થકરણ પદ્ધતિઓ સક્રિય સંશોધનનું ક્ષેત્ર બની રહે છે. તાજેતરના દાયકાઓમાં, મજબૂત રીગ્રેસન માટે નવી પદ્ધતિઓ વિકસાવવામાં આવી છે; સહસંબંધિત પ્રતિસાદોને સમાવિષ્ટ રીગ્રેશન્સ; રીગ્રેસન પદ્ધતિઓ કે જે વિવિધ પ્રકારના ગુમ થયેલ ડેટાને સમાવે છે; નોનપેરામેટ્રિક રીગ્રેસન; બાયસિયન રીગ્રેશન પદ્ધતિઓ; રીગ્રેસન જેમાં આગાહી કરનાર ચલો ભૂલ સાથે માપવામાં આવે છે; અવલોકનો કરતાં વધુ અનુમાનો સાથે રીગ્રેસન, અને રીગ્રેસન સાથે કારણ-અને-અસર અનુમાન.

રીગ્રેશન મોડલ્સ

રીગ્રેસન વિશ્લેષણ મોડેલોમાં નીચેના ચલોનો સમાવેશ થાય છે:

  • અજ્ઞાત પરિમાણો, નિયુક્ત બીટા, જે સ્કેલર અથવા વેક્ટર હોઈ શકે છે.
  • સ્વતંત્ર ચલો, એક્સ.
  • આશ્રિત ચલો, વાય.

વિજ્ઞાનના વિવિધ ક્ષેત્રો જ્યાં રીગ્રેસન વિશ્લેષણનો ઉપયોગ કરવામાં આવે છે તે આશ્રિત અને સ્વતંત્ર ચલોની જગ્યાએ વિવિધ શબ્દોનો ઉપયોગ કરે છે, પરંતુ તમામ કિસ્સાઓમાં રીગ્રેસન મોડેલ Y ને X અને β ના કાર્ય સાથે સંબંધિત છે.

અંદાજ સામાન્ય રીતે E(Y | X) = F(X, β) તરીકે લખવામાં આવે છે. રીગ્રેસન વિશ્લેષણ હાથ ધરવા માટે, ફંક્શન f નો પ્રકાર નક્કી કરવો આવશ્યક છે. ઓછા સામાન્ય રીતે, તે Y અને X વચ્ચેના સંબંધ વિશેના જ્ઞાન પર આધારિત છે, જે ડેટા પર આધાર રાખતું નથી. જો આવું જ્ઞાન ઉપલબ્ધ ન હોય, તો લવચીક અથવા અનુકૂળ સ્વરૂપ F પસંદ કરવામાં આવે છે.

આશ્રિત ચલ Y

ચાલો હવે ધારીએ કે અજાણ્યા પરિમાણોના વેક્ટરની લંબાઈ k છે. રીગ્રેસન વિશ્લેષણ કરવા માટે, વપરાશકર્તાએ આશ્રિત ચલ Y વિશે માહિતી પ્રદાન કરવી આવશ્યક છે:

  • જો ફોર્મ (Y, X) ના N ડેટા બિંદુઓ જોવામાં આવે છે, જ્યાં N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • જો બરાબર N = K અવલોકન કરવામાં આવે અને ફંક્શન F રેખીય હોય, તો સમીકરણ Y = F(X, β) અંદાજિત કરતાં બરાબર ઉકેલી શકાય છે. આ N-અજ્ઞાત (તત્વો β) સાથેના N-સમીકરણોના સમૂહને ઉકેલવા સમાન છે કે જ્યાં સુધી X રેખીય રીતે સ્વતંત્ર છે ત્યાં સુધી અનન્ય ઉકેલ ધરાવે છે. જો F બિનરેખીય હોય, તો ત્યાં કોઈ ઉકેલ ન હોઈ શકે, અથવા ઘણા ઉકેલો અસ્તિત્વમાં હોઈ શકે છે.
  • સૌથી સામાન્ય પરિસ્થિતિ એ છે કે જ્યાં N > ડેટા પોઈન્ટ જોવા મળે છે. આ કિસ્સામાં, ડેટામાં β માટે એક અનન્ય મૂલ્યનો અંદાજ કાઢવા માટે પૂરતી માહિતી છે જે ડેટાને શ્રેષ્ઠ રીતે બંધબેસે છે, અને રીગ્રેશન મોડલ જ્યાં ડેટાની એપ્લિકેશનને β માં ઓવરડિટરમાઇન્ડ સિસ્ટમ તરીકે જોઈ શકાય છે.

પછીના કિસ્સામાં, રીગ્રેસન વિશ્લેષણ આના માટે સાધનો પૂરા પાડે છે:

  • અજાણ્યા પરિમાણો β માટે ઉકેલ શોધવો, જે ઉદાહરણ તરીકે, Y ના માપેલા અને અનુમાનિત મૂલ્ય વચ્ચેનું અંતર ઘટાડશે.
  • ચોક્કસ આંકડાકીય ધારણાઓ હેઠળ, રીગ્રેસન વિશ્લેષણ અજ્ઞાત પરિમાણો β અને આશ્રિત ચલ Y ના અનુમાનિત મૂલ્યો વિશે આંકડાકીય માહિતી પ્રદાન કરવા માટે વધારાની માહિતીનો ઉપયોગ કરે છે.

સ્વતંત્ર માપનની આવશ્યક સંખ્યા

રીગ્રેસન મોડેલને ધ્યાનમાં લો કે જેમાં ત્રણ અજાણ્યા પરિમાણો છે: β 0 , β 1 અને β 2 . ધારો કે પ્રયોગકર્તા સ્વતંત્ર ચલ વેક્ટર Xના સમાન મૂલ્ય પર 10 માપન કરે છે. આ કિસ્સામાં, રીગ્રેસન વિશ્લેષણ મૂલ્યોનો અનન્ય સમૂહ ઉત્પન્ન કરતું નથી. તમે આશ્રિત ચલ Y ના સરેરાશ અને પ્રમાણભૂત વિચલનનો અંદાજ લગાવી શકો તે શ્રેષ્ઠ છે. એ જ રીતે, X ના બે અલગ અલગ મૂલ્યોને માપવાથી, તમે બે અજાણ્યાઓ સાથે રીગ્રેસન માટે પૂરતો ડેટા મેળવી શકો છો, પરંતુ ત્રણ અથવા વધુ અજાણ્યાઓ સાથે નહીં.

જો પ્રયોગકર્તાનું માપ સ્વતંત્ર ચલ વેક્ટર X ના ત્રણ અલગ-અલગ મૂલ્યો પર કરવામાં આવ્યું હોય, તો રીગ્રેશન વિશ્લેષણ β માં ત્રણ અજાણ્યા પરિમાણો માટે અંદાજોનો એક અનન્ય સમૂહ પ્રદાન કરશે.

સામાન્ય રેખીય રીગ્રેશનના કિસ્સામાં, ઉપરોક્ત વિધાન એ જરૂરિયાતને સમકક્ષ છે કે મેટ્રિક્સ X T X ઉલટાવી શકાય તેવું છે.

આંકડાકીય ધારણાઓ

જ્યારે માપ N ની સંખ્યા અજ્ઞાત પરિમાણો k ની સંખ્યા અને માપન ભૂલો ε i કરતાં વધુ હોય છે, ત્યારે, નિયમ તરીકે, માપમાં સમાવિષ્ટ વધારાની માહિતી પછી અજ્ઞાત પરિમાણો સંબંધિત આંકડાકીય આગાહીઓ માટે પ્રસારિત કરવામાં આવે છે અને તેનો ઉપયોગ કરવામાં આવે છે. આ વધારાની માહિતીને સ્વતંત્રતાની રીગ્રેશન ડિગ્રી કહેવામાં આવે છે.

મૂળભૂત ધારણાઓ

રીગ્રેસન વિશ્લેષણ માટે ઉત્તમ ધારણાઓમાં નીચેનાનો સમાવેશ થાય છે:

  • સેમ્પલિંગ એ અનુમાન અનુમાનનું પ્રતિનિધિત્વ છે.
  • ભૂલ શબ્દ એ શૂન્યના સરેરાશ સાથેનું રેન્ડમ ચલ છે, જે સમજૂતીત્મક ચલો પર શરતી છે.
  • સ્વતંત્ર ચલો ભૂલો વિના માપવામાં આવે છે.
  • સ્વતંત્ર ચલો (અનુમાનકર્તા) તરીકે, તેઓ રેખીય રીતે સ્વતંત્ર છે, એટલે કે, અન્યના રેખીય સંયોજન તરીકે કોઈપણ આગાહી કરનારને વ્યક્ત કરવું શક્ય નથી.
  • ભૂલો અસંબંધિત છે, એટલે કે, કર્ણનું ભૂલ સહપ્રવર્તન મેટ્રિક્સ અને દરેક બિન-શૂન્ય તત્વ એ ભૂલ ભિન્નતા છે.
  • અવલોકનો (હોમોસેડેસ્ટીસીટી)માં ભૂલનો તફાવત સ્થિર છે. જો નહિં, તો વજનવાળા ઓછામાં ઓછા ચોરસ અથવા અન્ય પદ્ધતિઓનો ઉપયોગ કરી શકાય છે.

ઓછામાં ઓછા ચોરસ અંદાજ માટે આ પર્યાપ્ત શરતો જરૂરી ગુણધર્મો ધરાવે છે, ખાસ કરીને આ ધારણાઓનો અર્થ એ છે કે પરિમાણ અંદાજો ઉદ્દેશ્ય, સુસંગત અને કાર્યક્ષમ હશે, ખાસ કરીને જ્યારે રેખીય અંદાજકારોના વર્ગમાં ધ્યાનમાં લેવામાં આવે. એ નોંધવું અગત્યનું છે કે પુરાવા ભાગ્યે જ શરતોને સંતોષે છે. એટલે કે ધારણાઓ સાચી ન હોય તો પણ પદ્ધતિનો ઉપયોગ થાય છે. ધારણાઓમાંથી ભિન્નતાનો ઉપયોગ મોડેલ કેટલું ઉપયોગી છે તેના માપદંડ તરીકે કરી શકાય છે. આમાંની ઘણી ધારણાઓને વધુ આધુનિક પદ્ધતિઓમાં હળવી કરી શકાય છે. આંકડાકીય પૃથ્થકરણ અહેવાલોમાં સામાન્ય રીતે નમૂનાના ડેટા પરના પરીક્ષણોનું વિશ્લેષણ અને મોડેલની ઉપયોગીતા માટેની પદ્ધતિનો સમાવેશ થાય છે.

વધુમાં, કેટલાક કિસ્સાઓમાં ચલો બિંદુ સ્થાનો પર માપવામાં આવેલ મૂલ્યોનો સંદર્ભ આપે છે. ચલોમાં અવકાશી વલણો અને અવકાશી સ્વયંસંબંધો હોઈ શકે છે જે આંકડાકીય ધારણાઓનું ઉલ્લંઘન કરે છે. ભૌગોલિક ભારિત રીગ્રેશન એ એકમાત્ર પદ્ધતિ છે જે આવા ડેટા સાથે વ્યવહાર કરે છે.

રેખીય રીગ્રેશનની વિશેષતા એ છે કે આશ્રિત ચલ, જે યી છે, તે પરિમાણોનું રેખીય સંયોજન છે. ઉદાહરણ તરીકે, સાદું રેખીય રીગ્રેસન એક સ્વતંત્ર ચલ, x i , અને બે પરિમાણો, β 0 અને β 1 નો ઉપયોગ કરે છે, n-બિંદુઓને મોડેલ કરવા માટે.

બહુવિધ રેખીય રીગ્રેશનમાં, તેમાંના બહુવિધ સ્વતંત્ર ચલો અથવા કાર્યો હોય છે.

જ્યારે વસ્તીમાંથી રેન્ડમ નમૂના લેવામાં આવે છે, ત્યારે તેના પરિમાણો એક નમૂના રેખીય રીગ્રેસન મોડેલ મેળવવા માટે પરવાનગી આપે છે.

આ પાસામાં, સૌથી વધુ લોકપ્રિય એ ન્યૂનતમ ચોરસ પદ્ધતિ છે. તેનો ઉપયોગ પેરામીટર અંદાજો મેળવવા માટે થાય છે જે ચોરસ અવશેષોના સરવાળાને ઘટાડે છે. આ ફંક્શનનું આ પ્રકારનું લઘુત્તમકરણ (જે રેખીય રીગ્રેશનની લાક્ષણિકતા છે) સામાન્ય સમીકરણોના સમૂહ અને પરિમાણો સાથેના રેખીય સમીકરણોના સમૂહ તરફ દોરી જાય છે, જે પેરામીટર અંદાજો મેળવવા માટે ઉકેલવામાં આવે છે.

વધુ ધારણા હેઠળ કે વસ્તીની ભૂલ સામાન્ય રીતે પ્રચારિત થાય છે, સંશોધક આ પ્રમાણભૂત ભૂલ અંદાજોનો ઉપયોગ વિશ્વાસ અંતરાલ બનાવવા અને તેના પરિમાણો વિશે પૂર્વધારણા પરીક્ષણો કરવા માટે કરી શકે છે.

બિનરેખીય રીગ્રેસન વિશ્લેષણ

એક ઉદાહરણ જ્યાં ફંક્શન પરિમાણોના સંદર્ભમાં રેખીય નથી તે સૂચવે છે કે પુનરાવર્તિત પ્રક્રિયાનો ઉપયોગ કરીને ચોરસનો સરવાળો ઓછો કરવો જોઈએ. આ ઘણી ગૂંચવણોનો પરિચય આપે છે જે રેખીય અને બિનરેખીય લઘુત્તમ ચોરસ પદ્ધતિઓ વચ્ચેના તફાવતોને વ્યાખ્યાયિત કરે છે. પરિણામે, બિનરેખીય પદ્ધતિનો ઉપયોગ કરતી વખતે રીગ્રેસન વિશ્લેષણના પરિણામો કેટલીકવાર અણધારી હોય છે.

શક્તિ અને નમૂનાના કદની ગણતરી

મોડેલમાં સ્વતંત્ર ચલોની સંખ્યા વિરુદ્ધ અવલોકનોની સંખ્યા સંબંધિત સામાન્ય રીતે કોઈ સુસંગત પદ્ધતિઓ નથી. પ્રથમ નિયમ ડોબ્રા અને હાર્ડિન દ્વારા પ્રસ્તાવિત કરવામાં આવ્યો હતો અને તે N = t^n જેવો દેખાય છે, જ્યાં N એ નમૂનાનું કદ છે, n એ સ્વતંત્ર ચલોની સંખ્યા છે, અને t એ ઇચ્છિત ચોકસાઈ હાંસલ કરવા માટે જરૂરી અવલોકનોની સંખ્યા છે જો મોડેલ પાસે હોય. માત્ર એક સ્વતંત્ર ચલ. ઉદાહરણ તરીકે, એક સંશોધક ડેટા સેટનો ઉપયોગ કરીને રેખીય રીગ્રેસન મોડેલ બનાવે છે જેમાં 1000 દર્દીઓ (N) હોય છે. જો સંશોધક નક્કી કરે છે કે રેખા (m) ને ચોક્કસ રીતે વ્યાખ્યાયિત કરવા માટે પાંચ અવલોકનોની જરૂર છે, તો મોડલ સપોર્ટ કરી શકે તેવા સ્વતંત્ર ચલોની મહત્તમ સંખ્યા 4 છે.

અન્ય પદ્ધતિઓ

જો કે રીગ્રેસન મોડેલ પેરામીટર્સ સામાન્ય રીતે ઓછામાં ઓછા ચોરસ પદ્ધતિનો ઉપયોગ કરીને અંદાજવામાં આવે છે, ત્યાં અન્ય પદ્ધતિઓ છે જેનો ઉપયોગ ઘણી ઓછી વાર થાય છે. ઉદાહરણ તરીકે, આ નીચેની પદ્ધતિઓ છે:

  • બેયેસિયન પદ્ધતિઓ (ઉદાહરણ તરીકે, બેયેસિયન રેખીય રીગ્રેશન).
  • ટકાવારી રીગ્રેસન, એવી પરિસ્થિતિઓ માટે વપરાય છે જ્યાં ટકાવારી ભૂલો ઘટાડવાનું વધુ યોગ્ય માનવામાં આવે છે.
  • સૌથી નાનું નિરપેક્ષ વિચલન, જે ક્વોન્ટાઇલ રીગ્રેસન તરફ દોરી જતા આઉટલાયર્સની હાજરીમાં વધુ મજબૂત હોય છે.
  • નોનપેરામેટ્રિક રીગ્રેશન, જેને મોટી સંખ્યામાં અવલોકનો અને ગણતરીઓની જરૂર છે.
  • એક અંતર શિક્ષણ મેટ્રિક કે જે આપેલ ઇનપુટ જગ્યામાં અર્થપૂર્ણ અંતર મેટ્રિક શોધવા માટે શીખવામાં આવે છે.

સોફ્ટવેર

તમામ મુખ્ય આંકડાકીય સોફ્ટવેર પેકેજો ઓછામાં ઓછા ચોરસ રીગ્રેસન વિશ્લેષણ કરે છે. સરળ રેખીય રીગ્રેસન અને બહુવિધ રીગ્રેસન વિશ્લેષણનો ઉપયોગ કેટલીક સ્પ્રેડશીટ એપ્લિકેશનો તેમજ કેટલાક કેલ્ક્યુલેટરમાં થઈ શકે છે. જો કે ઘણા આંકડાકીય સોફ્ટવેર પેકેજો વિવિધ પ્રકારના નોનપેરામેટ્રિક અને મજબૂત રીગ્રેસન કરી શકે છે, આ પદ્ધતિઓ ઓછી પ્રમાણિત છે; વિવિધ સોફ્ટવેર પેકેજો વિવિધ પદ્ધતિઓનો અમલ કરે છે. પરીક્ષા વિશ્લેષણ અને ન્યુરોઇમેજિંગ જેવા ક્ષેત્રોમાં ઉપયોગ માટે વિશિષ્ટ રીગ્રેશન સોફ્ટવેર વિકસાવવામાં આવ્યું છે.

સહસંબંધ અને રીગ્રેશનની વિભાવનાઓ સીધી રીતે સંબંધિત છે. સહસંબંધ અને રીગ્રેસન વિશ્લેષણમાં ઘણી સામાન્ય કોમ્પ્યુટેશનલ તકનીકો છે. તેનો ઉપયોગ ઘટના અને પ્રક્રિયાઓ વચ્ચેના કારણ-અને-અસર સંબંધોને ઓળખવા માટે થાય છે. જો કે, જો સહસંબંધ વિશ્લેષણપછી અમને સ્ટોકેસ્ટિક કનેક્શનની મજબૂતાઈ અને દિશાનો અંદાજ કાઢવાની મંજૂરી આપે છે રીગ્રેસન વિશ્લેષણ- અવલંબનનું એક સ્વરૂપ પણ.

રીગ્રેશન આ હોઈ શકે છે:

a) ઘટના (ચલ) ની સંખ્યા પર આધાર રાખીને:

સરળ (બે ચલો વચ્ચે રીગ્રેસન);

બહુવિધ (આશ્રિત ચલ (y) અને કેટલાક સ્પષ્ટીકરણ ચલો (x1, x2...xn) વચ્ચેનું રીગ્રેશન;

b) ફોર્મ પર આધાર રાખીને:

રેખીય (રેખીય કાર્ય દ્વારા પ્રદર્શિત, અને અભ્યાસ કરવામાં આવતા ચલો વચ્ચે રેખીય સંબંધો છે);

બિનરેખીય (બિનરેખીય કાર્ય દ્વારા પ્રદર્શિત; અભ્યાસ કરવામાં આવી રહેલા ચલો વચ્ચેનો સંબંધ બિનરેખીય છે);

c) વિચારણામાં સમાવિષ્ટ ચલો વચ્ચેના સંબંધની પ્રકૃતિ દ્વારા:

સકારાત્મક (સ્પષ્ટીકરણ ચલના મૂલ્યમાં વધારો આશ્રિત ચલના મૂલ્યમાં વધારો તરફ દોરી જાય છે અને ઊલટું);

નકારાત્મક (જેમ જેમ સમજૂતીત્મક ચલનું મૂલ્ય વધે છે, તેમ સમજાવેલ ચલનું મૂલ્ય ઘટે છે);

ડી) પ્રકાર દ્વારા:

ડાયરેક્ટ (આ કિસ્સામાં, કારણની અસર પર સીધી અસર પડે છે, એટલે કે આશ્રિત અને સ્પષ્ટીકરણ ચલો એકબીજા સાથે સીધા સંબંધિત છે);

પરોક્ષ (સ્પષ્ટીકરણાત્મક ચલની આશ્રિત ચલ પર ત્રીજા અથવા સંખ્યાબંધ અન્ય ચલો દ્વારા પરોક્ષ અસર હોય છે);

ખોટા (નોનસેન્સ રીગ્રેસન) - પ્રક્રિયાઓ અને અસાધારણ ઘટનાઓનો અભ્યાસ કરવામાં આવી રહી છે તે માટે સુપરફિસિયલ અને ઔપચારિક અભિગમ સાથે ઉદ્ભવી શકે છે. વાહિયાતનું ઉદાહરણ એ રીગ્રેસન છે જે આપણા દેશમાં દારૂના વપરાશમાં ઘટાડો અને વોશિંગ પાવડરના વેચાણમાં ઘટાડો વચ્ચે જોડાણ સ્થાપિત કરે છે.

રીગ્રેસન વિશ્લેષણ કરતી વખતે, નીચેના મુખ્ય કાર્યો હલ કરવામાં આવે છે:

1. નિર્ભરતાના સ્વરૂપનું નિર્ધારણ.

2. રીગ્રેસન કાર્યની વ્યાખ્યા. આ કરવા માટે, એક અથવા બીજા પ્રકારના ગાણિતિક સમીકરણનો ઉપયોગ કરવામાં આવે છે, જે, પ્રથમ, આશ્રિત ચલમાં પરિવર્તનના સામાન્ય વલણને સ્થાપિત કરવાની મંજૂરી આપે છે, અને, બીજું, સ્પષ્ટીકરણ ચલ (અથવા અનેક ચલો) ના પ્રભાવની ગણતરી કરવા માટે. આશ્રિત ચલ.

3. આશ્રિત ચલના અજાણ્યા મૂલ્યોનો અંદાજ. પરિણામી ગાણિતિક સંબંધ (રીગ્રેસન સમીકરણ) તમને સ્પષ્ટીકરણાત્મક ચલોના નિર્દિષ્ટ મૂલ્યોના અંતરાલની અંદર અને તેનાથી આગળ બંને આશ્રિત ચલનું મૂલ્ય નક્કી કરવાની મંજૂરી આપે છે. પછીના કિસ્સામાં, રીગ્રેશન વિશ્લેષણ સામાજિક-આર્થિક પ્રક્રિયાઓ અને ઘટનાઓમાં ફેરફારોની આગાહી કરવા માટે એક ઉપયોગી સાધન તરીકે કાર્ય કરે છે (જો કે હાલના વલણો અને સંબંધો જાળવવામાં આવે). સામાન્ય રીતે, સમયગાળો કે જેના માટે આગાહી હાથ ધરવામાં આવે છે તે સમય અંતરાલના અડધા કરતાં વધુ ન હોય તે માટે પસંદ કરવામાં આવે છે કે જેના પર પ્રારંભિક સૂચકોના અવલોકનો હાથ ધરવામાં આવ્યા હતા. નિષ્ક્રિય આગાહી, એક્સ્ટ્રાપોલેશન સમસ્યાનું નિરાકરણ અને સક્રિય, જાણીતી "જો..., તો" યોજના અનુસાર તર્ક અને વિવિધ મૂલ્યોને એક અથવા વધુ સ્પષ્ટીકરણાત્મક રીગ્રેસન ચલોમાં બદલીને બંને હાથ ધરવાનું શક્ય છે. .



માટે રીગ્રેસન બાંધકામએક ખાસ પદ્ધતિ કહેવાય છે ઓછામાં ઓછા ચોરસ પદ્ધતિ. આ પદ્ધતિમાં અન્ય સ્મૂથિંગ પદ્ધતિઓ કરતાં ફાયદા છે: જરૂરી પરિમાણોનું પ્રમાણમાં સરળ ગાણિતિક નિર્ધારણ અને સંભવિત દૃષ્ટિકોણથી સારું સૈદ્ધાંતિક સમર્થન.

રીગ્રેસન મોડલ પસંદ કરતી વખતે, તેના માટેની આવશ્યક આવશ્યકતાઓમાંની એક સૌથી વધુ શક્ય સરળતાને સુનિશ્ચિત કરવાની છે, જે તમને પૂરતી ચોકસાઈ સાથે ઉકેલ મેળવવાની મંજૂરી આપે છે. તેથી, આંકડાકીય સંબંધો સ્થાપિત કરવા માટે, પ્રથમ, એક નિયમ તરીકે, અમે રેખીય કાર્યોના વર્ગમાંથી એક મોડેલને ધ્યાનમાં લઈએ છીએ (વિધેયોના તમામ સંભવિત વર્ગોમાં સૌથી સરળ તરીકે):

જ્યાં bi, b2...bj એ ગુણાંક છે જે મૂલ્ય yi પર સ્વતંત્ર ચલ xij ના પ્રભાવને નિર્ધારિત કરે છે; ai - મફત સભ્ય; ei - રેન્ડમ વિચલન, જે આશ્રિત ચલ પર બિનહિસાબી પરિબળોના પ્રભાવને પ્રતિબિંબિત કરે છે; n - સ્વતંત્ર ચલોની સંખ્યા; N એ અવલોકનોની સંખ્યા છે, અને શરત (N. n+1) મળવી આવશ્યક છે.

રેખીય મોડેલવિવિધ કાર્યોના ખૂબ વિશાળ વર્ગનું વર્ણન કરી શકે છે. જો કે, વ્યવહારમાં, ખાસ કરીને સામાજિક-આર્થિક પ્રણાલીઓમાં, મોટા અંદાજની ભૂલોને કારણે રેખીય મોડલનો ઉપયોગ કરવો ક્યારેક મુશ્કેલ હોય છે. તેથી, બિનરેખીય બહુવિધ રીગ્રેસન ફંક્શન્સ કે જે લીનિયરાઇઝ્ડ થઈ શકે છે તેનો વારંવાર ઉપયોગ થાય છે. આમાં, ઉદાહરણ તરીકે, ઉત્પાદન કાર્ય (કોબ-ડગ્લાસ પાવર ફંક્શન) નો સમાવેશ થાય છે, જેને વિવિધ સામાજિક-આર્થિક અભ્યાસોમાં એપ્લિકેશન મળી છે. તે આના જેવું દેખાય છે:

જ્યાં b 0 નોર્મલાઇઝેશન ફેક્ટર છે, b 1 ...b j અજ્ઞાત ગુણાંક છે, e i એક રેન્ડમ વિચલન છે.

કુદરતી લઘુગણકનો ઉપયોગ કરીને, તમે આ સમીકરણને રેખીય સ્વરૂપમાં પરિવર્તિત કરી શકો છો:

પરિણામી મોડેલ ઉપર વર્ણવેલ પ્રમાણભૂત રેખીય રીગ્રેસન પ્રક્રિયાઓનો ઉપયોગ કરવાની મંજૂરી આપે છે. બે પ્રકારના મોડલ બનાવીને (એડિટિવ અને ગુણાકાર), તમે શ્રેષ્ઠ પસંદ કરી શકો છો અને નાની અંદાજની ભૂલો સાથે વધુ સંશોધન કરી શકો છો.

અંદાજિત કાર્યો પસંદ કરવા માટે એક સારી રીતે વિકસિત સિસ્ટમ છે - દલીલોના જૂથ એકાઉન્ટિંગની પદ્ધતિ(MGUA).

પસંદ કરેલ મોડલની શુદ્ધતા અવશેષોના અભ્યાસના પરિણામો દ્વારા નક્કી કરી શકાય છે, જે અવલોકન કરેલ મૂલ્યો y i અને અનુરૂપ મૂલ્યો y મેં રીગ્રેસન સમીકરણનો ઉપયોગ કરીને આગાહી કરેલ વચ્ચેનો તફાવત છે. આ કિસ્સામાં મોડેલની પર્યાપ્તતા ચકાસવા માટેગણતરી કરેલ સરેરાશ અંદાજ ભૂલ:

જો e 15% કરતા વધુની અંદર ન હોય તો મોડેલને પર્યાપ્ત ગણવામાં આવે છે.

અમે ખાસ કરીને ભારપૂર્વક કહીએ છીએ કે સામાજિક-આર્થિક પ્રણાલીઓના સંબંધમાં, ક્લાસિકલ રીગ્રેશન મોડલની પર્યાપ્તતા માટેની મૂળભૂત શરતો હંમેશા પૂરી થતી નથી.

ઉદભવતી અયોગ્યતાના તમામ કારણો પર ધ્યાન આપ્યા વિના, અમે ફક્ત નામ આપીશું બહુકોલીનિયરિટી- આંકડાકીય અવલંબનના અભ્યાસમાં રીગ્રેસન વિશ્લેષણ પ્રક્રિયાઓને અસરકારક રીતે લાગુ કરવાની સૌથી મુશ્કેલ સમસ્યા. હેઠળ બહુકોલીનિયરિટીતે સમજી શકાય છે કે સમજૂતીત્મક ચલો વચ્ચે રેખીય સંબંધ છે.

આ ઘટના:

a) રીગ્રેશન ગુણાંકનો અર્થ વિકૃત કરે છે જ્યારે તેનો અર્થપૂર્ણ અર્થઘટન કરે છે;

b) આકારણીની ચોકસાઈ ઘટાડે છે (મૂલ્યાંકનોનો ફેલાવો વધે છે);

c) નમૂનાના ડેટા માટે ગુણાંકના અંદાજોની સંવેદનશીલતા વધે છે (નમૂનાના કદમાં વધારો અંદાજને મોટા પ્રમાણમાં અસર કરી શકે છે).

મલ્ટિકોલિનરીટી ઘટાડવા માટે વિવિધ તકનીકો છે. સૌથી વધુ સુલભ રીત એ છે કે બે ચલોમાંના એકને દૂર કરવું જો તેમની વચ્ચેનો સહસંબંધ ગુણાંક 0.8 ના સંપૂર્ણ મૂલ્યમાં સમાન મૂલ્ય કરતાં વધી જાય. કયું ચલ રાખવું તે મહત્ત્વપૂર્ણ વિચારણાઓના આધારે નક્કી કરવામાં આવે છે. પછી રીગ્રેસન ગુણાંકની ફરીથી ગણતરી કરવામાં આવે છે.

સ્ટેપવાઇઝ રીગ્રેસન એલ્ગોરિધમનો ઉપયોગ કરવાથી તમે અનુક્રમે મોડેલમાં એક સ્વતંત્ર ચલનો સમાવેશ કરી શકો છો અને રીગ્રેસન ગુણાંકના મહત્વ અને ચલોની મલ્ટીકોલીનરીટીનું વિશ્લેષણ કરી શકો છો. અંતે, અભ્યાસ હેઠળના સંબંધમાં ફક્ત તે જ ચલો રહે છે જે રીગ્રેસન ગુણાંકનું જરૂરી મહત્વ અને બહુકોલીનરીટીનો ન્યૂનતમ પ્રભાવ પૂરો પાડે છે.

રીગ્રેસન વિશ્લેષણ એ માપેલા ડેટાનું મોડેલિંગ અને તેમની મિલકતોનો અભ્યાસ કરવાની એક પદ્ધતિ છે. ડેટામાં આશ્રિત ચલ (પ્રતિભાવ ચલ) અને સ્વતંત્ર ચલ (સ્પષ્ટીકરણાત્મક ચલ) ના મૂલ્યોની જોડીનો સમાવેશ થાય છે. રીગ્રેશન મોડલ એ સ્વતંત્ર ચલ અને વધારાના રેન્ડમ ચલ સાથેના પરિમાણોનું કાર્ય છે.

સહસંબંધ વિશ્લેષણ અને રીગ્રેસન વિશ્લેષણ એ ગાણિતિક આંકડાઓના સંબંધિત વિભાગો છે, અને તેનો હેતુ નમૂનાના ડેટાનો ઉપયોગ કરીને સંખ્યાબંધ જથ્થાની આંકડાકીય અવલંબનનો અભ્યાસ કરવાનો છે; જેમાંથી કેટલાક રેન્ડમ છે. આંકડાકીય અવલંબન સાથે, જથ્થાઓ કાર્યાત્મક રીતે સંબંધિત નથી, પરંતુ સંયુક્ત સંભાવના વિતરણ દ્વારા રેન્ડમ ચલ તરીકે વ્યાખ્યાયિત કરવામાં આવે છે.

રેન્ડમ ચલોની અવલંબનનો અભ્યાસ નમૂનાના ડેટાના આધારે રીગ્રેસન મોડલ અને રીગ્રેસન વિશ્લેષણ તરફ દોરી જાય છે. સંભાવના સિદ્ધાંત અને ગાણિતિક આંકડા આંકડાકીય અવલંબનનો અભ્યાસ કરવા માટે માત્ર એક સાધનનું પ્રતિનિધિત્વ કરે છે, પરંતુ કાર્યકારણ સંબંધ સ્થાપિત કરવાનું લક્ષ્ય રાખતા નથી. કારણભૂત સંબંધ વિશેના વિચારો અને પૂર્વધારણાઓ અન્ય કોઈ સિદ્ધાંતમાંથી લાવવામાં આવે છે જે અભ્યાસ કરવામાં આવી રહેલી ઘટનાના અર્થપૂર્ણ સમજૂતીને મંજૂરી આપે છે.

સંખ્યાત્મક ડેટા સામાન્ય રીતે એકબીજા સાથે સ્પષ્ટ (જાણીતા) અથવા ગર્ભિત (છુપાયેલા) સંબંધો ધરાવે છે.

જે સૂચકાંકો સીધી ગણતરી પદ્ધતિઓ દ્વારા મેળવવામાં આવે છે, એટલે કે, અગાઉ જાણીતા સૂત્રોનો ઉપયોગ કરીને ગણતરી કરવામાં આવે છે, તે સ્પષ્ટ રીતે સંબંધિત છે. ઉદાહરણ તરીકે, યોજના પૂર્ણ થવાની ટકાવારી, સ્તરો, ચોક્કસ વજન, રકમમાં વિચલનો, ટકાવારીમાં વિચલનો, વૃદ્ધિ દર, વૃદ્ધિ દર, સૂચકાંકો વગેરે.

બીજા પ્રકારનાં જોડાણો (ગર્ભિત) અગાઉથી અજ્ઞાત છે. જો કે, તેમને મેનેજ કરવા માટે જટિલ ઘટનાઓને સમજાવવા અને આગાહી કરવામાં સક્ષમ બનવું જરૂરી છે. તેથી, નિષ્ણાતો, અવલોકનોની મદદથી, છુપાયેલા અવલંબનને ઓળખવા અને તેમને સૂત્રોના સ્વરૂપમાં વ્યક્ત કરવાનો પ્રયાસ કરે છે, એટલે કે, ઘટના અથવા પ્રક્રિયાઓને ગાણિતિક રીતે મોડેલ કરવા. આવી એક તક સહસંબંધ-રીગ્રેશન વિશ્લેષણ દ્વારા પૂરી પાડવામાં આવે છે.

ગાણિતિક મોડેલો ત્રણ સામાન્ય હેતુઓ માટે બનાવવામાં આવે છે અને ઉપયોગમાં લેવાય છે:

  • * સમજૂતી માટે;
  • * આગાહી માટે;
  • * સંચાલન માટે.

સહસંબંધ અને રીગ્રેસન વિશ્લેષણની પદ્ધતિઓનો ઉપયોગ કરીને, વિશ્લેષકો સહસંબંધ ગુણાંકનો ઉપયોગ કરીને સૂચકો વચ્ચેના જોડાણોની નિકટતાને માપે છે. આ કિસ્સામાં, કનેક્શન્સ શોધવામાં આવે છે જે તાકાતમાં અલગ છે (મજબૂત, નબળા, મધ્યમ, વગેરે) અને દિશામાં અલગ છે (સીધું, વિપરીત). જો જોડાણો નોંધપાત્ર હોવાનું બહાર આવે છે, તો પછી રીગ્રેસન મોડેલના સ્વરૂપમાં તેમની ગાણિતિક અભિવ્યક્તિ શોધવા અને મોડેલના આંકડાકીય મહત્વનું મૂલ્યાંકન કરવાની સલાહ આપવામાં આવશે.

રીગ્રેશન વિશ્લેષણને અવલોકન ડેટા વચ્ચેના ગર્ભિત અને પડદાવાળા જોડાણોને ઓળખવા માટે આધુનિક ગાણિતિક આંકડાઓની મુખ્ય પદ્ધતિ કહેવામાં આવે છે.

રીગ્રેસન વિશ્લેષણની સમસ્યાનું નિવેદન નીચે પ્રમાણે ઘડવામાં આવ્યું છે.

નિરીક્ષણ પરિણામોનો સમૂહ છે. આ સમૂહમાં, એક કૉલમ એક સૂચકને અનુરૂપ છે જેના માટે બાકીના કૉલમ્સ દ્વારા રજૂ કરાયેલ ઑબ્જેક્ટ અને પર્યાવરણના પરિમાણો સાથે કાર્યાત્મક સંબંધ સ્થાપિત કરવો જરૂરી છે. આવશ્યક: સૂચક અને પરિબળો વચ્ચે માત્રાત્મક સંબંધ સ્થાપિત કરો. આ કિસ્સામાં, રીગ્રેસન વિશ્લેષણની સમસ્યાને આવા કાર્યાત્મક અવલંબન y = f (x2, x3, ..., xт) ને ઓળખવાના કાર્ય તરીકે સમજવામાં આવે છે, જે ઉપલબ્ધ પ્રાયોગિક ડેટાનું શ્રેષ્ઠ વર્ણન કરે છે.

ધારણાઓ:

અવલોકનોની સંખ્યા પરિબળો અને તેમના સંબંધો સંબંધિત આંકડાકીય દાખલાઓ દર્શાવવા માટે પૂરતી છે;

પ્રોસેસ્ડ ડેટામાં માપન ભૂલો અને બિનહિસાબી રેન્ડમ પરિબળોના પ્રભાવને કારણે કેટલીક ભૂલો (અવાજ) હોય છે;

અવલોકન પરિણામોનું મેટ્રિક્સ એ અભ્યાસ કરવામાં આવી રહેલા ઑબ્જેક્ટ વિશેની એકમાત્ર માહિતી છે જે અભ્યાસની શરૂઆત પહેલાં ઉપલબ્ધ છે.

ફંક્શન f (x2, x3, ..., xт), જે પરિમાણો પર સૂચકની અવલંબનનું વર્ણન કરે છે, તેને રીગ્રેસન સમીકરણ (કાર્ય) કહેવામાં આવે છે. શબ્દ "રીગ્રેસન" (રીગ્રેશન (લેટિન) - પીછેહઠ, કંઈક પર પાછા ફરો) પદ્ધતિની રચનાના તબક્કે હલ કરવામાં આવેલી ચોક્કસ સમસ્યાઓમાંથી એકની વિશિષ્ટતાઓ સાથે સંકળાયેલ છે.

રીગ્રેસન વિશ્લેષણની સમસ્યાના ઉકેલને કેટલાક તબક્કામાં વિભાજિત કરવાની સલાહ આપવામાં આવે છે:

ડેટા પ્રી-પ્રોસેસિંગ;

રીગ્રેસન સમીકરણોનો પ્રકાર પસંદ કરી રહ્યા છીએ;

રીગ્રેસન સમીકરણ ગુણાંકની ગણતરી;

અવલોકન પરિણામો માટે રચાયેલ કાર્યની પર્યાપ્તતા તપાસવી.

પ્રી-પ્રોસેસિંગમાં ડેટા મેટ્રિક્સનું માનકીકરણ, સહસંબંધ ગુણાંકની ગણતરી, તેમના મહત્વની તપાસ અને વિચારણામાંથી નજીવા પરિમાણોને બાકાત રાખવાનો સમાવેશ થાય છે.

રીગ્રેસન સમીકરણનો પ્રકાર પસંદ કરી રહ્યા છીએ કાર્યાત્મક સંબંધ નક્કી કરવાનું કાર્ય જે ડેટાનું શ્રેષ્ઠ રીતે વર્ણન કરે છે તેમાં સંખ્યાબંધ મૂળભૂત મુશ્કેલીઓનો સમાવેશ થાય છે. સામાન્ય કિસ્સામાં, પ્રમાણિત ડેટા માટે, પરિમાણો પર સૂચકની કાર્યાત્મક અવલંબનને આ રીતે રજૂ કરી શકાય છે

y = f (x1, x2, …, xm) + e

જ્યાં f એ અગાઉનું અજ્ઞાત કાર્ય છે જે નક્કી કરવાનું છે;

e - ડેટા અંદાજ ભૂલ.

આ સમીકરણને સામાન્ય રીતે નમૂના રીગ્રેસન સમીકરણ કહેવામાં આવે છે. આ સમીકરણ સૂચકની વિવિધતા અને પરિબળોની વિવિધતા વચ્ચેના સંબંધને દર્શાવે છે. અને સહસંબંધ માપ એ સૂચકમાં વિવિધતાના પ્રમાણને માપે છે જે પરિબળોમાં વિવિધતા સાથે સંકળાયેલ છે. બીજા શબ્દોમાં કહીએ તો, સૂચક અને પરિબળો વચ્ચેના સહસંબંધને તેમના સ્તરો વચ્ચેના જોડાણ તરીકે અર્થઘટન કરી શકાતું નથી, અને રીગ્રેસન વિશ્લેષણ સૂચક બનાવવામાં પરિબળોની ભૂમિકાને સમજાવતું નથી.

અન્ય લક્ષણ સૂચક પર દરેક પરિબળના પ્રભાવની ડિગ્રીના મૂલ્યાંકનની ચિંતા કરે છે. રીગ્રેસન સમીકરણ સૂચક પર દરેક પરિબળના અલગ પ્રભાવનું મૂલ્યાંકન પૂરું પાડતું નથી; જ્યારે અન્ય તમામ પરિબળો અભ્યાસ કરવામાં આવતા હોય ત્યારે જ આવા મૂલ્યાંકન શક્ય છે. જો અભ્યાસ કરવામાં આવેલ પરિબળ અન્ય લોકો સાથે સંબંધિત છે જે સૂચકને પ્રભાવિત કરે છે, તો પરિબળના પ્રભાવની મિશ્ર લાક્ષણિકતા પ્રાપ્ત થશે. આ લાક્ષણિકતામાં પરિબળનો સીધો પ્રભાવ અને અન્ય પરિબળો સાથેના જોડાણ દ્વારા અને સૂચક પરનો તેમનો પ્રભાવ બંનેનો સમાવેશ થાય છે.

રીગ્રેશન સમીકરણમાં એવા પરિબળોનો સમાવેશ કરવાની ભલામણ કરવામાં આવતી નથી જે સૂચક સાથે નબળા રીતે સંબંધિત હોય, પરંતુ અન્ય પરિબળો સાથે નજીકથી સંબંધિત હોય. પરિબળો કે જે કાર્યાત્મક રીતે એકબીજા સાથે સંબંધિત છે તે સમીકરણમાં શામેલ નથી (તેમના માટે સહસંબંધ ગુણાંક 1 છે). આવા પરિબળોનો સમાવેશ રીગ્રેસન ગુણાંકના અંદાજ માટે સમીકરણોની સિસ્ટમના અધોગતિ અને ઉકેલની અનિશ્ચિતતા તરફ દોરી જાય છે.

ફંક્શન f પસંદ કરવું આવશ્યક છે જેથી ભૂલ e અમુક અર્થમાં ન્યૂનતમ હોય. ફંક્શનલ કનેક્શન પસંદ કરવા માટે, ફંક્શન f કયા વર્ગનું હોઈ શકે તે વિશે અગાઉથી પૂર્વધારણા મૂકવામાં આવે છે, અને પછી આ વર્ગમાં "શ્રેષ્ઠ" કાર્ય પસંદ કરવામાં આવે છે. વિધેયોના પસંદ કરેલા વર્ગમાં થોડી "સરળતા" હોવી આવશ્યક છે, એટલે કે. દલીલ મૂલ્યોમાં "નાના" ફેરફારોને કારણે કાર્ય મૂલ્યોમાં "નાના" ફેરફારો થવા જોઈએ.

વ્યવહારમાં વ્યાપકપણે ઉપયોગમાં લેવાતો વિશિષ્ટ કેસ એ પ્રથમ ડિગ્રી બહુપદી અથવા રેખીય રીગ્રેશન સમીકરણ છે

કાર્યાત્મક અવલંબનનો પ્રકાર પસંદ કરવા માટે, નીચેના અભિગમની ભલામણ કરી શકાય છે:

સૂચક મૂલ્યો સાથેના બિંદુઓ પેરામીટર સ્પેસમાં ગ્રાફિકલી પ્રદર્શિત થાય છે. મોટી સંખ્યામાં પરિમાણો સાથે, મૂલ્યોના દ્વિ-પરિમાણીય વિતરણો પ્રાપ્ત કરીને, તેમાંના દરેક માટે બિંદુઓનું નિર્માણ કરવું શક્ય છે;

બિંદુઓના સ્થાનના આધારે અને સૂચક અને ઑબ્જેક્ટના પરિમાણો વચ્ચેના સંબંધના સારની વિશ્લેષણના આધારે, અંદાજિત પ્રકારના રીગ્રેસન અથવા તેના સંભવિત વિકલ્પો વિશે નિષ્કર્ષ બનાવવામાં આવે છે;

પરિમાણોની ગણતરી કર્યા પછી, અંદાજની ગુણવત્તાનું મૂલ્યાંકન કરવામાં આવે છે, એટલે કે. ગણતરી કરેલ અને વાસ્તવિક મૂલ્યો વચ્ચે સમાનતાની ડિગ્રીનું મૂલ્યાંકન કરો;

જો ગણતરી કરેલ અને વાસ્તવિક મૂલ્યો સમગ્ર કાર્યક્ષેત્રમાં નજીક હોય, તો રીગ્રેસન વિશ્લેષણની સમસ્યાને ઉકેલી ગણી શકાય. નહિંતર, તમે એક અલગ પ્રકારનો બહુપદી અથવા અન્ય વિશ્લેષણાત્મક કાર્ય પસંદ કરવાનો પ્રયાસ કરી શકો છો, જેમ કે સામયિક.

રીગ્રેસન સમીકરણ ગુણાંકની ગણતરી

ઉપલબ્ધ ડેટાના આધારે સમીકરણોની સિસ્ટમને અસ્પષ્ટપણે હલ કરવી અશક્ય છે, કારણ કે અજ્ઞાતની સંખ્યા હંમેશા સમીકરણોની સંખ્યા કરતા વધારે હોય છે. આ સમસ્યાને દૂર કરવા માટે, વધારાની ધારણાઓની જરૂર છે. સામાન્ય જ્ઞાન સૂચવે છે: બહુપદીના ગુણાંકને એવી રીતે પસંદ કરવાની સલાહ આપવામાં આવે છે કે જેથી ડેટાના અંદાજમાં ન્યૂનતમ ભૂલ થાય. અંદાજિત ભૂલોનું મૂલ્યાંકન કરવા માટે વિવિધ પગલાંનો ઉપયોગ કરી શકાય છે. રુટ સરેરાશ ચોરસ ભૂલ આવા માપ તરીકે વ્યાપકપણે ઉપયોગમાં લેવાય છે. તેના આધારે, રીગ્રેસન સમીકરણોના ગુણાંકના અંદાજ માટે એક વિશેષ પદ્ધતિ વિકસાવવામાં આવી છે - લઘુત્તમ ચોરસ પદ્ધતિ (LSM). આ પદ્ધતિ તમને સામાન્ય વિતરણ વિકલ્પ હેઠળ રીગ્રેસન સમીકરણના અજાણ્યા ગુણાંકના મહત્તમ સંભાવના અંદાજો મેળવવા માટે પરવાનગી આપે છે, પરંતુ તેનો ઉપયોગ પરિબળોના અન્ય કોઈપણ વિતરણ માટે થઈ શકે છે.

MNC નીચેની જોગવાઈઓ પર આધારિત છે:

ભૂલો અને પરિબળોના મૂલ્યો સ્વતંત્ર છે, અને તેથી અસંબંધિત છે, એટલે કે. એવું માનવામાં આવે છે કે દખલગીરી પેદા કરવા માટેની પદ્ધતિઓ પરિબળ મૂલ્યો પેદા કરવાની પદ્ધતિ સાથે સંબંધિત નથી;

ભૂલ e ની ગાણિતિક અપેક્ષા શૂન્યની બરાબર હોવી જોઈએ (સતત ઘટક ગુણાંક a0 માં સમાયેલ છે), બીજા શબ્દોમાં કહીએ તો, ભૂલ એ કેન્દ્રિત જથ્થો છે;

ભૂલ તફાવતનો નમૂના અંદાજ ન્યૂનતમ હોવો જોઈએ.

જો રેખીય મોડેલ અચોક્કસ છે અથવા પરિમાણો અચોક્કસ રીતે માપવામાં આવે છે, તો આ કિસ્સામાં ઓછામાં ઓછી ચોરસ પદ્ધતિ આપણને ગુણાંકના આવા મૂલ્યો શોધવાની મંજૂરી આપે છે કે જેના પર રેખીય મોડેલ પસંદ કરેલ પ્રમાણભૂત વિચલનના અર્થમાં વાસ્તવિક ઑબ્જેક્ટનું શ્રેષ્ઠ રીતે વર્ણન કરે છે. માપદંડ

પરિણામી રીગ્રેસન સમીકરણની ગુણવત્તાનું મૂલ્યાંકન સૂચકના અવલોકનોના પરિણામો અને પરિમાણ જગ્યામાં આપેલ બિંદુઓ પર રીગ્રેસન સમીકરણ દ્વારા અનુમાનિત મૂલ્યો વચ્ચેની નિકટતાની ડિગ્રી દ્વારા કરવામાં આવે છે. જો પરિણામો નજીક છે, તો પછી રીગ્રેસન વિશ્લેષણની સમસ્યા હલ થઈ શકે છે. નહિંતર, તમારે રીગ્રેશન સમીકરણ બદલવું જોઈએ અને પરિમાણોનો અંદાજ કાઢવા માટે ગણતરીઓનું પુનરાવર્તન કરવું જોઈએ.

જો ત્યાં ઘણા સૂચકાંકો છે, તો તેમાંથી દરેક માટે રીગ્રેસન વિશ્લેષણની સમસ્યા સ્વતંત્ર રીતે ઉકેલવામાં આવે છે.

રીગ્રેસન સમીકરણના સારને વિશ્લેષણ કરતા, નીચેના મુદ્દાઓ નોંધવા જોઈએ. ગણવામાં આવેલ અભિગમ ગુણાંકનું અલગ (સ્વતંત્ર) મૂલ્યાંકન પ્રદાન કરતું નથી - એક ગુણાંકના મૂલ્યમાં ફેરફાર અન્યના મૂલ્યોમાં ફેરફારનો સમાવેશ કરે છે. પ્રાપ્ત ગુણાંકને સૂચકના મૂલ્યમાં અનુરૂપ પરિમાણના યોગદાન તરીકે ગણવામાં આવવો જોઈએ નહીં. રીગ્રેશન સમીકરણ એ ઉપલબ્ધ ડેટાનું માત્ર એક સારું વિશ્લેષણાત્મક વર્ણન છે, અને પરિમાણો અને સૂચક વચ્ચેના સંબંધનું વર્ણન કરતો કાયદો નથી. આ સમીકરણનો ઉપયોગ પરિમાણ ફેરફારોની આપેલ શ્રેણીમાં સૂચકના મૂલ્યોની ગણતરી કરવા માટે થાય છે. તે આ શ્રેણીની બહારની ગણતરીઓ માટે મર્યાદિત યોગ્યતા ધરાવે છે, એટલે કે. તેનો ઉપયોગ પ્રક્ષેપણ સમસ્યાઓ હલ કરવા અને મર્યાદિત હદ સુધી એક્સ્ટ્રાપોલેશન માટે થઈ શકે છે.

આગાહીની અચોક્કસતાનું મુખ્ય કારણ રીગ્રેસન લાઇનના એક્સ્ટ્રાપોલેશનની અનિશ્ચિતતા નથી, પરંતુ મોડેલમાં ધ્યાનમાં લેવામાં ન આવતા પરિબળોને કારણે સૂચકમાં નોંધપાત્ર તફાવત છે. આગાહી કરવાની ક્ષમતાની મર્યાદા એ મોડેલમાં ધ્યાનમાં લેવામાં ન આવતા પરિમાણોની સ્થિરતાની સ્થિતિ અને ધ્યાનમાં લેવામાં આવેલા મોડેલ પરિબળોના પ્રભાવની પ્રકૃતિ છે. જો બાહ્ય વાતાવરણમાં તીવ્ર ફેરફાર થાય છે, તો સંકલિત રીગ્રેસન સમીકરણ તેનો અર્થ ગુમાવશે.

રીગ્રેસન સમીકરણમાં પરિમાણના અપેક્ષિત મૂલ્યને બદલીને પ્રાપ્ત થયેલ આગાહી એ એક બિંદુ છે. આવી આગાહી સાકાર થવાની સંભાવના નહિવત છે. આગાહીના વિશ્વાસ અંતરાલને નિર્ધારિત કરવાની સલાહ આપવામાં આવે છે. સૂચકના વ્યક્તિગત મૂલ્યો માટે, અંતરાલને રીગ્રેસન લાઇનની સ્થિતિમાં ભૂલો અને આ રેખામાંથી વ્યક્તિગત મૂલ્યોના વિચલનોને ધ્યાનમાં લેવું જોઈએ.



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!