રેખીય રીગ્રેસન પરિમાણોનો અંદાજ કાઢવા માટેની પદ્ધતિઓ. સરળ રીગ્રેશન યોજનાઓ

રીગ્રેસન સમીકરણ હંમેશા જોડાણની નિકટતાના સૂચક સાથે પૂરક છે. રેખીય રીગ્રેશનનો ઉપયોગ કરતી વખતે, આવા સૂચક એ રેખીય સહસંબંધ ગુણાંક r yt છે. રેખીય સહસંબંધ ગુણાંક સૂત્રમાં વિવિધ ફેરફારો છે.

તે ધ્યાનમાં રાખવું જોઈએ કે રેખીય સહસંબંધ ગુણાંકનું મૂલ્ય તેના રેખીય સ્વરૂપમાં વિચારણા હેઠળની લાક્ષણિકતાઓ વચ્ચેના જોડાણની નિકટતાનું મૂલ્યાંકન કરે છે. તેથી, શૂન્ય સાથે રેખીય સહસંબંધ ગુણાંકના સંપૂર્ણ મૂલ્યની નિકટતાનો અર્થ એ નથી કે લાક્ષણિકતાઓ વચ્ચે કોઈ જોડાણ નથી.

રેખીય કાર્યને ફિટ કરવાની ગુણવત્તાનું મૂલ્યાંકન કરવા માટે, રેખીય સહસંબંધ ગુણાંક r yt 2 નો વર્ગ, જેને નિર્ધારણનો ગુણાંક કહેવાય છે, તેની ગણતરી કરવામાં આવે છે. નિર્ધારણનો ગુણાંક અસરકારક લાક્ષણિકતાના કુલ ભિન્નતામાં રીગ્રેસન દ્વારા સમજાવાયેલ t પર અસરકારક લાક્ષણિકતાના વિચલનના પ્રમાણને લાક્ષણિકતા આપે છે.

બિનરેખીય રીગ્રેસન સમીકરણ, તેમજ રેખીય અવલંબનમાં, સહસંબંધ સૂચક, એટલે કે સહસંબંધ સૂચક આર સાથે પૂરક છે.

સેકન્ડ-ઓર્ડર પેરાબોલા, ઉચ્ચ-ક્રમ બહુપદીની જેમ, જ્યારે રેખીયકૃત બહુવિધ રીગ્રેશન સમીકરણનું સ્વરૂપ લે છે. જો, જ્યારે રેખીયકૃત, રીગ્રેસન સમીકરણ કે જે સમજાવેલ ચલના સંદર્ભમાં બિનરેખીય છે તે રેખીય જોડી કરેલ રીગ્રેસન સમીકરણનું સ્વરૂપ લે છે, તો પછી સંબંધની નિકટતાનું મૂલ્યાંકન કરવા માટે રેખીય સહસંબંધ ગુણાંકનો ઉપયોગ કરી શકાય છે, જેનું મૂલ્ય આ કિસ્સામાં સહસંબંધ સૂચકાંક સાથે સુસંગત રહેશે.

જ્યારે સમીકરણનું રેખીય સ્વરૂપમાં રૂપાંતર કરવામાં આવે ત્યારે આશ્રિત ચલનો સમાવેશ થાય છે ત્યારે પરિસ્થિતિ જુદી હોય છે. આ કિસ્સામાં, રૂપાંતરિત વિશેષતા મૂલ્યો પર આધારિત રેખીય સહસંબંધ ગુણાંક માત્ર સંબંધની નિકટતાનો અંદાજિત અંદાજ આપે છે અને આંકડાકીય રીતે સહસંબંધ સૂચકાંક સાથે મેળ ખાતો નથી. તેથી, પાવર ફંક્શન માટે

લોગરીધમિકલી રેખીય સમીકરણમાં પસાર થયા પછી

lny = lna + blnx

એક રેખીય સહસંબંધ ગુણાંક x અને y ચલોના વાસ્તવિક મૂલ્યો માટે નહીં, પરંતુ તેમના લઘુગણક માટે, એટલે કે, r lnylnx માટે શોધી શકાય છે. તદનુસાર, તેના મૂલ્યનો વર્ગ કુલ વર્ગના વિચલનોના પરિબળના ગુણોત્તરને દર્શાવશે, પરંતુ y માટે નહીં, પરંતુ તેના લઘુગણક માટે:

દરમિયાન, સહસંબંધ અનુક્રમણિકાની ગણતરી કરતી વખતે, લાક્ષણિકતા y ના ચોરસ વિચલનોના સરવાળાનો ઉપયોગ કરવામાં આવે છે, અને તેમના લઘુગણકનો નહીં. આ હેતુ માટે, પરિણામી લાક્ષણિકતાના સૈદ્ધાંતિક મૂલ્યો નિર્ધારિત કરવામાં આવે છે, એટલે કે, સમીકરણ દ્વારા ગણવામાં આવતા મૂલ્યના એન્ટિલોગરિધમ અને ચોરસના શેષ સરવાળા તરીકે.

ગણતરી R 2 yx ના છેદમાં તેમના સરેરાશ મૂલ્યમાંથી વાસ્તવિક મૂલ્યો y ના ચોરસ વિચલનોનો કુલ સરવાળો સામેલ છે અને છેદ r 2 lnxlny ગણતરીમાં ભાગ લે છે. વિચારણા હેઠળના સૂચકોના અંશ અને છેદ તે મુજબ અલગ પડે છે:

  • - સહસંબંધ સૂચકાંકમાં અને
  • - સહસંબંધ ગુણાંકમાં.

પરિણામોની સમાનતા અને કમ્પ્યુટર પ્રોગ્રામ્સનો ઉપયોગ કરીને ગણતરીઓની સરળતાને લીધે, રેખીય સહસંબંધ ગુણાંકનો ઉપયોગ બિનરેખીય કાર્યો માટે જોડાણની નિકટતાને દર્શાવવા માટે વ્યાપકપણે થાય છે.

લાક્ષણિકતા y ના મૂલ્યના રૂપાંતર સાથે બિનરેખીય કાર્યોમાં R અને r અથવા R અને r ના મૂલ્યોની નજીક હોવા છતાં, તે યાદ રાખવું જોઈએ કે જો, લાક્ષણિકતાઓની રેખીય અવલંબન સાથે, સમાન સહસંબંધ ગુણાંક લાક્ષણિકતા ધરાવે છે. રીગ્રેસન, એ યાદ રાખવું જોઈએ કે જો, લાક્ષણિકતાઓની રેખીય અવલંબન સાથે, એક અને સમાન સહસંબંધ ગુણાંક રીગ્રેશન બંનેને લાક્ષણિકતા આપે છે અને, ત્યારથી, પછી કાર્ય માટે વક્રીકૃત અવલંબન સાથે y=j(x) રીગ્રેસન x માટે સમાન નથી =f(y).

સહસંબંધ સૂચકાંકની ગણતરી પરિબળના ગુણોત્તર અને ચોરસ વિચલનોના કુલ સરવાળાનો ઉપયોગ કરતી હોવાથી, તેનો અર્થ નિર્ધારણના ગુણાંક જેવો જ છે. વિશેષ અભ્યાસોમાં, બિનરેખીય સંબંધો માટેના મૂલ્યને નિર્ધારણ સૂચકાંક કહેવામાં આવે છે.

સહસંબંધ ઇન્ડેક્સના મહત્વનું મૂલ્યાંકન સહસંબંધ ગુણાંકની વિશ્વસનીયતાના મૂલ્યાંકનની જેમ જ હાથ ધરવામાં આવે છે.

ફિશર F ટેસ્ટનો ઉપયોગ કરીને એકંદર બિનરેખીય રીગ્રેસન સમીકરણના મહત્વને ચકાસવા માટે સહસંબંધ સૂચકનો ઉપયોગ થાય છે.

મૂલ્ય m ચોરસના પરિબળના સરવાળા માટે સ્વતંત્રતાની ડિગ્રીની સંખ્યા અને (n - m - 1) - ચોરસના અવશેષ સરવાળા માટે સ્વતંત્રતાની ડિગ્રીની સંખ્યા દર્શાવે છે.

પાવર ફંક્શન m = 1 માટે અને F- માપદંડનું સૂત્ર રેખીય અવલંબન માટે સમાન સ્વરૂપ લે છે:

બીજી ડિગ્રીના પેરાબોલા માટે

y = a 0 + a 1 x + a 2 x 2 +em = 2

F- માપદંડની ગણતરી રીગ્રેસન પરિણામોના ભિન્નતા વિશ્લેષણના કોષ્ટકમાં પણ કરી શકાય છે, જેમ કે રેખીય કાર્ય માટે દર્શાવવામાં આવ્યું હતું.

રેખીય કાર્યનો ઉપયોગ કરવાની સંભાવનાને ન્યાયી ઠેરવવા માટે નિર્ધારણના અનુક્રમણિકાને નિર્ધારણના ગુણાંક સાથે સરખાવી શકાય છે. રીગ્રેસન રેખાની વક્રતા જેટલી વધારે છે, તેટલો ઓછો નિર્ધારણ ગુણાંક નિર્ધારણ અનુક્રમણિકા છે. આ સૂચકોની સમાનતાનો અર્થ એ છે કે રીગ્રેસન સમીકરણના સ્વરૂપને જટિલ બનાવવાની જરૂર નથી અને રેખીય કાર્યનો ઉપયોગ કરી શકાય છે.

વ્યવહારમાં, જો નિર્ધારણ અનુક્રમણિકા અને નિર્ધારણ ગુણાંક વચ્ચેનો તફાવત 0.1 કરતાં વધુ ન હોય, તો સંબંધના રેખીય સ્વરૂપની ધારણાને વાજબી ગણવામાં આવે છે.

જો t fact >t કોષ્ટક હોય, તો પછી માનવામાં આવેલ સહસંબંધ સૂચકો વચ્ચેનો તફાવત નોંધપાત્ર છે અને બિનરેખીય રીગ્રેશનને રેખીય કાર્ય સમીકરણ સાથે બદલવું અશક્ય છે. વ્યવહારીક રીતે, જો મૂલ્ય ટી< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

આર્થિક ઘટના, એક નિયમ તરીકે, મોટી સંખ્યામાં એકસાથે અને સંચિત રીતે અભિનય પરિબળો દ્વારા નક્કી કરવામાં આવે છે. આ સંદર્ભમાં, ચલની અવલંબનનો અભ્યાસ કરવાનું કાર્ય ઘણીવાર ઉદ્ભવે છે ખાતેકેટલાક સમજૂતીત્મક ચલોમાંથી ( x 1, x 2,…, x k)જેનો ઉપયોગ કરીને ઉકેલી શકાય છે બહુવિધ સહસંબંધ અને રીગ્રેસન વિશ્લેષણ.

જ્યારે બહુવિધ રીગ્રેસન પદ્ધતિઓનો ઉપયોગ કરીને અવલંબનનો અભ્યાસ કરવામાં આવે છે, ત્યારે સમસ્યા એ જ રીતે રચાય છે જે રીતે જોડી કરેલ રીગ્રેસનનો ઉપયોગ કરતી વખતે, એટલે કે. પરિણામી લાક્ષણિકતા વચ્ચેના જોડાણના સ્વરૂપની વિશ્લેષણાત્મક અભિવ્યક્તિ નક્કી કરવી જરૂરી છે ખાતેઅને પરિબળ લાક્ષણિકતાઓ x, x 2,..., xk,કાર્ય શોધો, જ્યાં k એ અવયવ લાક્ષણિકતાઓની સંખ્યા છે

મલ્ટીપલ રીગ્રેસનનો વ્યાપકપણે ઉપયોગ માંગની સમસ્યાઓ, સ્ટોક રિટર્ન, ઉત્પાદન ખર્ચ કાર્યના અભ્યાસમાં, મેક્રોઇકોનોમિક ગણતરીઓમાં અને અન્ય સંખ્યાબંધ ઇકોનોમેટ્રિક્સ મુદ્દાઓમાં થાય છે. હાલમાં, બહુવિધ રીગ્રેસન એ અર્થમિતિશાસ્ત્રમાં સૌથી સામાન્ય પદ્ધતિઓમાંની એક છે. બહુવિધ રીગ્રેસનનો મુખ્ય ધ્યેય એ છે કે મોટી સંખ્યામાં પરિબળો સાથે એક મોડેલ બનાવવું, જ્યારે તે દરેકના પ્રભાવને અલગથી નક્કી કરવું, તેમજ મોડેલ કરેલ સૂચક પર તેમની સંયુક્ત અસર.

મલ્ટીપલ રીગ્રેશનમાં ઓછામાં ઓછા ચોરસ પદ્ધતિની વિશિષ્ટતાને લીધે, પેરવાઈઝ રીગ્રેસનની જેમ, માત્ર રેખીય સમીકરણો અને ચલોને રૂપાંતરિત કરીને રેખીય સ્વરૂપમાં ઘટાડી સમીકરણોનો ઉપયોગ કરવામાં આવે છે. સૌથી વધુ ઉપયોગમાં લેવાતું સમીકરણ એ રેખીય સમીકરણ છે, જે નીચે પ્રમાણે લખી શકાય છે:

a 0 , a 1, …, a k – મોડેલ પેરામીટર્સ (રીગ્રેશન ગુણાંક);

ε j - રેન્ડમ ચલ (બાકીની કિંમત).

રીગ્રેસન ગુણાંક j બતાવે છે કે અસરકારક વિશેષતા સરેરાશ કેટલી માત્રામાં બદલાશે y,જો ચલ એક્સ j રીગ્રેશન સમીકરણમાં સમાવિષ્ટ અન્ય પરિબળોના નિશ્ચિત (સતત) મૂલ્ય પર માપનના એકમ દ્વારા વધારો. પર પરિમાણો xકહેવાય છે "શુદ્ધ" રીગ્રેશન ગુણાંક .

ઉદાહરણ.

ચાલો ધારીએ કે પરિવારોના સમૂહ માટે ખોરાક ખર્ચની અવલંબન નીચેના સમીકરણ દ્વારા વર્ગીકૃત થયેલ છે:

y- ખોરાક પર એક મહિના માટે કૌટુંબિક ખર્ચ, હજાર રુબેલ્સ;

x 1 - કુટુંબના સભ્ય દીઠ માસિક આવક, હજાર રુબેલ્સ;

x 2 - કુટુંબનું કદ, લોકો.

આ સમીકરણનું વિશ્લેષણ અમને નિષ્કર્ષ કાઢવા દે છે - કુટુંબના સભ્ય દીઠ આવકમાં 1 હજાર રુબેલ્સના વધારા સાથે. ખોરાકના ખર્ચમાં સરેરાશ 350 રુબેલ્સનો વધારો થશે. સમાન સરેરાશ કુટુંબ કદ સાથે. બીજા શબ્દોમાં કહીએ તો, કુટુંબના વધારાના ખર્ચના 35% ખોરાક પર ખર્ચવામાં આવે છે. સમાન આવક સાથે કુટુંબના કદમાં વધારો એ ખોરાકના ખર્ચમાં 730 રુબેલ્સનો વધારાનો વધારો સૂચવે છે. પ્રથમ પરિમાણ આર્થિક અર્થઘટનને આધીન નથી.

દરેક મોડેલ પેરામીટરની વિશ્વસનીયતાનું મૂલ્યાંકન વિદ્યાર્થીની ટી-ટેસ્ટનો ઉપયોગ કરીને કરવામાં આવે છે. મોડેલના કોઈપણ પરિમાણો a j માટે, સૂત્રનો ઉપયોગ કરીને ટી-માપદંડ મૂલ્યની ગણતરી કરવામાં આવે છે. , ક્યાં


S ε - પ્રમાણભૂત (સરેરાશ ચોરસ) રીગ્રેસન સમીકરણનું વિચલન)

ફોર્મ્યુલા દ્વારા નક્કી કરવામાં આવે છે

જો ગણતરી કરેલ મૂલ્ય હોય તો રીગ્રેશન ગુણાંક a j પર્યાપ્ત રીતે વિશ્વસનીય માનવામાં આવે છે ટી-સાથે માપદંડ ( n - k - 1) સ્વતંત્રતાની ડિગ્રી કોષ્ટક મૂલ્ય કરતાં વધી જાય છે, એટલે કે. t calc > t jn - k -1 . જો રીગ્રેસન ગુણાંકની વિશ્વસનીયતા પુષ્ટિ નથી, તો તે જોઈએ; પરિબળ મોડેલમાં તુચ્છતા વિશે નિષ્કર્ષ jલાક્ષણિકતા અને તેને મોડેલમાંથી દૂર કરવાની અથવા તેને અન્ય કારણભૂત લાક્ષણિકતા સાથે બદલવાની જરૂરિયાત.

પરિબળોના પ્રભાવનું મૂલ્યાંકન કરવામાં મહત્વપૂર્ણ ભૂમિકા રીગ્રેસન મોડેલના ગુણાંક દ્વારા ભજવવામાં આવે છે. જો કે, માપનના એકમોમાં તફાવત અને પરિવર્તનશીલતાની વિવિધ ડિગ્રીઓને કારણે આશ્રિત ચલ પરના તેમના પ્રભાવની ડિગ્રી અનુસાર પરિબળની લાક્ષણિકતાઓની સીધી તેમની સહાયથી તુલના કરવી અશક્ય છે. આવા તફાવતોને દૂર કરવા માટે, ઉપયોગ કરો આંશિક સ્થિતિસ્થાપકતા ગુણાંકઇ જે અને બીટા ગુણાંક β j.

સ્થિતિસ્થાપકતા ગુણાંકની ગણતરી માટેનું સૂત્ર

જ્યાં

a j - પરિબળ રીગ્રેસન ગુણાંક j,

અસરકારક લાક્ષણિકતાનું સરેરાશ મૂલ્ય

લાક્ષણિકતાનું સરેરાશ મૂલ્ય j

સ્થિતિસ્થાપકતા ગુણાંક દર્શાવે છે કે આશ્રિત ચલ બદલાય છે ખાતેજ્યારે પરિબળ બદલાય છે j 1% દ્વારા.

બીટા ગુણાંક નક્કી કરવા માટેની ફોર્મ્યુલા.

, ક્યાં

S xj - પરિબળનું પ્રમાણભૂત વિચલન j;

S y - પરિબળનું પ્રમાણભૂત વિચલન y.

β - ગુણાંક પ્રમાણભૂત વિચલનના કયા ભાગ દ્વારા બતાવે છે એસ વાયઆશ્રિત ચલ બદલાશે ખાતેઅનુરૂપ સ્વતંત્ર ચલમાં ફેરફાર સાથે એક્સ j બાકીના સ્વતંત્ર ચલોના નિશ્ચિત મૂલ્ય સાથે તેના પ્રમાણભૂત વિચલનના મૂલ્ય દ્વારા.

તમામ પરિબળોના કુલ પ્રભાવમાં ચોક્કસ પરિબળના પ્રભાવનો હિસ્સો મૂલ્ય દ્વારા અંદાજી શકાય છે ડેલ્ટા ગુણાંક Δ j.

આ ગુણાંકો તમને આશ્રિત ચલ પરના પરિબળોના પ્રભાવની ડિગ્રી અનુસાર પરિબળોને ક્રમાંકિત કરવાની મંજૂરી આપે છે.

ડેલ્ટા ગુણાંક નક્કી કરવા માટેનું સૂત્ર.

r yj - પરિબળ j અને આશ્રિત ચલ વચ્ચે જોડીવાર સહસંબંધ ગુણાંક;

R 2 - નિર્ધારણના બહુવિધ ગુણાંક.

બહુવિધ નિર્ધારણના ગુણાંક માટે વપરાય છે ગુણવત્તા મૂલ્યાંકનબહુવિધ રીગ્રેશન મોડલ.

બહુવિધ નિર્ધારણના ગુણાંક નક્કી કરવા માટેનું સૂત્ર.

નિર્ધારણનો ગુણાંક પરિબળ લાક્ષણિકતાઓના પ્રભાવ હેઠળ પરિણામી લાક્ષણિકતામાં વિવિધતાનું પ્રમાણ દર્શાવે છે, એટલે કે. લક્ષણમાં વિવિધતાનું પ્રમાણ નક્કી કરે છે ખાતેમોડેલમાં ધ્યાનમાં લેવામાં આવે છે અને તે મોડેલમાં સમાવિષ્ટ પરિબળોના તેના પરના પ્રભાવને કારણે છે. નજીક આર 2એકમાં, મોડલની ગુણવત્તા જેટલી વધારે છે

સ્વતંત્ર ચલો ઉમેરતી વખતે, મૂલ્ય આર 2વધે છે, તેથી ગુણાંક આર 2ફોર્મ્યુલાનો ઉપયોગ કરીને સ્વતંત્ર ચલોની સંખ્યા માટે એડજસ્ટ કરવું આવશ્યક છે

માટે મોડેલ મહત્વ પરીક્ષણફિશરની એફ ટેસ્ટ રીગ્રેશન માટે વપરાય છે. તે સૂત્ર દ્વારા નક્કી કરવામાં આવે છે

જો માપદંડની ગણતરી કરેલ મૂલ્ય સાથે γ 1, = kઅને γ 2 = (n - k- 1)આપેલ મહત્વના સ્તરે કોષ્ટક કરતાં વધુ સ્વતંત્રતાની ડિગ્રી, પછી મોડેલને નોંધપાત્ર ગણવામાં આવે છે.

મોડેલની ચોકસાઈના માપદંડ તરીકે, પ્રમાણભૂત ભૂલનો ઉપયોગ કરવામાં આવે છે, જે મૂલ્ય (n - k -1) ના અવશેષ ઘટકના સ્તરોના ચોરસના સરવાળાનો ગુણોત્તર છે:

રેખીય મોડેલના પરિમાણોનો અંદાજ કાઢવાનો શાસ્ત્રીય અભિગમ આધારિત છે ન્યૂનતમ ચોરસ પદ્ધતિ (LSM). સામાન્ય સમીકરણોની સિસ્ટમનું સ્વરૂપ છે:

સિસ્ટમને જાણીતી પદ્ધતિઓમાંથી એકનો ઉપયોગ કરીને ઉકેલી શકાય છે: ગૌસ પદ્ધતિ, ક્રેમર પદ્ધતિ, વગેરે.

ઉદાહરણ 15.

પ્રદેશના ચાર સાહસો માટે (કોષ્ટક 41), કર્મચારી દીઠ ઉત્પાદન ઉત્પાદનની અવલંબનનો અભ્યાસ કરવામાં આવે છે. y(હજાર રુબેલ્સ) નવી સ્થિર અસ્કયામતોના કમિશનિંગમાંથી (વર્ષના અંતે અસ્કયામતોના મૂલ્યના %) અને કામદારોની કુલ સંખ્યામાં ઉચ્ચ લાયકાત ધરાવતા કામદારોના હિસ્સામાંથી (%). તમારે બહુવિધ રીગ્રેસન સમીકરણ લખવાની જરૂર છે.

કોષ્ટક 41 - કર્મચારી દીઠ ઉત્પાદન આઉટપુટની અવલંબન

તમે ટી-આંકડાનો ઉપયોગ કરીને રીગ્રેસન સમીકરણ પરિમાણોનું મહત્વ ચકાસી શકો છો.

વ્યાયામ:
સમાન પ્રકારના ઉત્પાદનનું ઉત્પાદન કરતા સાહસોના જૂથ માટે, ખર્ચ કાર્યો ધ્યાનમાં લેવામાં આવે છે:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
જ્યાં y ઉત્પાદન ખર્ચ છે, હજાર એકમો.
x - ઉત્પાદન આઉટપુટ, હજાર એકમો.

આવશ્યક:
1. x થી જોડી પ્રમાણે રીગ્રેસન સમીકરણો y બનાવો:

  • રેખીય
  • શક્તિ
  • પ્રદર્શનકારી
  • સમભુજ હાઇપરબોલા.
2. જોડી સહસંબંધના રેખીય ગુણાંક અને નિર્ધારણના ગુણાંકની ગણતરી કરો. તારણો દોરો.
3. સમગ્ર રીગ્રેસન સમીકરણના આંકડાકીય મહત્વનું મૂલ્યાંકન કરો.
4. રીગ્રેસન અને સહસંબંધ પરિમાણોના આંકડાકીય મહત્વનું મૂલ્યાંકન કરો.
5. સરેરાશ સ્તરના 195% ની આગાહી આઉટપુટ સાથે ઉત્પાદન ખર્ચની આગાહી કરો.
6. આગાહીની ચોકસાઈનું મૂલ્યાંકન કરો, આગાહીની ભૂલ અને તેના વિશ્વાસ અંતરાલની ગણતરી કરો.
7. અંદાજની સરેરાશ ભૂલ દ્વારા મોડેલનું મૂલ્યાંકન કરો.

ઉકેલ:

1. સમીકરણ y = α + βx છે
1. રીગ્રેસન સમીકરણ પરિમાણો.
સરેરાશ મૂલ્યો

વિખેરી નાખવું

પ્રમાણભૂત વિચલન

સહસંબંધ ગુણાંક

લક્ષણ Y અને પરિબળ X વચ્ચેનો સંબંધ મજબૂત અને સીધો છે
રીગ્રેસન સમીકરણ

નિર્ધારણ ગુણાંક
આર 2 = 0.94 2 = 0.89, એટલે કે. 88.9774% કિસ્સાઓમાં, x માં ફેરફાર y માં ફેરફાર તરફ દોરી જાય છે. બીજા શબ્દોમાં કહીએ તો, રીગ્રેસન સમીકરણ પસંદ કરવાની ચોકસાઈ ઊંચી છે

x y x 2 y 2 x∙y y(x) (y-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

નોંધ: પરિણામી રીગ્રેસન સમીકરણમાંથી y(x) ના મૂલ્યો જોવા મળે છે:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

2. રીગ્રેસન સમીકરણ પરિમાણોનો અંદાજ
સહસંબંધ ગુણાંકનું મહત્વ

વિદ્યાર્થીના ટેબલનો ઉપયોગ કરીને આપણે Ttable શોધીએ છીએ
T ટેબલ (n-m-1;α/2) = (11;0.05/2) = 1.796
Tob > Ttabl થી, અમે અનુમાનને નકારીએ છીએ કે સહસંબંધ ગુણાંક 0 ની બરાબર છે. બીજા શબ્દોમાં કહીએ તો, સહસંબંધ ગુણાંક આંકડાકીય રીતે નોંધપાત્ર છે.

રીગ્રેસન ગુણાંકના અંદાજો નક્કી કરવાની ચોકસાઈનું વિશ્લેષણ





S a = 0.1712
આશ્રિત ચલ માટે વિશ્વાસ અંતરાલ

ચાલો અંતરાલની સીમાઓની ગણતરી કરીએ જેમાં Y ના સંભવિત મૂલ્યોના 95% અમર્યાદિત સંખ્યામાં અવલોકનો અને X = 1 સાથે કેન્દ્રિત કરવામાં આવશે.
(-20.41;56.24)
રેખીય રીગ્રેસન સમીકરણના ગુણાંક સંબંધિત પૂર્વધારણાઓનું પરીક્ષણ
1) t-આંકડા


રીગ્રેસન ગુણાંક a ના આંકડાકીય મહત્વની પુષ્ટિ થાય છે

રીગ્રેશન ગુણાંક b ના આંકડાકીય મહત્વની પુષ્ટિ થઈ નથી
રીગ્રેસન સમીકરણ ગુણાંક માટે વિશ્વાસ અંતરાલ
ચાલો આપણે રીગ્રેસન ગુણાંકના વિશ્વાસ અંતરાલોને નિર્ધારિત કરીએ, જે 95% ની વિશ્વસનીયતા સાથે નીચે મુજબ હશે:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
જ્યાં t = 1.796
2) F-આંકડા


Fkp = 4.84
F > Fkp થી, નિર્ધારણનો ગુણાંક આંકડાકીય રીતે નોંધપાત્ર છે

રીગ્રેશન શું છે?

બે સતત ચલો ધ્યાનમાં લો x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

ચાલો બિંદુઓને દ્વિ-પરિમાણીય સ્કેટર પ્લોટ પર મૂકીએ અને કહીએ કે અમારી પાસે છે રેખીય સંબંધ, જો ડેટા સીધી રેખા દ્વારા અંદાજે છે.

જો આપણે એવું માનીએ yપર આધાર રાખે છે x, અને માં ફેરફારો yમાં ફેરફારોને કારણે ચોક્કસપણે થાય છે x, અમે રીગ્રેશન લાઇન નક્કી કરી શકીએ છીએ (રીગ્રેશન yપર x), જે આ બે ચલો વચ્ચેના રેખીય સંબંધને શ્રેષ્ઠ રીતે વર્ણવે છે.

રીગ્રેસન શબ્દનો આંકડાકીય ઉપયોગ સર ફ્રાન્સિસ ગાલ્ટન (1889)ને આભારી, સરેરાશ માટે રીગ્રેશન તરીકે ઓળખાતી ઘટનામાંથી આવ્યો છે.

તેમણે બતાવ્યું કે જો કે ઉંચા પિતાના પુત્રો ઊંચા હોય છે, તેમ છતાં પુત્રોની સરેરાશ ઊંચાઈ તેમના ઊંચા પિતા કરતા ઓછી હોય છે. પુત્રોની સરેરાશ ઊંચાઈ વસ્તીના તમામ પિતાની સરેરાશ ઊંચાઈ તરફ "પાછળ થઈ" અને "પછાત થઈ ગઈ". આમ, સરેરાશ, ઊંચા પિતાના પુત્રો ટૂંકા (પરંતુ હજુ પણ તદ્દન ઊંચા) પુત્રો હોય છે, અને ટૂંકા પિતાના પુત્રો ઊંચા (પરંતુ હજુ પણ તદ્દન ટૂંકા) હોય છે.

રીગ્રેશન લાઇન

એક ગાણિતિક સમીકરણ જે એક સરળ (જોડી પ્રમાણે) રેખીય રીગ્રેસન રેખાનો અંદાજ કાઢે છે:

xસ્વતંત્ર ચલ અથવા આગાહી કરનાર કહેવાય છે.

વાય- આશ્રિત ચલ અથવા પ્રતિભાવ ચલ. આ તે મૂલ્ય છે જેની આપણે અપેક્ષા રાખીએ છીએ y(સરેરાશ) જો આપણે મૂલ્ય જાણીએ x, એટલે કે "અનુમાનિત મૂલ્ય" છે y»

  • a- મૂલ્યાંકન રેખાના મફત સભ્ય (છેદન); આ અર્થ છે વાય, જ્યારે x=0(ફિગ.1).
  • b- અંદાજિત રેખાનો ઢાળ અથવા ઢાળ; તે જે રકમ દ્વારા રજૂ કરે છે વાયજો આપણે વધારો કરીએ તો સરેરાશ વધે છે xએક યુનિટ માટે.
  • aઅને bઅનુમાનિત રેખાના રીગ્રેસન ગુણાંક કહેવામાં આવે છે, જો કે આ શબ્દ ઘણીવાર ફક્ત માટે જ વપરાય છે b.

પેરવાઇઝ રેખીય રીગ્રેશનને એક કરતાં વધુ સ્વતંત્ર ચલનો સમાવેશ કરવા માટે વિસ્તૃત કરી શકાય છે; આ કિસ્સામાં તે તરીકે ઓળખાય છે બહુવિધ રીગ્રેસન.

ફિગ.1. ઇન્ટરસેપ્ટ a અને સ્લોપ b દર્શાવતી રેખીય રીગ્રેશન લાઇન (એક એકમ દ્વારા x વધે તેમ Y રકમ વધે છે)

ઓછામાં ઓછા ચોરસ પદ્ધતિ

અમે અવલોકનોના નમૂનાનો ઉપયોગ કરીને રીગ્રેશન વિશ્લેષણ કરીએ છીએ જ્યાં aઅને b- સાચા (સામાન્ય) પરિમાણોના નમૂના અંદાજો, α અને β, જે વસ્તી (સામાન્ય વસ્તી) માં રેખીય રીગ્રેસન રેખા નક્કી કરે છે.

ગુણાંક નક્કી કરવા માટેની સૌથી સરળ પદ્ધતિ aઅને bછે ઓછામાં ઓછા ચોરસ પદ્ધતિ(MNC).

ફિટનું મૂલ્યાંકન અવશેષોને જોઈને કરવામાં આવે છે (રેખાથી દરેક બિંદુનું ઊભી અંતર, દા.ત. શેષ = અવલોકન y- આગાહી y, ચોખા. 2).

શ્રેષ્ઠ ફિટની રેખા પસંદ કરવામાં આવે છે જેથી અવશેષોના ચોરસનો સરવાળો ન્યૂનતમ હોય.

ચોખા. 2. દરેક બિંદુ માટે ચિત્રિત અવશેષો (ઊભી ડોટેડ રેખાઓ) સાથે રેખીય રીગ્રેસન રેખા.

લીનિયર રીગ્રેસન ધારણાઓ

તેથી, દરેક અવલોકન કરેલ મૂલ્ય માટે, બાકીના તફાવત સમાન છે અને અનુરૂપ અનુમાનિત મૂલ્ય દરેક શેષ હકારાત્મક અથવા નકારાત્મક હોઈ શકે છે.

રેખીય રીગ્રેસન પાછળની નીચેની ધારણાઓને ચકાસવા માટે તમે અવશેષોનો ઉપયોગ કરી શકો છો:

  • અવશેષો સામાન્ય રીતે શૂન્યના સરેરાશ સાથે વિતરિત કરવામાં આવે છે;

જો રેખીયતા, સામાન્યતા અને/અથવા સતત ભિન્નતાની ધારણાઓ શંકાસ્પદ હોય, તો અમે એક નવી રીગ્રેશન લાઇનનું રૂપાંતર કરી શકીએ છીએ અથવા અને ગણતરી કરી શકીએ છીએ જેના માટે આ ધારણાઓ સંતુષ્ટ છે (ઉદાહરણ તરીકે, લઘુગણક પરિવર્તનનો ઉપયોગ કરો, વગેરે).

વિસંગત મૂલ્યો (બહાર) અને પ્રભાવ બિંદુઓ

"પ્રભાવશાળી" અવલોકન, જો અવગણવામાં આવે તો, એક અથવા વધુ મોડેલ પેરામીટર અંદાજો (એટલે ​​કે, ઢાળ અથવા અવરોધ) બદલે છે.

આઉટલીયર (એક અવલોકન કે જે ડેટા સેટમાં મોટા ભાગના મૂલ્યો સાથે અસંગત છે) એ "પ્રભાવશાળી" અવલોકન હોઈ શકે છે અને બાયવેરિયેટ સ્કેટરપ્લોટ અથવા શેષ પ્લોટનું નિરીક્ષણ કરીને સરળતાથી દૃષ્ટિની રીતે શોધી શકાય છે.

આઉટલાયર્સ માટે અને "પ્રભાવશાળી" અવલોકનો (પોઇન્ટ્સ) માટે, મોડલનો ઉપયોગ, તેમના સમાવેશ સાથે અને વગર બંને થાય છે, અને અંદાજ (રીગ્રેસન ગુણાંક) માં ફેરફારો પર ધ્યાન આપવામાં આવે છે.

વિશ્લેષણ હાથ ધરતી વખતે, તમારે આઉટલીયર અથવા પ્રભાવના મુદ્દાઓને આપમેળે કાઢી નાખવા જોઈએ નહીં, કારણ કે તેમને ફક્ત અવગણવાથી પ્રાપ્ત પરિણામોને અસર થઈ શકે છે. હંમેશા આ આઉટલીયરના કારણોનો અભ્યાસ કરો અને તેનું વિશ્લેષણ કરો.

લીનિયર રીગ્રેસન પૂર્વધારણા

રેખીય રીગ્રેસન બનાવતી વખતે, શૂન્ય પૂર્વધારણાનું પરીક્ષણ કરવામાં આવે છે કે રીગ્રેસન રેખા β નો સામાન્ય ઢોળાવ શૂન્ય બરાબર છે.

જો રેખાનો ઢોળાવ શૂન્ય હોય, તો અને વચ્ચે કોઈ રેખીય સંબંધ નથી: ફેરફાર અસર કરતું નથી

સાચી ઢાળ શૂન્ય છે તે નલ પૂર્વધારણાને ચકાસવા માટે, તમે નીચેના અલ્ગોરિધમનો ઉપયોગ કરી શકો છો:

ગુણોત્તર સમાન પરીક્ષણ આંકડાની ગણતરી કરો, જે સ્વતંત્રતાની ડિગ્રી સાથેના વિતરણને આધીન છે, જ્યાં ગુણાંકની પ્રમાણભૂત ભૂલ


,

- અવશેષોના વિક્ષેપનો અંદાજ.

સામાન્ય રીતે, જો મહત્વના સ્તરે પહોંચી જાય, તો નલ પૂર્વધારણાને નકારી કાઢવામાં આવે છે.


સ્વતંત્રતાની ડિગ્રી સાથે વિતરણનો ટકાવારી બિંદુ ક્યાં છે, જે બે બાજુની કસોટીની સંભાવના આપે છે

આ તે અંતરાલ છે જે 95% ની સંભાવના સાથે સામાન્ય ઢોળાવ ધરાવે છે.

મોટા નમૂનાઓ માટે, કહો, અમે 1.96 ની કિંમત સાથે અંદાજિત કરી શકીએ છીએ (એટલે ​​​​કે, પરીક્ષણ આંકડા સામાન્ય રીતે વિતરિત કરવામાં આવશે)

રેખીય રીગ્રેશનની ગુણવત્તાનું મૂલ્યાંકન: નિર્ધારણના ગુણાંક R 2

રેખીય સંબંધને કારણે અને અમે અપેક્ષા રાખીએ છીએ કે તે જેમ બદલાય છે , અને તેને તે ભિન્નતા કહે છે જે રીગ્રેસનને કારણે છે અથવા તેના દ્વારા સમજાવવામાં આવે છે. શેષ ભિન્નતા શક્ય તેટલી નાની હોવી જોઈએ.

જો આ સાચું છે, તો મોટાભાગની વિવિધતા રીગ્રેસન દ્વારા સમજાવવામાં આવશે, અને પોઈન્ટ રીગ્રેસન રેખાની નજીક હશે, એટલે કે. રેખા ડેટાને સારી રીતે બંધબેસે છે.

રીગ્રેશન દ્વારા સમજાવાયેલ કુલ વિચલનનું પ્રમાણ કહેવાય છે નિર્ધારણ ગુણાંક, સામાન્ય રીતે ટકાવારી તરીકે દર્શાવવામાં આવે છે અને સૂચવવામાં આવે છે આર 2(જોડી રેખીય રીગ્રેશનમાં આ જથ્થો છે આર 2, સહસંબંધ ગુણાંકનો વર્ગ), તમને રીગ્રેસન સમીકરણની ગુણવત્તાનું વ્યક્તિલક્ષી મૂલ્યાંકન કરવાની મંજૂરી આપે છે.

તફાવત એ વિભિન્નતાની ટકાવારી દર્શાવે છે જે રીગ્રેસન દ્વારા સમજાવી શકાતી નથી.

મૂલ્યાંકન કરવા માટે કોઈ ઔપચારિક પરીક્ષણ નથી; રીગ્રેશન લાઇનની યોગ્યતા નક્કી કરવા માટે આપણે વ્યક્તિલક્ષી નિર્ણય પર આધાર રાખવો જોઈએ.

આગાહી માટે રીગ્રેસન લાઇન લાગુ કરવી

તમે અવલોકન કરેલ શ્રેણીના અંતમાંના મૂલ્યમાંથી મૂલ્યની આગાહી કરવા માટે રીગ્રેસન લાઇનનો ઉપયોગ કરી શકો છો (આ મર્યાદાઓથી આગળ વધશો નહીં).

અમે અવલોકનક્ષમના સરેરાશની આગાહી કરીએ છીએ કે જેનું ચોક્કસ મૂલ્ય છે તે મૂલ્યને રીગ્રેશન લાઇનના સમીકરણમાં પ્લગ કરીને.

તેથી, જો આપણે અનુમાન કરીએ તો આ અનુમાનિત મૂલ્યનો ઉપયોગ કરો અને સાચી વસ્તી માટે વિશ્વાસ અંતરાલનો અંદાજ કાઢવા માટે તેની પ્રમાણભૂત ભૂલનો અર્થ કરો.

વિવિધ મૂલ્યો માટે આ પ્રક્રિયાને પુનરાવર્તિત કરવાથી તમે આ રેખા માટે આત્મવિશ્વાસની મર્યાદા બાંધી શકો છો. આ તે બેન્ડ અથવા વિસ્તાર છે જેમાં સાચી લાઇન હોય છે, ઉદાહરણ તરીકે 95% આત્મવિશ્વાસ સ્તર પર.

સરળ રીગ્રેશન યોજનાઓ

સરળ રીગ્રેશન ડિઝાઇનમાં એક સતત આગાહી કરનાર હોય છે. જો 7, 4, અને 9 જેવા અનુમાનિત મૂલ્યો P સાથે 3 અવલોકનો હોય અને ડિઝાઇનમાં પ્રથમ-ક્રમની અસર P શામેલ હોય, તો ડિઝાઇન મેટ્રિક્સ X હશે

અને X1 માટે P નો ઉપયોગ કરીને રીગ્રેસન સમીકરણ છે

Y = b0 + b1 P

જો સાદી રીગ્રેસન ડિઝાઇનમાં P પર ઉચ્ચ ક્રમની અસર હોય છે, જેમ કે ચતુર્ભુજ અસર, તો ડિઝાઇન મેટ્રિક્સમાં કૉલમ X1 માંના મૂલ્યો બીજા પાવરમાં વધારવામાં આવશે:

અને સમીકરણ ફોર્મ લેશે

Y = b0 + b1 P2

સિગ્મા-અવરોધિત અને ઓવરપેરામીટરાઇઝ્ડ કોડિંગ પદ્ધતિઓ સાદી રીગ્રેશન ડિઝાઇન અને અન્ય ડિઝાઇનને લાગુ પડતી નથી જેમાં માત્ર સતત અનુમાનો હોય છે (કારણ કે ત્યાં ફક્ત કોઈ સ્પષ્ટ આગાહી કરનારા નથી). પસંદ કરેલ કોડિંગ પદ્ધતિને ધ્યાનમાં લીધા વિના, સતત ચલોના મૂલ્યો તે મુજબ વધે છે અને X ચલો માટે મૂલ્યો તરીકે ઉપયોગમાં લેવાય છે. આ કિસ્સામાં, કોઈ રીકોડિંગ કરવામાં આવતું નથી. વધુમાં, રીગ્રેસન યોજનાઓનું વર્ણન કરતી વખતે, તમે ડિઝાઇન મેટ્રિક્સ Xની વિચારણાને છોડી શકો છો અને માત્ર રીગ્રેશન સમીકરણ સાથે કામ કરી શકો છો.

ઉદાહરણ: સરળ રીગ્રેસન વિશ્લેષણ

આ ઉદાહરણ કોષ્ટકમાં પ્રસ્તુત ડેટાનો ઉપયોગ કરે છે:

ચોખા. 3. પ્રારંભિક ડેટાનું કોષ્ટક.

અવ્યવસ્થિત રીતે પસંદ કરેલ 30 કાઉન્ટીઓમાં 1960 અને 1970 ની વસ્તી ગણતરીની તુલનામાંથી સંકલિત ડેટા. કાઉન્ટીના નામો અવલોકન નામો તરીકે રજૂ કરવામાં આવે છે. દરેક ચલ સંબંધિત માહિતી નીચે પ્રસ્તુત છે:

ચોખા. 4. ચલ વિશિષ્ટતાઓનું કોષ્ટક.

સંશોધન સમસ્યા

આ ઉદાહરણ માટે, ગરીબી દર અને ડિગ્રી વચ્ચેના સહસંબંધનું વિશ્લેષણ કરવામાં આવશે જે ગરીબી રેખા નીચે રહેતા પરિવારોની ટકાવારીની આગાહી કરે છે. તેથી, અમે ચલ 3 (Pt_Poor) ને આશ્રિત ચલ તરીકે ગણીશું.

અમે એક પૂર્વધારણા આગળ મૂકી શકીએ છીએ: વસ્તીના કદમાં ફેરફાર અને ગરીબી રેખા નીચે રહેતા પરિવારોની ટકાવારી સંબંધિત છે. એવી અપેક્ષા રાખવી વાજબી લાગે છે કે ગરીબી બહારના સ્થળાંતર તરફ દોરી જાય છે, તેથી ગરીબી રેખા હેઠળના લોકોની ટકાવારી અને વસ્તીમાં ફેરફાર વચ્ચે નકારાત્મક સંબંધ હશે. તેથી, અમે ચલ 1 (Pop_Chng) ને આગાહી કરનાર ચલ તરીકે ગણીશું.

પરિણામો જુઓ

રીગ્રેસન ગુણાંક

ચોખા. 5. Pop_Chng પર Pt_Poor ના રીગ્રેસન ગુણાંક.

Pop_Chng પંક્તિ અને પરમ કૉલમના આંતરછેદ પર.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Pop_Chng પર Pt_Poor ના રીગ્રેસન માટે અપ્રમાણિત ગુણાંક -0.40374 છે. આનો અર્થ એ થયો કે વસ્તીમાં પ્રત્યેક એક એકમના ઘટાડા પાછળ .40374ના ગરીબી દરમાં વધારો થયો છે. આ અપ્રમાણિત ગુણાંક માટે ઉપલા અને નીચલા (મૂળભૂત) 95% વિશ્વાસ મર્યાદામાં શૂન્યનો સમાવેશ થતો નથી, તેથી રીગ્રેશન ગુણાંક p સ્તરે નોંધપાત્ર છે

ચલ વિતરણ

સહસંબંધ ગુણાંક નોંધપાત્ર રીતે વધુ પડતો અંદાજ અથવા ઓછો અંદાજ બની શકે છે જો ડેટામાં મોટા આઉટલાયર હાજર હોય. ચાલો જીલ્લા દ્વારા આશ્રિત ચલ Pt_Poor ના વિતરણનો અભ્યાસ કરીએ. આ કરવા માટે, ચાલો Pt_Poor ચલનો હિસ્ટોગ્રામ બનાવીએ.

જેમ તમે જોઈ શકો છો, આ ચલનું વિતરણ સામાન્ય વિતરણ કરતા સ્પષ્ટ રીતે અલગ છે. જો કે, બે કાઉન્ટીઓ (બે જમણી સ્તંભો) પણ સામાન્ય વિતરણ હેઠળ અપેક્ષિત કરતાં ગરીબી રેખાની નીચે હોય તેવા પરિવારોની ઊંચી ટકાવારી ધરાવતા હોવા છતાં, તેઓ "મર્યાદાની અંદર" હોવાનું જણાય છે.

ચોખા. 7. Pt_Poor ચલનો હિસ્ટોગ્રામ.

આ ચુકાદો કંઈક અંશે વ્યક્તિલક્ષી છે. અંગૂઠાનો નિયમ એ છે કે જો અવલોકન (અથવા અવલોકનો) અંતરાલની અંદર ન આવે તો આઉટલીયરને ધ્યાનમાં લેવું જોઈએ (એટલે ​​કે પ્રમાણભૂત વિચલનના ± 3 ગણા). આ કિસ્સામાં, વસ્તીના સભ્યો વચ્ચેના સહસંબંધ પર તેમની મોટી અસર ન પડે તેની ખાતરી કરવા માટે બહારના લોકો સાથે અને વિના વિશ્લેષણનું પુનરાવર્તન કરવું યોગ્ય છે.

સ્કેટરપ્લોટ

જો પૂર્વધારણાઓમાંની એક આપેલ ચલો વચ્ચેના સંબંધ વિશે પ્રાથમિકતા છે, તો તેને સંબંધિત સ્કેટરપ્લોટના ગ્રાફ પર ચકાસવા માટે તે ઉપયોગી છે.

ચોખા. 8. સ્કેટર ડાયાગ્રામ.

સ્કેટરપ્લોટ બે ચલો વચ્ચે સ્પષ્ટ નકારાત્મક સહસંબંધ (-.65) દર્શાવે છે. તે રીગ્રેસન લાઇન માટે 95% વિશ્વાસ અંતરાલ પણ દર્શાવે છે, એટલે કે, રીગ્રેસન રેખા બે ડોટેડ વણાંકો વચ્ચેની 95% સંભાવના છે.

મહત્વના માપદંડ

ચોખા. 9. મહત્વના માપદંડો ધરાવતું કોષ્ટક.

Pop_Chng રીગ્રેશન ગુણાંક માટેનું પરીક્ષણ પુષ્ટિ કરે છે કે Pop_Chng એ Pt_Poor સાથે મજબૂત રીતે સંબંધિત છે, p<.001 .

બોટમ લાઇન

આ ઉદાહરણ બતાવે છે કે કેવી રીતે સરળ રીગ્રેશન ડિઝાઇનનું વિશ્લેષણ કરવું. અપ્રમાણિત અને પ્રમાણિત રીગ્રેશન ગુણાંકના અર્થઘટન પણ રજૂ કરવામાં આવ્યા હતા. આશ્રિત ચલના પ્રતિભાવ વિતરણના અભ્યાસના મહત્વની ચર્ચા કરવામાં આવી છે, અને આગાહી કરનાર અને આશ્રિત ચલ વચ્ચેના સંબંધની દિશા અને તાકાત નક્કી કરવા માટેની તકનીક દર્શાવવામાં આવી છે.

સહસંબંધ વિશ્લેષણ.

જોડી કરેલ રીગ્રેસન સમીકરણ.

ગ્રાફિકલ પદ્ધતિનો ઉપયોગ કરીને.

આ પદ્ધતિનો ઉપયોગ અભ્યાસ કરેલ આર્થિક સૂચકાંકો વચ્ચેના જોડાણના સ્વરૂપને દૃષ્ટિની રીતે દર્શાવવા માટે થાય છે. આ કરવા માટે, લંબચોરસ સંકલન પ્રણાલીમાં એક ગ્રાફ દોરવામાં આવે છે, પરિણામી લાક્ષણિકતા Y ના વ્યક્તિગત મૂલ્યો ઓર્ડિનેટ અક્ષ સાથે પ્લોટ કરવામાં આવે છે, અને પરિબળ લાક્ષણિકતા X ના વ્યક્તિગત મૂલ્યો એબ્સિસા અક્ષ સાથે પ્લોટ કરવામાં આવે છે.

પરિણામી અને પરિબળ લાક્ષણિકતાઓના બિંદુઓના સમૂહને કહેવામાં આવે છે સહસંબંધ ક્ષેત્ર.

સહસંબંધ ક્ષેત્રના આધારે, અમે ધારણા કરી શકીએ છીએ (વસ્તી માટે) કે X અને Y ના તમામ સંભવિત મૂલ્યો વચ્ચેનો સંબંધ રેખીય છે.

રેખીય રીગ્રેશન સમીકરણ y = bx + a + ε છે

અહીં ε એક રેન્ડમ ભૂલ છે (વિચલન, ખલેલ).

રેન્ડમ ભૂલના અસ્તિત્વના કારણો:

1. રીગ્રેસન મોડેલમાં નોંધપાત્ર સમજૂતીત્મક ચલોનો સમાવેશ કરવામાં નિષ્ફળતા;

2. ચલોનું એકત્રીકરણ. ઉદાહરણ તરીકે, કુલ વપરાશ કાર્ય સામાન્ય રીતે વ્યક્તિગત ખર્ચના નિર્ણયોના એકંદરને વ્યક્ત કરવાનો પ્રયાસ છે. આ ફક્ત વ્યક્તિગત સંબંધોનો અંદાજ છે જે વિવિધ પરિમાણો ધરાવે છે.

3. મોડેલની રચનાનું ખોટું વર્ણન;

4. અયોગ્ય કાર્યાત્મક સ્પષ્ટીકરણ;

5. માપન ભૂલો.

દરેક ચોક્કસ અવલોકન માટે વિચલનો ε i રેન્ડમ હોવાથી અને નમૂનામાં તેમના મૂલ્યો અજ્ઞાત છે, તો પછી:

1) અવલોકનો x i અને y i પરથી માત્ર α અને β પરિમાણોનો અંદાજ મેળવી શકાય છે

2) રીગ્રેસન મોડેલના પરિમાણો α અને β અનુક્રમે a અને b મૂલ્યો છે, જે પ્રકૃતિમાં રેન્ડમ છે, કારણ કે રેન્ડમ નમૂનાને અનુરૂપ;

પછી અનુમાનિત રીગ્રેસન સમીકરણ (નમૂના ડેટા પરથી બનેલ) ફોર્મ y = bx + a + ε હશે, જ્યાં e i એ ભૂલોના અવલોકન કરેલ મૂલ્યો (અંદાજ) છે ε i , અને a અને b અનુક્રમે, અંદાજો છે રીગ્રેશન મોડલના પરિમાણો α અને β જે શોધવા જોઈએ.

પરિમાણોનો અંદાજ કાઢવા માટે α અને β - લઘુત્તમ ચોરસ પદ્ધતિ (ઓછામાં ઓછી ચોરસ પદ્ધતિ) નો ઉપયોગ થાય છે. ઓછામાં ઓછી ચોરસ પદ્ધતિ રીગ્રેશન સમીકરણના પરિમાણોના શ્રેષ્ઠ (સતત, કાર્યક્ષમ અને નિષ્પક્ષ) અંદાજો પ્રદાન કરે છે.

પરંતુ માત્ર ત્યારે જ જો અમુક જગ્યાઓ રેન્ડમ ટર્મ (ε) અને સ્વતંત્ર ચલ (x) સંબંધિત હોય.

ઔપચારિક રીતે, OLS માપદંડ નીચે પ્રમાણે લખી શકાય છે:

S = ∑(y i - y * i) 2 → મિનિટ

સામાન્ય સમીકરણોની સિસ્ટમ.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

અમારા ડેટા માટે, સમીકરણોની સિસ્ટમ ફોર્મ ધરાવે છે

15a + 186.4 b = 17.01

186.4 a + 2360.9 b = 208.25

પ્રથમ સમીકરણથી આપણે વ્યક્ત કરીએ છીએ અને બીજા સમીકરણમાં બદલો:

અમે પ્રયોગમૂલક રીગ્રેસન ગુણાંક મેળવીએ છીએ: b = -0.07024, a = 2.0069

રીગ્રેશન સમીકરણ (અનુભાવિક રીગ્રેસન સમીકરણ):

y = -0.07024 x + 2.0069

પ્રયોગમૂલક રીગ્રેસન ગુણાંક aઅને bસૈદ્ધાંતિક ગુણાંક β i ના માત્ર અંદાજો છે, અને સમીકરણ પોતે જ વિચારણા હેઠળના ચલોના વર્તનમાં સામાન્ય વલણને પ્રતિબિંબિત કરે છે.

રીગ્રેસન પરિમાણોની ગણતરી કરવા માટે, અમે ગણતરી કોષ્ટક બનાવીશું (કોષ્ટક 1)

1. રીગ્રેસન સમીકરણ પરિમાણો.

નમૂનાનો અર્થ થાય છે.

નમૂના ભિન્નતા:

પ્રમાણભૂત વિચલન

1.1. સહસંબંધ ગુણાંક

સહવર્તન.

અમે જોડાણની નિકટતાના સૂચકની ગણતરી કરીએ છીએ. આ સૂચક નમૂના રેખીય સહસંબંધ ગુણાંક છે, જે સૂત્ર દ્વારા ગણવામાં આવે છે:

રેખીય સહસંબંધ ગુણાંક -1 થી +1 સુધીના મૂલ્યો લે છે.

લાક્ષણિકતાઓ વચ્ચેના જોડાણો નબળા અને મજબૂત (નજીક) હોઈ શકે છે. તેમના માપદંડોનું મૂલ્યાંકન ચૅડૉક સ્કેલ પર કરવામાં આવે છે:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

અમારા ઉદાહરણમાં, લક્ષણ Y અને પરિબળ X વચ્ચેનો સંબંધ ઉચ્ચ અને વ્યસ્ત છે.

વધુમાં, રેખીય જોડી સહસંબંધ ગુણાંકને રીગ્રેસન ગુણાંક b દ્વારા નક્કી કરી શકાય છે:

1.2. રીગ્રેસન સમીકરણ(રીગ્રેસન સમીકરણનો અંદાજ).

રેખીય રીગ્રેસન સમીકરણ y = -0.0702 x + 2.01 છે

રેખીય રીગ્રેસન સમીકરણના ગુણાંકને આર્થિક અર્થ આપી શકાય છે.

રીગ્રેશન ગુણાંક b = -0.0702 તેના માપના એકમ દીઠ પરિબળ xના મૂલ્યમાં વધારો અથવા ઘટાડો સાથે અસરકારક સૂચક (માપ y ના એકમોમાં) માં સરેરાશ ફેરફાર દર્શાવે છે. આ ઉદાહરણમાં, 1 એકમના વધારા સાથે, y સરેરાશ -0.0702 ઘટે છે.

ગુણાંક a = 2.01 ઔપચારિક રીતે y નું અનુમાનિત સ્તર બતાવે છે, પરંતુ માત્ર જો x = 0 નમૂના મૂલ્યોની નજીક હોય.

પરંતુ જો x=0 એ x ના નમૂના મૂલ્યોથી દૂર છે, તો શાબ્દિક અર્થઘટન ખોટા પરિણામો તરફ દોરી શકે છે, અને જો રીગ્રેસન રેખા અવલોકન કરેલ નમૂનાના મૂલ્યોને એકદમ સચોટ રીતે વર્ણવે છે, તો પણ કોઈ ગેરેંટી નથી કે આ પણ થશે જ્યારે ડાબે અથવા જમણે એક્સ્ટ્રાપોલેટિંગ થાય છે ત્યારે કેસ હોય છે.

રીગ્રેશન સમીકરણમાં યોગ્ય x મૂલ્યોને બદલીને, અમે દરેક અવલોકન માટે પ્રદર્શન સૂચક y(x) ના સંરેખિત (અનુમાનિત) મૂલ્યો નક્કી કરી શકીએ છીએ.

y અને x વચ્ચેનો સંબંધ રીગ્રેસન ગુણાંક b (જો > 0 - સીધો સંબંધ, અન્યથા - વ્યસ્ત) ની નિશાની નક્કી કરે છે. અમારા ઉદાહરણમાં, જોડાણ વિપરીત છે.

1.3. સ્થિતિસ્થાપકતા ગુણાંક.

જો પરિણામી સૂચક y અને પરિબળ લાક્ષણિકતા x ના માપનના એકમોમાં તફાવત હોય તો પરિણામી લાક્ષણિકતા પરના પરિબળોના પ્રભાવનું સીધું મૂલ્યાંકન કરવા માટે રીગ્રેસન ગુણાંક (ઉદાહરણ તરીકે b) નો ઉપયોગ કરવો યોગ્ય નથી.

આ હેતુઓ માટે, સ્થિતિસ્થાપકતા ગુણાંક અને બીટા ગુણાંકની ગણતરી કરવામાં આવે છે.

સરેરાશ સ્થિતિસ્થાપકતા ગુણાંક E એ દર્શાવે છે કે સરેરાશ કેટલા ટકા પરિણામ એકંદરમાં બદલાશે ખાતેજ્યારે પરિબળ બદલાય ત્યારે તેના સરેરાશ મૂલ્યમાંથી xતેના સરેરાશ મૂલ્યના 1% દ્વારા.

સ્થિતિસ્થાપકતા ગુણાંક સૂત્ર દ્વારા જોવા મળે છે:

સ્થિતિસ્થાપકતા ગુણાંક 1 કરતા ઓછો છે. તેથી, જો X 1% બદલાય છે, તો Y 1% કરતા ઓછા બદલાશે. બીજા શબ્દોમાં કહીએ તો, Y પર X નો પ્રભાવ નોંધપાત્ર નથી.

બીટા ગુણાંક

બીટા ગુણાંકતેના પ્રમાણભૂત વિચલનના મૂલ્યના કયા ભાગ દ્વારા દર્શાવે છે કે જ્યારે પરિબળ લાક્ષણિકતા તેના પ્રમાણભૂત વિચલનના મૂલ્ય દ્વારા સ્થિર સ્તરે નિશ્ચિત બાકીના સ્વતંત્ર ચલોના મૂલ્ય સાથે બદલાય ત્યારે પરિણામી લાક્ષણિકતાનું સરેરાશ મૂલ્ય બદલાશે:

તે. પ્રમાણભૂત વિચલન S x દ્વારા x માં વધારો 0.82 પ્રમાણભૂત વિચલનો S y દ્વારા Y ના સરેરાશ મૂલ્યમાં ઘટાડો તરફ દોરી જશે.

1.4. અંદાજ ભૂલ.

ચાલો નિરપેક્ષ અંદાજની ભૂલનો ઉપયોગ કરીને રીગ્રેસન સમીકરણની ગુણવત્તાનું મૂલ્યાંકન કરીએ. સરેરાશ અંદાજ ભૂલ - વાસ્તવિક મૂલ્યોમાંથી ગણતરી કરેલ મૂલ્યોનું સરેરાશ વિચલન:

5%-7% ની અંદર અંદાજિત ભૂલ એ મૂળ ડેટા માટે રીગ્રેસન સમીકરણની સારી ફિટ સૂચવે છે.

ભૂલ 7% કરતા ઓછી હોવાથી, આ સમીકરણનો ઉપયોગ રીગ્રેસન તરીકે થઈ શકે છે.



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!
પણ વાંચો