બેકપ્રોપેગેશનવાળા નેટવર્ક માટેનું ઉદાહરણ. પાછળ પ્રચાર અલ્ગોરિધમનો

બેકપ્રોપગેશન પદ્ધતિ

પદ્ધતિ બેકપ્રોપગેશનભૂલો - મલ્ટિલેયર પરસેપ્ટ્રોનને તાલીમ આપવાની પદ્ધતિ, નિરીક્ષણ કરેલ શિક્ષણ માટેના વિકલ્પોમાંથી એક. પૌલ જે. વર્બોસ દ્વારા પ્રથમ પદ્ધતિનું વર્ણન કરવામાં આવ્યું હતું. ડેવિડ આઈ. રુમેલહાર્ટ, જે.ઈ. હિન્ટન અને રોનાલ્ડ જે. વિલિયમ્સ દ્વારા 1986માં વધુ નોંધપાત્ર રીતે વિકસિત. આ એક પુનરાવર્તિત ગ્રેડિયન્ટ અલ્ગોરિધમ છે જેનો ઉપયોગ મલ્ટિલેયર પરસેપ્ટ્રોનની ઓપરેટિંગ ભૂલને ઘટાડવા અને ઇચ્છિત આઉટપુટ મેળવવા માટે થાય છે.

આ પદ્ધતિનો મુખ્ય વિચાર એ છે કે નેટવર્ક આઉટપુટથી તેના ઇનપુટ્સમાં ભૂલ સંકેતોનો પ્રચાર કરવો, સામાન્ય કામગીરીમાં સંકેતોના સીધા પ્રચારની વિરુદ્ધ દિશામાં. બાર્ટસેવ અને ઓખોનિને તરત જ ઓફર કરી સામાન્ય પદ્ધતિ("દ્વૈતતા સિદ્ધાંત"), વિલંબિત સિસ્ટમો, વિતરિત પ્રણાલીઓ, વગેરે સહિતની સિસ્ટમોના વિશાળ વર્ગને લાગુ પડે છે.

પદ્ધતિ એક ફેરફાર છે શાસ્ત્રીય પદ્ધતિઢાળ વંશ.

બેકપ્રોપેગેશન એલ્ગોરિધમ

ચાલો રેન્ડમ વેઇટીંગ ગુણાંક સાથે મલ્ટિલેયર ફીડફોરવર્ડ નેટવર્ક મેળવીએ. નેટવર્ક ઇનપુટ - ઇચ્છિત આઉટપુટની જોડી ધરાવતા કેટલાક તાલીમ સેટ છે. Y ને અમારા નેટવર્કનું વાસ્તવિક આઉટપુટ મૂલ્ય દર્શાવવા દો, જે શરૂઆતમાં વેઇટીંગ ગુણાંકની રેન્ડમનેસને કારણે લગભગ રેન્ડમ છે.

તાલીમમાં અમુક ઉદ્દેશ્ય કાર્યને ન્યૂનતમ કરી શકાય તે રીતે વેઇટીંગ ગુણાંક પસંદ કરવાનો સમાવેશ થાય છે. તરીકે ઉદ્દેશ્ય કાર્યચાલો તાલીમ સમૂહમાંથી ઉદાહરણોનો ઉપયોગ કરીને સ્ક્વેર્ડ નેટવર્ક ભૂલોના સરવાળાને ધ્યાનમાં લઈએ.

j-th તાલીમ ઉદાહરણ પર p-th ન્યુરોન માટે નેટવર્કના N-th આઉટપુટ સ્તરનું વાસ્તવિક આઉટપુટ ક્યાં છે, ઇચ્છિત આઉટપુટ. એટલે કે, આ કાર્યાત્મક ઘટાડીને, અમે પદ્ધતિનો ઉપયોગ કરીને ઉકેલ મેળવીએ છીએ ઓછામાં ઓછા ચોરસ.

ભારાંક ગુણાંક બિનરેખીય રીતે અવલંબનમાં પ્રવેશ કરે છે, તેથી અમે ન્યૂનતમ શોધવા માટે પદ્ધતિનો ઉપયોગ કરીશું સૌથી ઊભો વંશ. એટલે કે, દરેક શીખવાના પગલા પર આપણે સૂત્ર અનુસાર ભારાંક ગુણાંક બદલીશું

સાથે સંચાર માટે n-th સ્તરના j-th ચેતાકોષનું વજન ગુણાંક ક્યાં છે i-th ચેતાકોષ(n-1)મું સ્તર.

પરિમાણને લર્નિંગ રેટ પેરામીટર કહેવામાં આવે છે.

આમ, તમામ નેટવર્ક વેઇટીંગ ગુણાંક પર ઉદ્દેશ્ય કાર્ય E ના આંશિક ડેરિવેટિવ્ઝ નક્કી કરવા જરૂરી છે. જટિલ કાર્યને અલગ પાડવાના નિયમો અનુસાર

આઉટપુટ ક્યાં છે, અને n-th સ્તરના j-th ચેતાકોષના ઇનપુટ્સનો ભારિત સરવાળો છે. નોંધ કરો કે, સક્રિયકરણ કાર્ય જાણીને, અમે ગણતરી કરી શકીએ છીએ. ઉદાહરણ તરીકે, સિગ્મોઇડ માટે આ મૂલ્ય બરાબર હશે

ત્રીજું પરિબળ / (n-1)-મા સ્તરના i-th ચેતાકોષના આઉટપુટ કરતાં વધુ કંઈ નથી, એટલે કે

આઉટપુટ લેયર ચેતાકોષોના વજનના સંદર્ભમાં ઉદ્દેશ્ય કાર્યના આંશિક ડેરિવેટિવ્સની હવે સરળતાથી ગણતરી કરી શકાય છે. ભિન્નતા (1) દ્વારા અને ધ્યાનમાં લેતા (3) અને (5) આપણી પાસે હશે

ચાલો નોટેશન રજૂ કરીએ

પછી આઉટપુટ સ્તરના ચેતાકોષો માટે

ન્યુરોન વજન માટે આંતરિક સ્તરોઅમે તરત જ લખી શકતા નથી કે (4) માંથી પ્રથમ પરિબળ શું બરાબર છે, પરંતુ તેને નીચે પ્રમાણે રજૂ કરી શકાય છે:

નોંધ કરો કે આ સૂત્રમાં પ્રથમ બે પરિબળો કરતાં વધુ કંઈ નથી. આમ, (9) નો ઉપયોગ કરીને (n+1)મા સ્તરના ન્યુરોન્સના સંદર્ભમાં nth સ્તરના ચેતાકોષો માટે મૂલ્યો વ્યક્ત કરવાનું શક્ય છે. છેલ્લા સ્તર માટે (8) દ્વારા ગણતરી કરવી સરળ હોવાથી, તે પુનરાવર્તિત સૂત્રનો ઉપયોગ કરીને શક્ય છે.

તમામ સ્તરોના તમામ ન્યુરોન્સ માટે મૂલ્યો મેળવો.

છેલ્લે, ભારાંક ગુણાંકમાં ફેરફાર કરવા માટેનું સૂત્ર (2) ફોર્મમાં લખી શકાય છે

આમ, સંપૂર્ણ લર્નિંગ અલ્ગોરિધમ ન્યુરલ નેટવર્કબેકપ્રોપેગેશન એલ્ગોરિધમનો ઉપયોગ કરીને નીચે પ્રમાણે બનાવવામાં આવે છે.

અમે બધા નેટવર્ક વજન માટે રેન્ડમ વજન ગુણાંક અસાઇન કરીએ છીએ પ્રારંભિક મૂલ્યો. આ કિસ્સામાં, નેટવર્ક કેટલાક હાથ ધરશે રેન્ડમ ટ્રાન્સફોર્મેશનઇનપુટ સિગ્નલો અને ઉદ્દેશ્ય કાર્ય (1) ના મૂલ્યો મોટા હશે.

તાલીમ સેટમાંથી નેટવર્ક ઇનપુટ પર ઇનપુટ વેક્ટરમાંથી એકને ફીડ કરો. નેટવર્કના આઉટપુટ મૂલ્યોની ગણતરી કરો, જ્યારે દરેક ન્યુરોન્સના આઉટપુટ મૂલ્યોને યાદ રાખો.

નેટવર્ક વજન સમાયોજિત કરો:

નેટવર્ક પ્રદર્શન મૂલ્યાંકન

એવા કિસ્સાઓમાં જ્યાં નેટવર્કની કામગીરીનું મૂલ્યાંકન કરવું શક્ય છે, ન્યુરલ નેટવર્કને તાલીમ આપવી એ ઑપ્ટિમાઇઝેશન સમસ્યા તરીકે રજૂ કરી શકાય છે. મૂલ્યાંકન કરવાનો અર્થ એ છે કે નેટવર્ક તેને સોંપેલ કાર્યોને સારી રીતે અથવા ખરાબ રીતે હલ કરે છે કે કેમ તે માત્રાત્મક રીતે સૂચવવું. આ હેતુ માટે, મૂલ્યાંકન કાર્ય બનાવવામાં આવે છે. એક નિયમ તરીકે, તે સ્પષ્ટપણે નેટવર્કના આઉટપુટ સિગ્નલો પર અને તેના તમામ પરિમાણો પર ગર્ભિત (ઓપરેશન દ્વારા) આધાર રાખે છે. મૂલ્યાંકનનું સૌથી સરળ અને સૌથી સામાન્ય ઉદાહરણ એ નેટવર્ક આઉટપુટ સિગ્નલોથી તેમના જરૂરી મૂલ્યો સુધીના ચોરસ અંતરનો સરવાળો છે:

આઉટપુટ સિગ્નલનું જરૂરી મૂલ્ય ક્યાં છે.

ઓછામાં ઓછા ચોરસ પદ્ધતિ હંમેશા નથી શ્રેષ્ઠ પસંદગીઆકારણીઓ મૂલ્યાંકન કાર્યની સાવચેતીપૂર્વકની રચના વ્યક્તિને નેટવર્ક તાલીમની કાર્યક્ષમતામાં તીવ્રતાના ક્રમમાં વધારો કરવાની સાથે સાથે પ્રાપ્ત કરવાની મંજૂરી આપે છે. વધારાની માહિતી- આપેલ જવાબમાં નેટવર્કનું "આત્મવિશ્વાસનું સ્તર".

અલ્ગોરિધમનો ગેરફાયદા

અસંખ્ય હોવા છતાં સફળ એપ્લિકેશનોબેકપ્રોપગેશન એ રામબાણ ઉપાય નથી. જે સૌથી વધુ મુશ્કેલી લાવે છે તે અનિશ્ચિતપણે લાંબી શીખવાની પ્રક્રિયા છે. IN જટિલ કાર્યોનેટવર્કને તાલીમ આપવામાં દિવસો અથવા તો અઠવાડિયા લાગી શકે છે, અથવા તે બિલકુલ શીખી શકશે નહીં. કારણ નીચે વર્ણવેલ તેમાંથી એક હોઈ શકે છે.

નેટવર્ક લકવો

નેટવર્ક તાલીમ પ્રક્રિયા દરમિયાન, કરેક્શનના પરિણામે વજનના મૂલ્યો ખૂબ મોટા થઈ શકે છે. મોટી માત્રામાં. આના પરિણામે તમામ અથવા મોટાભાગના ચેતાકોષો ખૂબ જ કામ કરી શકે છે મોટા મૂલ્યોઆઉટ, પ્રદેશમાં જ્યાં કમ્પ્રેશન ફંક્શનનું વ્યુત્પન્ન ખૂબ નાનું છે. શીખવાની પ્રક્રિયા દરમિયાન પાછી મોકલવામાં આવેલી ભૂલ આ વ્યુત્પન્નના પ્રમાણસર હોવાથી, શીખવાની પ્રક્રિયા વ્યવહારીક રીતે સ્થિર થઈ શકે છે. સૈદ્ધાંતિક દ્રષ્ટિકોણથી, આ સમસ્યા નબળી રીતે સમજી શકાય છે. આ સામાન્ય રીતે સ્ટેપ સાઇઝ h ઘટાડીને ટાળવામાં આવે છે, પરંતુ આ તાલીમનો સમય વધારે છે. લકવો અટકાવવા અથવા પુનઃપ્રાપ્ત કરવા માટે વિવિધ હ્યુરિસ્ટિક્સનો ઉપયોગ કરવામાં આવ્યો છે, પરંતુ હાલમાં તે માત્ર પ્રાયોગિક ગણી શકાય.

સ્થાનિક મિનિમા

બેકપ્રોપેગેશન ગ્રેડિએન્ટ ડિસેન્ટના સ્વરૂપનો ઉપયોગ કરે છે, એટલે કે, તે ભૂલની સપાટીથી નીચે ઉતરે છે, સતત ન્યૂનતમ તરફ વજનને સમાયોજિત કરે છે. જટિલ નેટવર્કની ભૂલ સપાટી ખૂબ જ કઠોર હોય છે અને તેમાં ટેકરીઓ, ખીણો, ફોલ્ડ્સ અને ઉચ્ચ-પરિમાણીય જગ્યામાં કોતરોનો સમાવેશ થાય છે. નેટવર્ક સ્થાનિક લઘુત્તમ (છીછરી ખીણ) માં આવી શકે છે જ્યારે ત્યાં વધુ નજીક હોય ઊંડા નીચા. બિંદુએ સ્થાનિક લઘુત્તમબધી દિશાઓ ઉપર તરફ દોરી જાય છે, અને નેટવર્ક તેમાંથી બહાર નીકળી શકતું નથી. ન્યુરલ નેટવર્કને તાલીમ આપવામાં મુખ્ય મુશ્કેલી એ ચોક્કસ રીતે સ્થાનિક મિનિમામાંથી બહાર નીકળવાની પદ્ધતિઓ છે: દરેક વખતે સ્થાનિક લઘુત્તમ છોડતી વખતે, તે જ ભૂલ બેકપ્રોપેગેશન પદ્ધતિનો ઉપયોગ કરવા માટે આગામી સ્થાનિક લઘુત્તમને ફરીથી શોધવામાં આવે છે જ્યાં સુધી તેમાંથી કોઈ રસ્તો શોધવાનું શક્ય ન બને. .

પગલું કદ

કન્વર્જન્સ પ્રૂફની સાવચેતીપૂર્વકની તપાસ બતાવે છે કે વજનમાં સુધારાઓ અસંખ્ય હોવાનું માનવામાં આવે છે. તે સ્પષ્ટ છે કે આ વ્યવહારમાં શક્ય નથી, કારણ કે તે અનંત શીખવાના સમય તરફ દોરી જાય છે. પગલાનું કદ મર્યાદિત તરીકે લેવું જોઈએ. જો સ્ટેપનું કદ નિશ્ચિત હોય અને ખૂબ નાનું હોય, તો કન્વર્જન્સ ખૂબ ધીમું હોય છે અને જો તે ખૂબ મોટું હોય, તો લકવો અથવા સતત અસ્થિરતા આવી શકે છે. સ્કોર માં સુધારો થવાનું બંધ ન થાય ત્યાં સુધી અસરકારક રીતે પગલું વધારો આ દિશામાંએન્ટિ-ગ્રેડિયન્ટ અને ઘટાડો જો આવો સુધારો થતો નથી. P. D. Wasserman એ અનુકૂલનશીલ સ્ટેપ સિલેક્શન અલ્ગોરિધમનું વર્ણન કર્યું છે જે શીખવાની પ્રક્રિયા દરમિયાન સ્ટેપ સાઈઝને આપમેળે સમાયોજિત કરે છે. એ.એન. ગોર્બનનું પુસ્તક શિક્ષણને ઑપ્ટિમાઇઝ કરવા માટે એક વ્યાપક તકનીકની દરખાસ્ત કરે છે.

એ પણ નોંધવું જોઈએ કે નેટવર્કને ફરીથી પ્રશિક્ષિત કરી શકાય છે, જે મોટે ભાગે તેની ટોપોલોજીની ખોટી ડિઝાઇનનું પરિણામ છે. જ્યારે પણ મોટી માત્રામાંન્યુરોન્સ, માહિતીનું સામાન્યીકરણ કરવાની નેટવર્કની ક્ષમતા ખોવાઈ ગઈ છે. તાલીમ માટે પૂરી પાડવામાં આવેલ છબીઓનો સંપૂર્ણ સેટ નેટવર્ક દ્વારા શીખવામાં આવશે, પરંતુ કોઈપણ અન્ય છબીઓ, ખૂબ સમાન હોય, પણ ખોટી રીતે વર્ગીકૃત થઈ શકે છે.

વિકાસ વાતાવરણ અને તેને પસંદ કરવાનાં કારણો

માઇક્રોસોફ્ટવિઝ્યુઅલ સ્ટુડિયો 2010 ડેવલપમેન્ટ એન્વાયર્નમેન્ટમાં .NETFramework4.0 ફ્રેમવર્ક સાથે C# પ્રોગ્રામિંગ લેંગ્વેજમાં એપ્લીકેશન વિકસાવવામાં આવશે જેને C++ માં મોટા પ્રમાણમાં ગણતરીની જરૂર હોય છે. MSVisualStudio 2010 નો સમાવેશ થાય છે સંપૂર્ણ સેટનવી અને સુધારેલી સુવિધાઓ કે જે ડિઝાઇનથી જમાવટ સુધી વિકાસ પ્રક્રિયાના દરેક પગલાને સરળ બનાવે છે.

માઈક્રોસોફ્ટ વિઝ્યુઅલ સ્ટુડિયો 2010 અલ્ટીમેટ એ એક સંકલિત ટૂલ્સ એન્વાયર્નમેન્ટ અને સર્વર ઈન્ફ્રાસ્ટ્રક્ચર છે જે એકંદર એપ્લિકેશન ડેવલપમેન્ટ પ્રક્રિયાને સરળ બનાવે છે. વ્યવસાયિક એપ્લિકેશનો કાર્યક્ષમ, અનુમાનિત, કસ્ટમાઇઝ પ્રક્રિયાઓનો ઉપયોગ કરીને બનાવવામાં આવે છે. વિગતવાર વિશ્લેષણ દરેક વસ્તુની પારદર્શિતા અને ટ્રેસિબિલિટી વધારે છે જીવન ચક્રએપ્લિકેશન્સ નવા સોલ્યુશન્સ બનાવતી વખતે અને હાલના ઉકેલોને સંશોધિત કરતી વખતે, ઉપયોગ કરીને વિકાસ બંને શક્તિશાળી સાધનોપ્રોટોટાઇપિંગ, આર્કિટેક્ચર ડિઝાઇન અને વિકાસ કે જે વિવિધ પ્લેટફોર્મ્સ અને ટેક્નોલોજીઓ, જેમ કે ક્લાઉડ કમ્પ્યુટિંગ અને સમાંતર પ્રોસેસિંગ માટે એપ્લીકેશન વિકસાવવામાં સક્ષમ કરે છે. અદ્યતન સંકલન ક્ષમતાઓ સંયુક્ત પ્રવૃત્તિઓસંકલિત, નવીન પરીક્ષણ અને ડિબગીંગ ટૂલ્સ સાથે ટીમની ઉત્પાદકતામાં સુધારો કરશે અને ઉચ્ચ-ગુણવત્તાવાળા, ઓછા ખર્ચે ઉકેલો પહોંચાડશે.

.NETFramework4.0 ફ્રેમવર્ક સાથે C# માં MicrosoftVisualStudio2010 અલ્ટીમેટમાં એપ્લિકેશન ડેવલપમેન્ટ ઑબ્જેક્ટ-ઓરિએન્ટેડ પ્રોગ્રામિંગ અને વિઝ્યુઅલ પ્રોગ્રામિંગનો ઉપયોગ કરીને હાથ ધરવામાં આવે છે.

નેટવર્ક આઉટપુટથી તેના ઇનપુટ્સ સુધીની ભૂલો, સામાન્ય કામગીરીમાં સિગ્નલોના આગળના પ્રસારની વિરુદ્ધ દિશામાં. બાર્ટસેવ અને ઓખોનિને તરત જ સામાન્ય પદ્ધતિ ("દ્વૈતતા સિદ્ધાંત")નો પ્રસ્તાવ મૂક્યો, જે વિલંબવાળી સિસ્ટમો, વિતરિત પ્રણાલીઓ વગેરે સહિતની સિસ્ટમોના વિશાળ વર્ગને લાગુ પડે છે.

બેકપ્રોપેગેશન પદ્ધતિનો ઉપયોગ કરવા માટે સક્ષમ થવા માટે, ચેતાકોષોનું સ્થાનાંતરણ કાર્ય અલગ હોવું જોઈએ. પદ્ધતિ એ ક્લાસિક ગ્રેડિયન્ટ ડિસેન્ટ પદ્ધતિમાં ફેરફાર છે.

સિગ્મોઇડ સક્રિયકરણ કાર્યો

નીચેના પ્રકારના સિગ્મોઇડ્સનો મોટાભાગે સક્રિયકરણ કાર્યો તરીકે ઉપયોગ થાય છે:

ફર્મી ફંક્શન (ઘાતાંકીય સિગ્મોઇડ):

તર્કસંગત સિગ્મોઇડ:

હાયપરબોલિક સ્પર્શક:

જ્યાં s એ ન્યુરોન એડરનું આઉટપુટ છે અને એક મનસ્વી સ્થિરાંક છે.

તર્કસંગત સિગ્મોઇડની ગણતરી કરવા માટે અન્ય સિગ્મોઇડ્સની તુલનામાં ઓછામાં ઓછો CPU સમય જરૂરી છે. હાઇપરબોલિક સ્પર્શકની ગણતરી કરવા માટે સૌથી વધુ પ્રોસેસર ચક્રની જરૂર છે. થ્રેશોલ્ડ સક્રિયકરણ કાર્યોની તુલનામાં, સિગ્મોઇડ્સની ગણતરી ખૂબ ધીમેથી કરવામાં આવે છે. જો થ્રેશોલ્ડ ફંક્શનમાં સરવાળો કર્યા પછી તમે તરત જ ચોક્કસ મૂલ્ય (થ્રેશોલ્ડ) સાથે સરખામણી શરૂ કરી શકો છો, તો પછી સિગ્મોઇડ સક્રિયકરણ કાર્યના કિસ્સામાં તમારે સિગ્મોઇડની ગણતરી કરવાની જરૂર છે (સમય પસાર કરવો શ્રેષ્ઠ કેસ દૃશ્યત્રણ કામગીરીમાં: મોડ્યુલ લેવું, ઉમેરવું અને વિભાજન કરવું), અને માત્ર ત્યારે જ તેની થ્રેશોલ્ડ મૂલ્ય સાથે સરખામણી કરો (ઉદાહરણ તરીકે, શૂન્ય). જો આપણે ધારીએ કે પ્રોસેસર દ્વારા લગભગ એક જ સમયે તમામ સરળ કામગીરીની ગણતરી કરવામાં આવે છે, તો સિગ્મોઇડલ એક્ટિવેશન ફંક્શનનું ઑપરેશન સિમેશન (જે તેટલો જ સમય લેશે) પછીના પરિબળ દ્વારા થ્રેશોલ્ડ સક્રિયકરણ કાર્ય કરતાં ધીમું હશે. 1:4.

નેટવર્ક મૂલ્યાંકન કાર્ય

આઉટપુટ સિગ્નલનું જરૂરી મૂલ્ય ક્યાં છે.

અલ્ગોરિધમનું વર્ણન

મલ્ટિલેયર પરસેપ્ટ્રોન આર્કિટેક્ચર

બેકપ્રોપેગેશન એલ્ગોરિધમ મલ્ટિલેયર પરસેપ્ટ્રોન પર લાગુ થાય છે. નેટવર્કમાં ઘણા ઇનપુટ્સ, ઘણા આઉટપુટ અને ઘણા આંતરિક નોડ્સ હોય છે. ચાલો બધા નોડ્સ (ઇનપુટ અને આઉટપુટ સહિત) ને 1 થી N સુધીની સંખ્યાઓ સાથે પુનઃક્રમાંકિત કરીએ (સ્તરોની ટોપોલોજીને ધ્યાનમાં લીધા વિના સતત નંબરિંગ). ચાલો i-th અને j-th નોડને જોડતી ધાર પર ઉભા રહેલા વજન દ્વારા અને i-th નોડના આઉટપુટ દ્વારા સૂચવીએ. જો આપણે તાલીમનું ઉદાહરણ જાણીએ છીએ (નેટવર્કના સાચા જવાબો,), તો ઓછામાં ઓછા ચોરસ પદ્ધતિનો ઉપયોગ કરીને મેળવેલ ભૂલ કાર્ય આના જેવું દેખાય છે:

વજન કેવી રીતે સંશોધિત કરવું? અમે સ્ટોકેસ્ટિક ગ્રેડિયન્ટ ડિસેન્ટ અમલમાં મૂકીશું, એટલે કે, અમે દરેક તાલીમ ઉદાહરણ પછી વજનને સમાયોજિત કરીશું અને આમ, વજનની બહુપરીમાણીય જગ્યામાં "ચલ" કરીશું. ન્યૂનતમ ભૂલને "મેળવવા" માટે, આપણે ઢાળની વિરુદ્ધ દિશામાં "ખસેડવાની" જરૂર છે, એટલે કે, સાચા જવાબોના દરેક જૂથના આધારે, દરેક વજનમાં ઉમેરો.

એક ગુણક ક્યાં છે જે "ચળવળ" ની ગતિને સ્પષ્ટ કરે છે.

વ્યુત્પન્નની ગણતરી નીચે પ્રમાણે કરવામાં આવે છે. પહેલા ચાલો, એટલે કે, જે વજનમાં આપણને રસ છે તે ચેતાકોષમાં દાખલ થાય છેલ્લા સ્તર. પ્રથમ, અમે નોંધીએ છીએ કે તે નેટવર્ક આઉટપુટને માત્ર સરવાળાના ભાગ રૂપે અસર કરે છે, જ્યાં રકમ j-th નોડના ઇનપુટ્સ પર લેવામાં આવે છે. તેથી જ

તેવી જ રીતે, તે માત્ર jth નોડના આઉટપુટની અંદર એકંદર ભૂલને અસર કરે છે (યાદ રાખો કે આ સમગ્ર નેટવર્કનું આઉટપુટ છે). તેથી જ

જો jth નોડ- છેલ્લા સ્તરે નહીં, પછી તે બહાર નીકળે છે; ચાલો તેમને બાળકો(j) દ્વારા સૂચિત કરીએ. આ કિસ્સામાં

, .

ઠીક છે - આ બરાબર સમાન કરેક્શન છે, પરંતુ આગલા સ્તરના નોડ માટે ગણતરી કરવામાં આવે છે, અમે તેને સૂચિત કરીશું - તે ગુણકની ગેરહાજરીમાં અલગ પડે છે. અમે છેલ્લા સ્તરના નોડ્સ માટે કરેક્શનની ગણતરી કરવાનું શીખ્યા હોવાથી અને નોડ માટે કરેક્શનને વધુ વ્યક્ત કરવાનું શીખ્યા છીએ. નીચું સ્તરઉચ્ચ સુધારા દ્વારા, તમે પહેલેથી જ એક અલ્ગોરિધમ લખી શકો છો. સુધારણાની ગણતરી કરવાની આ સુવિધાને કારણે જ અલ્ગોરિધમ કહેવામાં આવે છે બેકપ્રોપગેશન એલ્ગોરિધમ(બેકપ્રોપગેશન). કરેલા કામનો સંક્ષિપ્ત સારાંશ:

છેલ્લા સ્તર નોડ માટે

આંતરિક નેટવર્ક નોડ માટે

બધા ગાંઠો માટે

પરિણામી અલ્ગોરિધમ નીચે પ્રસ્તુત છે. અલ્ગોરિધમના ઇનપુટ તરીકે, ઉલ્લેખિત પરિમાણો ઉપરાંત, નેટવર્ક માળખું કેટલાક ફોર્મેટમાં સબમિટ કરવું પણ જરૂરી છે. વ્યવહારમાં, એકદમ સરળ માળખાના નેટવર્ક દ્વારા ખૂબ જ સારા પરિણામો બતાવવામાં આવે છે, જેમાં બે સ્તરના ચેતાકોષોનો સમાવેશ થાય છે - એક છુપાયેલ સ્તર (છુપાયેલા એકમો) અને આઉટપુટ ન્યુરોન્સ (આઉટપુટ એકમો); નેટવર્કનું દરેક ઇનપુટ બધા છુપાયેલા ચેતાકોષો સાથે જોડાયેલ છે, અને દરેક છુપાયેલા ચેતાકોષના કાર્યનું પરિણામ દરેક આઉટપુટ ચેતાકોષના ઇનપુટને આપવામાં આવે છે. આ કિસ્સામાં, છુપાયેલા સ્તરના ચેતાકોષોની સંખ્યાને ઇનપુટ કરવા માટે તે પૂરતું છે.

અલ્ગોરિધમ

અલ્ગોરિધમ: બેકપ્રોપગેશન

ઉદ્દેશ્ય કાર્યની સપાટી સાથે આગળ વધતી વખતે તીક્ષ્ણ કૂદકાને સરળ બનાવવા માટે જડતા ગુણાંક ક્યાં છે

ન્યુરલ નેટવર્ક તાલીમનું ગાણિતિક અર્થઘટન

બેકપ્રોપેગેશન એલ્ગોરિધમના દરેક પુનરાવર્તન પર, એક ઉદાહરણના ઉકેલને સુધારવા માટે ન્યુરલ નેટવર્કના વજનમાં ફેરફાર કરવામાં આવે છે. આમ, શીખવાની પ્રક્રિયા દરમિયાન, સિંગલ-માપદંડ ઑપ્ટિમાઇઝેશન સમસ્યાઓ ચક્રીય રીતે હલ થાય છે.

ન્યુરલ નેટવર્ક તાલીમ ચાર વિશિષ્ટ મર્યાદાઓ દ્વારા વર્ગીકૃત થયેલ છે જે ન્યુરલ નેટવર્ક તાલીમને અલગ પાડે છે: સામાન્ય કાર્યોઑપ્ટિમાઇઝેશન: પરિમાણોની ખગોળીય સંખ્યા, તાલીમ દરમિયાન ઉચ્ચ સમાનતાની જરૂરિયાત, હલ કરવામાં આવતી સમસ્યાઓની બહુ-માપદંડની પ્રકૃતિ, એકદમ વિશાળ વિસ્તાર શોધવાની જરૂરિયાત જેમાં તમામ ન્યૂનતમ કાર્યોના મૂલ્યો ન્યૂનતમની નજીક હોય. નહિંતર, શીખવાની સમસ્યાને સામાન્ય રીતે સ્કોર ઘટાડવાની સમસ્યા તરીકે ઘડી શકાય છે. અગાઉના વાક્ય ("સામાન્ય રીતે") માં સાવચેતી એ હકીકતને કારણે છે કે હકીકતમાં આપણે ન્યુરલ નેટવર્ક્સ માટેના તમામ સંભવિત કાર્યોને જાણતા નથી અને ક્યારેય જાણતા નથી, અને કદાચ અજાણ્યામાં ક્યાંક એવા કાર્યો છે જે ઘટાડવા માટે અફર છે. અંદાજ લઘુત્તમ મૂલ્યાંકન - જટિલ સમસ્યા: ત્યાં ખગોળશાસ્ત્રીય રીતે ઘણા પરિમાણો છે (માટે પ્રમાણભૂત ઉદાહરણો, PC પર લાગુ - 100 થી 1,000,000 સુધી), અનુકૂલનશીલ રાહત (એડજસ્ટેબલ પરિમાણોના કાર્ય તરીકે અંદાજ ગ્રાફ) જટિલ છે અને તેમાં ઘણા સ્થાનિક મિનિમા હોઈ શકે છે.

અલ્ગોરિધમનો ગેરફાયદા

બેકપ્રોપગેશનની અસંખ્ય સફળ એપ્લિકેશનો હોવા છતાં, તે એક રામબાણ ઉપાય નથી. જે સૌથી વધુ મુશ્કેલી લાવે છે તે અનિશ્ચિતપણે લાંબી શીખવાની પ્રક્રિયા છે. જટિલ સમસ્યાઓમાં, નેટવર્કને તાલીમ આપવામાં દિવસો અથવા તો અઠવાડિયા લાગી શકે છે, અથવા તે બિલકુલ શીખી શકશે નહીં. કારણ નીચે વર્ણવેલ તેમાંથી એક હોઈ શકે છે.

નેટવર્ક લકવો

નેટવર્ક તાલીમ પ્રક્રિયા દરમિયાન, કરેક્શનના પરિણામે વજનના મૂલ્યો ખૂબ મોટા થઈ શકે છે. આના પરિણામે તમામ અથવા મોટાભાગના ચેતાકોષો ખૂબ મોટા OUT મૂલ્યો પર કાર્ય કરી શકે છે, એવા પ્રદેશમાં જ્યાં સંકોચન કાર્યનું વ્યુત્પન્ન ખૂબ નાનું છે. શીખવાની પ્રક્રિયા દરમિયાન પાછી મોકલવામાં આવેલી ભૂલ આ વ્યુત્પન્નના પ્રમાણસર હોવાથી, શીખવાની પ્રક્રિયા વ્યવહારીક રીતે સ્થિર થઈ શકે છે. સૈદ્ધાંતિક દ્રષ્ટિકોણથી, આ સમસ્યા નબળી રીતે સમજી શકાય છે. આ સામાન્ય રીતે સ્ટેપ સાઈઝ η ને ઘટાડીને ટાળવામાં આવે છે, પરંતુ આ તાલીમનો સમય વધારે છે. લકવો અટકાવવા અથવા પુનઃપ્રાપ્ત કરવા માટે વિવિધ હ્યુરિસ્ટિક્સનો ઉપયોગ કરવામાં આવ્યો છે, પરંતુ હાલમાં તે માત્ર પ્રાયોગિક ગણી શકાય.

સ્થાનિક મિનિમા

બેકપ્રોપેગેશન ગ્રેડિએન્ટ ડિસેન્ટના સ્વરૂપનો ઉપયોગ કરે છે, એટલે કે, તે ભૂલની સપાટીથી નીચે ઉતરે છે, સતત ન્યૂનતમ તરફ વજનને સમાયોજિત કરે છે. જટિલ નેટવર્કની ભૂલ સપાટી ખૂબ જ કઠોર હોય છે અને તેમાં ટેકરીઓ, ખીણો, ફોલ્ડ્સ અને ઉચ્ચ-પરિમાણીય જગ્યામાં કોતરોનો સમાવેશ થાય છે. નેટવર્ક સ્થાનિક લઘુત્તમ (છીછરી ખીણ) માં આવી શકે છે જ્યારે નજીકમાં ન્યૂનતમ વધુ ઊંડું હોય. સ્થાનિક લઘુત્તમ બિંદુ પર, બધી દિશાઓ ઉપર તરફ નિર્દેશ કરે છે, અને નેટવર્ક તેમાંથી છટકી શકતું નથી. ન્યુરલ નેટવર્કને તાલીમ આપવામાં મુખ્ય મુશ્કેલી એ સ્થાનિક મિનિમાથી બચવાની ચોક્કસ પદ્ધતિઓ છે: દરેક વખતે સ્થાનિક લઘુત્તમ છોડતી વખતે, આગલા સ્થાનિક લઘુત્તમને ફરીથી એ જ ભૂલ બેકપ્રોપેગેશન પદ્ધતિનો ઉપયોગ કરવા માટે ફરીથી શોધવામાં આવે છે જ્યાં સુધી તેમાંથી બહાર નીકળવાનો માર્ગ શોધવાનું હવે શક્ય ન બને. તે

પગલું કદ

કન્વર્જન્સ પ્રૂફની સાવચેતીપૂર્વકની તપાસ બતાવે છે કે વજનમાં સુધારાઓ અસંખ્ય હોવાનું માનવામાં આવે છે. તે સ્પષ્ટ છે કે આ વ્યવહારમાં શક્ય નથી, કારણ કે તે અનંત શીખવાના સમય તરફ દોરી જાય છે. પગલાનું કદ મર્યાદિત તરીકે લેવું જોઈએ. જો સ્ટેપનું કદ નિશ્ચિત અને ખૂબ નાનું હોય, તો કન્વર્જન્સ ખૂબ ધીમું હોય છે, પરંતુ જો તે નિશ્ચિત અને ખૂબ મોટું હોય, તો લકવો અથવા સતત અસ્થિરતા આવી શકે છે. એન્ટિગ્રેડિયન્ટની આપેલ દિશામાં અંદાજમાં સુધારો અટકે ત્યાં સુધી પગલું વધારવું અને જો આવો સુધારો ન થાય તો તેને ઘટાડવું અસરકારક છે. P. D. Wasserman એ અનુકૂલનશીલ સ્ટેપ સિલેક્શન અલ્ગોરિધમનું વર્ણન કર્યું છે જે શીખવાની પ્રક્રિયા દરમિયાન સ્ટેપ સાઈઝને આપમેળે સમાયોજિત કરે છે. એ.એન. ગોર્બનનું પુસ્તક શિક્ષણને ઑપ્ટિમાઇઝ કરવા માટે એક વ્યાપક તકનીકની દરખાસ્ત કરે છે.

એ પણ નોંધવું જોઈએ કે નેટવર્કને ફરીથી પ્રશિક્ષિત કરી શકાય છે, જે મોટે ભાગે તેની ટોપોલોજીની ખોટી ડિઝાઇનનું પરિણામ છે. ઘણા બધા ચેતાકોષો સાથે, નેટવર્કની માહિતીનું સામાન્યીકરણ કરવાની ક્ષમતા ખોવાઈ જાય છે. તાલીમ માટે પૂરી પાડવામાં આવેલ છબીઓનો સંપૂર્ણ સેટ નેટવર્ક દ્વારા શીખવામાં આવશે, પરંતુ કોઈપણ અન્ય છબીઓ, ખૂબ સમાન હોય, પણ ખોટી રીતે વર્ગીકૃત થઈ શકે છે.

પણ જુઓ

સ્પીડ ગ્રેડિયન્ટ અલ્ગોરિધમ

સાહિત્ય

વાસરમેન એફ.ન્યુરોકોમ્પ્યુટિંગ: થિયરી અને પ્રેક્ટિસ. - એમ.: "મીર", 1992.
ખાકિન એસ.ન્યુરલ નેટવર્ક્સ: સંપૂર્ણ અભ્યાસક્રમ. પ્રતિ. અંગ્રેજીમાંથી એન. એન. કુસુલ, એ. યુ. શેલેસ્ટોવા. 2જી આવૃત્તિ., રેવ. - એમ.: પબ્લિશિંગ હાઉસવિલિયમ્સ, 2008, 1103 પૃષ્ઠ.

લિંક્સ

કોપોસોવ A. I., Shcherbakov I. B., Kislenko N. A., Kislenko O. P., Varivoda Yu. et al.. - એમ.: VNIIGAZ, 1995.

સિગ્મોઇડ સક્રિયકરણ કાર્યો

ફર્મી ફંક્શન (ઘાતાંકીય સિગ્મોઇડ):

તર્કસંગત સિગ્મોઇડ:

હાયપરબોલિક સ્પર્શક:

જ્યાં s એ ન્યુરોન એડરનું આઉટપુટ છે અને એક મનસ્વી સ્થિરાંક છે.

અન્ય સિગ્મોઇડ્સની તુલનામાં તર્કસંગત સિગ્મોઇડની ગણતરી માટે ઓછામાં ઓછો CPU સમય જરૂરી છે. હાઇપરબોલિક સ્પર્શકની ગણતરી કરવા માટે સૌથી વધુ પ્રોસેસર ચક્રની જરૂર છે. થ્રેશોલ્ડ સક્રિયકરણ કાર્યોની તુલનામાં, સિગ્મોઇડ્સની ગણતરી ખૂબ ધીમેથી કરવામાં આવે છે. જો, થ્રેશોલ્ડ ફંક્શનમાં સરવાળો કર્યા પછી, તમે તરત જ ચોક્કસ મૂલ્ય (થ્રેશોલ્ડ) સાથે સરખામણી શરૂ કરી શકો છો, તો પછી સિગ્મોઇડ સક્રિયકરણ કાર્યના કિસ્સામાં તમારે સિગ્મોઇડની ગણતરી કરવાની જરૂર છે (સમય વિતાવવો, શ્રેષ્ઠ રીતે, ત્રણ કામગીરી પર: લેવું મોડ્યુલ, ઉમેરવું અને વિભાજન કરવું), અને માત્ર ત્યારે જ થ્રેશોલ્ડ મૂલ્ય સાથે સરખામણી કરવી (ઉદાહરણ તરીકે, શૂન્ય). જો આપણે ધારીએ કે પ્રોસેસર દ્વારા લગભગ એક જ સમયે તમામ સરળ કામગીરીની ગણતરી કરવામાં આવે છે, તો સિગ્મોઇડલ એક્ટિવેશન ફંક્શનનું ઑપરેશન સિમેશન (જે તેટલો જ સમય લેશે) પછીના પરિબળ દ્વારા થ્રેશોલ્ડ સક્રિયકરણ કાર્ય કરતાં ધીમું હશે. 1:4.

નેટવર્ક મૂલ્યાંકન કાર્ય

આઉટપુટ સિગ્નલનું જરૂરી મૂલ્ય ક્યાં છે.

અલ્ગોરિધમનું વર્ણન

મલ્ટિલેયર પરસેપ્ટ્રોન આર્કિટેક્ચર

એક ગુણક ક્યાં છે જે "ચળવળ" ની ગતિને સ્પષ્ટ કરે છે.

વ્યુત્પન્નની ગણતરી નીચે પ્રમાણે કરવામાં આવે છે. ચાલો પહેલા, એટલે કે, આપણને જે વજનમાં રસ છે, તે છેલ્લા સ્તરના ચેતાકોષમાં દાખલ કરો. પ્રથમ, અમે નોંધીએ છીએ કે તે નેટવર્ક આઉટપુટને માત્ર સરવાળાના ભાગ રૂપે અસર કરે છે, જ્યાં રકમ j-th નોડના ઇનપુટ્સ પર લેવામાં આવે છે. તેથી જ

જો j-th નોડ છેલ્લા સ્તર પર નથી, તો તે આઉટપુટ ધરાવે છે; ચાલો તેમને બાળકો(j) દ્વારા સૂચિત કરીએ. આ કિસ્સામાં

, .

ઠીક છે - આ બરાબર સમાન કરેક્શન છે, પરંતુ આગલા સ્તરના નોડ માટે ગણતરી કરવામાં આવે છે, અમે તેને સૂચિત કરીશું - તે ગુણકની ગેરહાજરીમાં અલગ પડે છે. અમે છેલ્લા સ્તરના નોડ માટે કરેક્શનની ગણતરી કરવાનું શીખ્યા હોવાથી અને નીચલા સ્તરના નોડ માટે ઉચ્ચ સ્તરના સુધારા દ્વારા કરેક્શન વ્યક્ત કરવાનું શીખ્યા હોવાથી, અમે પહેલેથી જ એક અલ્ગોરિધમ લખી શકીએ છીએ. સુધારણાની ગણતરી કરવાની આ સુવિધાને કારણે જ અલ્ગોરિધમ કહેવામાં આવે છે બેકપ્રોપગેશન એલ્ગોરિધમ(બેકપ્રોપગેશન). કરેલા કામનો સંક્ષિપ્ત સારાંશ:

છેલ્લા સ્તર નોડ માટે

આંતરિક નેટવર્ક નોડ માટે

બધા ગાંઠો માટે

અલ્ગોરિધમ

અલ્ગોરિધમ: બેકપ્રોપગેશન

ન્યુરલ નેટવર્ક તાલીમનું ગાણિતિક અર્થઘટન

ન્યુરલ નેટવર્ક તાલીમ ચાર વિશિષ્ટ મર્યાદાઓ દ્વારા વર્ગીકૃત થયેલ છે જે સામાન્ય ઑપ્ટિમાઇઝેશન સમસ્યાઓથી ન્યુરલ નેટવર્ક તાલીમને અલગ પાડે છે: પરિમાણોની એક ખગોળીય સંખ્યા, તાલીમ દરમિયાન ઉચ્ચ સમાનતાની જરૂરિયાત, હલ કરવામાં આવી રહેલી સમસ્યાઓના બહુ-માપદંડની પ્રકૃતિ, અને શોધવાની જરૂરિયાત. પૂરતો પહોળો વિસ્તાર કે જેમાં તમામ ન્યૂનતમ કાર્યોના મૂલ્યો ન્યૂનતમની નજીક છે. નહિંતર, શીખવાની સમસ્યાને સામાન્ય રીતે સ્કોર ઘટાડવાની સમસ્યા તરીકે ઘડી શકાય છે. અગાઉના વાક્ય ("સામાન્ય રીતે") માં સાવચેતી એ હકીકતને કારણે છે કે હકીકતમાં આપણે ન્યુરલ નેટવર્ક્સ માટેના તમામ સંભવિત કાર્યોને જાણતા નથી અને ક્યારેય જાણતા નથી, અને કદાચ અજાણ્યામાં ક્યાંક એવા કાર્યો છે જે ઘટાડવા માટે અફર છે. અંદાજ અંદાજને ઓછો કરવો એ એક જટિલ સમસ્યા છે: ત્યાં પરિમાણોની ખગોળીય સંખ્યા છે (PC પર અમલમાં મૂકાયેલા પ્રમાણભૂત ઉદાહરણો માટે - 100 થી 1,000,000 સુધી), અનુકૂલનશીલ રાહત (વ્યવસ્થિત પરિમાણોના કાર્ય તરીકે મૂલ્યાંકન ગ્રાફ) જટિલ છે અને તેમાં સમાવિષ્ટ હોઈ શકે છે. ઘણા સ્થાનિક મિનિમા.

અલ્ગોરિધમનો ગેરફાયદા

નેટવર્ક લકવો

સ્થાનિક મિનિમા

બેકપ્રોપેગેશન ગ્રેડિએન્ટ ડિસેન્ટના સ્વરૂપનો ઉપયોગ કરે છે, એટલે કે, તે ભૂલની સપાટીથી નીચે ઉતરે છે, સતત ન્યૂનતમ તરફ વજનને સમાયોજિત કરે છે. જટિલ નેટવર્કની ભૂલ સપાટી ખૂબ જ કઠોર હોય છે અને તેમાં ટેકરીઓ, ખીણો, ફોલ્ડ્સ અને ઉચ્ચ-પરિમાણીય જગ્યામાં કોતરોનો સમાવેશ થાય છે. નેટવર્ક સ્થાનિક લઘુત્તમ (છીછરી ખીણ) માં આવી શકે છે જ્યારે નજીકમાં ન્યૂનતમ વધુ ઊંડું હોય. સ્થાનિક લઘુત્તમ બિંદુ પર, બધી દિશાઓ ઉપર તરફ નિર્દેશ કરે છે, અને નેટવર્ક તેમાંથી છટકી શકતું નથી. ન્યુરલ નેટવર્કને તાલીમ આપવામાં મુખ્ય મુશ્કેલી એ સ્થાનિક મિનિમાથી બચવાની ચોક્કસ પદ્ધતિઓ છે: દરેક વખતે સ્થાનિક લઘુત્તમ છોડતી વખતે, આગલા સ્થાનિક લઘુત્તમને ફરીથી એ જ ભૂલ બેકપ્રોપેગેશન પદ્ધતિનો ઉપયોગ કરવા માટે ફરીથી શોધવામાં આવે છે જ્યાં સુધી તેમાંથી બહાર નીકળવાનો માર્ગ શોધવાનું હવે શક્ય ન બને. તે

પગલું કદ

કન્વર્જન્સ પ્રૂફની સાવચેતીપૂર્વકની તપાસ બતાવે છે કે વજનમાં સુધારાઓ અસંખ્ય હોવાનું માનવામાં આવે છે. તે સ્પષ્ટ છે કે આ વ્યવહારમાં શક્ય નથી, કારણ કે તે અનંત શીખવાના સમય તરફ દોરી જાય છે. પગલાનું કદ મર્યાદિત તરીકે લેવું જોઈએ. જો સ્ટેપનું કદ નિશ્ચિત અને ખૂબ નાનું હોય, તો કન્વર્જન્સ ખૂબ ધીમું હોય છે, પરંતુ જો તે નિશ્ચિત અને ખૂબ મોટું હોય, તો લકવો અથવા સતત અસ્થિરતા આવી શકે છે. એન્ટિગ્રેડિયન્ટની આપેલ દિશામાં અંદાજમાં સુધારો અટકે ત્યાં સુધી પગલું વધારવું અને જો આવો સુધારો ન થાય તો તેને ઘટાડવું અસરકારક છે. P. D. Wasserman એ અનુકૂલનશીલ સ્ટેપ સિલેક્શન અલ્ગોરિધમનું વર્ણન કર્યું છે જે શીખવાની પ્રક્રિયા દરમિયાન સ્ટેપ સાઈઝને આપમેળે સમાયોજિત કરે છે. એ.એન. ગોર્બનનું પુસ્તક શિક્ષણને ઑપ્ટિમાઇઝ કરવા માટે એક વ્યાપક તકનીકની દરખાસ્ત કરે છે.

પણ જુઓ

સ્પીડ ગ્રેડિયન્ટ અલ્ગોરિધમ

સાહિત્ય

વાસરમેન એફ.ન્યુરોકોમ્પ્યુટિંગ: થિયરી અને પ્રેક્ટિસ. - એમ.: "મીર", 1992.
ખાકિન એસ.ન્યુરલ નેટવર્ક્સ: કોર્સ પૂર્ણ કરો. પ્રતિ. અંગ્રેજીમાંથી એન. એન. કુસુલ, એ. યુ. શેલેસ્ટોવા. 2જી આવૃત્તિ., રેવ. - એમ.: વિલિયમ્સ પબ્લિશિંગ હાઉસ, 2008, 1103 પૃ.

લિંક્સ

કોપોસોવ A. I., Shcherbakov I. B., Kislenko N. A., Kislenko O. P., Varivoda Yu. et al.. - એમ.: VNIIGAZ, 1995.

બેકપ્રોપેગેશન એલ્ગોરિધમ એ મલ્ટિલેયર ફીડફોરવર્ડ ન્યુરલ નેટવર્કને તાલીમ આપવા માટેની એક પદ્ધતિ છે, જેને મલ્ટિલેયર પરસેપ્ટ્રોન પણ કહેવાય છે. ઘણી જટિલ સમસ્યાઓ ઉકેલવા માટે મલ્ટિલેયર પરસેપ્ટરોનનો સફળતાપૂર્વક ઉપયોગ કરવામાં આવ્યો છે.

બેકપ્રોપેગેશન અલ્ગોરિધમ સાથેની તાલીમમાં નેટવર્કના તમામ સ્તરોમાંથી બે પાસનો સમાવેશ થાય છે: આગળ અને પાછળ. ફોરવર્ડ પાસમાં, ઇનપુટ વેક્ટરને ન્યુરલ નેટવર્કના ઇનપુટ સ્તરને ખવડાવવામાં આવે છે, અને પછી નેટવર્ક દ્વારા સ્તરથી સ્તર સુધી પ્રસારિત થાય છે. પરિણામે, આઉટપુટ સિગ્નલોનો સમૂહ જનરેટ થાય છે, જે આપેલ ઇનપુટ ઈમેજ માટે નેટવર્કનો વાસ્તવિક પ્રતિભાવ છે. ફોરવર્ડ પાસ દરમિયાન, નેટવર્કના તમામ સિનેપ્ટિક વજન નિશ્ચિત છે. બેકવર્ડ પાસ દરમિયાન, તમામ સિનેપ્ટિક વજન ભૂલ સુધારણા નિયમ અનુસાર ગોઠવવામાં આવે છે, એટલે કે: નેટવર્કનું વાસ્તવિક આઉટપુટ ઇચ્છિત આઉટપુટમાંથી બાદ કરવામાં આવે છે, પરિણામે ભૂલ સંકેત આવે છે. આ સિગ્નલ પછીથી સમગ્ર નેટવર્કમાં સિનેપ્ટિક કનેક્શન્સની દિશાની વિરુદ્ધ દિશામાં પ્રચાર કરે છે. તેથી નામ - બેકપ્રોપગેશન એલ્ગોરિધમ. નેટવર્ક આઉટપુટને ઇચ્છિત એકની શક્ય તેટલી નજીક લાવવા માટે સિનેપ્ટિક વજન ગોઠવવામાં આવે છે.

ચાલો એલ્ગોરિધમના ઓપરેશનને વધુ વિગતવાર ધ્યાનમાં લઈએ. ચાલો કહીએ કે તમારે બેકપ્રોપેગેશન અલ્ગોરિધમનો ઉપયોગ કરીને નીચેના ન્યુરલ નેટવર્કને તાલીમ આપવાની જરૂર છે:

આકૃતિમાં નીચેના ચિહ્નોનો ઉપયોગ કરવામાં આવ્યો છે:

મલ્ટિલેયર પરસેપ્ટ્રોન્સમાં સક્રિયકરણ કાર્ય તરીકે, એક નિયમ તરીકે, સિગ્મોઇડ સક્રિયકરણ કાર્યનો ઉપયોગ થાય છે, ખાસ કરીને લોજિસ્ટિક:

સિગ્મોઇડલ ફંક્શનનું સ્લોપ પેરામીટર ક્યાં છે. આ પરિમાણ બદલીને, તમે વિવિધ ઢોળાવ સાથે કાર્યો બનાવી શકો છો. ચાલો આરક્ષણ કરીએ કે બધી અનુગામી દલીલો માટે અમે ચોક્કસ રીતે લોજિસ્ટિક એક્ટિવેશન ફંક્શનનો ઉપયોગ કરીશું, જે ફક્ત ઉપરના સૂત્ર દ્વારા રજૂ થાય છે.

સિગ્મોઇડ વિવિધતાની શ્રેણીને સાંકડી કરે છે જેથી મૂલ્ય શૂન્ય અને એકની વચ્ચે રહે. મલ્ટિલેયર ન્યુરલ નેટવર્ક્સમાં સિંગલ-લેયર ન્યુરલ નેટવર્ક્સ કરતાં માત્ર બિનરેખીયતાની હાજરીમાં જ વધુ પ્રતિનિધિત્વ શક્તિ હોય છે. કમ્પ્રેશન ફંક્શન જરૂરી બિનરેખીયતા પ્રદાન કરે છે. વાસ્તવમાં ત્યાં ઘણા કાર્યો છે જેનો ઉપયોગ કરી શકાય છે. બેકપ્રોપેગેશન એલ્ગોરિધમ માત્ર જરૂરી છે કે ફંક્શન દરેક જગ્યાએ અલગ કરી શકાય તેવું હોય. સિગ્મોઇડ આ જરૂરિયાતને સંતોષે છે. તેમાં ઓટોમેટિક ગેઈન કંટ્રોલનો વધારાનો ફાયદો છે. નબળા સંકેતો માટે (એટલે કે જ્યારે શૂન્યની નજીક હોય ત્યારે) ઇનપુટ-આઉટપુટ વળાંક મજબૂત ઢોળાવ ધરાવે છે, જે મોટો ફાયદો આપે છે. જેમ જેમ સિગ્નલની તીવ્રતા વધે છે તેમ તેમ લાભ ઘટતો જાય છે. આ રીતે, નેટવર્ક દ્વારા સંતૃપ્તિ વિના મોટા સિગ્નલો સ્વીકારવામાં આવે છે, અને નાના સિગ્નલો વધુ પડતા એટેન્યુએશન વિના નેટવર્કમાંથી પસાર થાય છે.

નેટવર્ક તાલીમનો હેતુબેકપ્રોપેગેશન એલ્ગોરિધમ એ તેના વજનનું ગોઠવણ છે જેમ કે ઇનપુટ્સના ચોક્કસ સેટનો ઉપયોગ આઉટપુટના જરૂરી સમૂહ તરફ દોરી જાય છે. સંક્ષિપ્તતા માટે, ઇનપુટ્સ અને આઉટપુટના આ સેટને વેક્ટર કહેવામાં આવશે. તાલીમ દરમિયાન, એવું માનવામાં આવે છે કે દરેક ઇનપુટ વેક્ટર માટે તેની સાથે એક લક્ષ્ય વેક્ટર જોડાયેલ છે, જે જરૂરી આઉટપુટને સ્પષ્ટ કરે છે. એકસાથે તેઓને તાલીમ જોડી કહેવામાં આવે છે. નેટવર્ક ઘણા જોડીઓ પર પ્રશિક્ષિત છે.

આગળ:

નાના રેન્ડમ મૂલ્યો સાથે સિનેપ્ટિક વજનનો પ્રારંભ કરો.
તાલીમ સમૂહમાંથી આગલી તાલીમ જોડી પસંદ કરો; નેટવર્ક ઇનપુટ પર ઇનપુટ વેક્ટર સબમિટ કરો.
નેટવર્ક આઉટપુટની ગણતરી કરો.
નેટવર્ક આઉટપુટ અને જરૂરી આઉટપુટ (તાલીમ જોડીનું લક્ષ્ય વેક્ટર) વચ્ચેના તફાવતની ગણતરી કરો.
ભૂલ ઘટાડવા માટે નેટવર્ક વજનને સમાયોજિત કરો (નીચે જુઓ).
જ્યાં સુધી સમગ્ર સેટ પરની ભૂલ સ્વીકાર્ય સ્તર સુધી ન પહોંચે ત્યાં સુધી તાલીમ સેટના દરેક વેક્ટર માટે પગલાં 2 થી 5 પુનરાવર્તન કરો.

પગલાં 2 અને 3 દ્વારા કરવામાં આવતી કામગીરી જ્યારે નેટવર્ક પહેલેથી જ પ્રશિક્ષિત હોય ત્યારે કરવામાં આવતી કામગીરી જેવી જ હોય છે, એટલે કે. ઇનપુટ વેક્ટર આપવામાં આવે છે અને પરિણામી આઉટપુટની ગણતરી કરવામાં આવે છે. ગણતરીઓ સ્તર દ્વારા કરવામાં આવે છે. ફિગ માં. 1, સ્તરના ચેતાકોષોના આઉટપુટની પ્રથમ ગણતરી કરવામાં આવે છે (સ્તર એ ઇનપુટ છે, જેનો અર્થ છે કે તેમાં કોઈ ગણતરી થતી નથી), પછી તેનો ઉપયોગ સ્તરના ઇનપુટ તરીકે થાય છે, સ્તરના ન્યુરોન્સના આઉટપુટની ગણતરી કરવામાં આવે છે. , જે નેટવર્કનું આઉટપુટ વેક્ટર બનાવે છે. સ્ટેપ્સ 2 અને 3 કહેવાતા "ફોરવર્ડ પાસ" બનાવે છે કારણ કે સિગ્નલ નેટવર્ક દ્વારા ઇનપુટથી આઉટપુટ સુધી પ્રસારિત થાય છે.

પગલાં 4 અને 5 એ "બેકપાસ" ની રચના કરે છે, જ્યાં ગણતરી કરેલ ભૂલ સિગ્નલ નેટવર્ક દ્વારા પાછા પ્રસારિત થાય છે અને વજનને સમાયોજિત કરવા માટે વપરાય છે.

ચાલો પગલું 5 પર નજીકથી નજર કરીએ - નેટવર્ક વજનને સમાયોજિત કરવું. નીચે વર્ણવેલ બે કિસ્સાઓ અહીં પ્રકાશિત કરવા જોઈએ.

કેસ 1. આઉટપુટ લેયરના સિનેપ્ટિક વજનનું ગોઠવણ

ઉદાહરણ તરીકે, ફિગમાં ન્યુરલ નેટવર્ક મોડેલ માટે. 1, આ નીચેના હોદ્દો ધરાવતા વજન હશે: અને . ચાલો આપણે નક્કી કરીએ કે અનુક્રમણિકા એ ચેતાકોષને સૂચવે છે જેમાંથી સિનેપ્ટિક વજન બહાર આવે છે, અને ચેતાકોષ જેમાં તે પ્રવેશ કરે છે:

ચાલો આપણે મૂલ્ય રજૂ કરીએ, જે જરૂરી અને વાસ્તવિક આઉટપુટ વચ્ચેના તફાવતની બરાબર છે, જે લોજિસ્ટિક સક્રિયકરણ કાર્યના વ્યુત્પન્ન દ્વારા ગુણાકાર કરવામાં આવે છે (ઉપર લોજિસ્ટિક સક્રિયકરણ કાર્યનું સૂત્ર જુઓ):

પછી, કરેક્શન પછી આઉટપુટ લેયરનું વજન બરાબર હશે:

અહીં સિનેપ્ટિક વજન માટે ગણતરીઓનું ઉદાહરણ છે:

કેસ 2. છુપાયેલા સ્તરના સિનેપ્ટિક વજનનું ગોઠવણ

ફિગમાં ન્યુરલ નેટવર્ક મોડેલ માટે. 1, આ સ્તરોને અનુરૂપ વજન હશે અને . ચાલો આપણે નક્કી કરીએ કે અનુક્રમણિકા એ ચેતાકોષને સૂચવે છે જેમાંથી સિનેપ્ટિક વજન બહાર આવે છે, અને ચેતાકોષ જેમાં તે પ્રવેશે છે (નવા ચલના દેખાવની નોંધ લો).

મલ્ટિલેયર ન્યુરલ નેટવર્ક્સમાં, છેલ્લા એક સિવાયના તમામ સ્તરોના ન્યુરોન્સના શ્રેષ્ઠ આઉટપુટ મૂલ્યો, એક નિયમ તરીકે, અજાણ્યા છે, ત્રણ- અથવા વધુ-સ્તરવાળા પરસેપ્ટ્રોનને હવે તાલીમ આપી શકાતી નથી, ફક્ત ભૂલ મૂલ્યો દ્વારા માર્ગદર્શન આપવામાં આવે છે નેટવર્ક આઉટપુટ પર

આ સમસ્યાને ઉકેલવા માટેનો એક વિકલ્પ એ છે કે ન્યુરલ નેટવર્કના દરેક સ્તર માટેના ઇનપુટ સિગ્નલોને અનુરૂપ આઉટપુટ સિગ્નલોનો સેટ વિકસાવવો, જે, અલબત્ત, ખૂબ જ શ્રમ-સઘન કામગીરી છે અને તે હંમેશા શક્ય નથી ચેતોપાગમના વજનના ગુણાંકને ગતિશીલ રીતે સમાયોજિત કરવા માટે, જે દરમિયાન, નિયમ તરીકે, તેઓ સૌથી વધુ પસંદ કરવામાં આવે છે નબળા સંબંધોઅને એક અથવા બીજી દિશામાં થોડી માત્રામાં ફેરફાર, અને ફક્ત તે જ ફેરફારો સાચવવામાં આવે છે જે સમગ્ર નેટવર્કના આઉટપુટમાં ભૂલમાં ઘટાડો તરફ દોરી જાય છે. આ પદ્ધતિ, છતાં

દેખીતી સરળતા, બોજારૂપ નિયમિત ગણતરીઓ જરૂરી છે અને અંતે, ત્રીજો, વધુ સ્વીકાર્ય વિકલ્પ એ છે કે ન્યુરલ નેટવર્કના આઉટપુટથી તેના ઇનપુટ સુધી, આ શિક્ષણમાં સિગ્નલોના સીધા પ્રચારની વિરુદ્ધ દિશામાં અલ્ગોરિધમને બેકપ્રોપગેશન પ્રક્રિયા કહેવામાં આવે છે (ભૂલ પાછા પ્રચાર) તે તે છે જેની નીચે ચર્ચા કરવામાં આવી છે

બેકપ્રોપેગેશન એલ્ગોરિધમ એ પુનરાવર્તિત ગ્રેડિયન્ટ લર્નિંગ અલ્ગોરિધમ છે જેનો ઉપયોગ ઘટાડવા માટે થાય છે પ્રમાણભૂત વિચલનસીરીયલ કનેક્શન સાથે મલ્ટિલેયર ન્યુરલ નેટવર્કના જરૂરી આઉટપુટમાંથી વર્તમાન

ન્યૂનતમ ચોરસ પદ્ધતિ અનુસાર, ન્યુરલ નેટવર્કનું લક્ષ્ય ભૂલ કાર્ય જે ન્યૂનતમ કરવું છે તે મૂલ્ય છે

ન્યુરલ નેટવર્કના આઉટપુટ લેયર પર ચેતાકોષની વાસ્તવિક આઉટપુટ સ્થિતિ ક્યાં હોય છે જ્યારે કોઈ ઈમેજને તેના ઇનપુટ્સ પર ખવડાવવામાં આવે છે, ત્યારે આ ન્યુરોનની આવશ્યક આઉટપુટ સ્થિતિ

આઉટપુટ લેયરના તમામ ચેતાકોષો પર અને ગ્રેડિયન્ટ ડિસેન્ટ મેથડનો ઉપયોગ કરીને મિનિમાઇઝેશનની પ્રક્રિયા નીચે પ્રમાણે કરવામાં આવે છે

લેયર ન્યુરોન સાથે લેયર ન્યુરોનને જોડતા સિનેપ્ટીક કનેક્શનનું વેઇટીંગ ગુણાંક ક્યાં છે - શીખવાની દર ગુણાંક,

જટિલ કાર્યોના ભિન્નતાના નિયમ અનુસાર

ચેતાકોષના ઇનપુટ સિગ્નલો અને સક્રિયકરણ કાર્યની દલીલનો ભારાંક ક્યાં છે કારણ કે સક્રિયકરણ કાર્યનું વ્યુત્પન્ન સમગ્ર એબ્સીસા અક્ષ પર નિર્ધારિત હોવું આવશ્યક છે, એકમ જમ્પ કાર્ય અને અસંગતતાવાળા અન્ય સક્રિયકરણ કાર્યો માટે યોગ્ય નથી. વિચારણા હેઠળના ન્યુરલ નેટવર્ક તેઓ નીચેનાનો ઉપયોગ કરે છે સરળ કાર્યો, કેવી રીતે હાયપરબોલિક સ્પર્શકઅથવા ઘાતાંકીય સાથે ક્લાસિક સિગ્મોઇડ (કોષ્ટક 1 1 જુઓ) ઉદાહરણ તરીકે, અતિપરવલય સ્પર્શકના કિસ્સામાં

ત્રીજો ગુણક અગાઉના સ્તરના ચેતાકોષના આઉટપુટ જેટલો છે

(1.11) માં પ્રથમ પરિબળ માટે, તે સરળતાથી નીચે પ્રમાણે વિસ્તૃત કરી શકાય છે:

અહીં એક નવું ચલ રજૂ કરીને સ્તરના ચેતાકોષો વચ્ચે સમીકરણ કરવામાં આવે છે:

અમે જૂના સ્તરના મૂલ્યોમાંથી સ્તરના મૂલ્યોની ગણતરી કરવા માટે પુનરાવર્તિત સૂત્ર મેળવીએ છીએ

આઉટપુટ સ્તર માટે:

હવે આપણે વિસ્તૃત સ્વરૂપમાં (1.10) લખી શકીએ છીએ:

કેટલીકવાર, વજન સુધારણાની પ્રક્રિયાને થોડી જડતા આપવા માટે, ઉદ્દેશ્ય કાર્યની સપાટી સાથે આગળ વધતી વખતે તીક્ષ્ણ કૂદકાને સરળ બનાવવું, (1.17) અગાઉના પુનરાવર્તન પર વજનમાં ફેરફારના મૂલ્ય સાથે પૂરક છે.

જડતા ગુણાંક ક્યાં છે; વર્તમાન પુનરાવર્તન નંબર.

આમ, બેકપ્રોપેગેશન પ્રક્રિયાનો ઉપયોગ કરીને ન્યુરલ નેટવર્કને તાલીમ આપવા માટેનું સંપૂર્ણ અલ્ગોરિધમ નીચે પ્રમાણે બનાવવામાં આવ્યું છે.

પગલું 1. નેટવર્ક ઇનપુટ્સ પર સંભવિત છબીઓમાંથી એક લાગુ કરો અને, ન્યુરલ નેટવર્કની સામાન્ય કામગીરીના મોડમાં, જ્યારે સંકેતો ઇનપુટથી આઉટપુટમાં પ્રસારિત થાય છે, ત્યારે પછીના મૂલ્યોની ગણતરી કરો. ચાલો તમને યાદ અપાવીએ કે:

સ્તરમાં ચેતાકોષોની સંખ્યા ક્યાં છે, સતત આઉટપુટ સ્થિતિ સાથેના ચેતાકોષને ધ્યાનમાં લેતા જે પૂર્વગ્રહ સેટ કરે છે; સ્તર પર ન્યુરોન ઇનપુટ

સિગ્મોઇડ ક્યાં છે,

ઇનપુટ ઇમેજનો વેક્ટર ઘટક ક્યાં છે.

પગલું 4. ન્યુરલ નેટવર્કમાં તમામ વજનને સમાયોજિત કરો:

પગલું 5. જો નેટવર્ક ભૂલ નોંધપાત્ર છે, તો પગલું 1 પર જાઓ. અન્યથા, સમાપ્ત કરો.

પગલું 1 માં નેટવર્ક્સ વૈકલ્પિક રીતે રેન્ડમ ઓર્ડરબધી તાલીમની છબીઓ પ્રસ્તુત કરવામાં આવી છે જેથી નેટવર્ક, અલંકારિક રીતે કહીએ તો, કેટલાકને ભૂલી ન જાય કારણ કે તે અન્યને યાદ કરે છે.

અભિવ્યક્તિ (1.17) થી તે અનુસરે છે કે જ્યારે આઉટપુટ મૂલ્ય શૂન્ય તરફ વળે છે, ત્યારે શીખવાની કાર્યક્ષમતા નોંધપાત્ર રીતે ઘટે છે. દ્વિસંગી ઇનપુટ વેક્ટર સાથે, સરેરાશ અડધા વજનને સમાયોજિત કરવામાં આવશે નહીં, તેથી પ્રદેશ શક્ય મૂલ્યોન્યુરોન આઉટપુટને મર્યાદામાં સ્થાનાંતરિત કરવું ઇચ્છનીય છે, જે લોજિસ્ટિક કાર્યોના સરળ ફેરફારો દ્વારા પ્રાપ્ત થાય છે. ઉદાહરણ તરીકે, ઘાતાંકીય સાથેનો સિગ્મોઇડ ફોર્મમાં રૂપાંતરિત થાય છે:

ચાલો ન્યુરલ નેટવર્કની ક્ષમતાના પ્રશ્નને ધ્યાનમાં લઈએ, એટલે કે, તેના ઇનપુટ્સને પ્રસ્તુત કરેલી છબીઓની સંખ્યા જે તે ઓળખવાનું શીખી શકે છે. બે કરતાં વધુ સ્તરો ધરાવતા નેટવર્ક્સ માટે, આ પ્રશ્ન ખુલ્લો રહે છે. બે સ્તરોવાળા નેટવર્ક્સ માટે, નિર્ધારિત નેટવર્ક ક્ષમતાનો અંદાજ નીચે મુજબ છે:

એડજસ્ટેબલ વજનની સંખ્યા ક્યાં છે, આઉટપુટ લેયરમાં ન્યુરોન્સની સંખ્યા છે.

આ અભિવ્યક્તિ કેટલાક પ્રતિબંધોને ધ્યાનમાં લઈને મેળવવામાં આવી હતી. સૌપ્રથમ, છુપાયેલા સ્તરમાં ઇનપુટ્સ અને ચેતાકોષોની સંખ્યાએ અસમાનતાને સંતોષવી આવશ્યક છે બીજું, જો કે, ઉપરોક્ત અંદાજ ન્યુરોન્સના થ્રેશોલ્ડ સક્રિયકરણ કાર્યો અને સરળ સક્રિયકરણ કાર્યો સાથેના નેટવર્કની ક્ષમતા, ઉદાહરણ તરીકે (1.23), નેટવર્ક્સ માટે બનાવવામાં આવ્યો હતો. સામાન્ય રીતે વધારે છે. વધુમાં, નિર્ણાયક શબ્દનો અર્થ એવો થાય છે કે પરિણામી ક્ષમતા અંદાજ તમામ ઇનપુટ પેટર્ન માટે યોગ્ય છે જે ઇનપુટ્સ દ્વારા રજૂ કરી શકાય છે. વાસ્તવમાં, ઇનપુટ પેટર્નના વિતરણમાં કેટલીક નિયમિતતા હોય છે, જે ન્યુરલ નેટવર્કને સામાન્ય બનાવવા દે છે અને આ રીતે તેની વાસ્તવિક ક્ષમતામાં વધારો કરે છે. છબીઓના વિતરણથી, માં સામાન્ય કેસ, અગાઉથી જાણીતું નથી, અમે ફક્ત વાસ્તવિક ક્ષમતા વિશે કામચલાઉ રીતે વાત કરી શકીએ છીએ, પરંતુ સામાન્ય રીતે તે નિર્ધારિત ક્ષમતા કરતાં બમણી હોય છે.

ન્યુરલ નેટવર્કની ક્ષમતાનો પ્રશ્ન નેટવર્કના આઉટપુટ સ્તરની આવશ્યક શક્તિના પ્રશ્ન સાથે નજીકથી સંબંધિત છે જે છબીઓનું અંતિમ વર્ગીકરણ કરે છે. ઉદાહરણ તરીકે, ઇનપુટ ઈમેજોના સમૂહને બે વર્ગોમાં વિભાજીત કરવા માટે, એક આઉટપુટ ન્યુરોન પૂરતું છે. આ કિસ્સામાં, દરેક તાર્કિક સ્તર એક અલગ વર્ગ નિયુક્ત કરશે. થ્રેશોલ્ડ સક્રિયકરણ કાર્ય સાથે બે આઉટપુટ ચેતાકોષો પર, ચાર વર્ગો એન્કોડ કરી શકાય છે. વર્ગીકરણની વિશ્વસનીયતા વધારવા માટે, આઉટપુટ લેયરમાં દરેક વર્ગના એક ચેતાકોષને સોંપીને નિરર્થકતા દાખલ કરવી ઇચ્છનીય છે અથવા, વધુ સારી રીતે, ઘણા, જેમાંથી દરેકને તે નક્કી કરવા માટે તાલીમ આપવામાં આવે છે કે કોઈ છબી તેની પોતાની ડિગ્રી સાથે વર્ગની છે કે કેમ. આત્મવિશ્વાસ, ઉદાહરણ તરીકે: ઉચ્ચ, મધ્યમ અને નીચું. આવા ન્યુરલ નેટવર્ક્સ અસ્પષ્ટ (અસ્પષ્ટ અથવા આંતરછેદ) સેટમાં સંયુક્ત ઇનપુટ છબીઓને વર્ગીકૃત કરવાનું શક્ય બનાવે છે. આ ગુણધર્મ આવા નેટવર્કને નજીક લાવે છે વાસ્તવિક પરિસ્થિતિઓજૈવિક ન્યુરલ નેટવર્કની કામગીરી.

પ્રશ્નમાં રહેલા ન્યુરલ નેટવર્કમાં ઘણા " અડચણો" પ્રથમ, પ્રક્રિયામાં મોટા હકારાત્મક અથવા છે નકારાત્મક મૂલ્યોવજન ચેતાકોષોના સિગ્મોઇડ્સ પરના કાર્યકારી બિંદુને સંતૃપ્તિ પ્રદેશમાં ખસેડી શકે છે. લોજિસ્ટિક ફંક્શનના વ્યુત્પન્નના નાના મૂલ્યો (1.15) અને (1.16) અનુસાર, શીખવાના બંધ તરફ દોરી જશે, જે નેટવર્કને લકવો કરે છે. બીજું, ગ્રેડિયન્ટ ડિસેન્ટ પદ્ધતિનો ઉપયોગ કરીને ઉદ્દેશ્ય કાર્યની વૈશ્વિક લઘુત્તમ શોધવાની ખાતરી આપતું નથી. આ શીખવાની દર પસંદ કરવાના મુદ્દા સાથે નજીકથી સંબંધિત છે. વજનમાં વધારો અને તેથી, ચરમસીમાને શોધવાનો શીખવાનો દર અમર્યાદિત હોવો જોઈએ, પરંતુ આ કિસ્સામાં શિક્ષણ

અસ્વીકાર્ય રીતે ધીમે ધીમે થઈ રહ્યું છે. બીજી બાજુ, વજનમાં ખૂબ મોટા ગોઠવણો શીખવાની પ્રક્રિયામાં કાયમી અસ્થિરતા તરફ દોરી શકે છે. તેથી, 1 કરતાં ઓછી સંખ્યા (ઉદાહરણ તરીકે, 0.1) સામાન્ય રીતે શીખવાની દર ગુણાંક 1] તરીકે પસંદ કરવામાં આવે છે, જે શીખવાની પ્રક્રિયા દરમિયાન ધીમે ધીમે ઘટતી જાય છે. વધુમાં, નેટવર્કને આકસ્મિક રીતે સ્થાનિક મિનિમામાં આવતા અટકાવવા માટે, કેટલીકવાર, વેઇટીંગ ગુણાંકના મૂલ્યોને સ્થિર કર્યા પછી, 7 શરૂ થવા માટે ટૂંકા સમય માટે નોંધપાત્ર રીતે વધારો કરવામાં આવે છે. ઢાળ વંશથી નવો મુદ્દો. જો આ પ્રક્રિયાને ઘણી વખત પુનરાવર્તિત કરવાથી નેટવર્ક સમાન સ્થિતિમાં આવે છે, તો અમે માની શકીએ કે વૈશ્વિક લઘુત્તમ મળી ગયું છે.

સ્થાનિક મિનિમા અને નેટવર્ક પેરાલિસિસને દૂર કરવા માટે બીજી પદ્ધતિ છે, જે સ્ટોકેસ્ટિક ન્યુરલ નેટવર્કનો ઉપયોગ કરવાની છે.

ચાલો ઉપરોક્ત ભૌમિતિક અર્થઘટન આપીએ.

બેકપ્રોપેગેશન અલ્ગોરિધમમાં, ભૂલની સપાટીના ઢાળ વેક્ટરની ગણતરી કરવામાં આવે છે. આ વેક્ટર વર્તમાન બિંદુથી સપાટી પરના સૌથી ટૂંકા વંશની દિશા સૂચવે છે, ચળવળ જે ભૂલમાં ઘટાડો તરફ દોરી જાય છે. ઘટતા પગલાઓનો ક્રમ ઓછામાં ઓછા એક અથવા બીજા પ્રકાર તરફ દોરી જશે. અહીં મુશ્કેલી એ પગલાઓની લંબાઈ પસંદ કરવાનો મુદ્દો છે.

મુ મોટા કદપગલું, કન્વર્જન્સ ઝડપી હશે, પરંતુ ઉકેલ પર અથવા કિસ્સામાં કૂદવાનું જોખમ છે જટિલ આકારખોટી દિશામાં જવા માટે ભૂલની સપાટીઓ, ઉદાહરણ તરીકે, ઢોળાવવાળી સાંકડી કોતર સાથે આગળ વધવું, એક બાજુથી બીજી તરફ કૂદકો મારવો. તેનાથી વિપરીત, જ્યારે નાનું પગલુંઅને યોગ્ય દિશામાં જવા માટે ઘણી બધી પુનરાવર્તનોની જરૂર પડશે. વ્યવહારમાં, સ્ટેપનું કદ ઢોળાવની ઢાળના પ્રમાણસર તરીકે લેવામાં આવે છે, જેથી અલ્ગોરિધમ ન્યૂનતમની નજીક ધીમો પડી જાય. યોગ્ય પસંદગીશીખવાની ઝડપ પર આધાર રાખે છે ચોક્કસ કાર્યઅને સામાન્ય રીતે પ્રાયોગિક રીતે કરવામાં આવે છે. આ અચલ સમય પર પણ આધાર રાખે છે, જેમ જેમ અલ્ગોરિધમ આગળ વધે તેમ ઘટતું જાય છે.

સામાન્ય રીતે આ અલ્ગોરિધમને વેગ (અથવા જડતા) શબ્દનો સમાવેશ કરવા માટે સંશોધિત કરવામાં આવે છે. આ એક નિશ્ચિત દિશામાં પ્રગતિને પ્રોત્સાહન આપે છે, તેથી જો એક જ દિશામાં ઘણા પગલાં લેવામાં આવ્યા હોય, તો અલ્ગોરિધમ ઝડપને વધારે છે, જે તમને કેટલીકવાર સ્થાનિક લઘુત્તમ ટાળવા અને સપાટ વિસ્તારોમાંથી ઝડપથી પસાર થવા દે છે.

એલ્ગોરિધમના દરેક પગલા પર, બધા તાલીમ ઉદાહરણો બદલામાં નેટવર્ક ઇનપુટને ખવડાવવામાં આવે છે, નેટવર્કના વાસ્તવિક આઉટપુટ મૂલ્યોની તુલના જરૂરી મૂલ્યો સાથે કરવામાં આવે છે, અને ભૂલની ગણતરી કરવામાં આવે છે. ભૂલનું મૂલ્ય તેમજ ભૂલની સપાટીની ઢાળ

ભીંગડાને સમાયોજિત કરવા માટે વપરાય છે, જેના પછી બધી ક્રિયાઓ પુનરાવર્તિત થાય છે. જ્યારે ચોક્કસ સંખ્યામાં યુગ પસાર થઈ જાય, અથવા જ્યારે ભૂલ ચોક્કસ નાના સ્તરે પહોંચે, અથવા જ્યારે ભૂલ ઘટતી અટકે ત્યારે શીખવાની પ્રક્રિયા બંધ થાય છે.

ચાલો આપણે ન્યુરલ નેટવર્કના સામાન્યીકરણ અને ફરીથી તાલીમની સમસ્યાઓને વધુ વિગતવાર ધ્યાનમાં લઈએ. સામાન્યીકરણ એ ન્યુરલ નેટવર્કની એવી ક્ષમતા છે જે મૂળ તાલીમ સમૂહ સાથે સંબંધિત ન હોય તેવા ડેટા પર ચોક્કસ આગાહી કરી શકે છે. ઓવરફિટિંગ એ ઓવરફિટિંગ છે જે ત્યારે થાય છે જ્યારે તાલીમ અલ્ગોરિધમ ખૂબ લાંબો સમય લે છે અને નેટવર્ક કાર્ય અથવા ઉપલબ્ધ ડેટાની માત્રા માટે ખૂબ જટિલ છે.

ચાલો આપણે ન્યુરલ નેટવર્ક દ્વારા નહીં, પરંતુ બહુપદીના માધ્યમથી ચોક્કસ અવલંબનને અંદાજિત કરવાના ઉદાહરણનો ઉપયોગ કરીને સામાન્યીકરણ અને પુનઃપ્રશિક્ષણની સમસ્યાઓ દર્શાવીએ, અને ઘટનાનો સાર એકદમ સમાન હશે.

બહુપદી આલેખ હોઈ શકે છે અલગ આકાર, અને પદોની ડિગ્રી અને સંખ્યા જેટલી વધારે છે, આ ફોર્મ વધુ જટિલ હોઈ શકે છે. પ્રારંભિક ડેટા માટે, તમે બહુપદી વળાંક (મોડેલ) પસંદ કરી શકો છો અને આમ હાલની અવલંબનનું સમજૂતી મેળવી શકો છો. ડેટા ઘોંઘાટીયા હોઈ શકે છે, તેથી શ્રેષ્ઠ મોડલ બધા ઉપલબ્ધ બિંદુઓમાંથી બરાબર પસાર થાય તેવું માની શકાય નહીં. લો-ઓર્ડર બહુપદી વર્તમાન અવલંબનને વધુ સારી રીતે સમજાવી શકે છે, જો કે, તે અંદાજિત ડેટા માટે પૂરતું લવચીક માધ્યમ નથી, જ્યારે બહુપદી ઉચ્ચ ક્રમખૂબ લવચીક હોઈ શકે છે, પરંતુ વાસ્તવિક સંબંધ સાથે કોઈ લેવાદેવા ન હોય તેવું જટિલ સ્વરૂપ લેતી વખતે ડેટાને બરાબર અનુસરશે.

ન્યુરલ નેટવર્ક્સ સમાન મુશ્કેલીઓનો સામનો કરે છે. સાથે નેટવર્ક્સ મોટી સંખ્યામાંવજન ઉપર મોડલ કરવામાં આવે છે જટિલ કાર્યોઅને તેથી ઓવરટ્રેનિંગની સંભાવના છે. ઓછા વજનવાળા નેટવર્ક્સ હાલની અવલંબનને મોડેલ કરવા માટે પૂરતા લવચીક ન હોઈ શકે. ઉદાહરણ તરીકે, છુપાયેલા સ્તરો વિનાનું નેટવર્ક માત્ર એક સામાન્ય રેખીય કાર્યનું મોડેલ કરે છે.

કેવી રીતે પસંદ કરવું સાચી ડિગ્રીનેટવર્ક જટિલતા? લગભગ હંમેશા વધુ જટિલ નેટવર્ક નાની ભૂલ પેદા કરે છે, પરંતુ આ સૂચવતું નથી સારી ગુણવત્તામોડેલ, પરંતુ નેટવર્કને ફરીથી તાલીમ આપવા વિશે.

ઉકેલ બેન્ચમાર્ક ક્રોસ-વેલિડેશનનો ઉપયોગ કરવાનો છે. આ હેતુ માટે, તાલીમ નમૂનાનો એક ભાગ આરક્ષિત છે, જેનો ઉપયોગ બેકપ્રોપેગેશન અલ્ગોરિધમનો ઉપયોગ કરીને નેટવર્કને તાલીમ આપવા માટે નહીં, પરંતુ અલ્ગોરિધમ દરમિયાન પરિણામની સ્વતંત્ર દેખરેખ માટે થાય છે. કામની શરૂઆતમાં, તાલીમ પર નેટવર્ક ભૂલ આવી અને

નિયંત્રણ સેટ સમાન હશે. જેમ જેમ નેટવર્ક પ્રશિક્ષિત થાય છે તેમ, પ્રશિક્ષણ ભૂલ ઘટે છે, જેમ કે નિયંત્રણ સેટ પરની ભૂલ થાય છે. જો કંટ્રોલ એરર ઘટતી અટકે છે અથવા તો વધવાનું શરૂ કરે છે, તો આ સૂચવે છે કે નેટવર્કે ડેટાને ખૂબ નજીકથી (ઓવરટ્રેઇન્ડ) કરવાનું શરૂ કર્યું છે અને તાલીમ બંધ કરવી જોઈએ. જો આવું થાય, તો છુપાયેલા તત્વો અને/અથવા સ્તરોની સંખ્યા ઘટાડવી જોઈએ, કારણ કે નેટવર્ક આ કાર્ય માટે ખૂબ શક્તિશાળી છે. જો બંને ભૂલો (તાલીમ અને ક્રોસ-વેલિડેશન) પર્યાપ્ત નાના સ્તર સુધી પહોંચી ન હોય, તો કુદરતી રીતે ફરીથી તાલીમ આપવામાં આવી ન હતી, અને નેટવર્ક, તેનાથી વિપરિત, હાલની અવલંબનને મોડેલ કરવા માટે પૂરતું શક્તિશાળી નથી.

વર્ણવેલ સમસ્યાઓ એ હકીકત તરફ દોરી જાય છે કે જ્યારે વ્યવહારુ કામન્યુરલ નેટવર્ક્સ સાથે, તમારે મોટી સંખ્યામાં વિવિધ નેટવર્ક્સ સાથે પ્રયોગ કરવો પડશે, કેટલીકવાર તેમાંથી દરેકને ઘણી વખત તાલીમ આપવી પડશે અને પરિણામોની તુલના કરવી પડશે. પરિણામની ગુણવત્તાનું મુખ્ય સૂચક નિયંત્રણ ભૂલ છે. તે જ સમયે, સિસ્ટમ-વ્યાપી સિદ્ધાંત અનુસાર, લગભગ સમાન નિયંત્રણ ભૂલોવાળા બે નેટવર્કના, સરળ હોય તે પસંદ કરવાનું અર્થપૂર્ણ છે.

પુનરાવર્તિત પ્રયોગોની જરૂરિયાત એ હકીકત તરફ દોરી જાય છે કે નિયંત્રણ સમૂહ મોડેલ પસંદ કરવામાં મુખ્ય ભૂમિકા ભજવવાનું શરૂ કરે છે અને શીખવાની પ્રક્રિયાનો ભાગ બને છે. આ તેની ભૂમિકાને નબળી બનાવે છે સ્વતંત્ર માપદંડમોડેલની ગુણવત્તા. મુ મોટી સંખ્યામાંપ્રયોગો છે ઉચ્ચ સંભાવનાઆપે છે તે સારું નેટવર્ક પસંદ કરો સારું પરિણામનિયંત્રણ સેટ પર. જો કે, અંતિમ મોડલને યોગ્ય વિશ્વસનીયતા આપવા માટે, તેઓ ઘણીવાર (જ્યારે તાલીમ ઉદાહરણોની માત્રા તેને મંજૂરી આપે છે) નીચે મુજબ કરે છે: ઉદાહરણોનો એક પરીક્ષણ સેટ અનામત રાખો. તાલીમ અને ઉદાહરણોના પરીક્ષણ સેટ પર પ્રાપ્ત પરિણામો વાસ્તવિક છે અને શીખવાની પ્રક્રિયાની કલાકૃતિઓ નથી તેની ખાતરી કરવા માટે આ સમૂહના ડેટા પર અંતિમ મોડેલનું પરીક્ષણ કરવામાં આવે છે. અલબત્ત, તેની ભૂમિકા સારી રીતે ભજવવા માટે, ટેસ્ટ સેટનો ઉપયોગ ફક્ત એક જ વાર થવો જોઈએ: જો તેનો ફરીથી ઉપયોગ શીખવાની પ્રક્રિયાને સમાયોજિત કરવા માટે કરવામાં આવે, તો તે હકીકતમાં નિયંત્રણ સમૂહ બની જશે.

નેટવર્ક પ્રશિક્ષણ પ્રક્રિયાને ઝડપી બનાવવા માટે, એરર બેકપ્રોપેગેશન અલ્ગોરિધમના અસંખ્ય ફેરફારોની દરખાસ્ત કરવામાં આવી છે, જેનાં ઉપયોગ સાથે સંકળાયેલ છે. વિવિધ કાર્યોભૂલો, દિશા અને પગલાના કદ નક્કી કરવા માટેની પ્રક્રિયાઓ.

1) ભૂલ કાર્યો:

પ્રશિક્ષણ ઉદાહરણોના સમગ્ર સેટ પર અભિન્ન ભૂલ કાર્યો;

પૂર્ણાંક અને અપૂર્ણાંક શક્તિઓના ભૂલ કાર્યો

2) દરેક પુનરાવર્તન પર પગલાનું કદ નક્કી કરવા માટેની પ્રક્રિયાઓ

દ્વિભાષા;

જડતા સંબંધો (ઉપર જુઓ);

3) પગલાની દિશા નક્કી કરવા માટેની પ્રક્રિયાઓ.

સેકન્ડ ઓર્ડર ડેરિવેટિવ્ઝના મેટ્રિક્સનો ઉપયોગ કરીને (ન્યૂટનની પદ્ધતિ);

કેટલાક પગલાઓમાં દિશાઓનો ઉપયોગ કરવો (પાર્ટન પદ્ધતિ).