સ્પીચ સિન્થેસિસ રેકગ્નિશન સિક્યુરિટી સિસ્ટમ. સ્પીચ રેકગ્નિશન સિસ્ટમ્સ

વ્યાપારી ભાષણ ઓળખ કાર્યક્રમો નેવુંના દાયકાની શરૂઆતમાં દેખાયા. તેઓ સામાન્ય રીતે એવા લોકો દ્વારા ઉપયોગમાં લેવાય છે જેઓ, હાથની ઇજાને કારણે, મોટા પ્રમાણમાં ટેક્સ્ટ ટાઇપ કરવામાં અસમર્થ હોય છે. આ પ્રોગ્રામ્સ (ઉદાહરણ તરીકે, Dragon NaturallySpeaking, VoiceNavigator) વપરાશકર્તાના અવાજને ટેક્સ્ટમાં અનુવાદિત કરે છે, આમ તેના હાથને રાહત મળે છે. આવા કાર્યક્રમોના અનુવાદની વિશ્વસનીયતા ખૂબ ઊંચી નથી, પરંતુ વર્ષોથી તેમાં ધીમે ધીમે સુધારો થયો છે.

મોબાઇલ ઉપકરણોની કમ્પ્યુટિંગ શક્તિમાં વધારો થવાથી તેમના માટે વાણી ઓળખના કાર્યો સાથે પ્રોગ્રામ્સ બનાવવાનું શક્ય બન્યું છે. આવા પ્રોગ્રામ્સમાં, માઇક્રોસોફ્ટ વૉઇસ કમાન્ડ એપ્લિકેશનને ધ્યાનમાં લેવી યોગ્ય છે, જે તમને તમારા વૉઇસનો ઉપયોગ કરીને ઘણી એપ્લિકેશનો સાથે કામ કરવાની મંજૂરી આપે છે. ઉદાહરણ તરીકે, તમે તમારા પ્લેયરમાં સંગીત ચલાવી શકો છો અથવા નવો દસ્તાવેજ બનાવી શકો છો.

ઇન્ટેલિજન્ટ સ્પીચ સોલ્યુશન્સ જે આપમેળે માનવ વાણીને સંશ્લેષણ કરે છે અને ઓળખે છે તે ઇન્ટરેક્ટિવ વૉઇસ સિસ્ટમ્સ (IVR) ના વિકાસમાં આગળનું પગલું છે. ઇન્ટરેક્ટિવ ફોન એપ્લિકેશનનો ઉપયોગ હાલમાં ફેશન વલણ નથી, પરંતુ એક મહત્વપૂર્ણ જરૂરિયાત છે. કોન્ટેક્ટ સેન્ટર ઓપરેટરો અને સેક્રેટરીઓના વર્કલોડમાં ઘટાડો, શ્રમ ખર્ચમાં ઘટાડો અને સેવા પ્રણાલીની ઉત્પાદકતામાં વધારો એ એવા કેટલાક ફાયદા છે જે આવા ઉકેલોની શક્યતા સાબિત કરે છે.

જોકે, પ્રગતિ સ્થિર નથી, અને તાજેતરમાં સ્વચાલિત વાણી ઓળખ અને સંશ્લેષણ પ્રણાલીઓ વધુને વધુ ઇન્ટરેક્ટિવ ટેલિફોન એપ્લિકેશન્સમાં ઉપયોગમાં લેવાનું શરૂ કર્યું છે. આ કિસ્સામાં, વૉઇસ પોર્ટલ સાથે વાતચીત વધુ કુદરતી બને છે, કારણ કે તેમાં પસંદગી ફક્ત ટોન ડાયલિંગનો ઉપયોગ કરીને જ નહીં, પણ વૉઇસ આદેશોનો ઉપયોગ કરીને પણ કરી શકાય છે. તે જ સમયે, ઓળખ પ્રણાલીઓ સ્પીકર્સથી સ્વતંત્ર છે, એટલે કે, તેઓ કોઈપણ વ્યક્તિના અવાજને ઓળખે છે.

સ્પીચ રેકગ્નિશન ટેક્નોલોજીમાં આગળનું પગલું કહેવાતા સાયલન્ટ સ્પીચ ઈન્ટરફેસ (SSI) ના વિકાસને ગણી શકાય. આ વાણી પ્રક્રિયા પ્રણાલીઓ ઉચ્ચારણના પ્રારંભિક તબક્કે ભાષણ સંકેતો પ્રાપ્ત કરવા અને પ્રક્રિયા કરવા પર આધારિત છે. વાણી ઓળખના વિકાસમાં આ તબક્કો આધુનિક ઓળખ પ્રણાલીની બે નોંધપાત્ર ખામીઓને કારણે થાય છે: અવાજ પ્રત્યે અતિશય સંવેદનશીલતા, તેમજ ઓળખ પ્રણાલીને ઍક્સેસ કરતી વખતે સ્પષ્ટ અને અલગ ભાષણની જરૂરિયાત. SSI અભિગમ એ નવા સેન્સર્સનો ઉપયોગ કરવાનો છે જે પ્રોસેસ્ડ એકોસ્ટિક સિગ્નલોના પૂરક તરીકે અવાજથી પ્રભાવિત થતા નથી.

આજે, વાણી ઓળખ પ્રણાલીના ઉપયોગના પાંચ મુખ્ય ક્ષેત્રો છે:

વૉઇસ કંટ્રોલ એ વૉઇસ કમાન્ડનો ઉપયોગ કરીને ઉપકરણના ઑપરેશનને ક્રિયાપ્રતિક્રિયા અને નિયંત્રિત કરવાની એક રીત છે. વૉઇસ કંટ્રોલ સિસ્ટમ ટેક્સ્ટ દાખલ કરવા માટે બિનઅસરકારક છે, પરંતુ આદેશો દાખલ કરવા માટે અનુકૂળ છે, જેમ કે:

સિસ્ટમોના પ્રકાર

આજે, બે પ્રકારની સ્પીચ રેકગ્નિશન સિસ્ટમ્સ છે - "ક્લાયન્ટ-આધારિત" અને "ક્લાયન્ટ-સર્વર" સિદ્ધાંત પર કામ કરતી. ક્લાયંટ-સર્વર ટેક્નોલોજીનો ઉપયોગ કરતી વખતે, વપરાશકર્તાના ઉપકરણ પર સ્પીચ કમાન્ડ દાખલ કરવામાં આવે છે અને ઇન્ટરનેટ દ્વારા રિમોટ સર્વર પર પ્રસારિત કરવામાં આવે છે, જ્યાં તેની પ્રક્રિયા કરવામાં આવે છે અને આદેશના રૂપમાં ઉપકરણ પર પરત કરવામાં આવે છે (Google Voice, Vlingo, વગેરે.) ; સર્વર વપરાશકર્તાઓની મોટી સંખ્યાને કારણે, માન્યતા સિસ્ટમ તાલીમ માટે મોટો આધાર મેળવે છે. પ્રથમ વિકલ્પ અન્ય ગાણિતિક અલ્ગોરિધમ્સ પર કામ કરે છે અને તે દુર્લભ છે (સ્પીરીઓ સૉફ્ટવેર) - આ કિસ્સામાં, આદેશ વપરાશકર્તાના ઉપકરણ પર દાખલ કરવામાં આવે છે અને ત્યાં પ્રક્રિયા કરવામાં આવે છે. "ક્લાયન્ટ પર" પ્રક્રિયા કરવાનો ફાયદો એ ગતિશીલતા, સંદેશાવ્યવહારની ઉપલબ્ધતા અને રિમોટ સાધનોના સંચાલનથી સ્વતંત્રતા છે. આમ, "ક્લાયન્ટ પર" ચાલતી સિસ્ટમ વધુ વિશ્વસનીય લાગે છે, પરંતુ કેટલીકવાર વપરાશકર્તાની બાજુ પરના ઉપકરણની શક્તિ દ્વારા મર્યાદિત હોય છે.

YaC 2013

એકોસ્ટિક મોડલ

યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો

સંભાવનાઓ

પી.એસ.

આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ - તેમના ફોનથી કરે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ વિકાસના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વૉઇસ નિયંત્રણ છે.

વૉઇસ કંટ્રોલ સ્પીચ રેકગ્નિશન ટેક્નોલોજી પર આધારિત છે. તેમાં વિવિધ ક્ષેત્રોમાં સિદ્ધિઓનો સમાવેશ થાય છે: કોમ્પ્યુટેશનલ ભાષાશાસ્ત્રથી લઈને ડિજિટલ સિગ્નલ પ્રોસેસિંગ સુધી. ઓક્ટોબરની શરૂઆતમાં YaC 2013 કોન્ફરન્સમાં, Yandex એ તેની સ્પીચ રેકગ્નિશન ટેક્નોલોજી રજૂ કરી, અને આજે આપણે તે કેવી રીતે કામ કરે છે તે વિશે વાત કરવા માંગીએ છીએ.

એકોસ્ટિક મોડલ

જો તમે વૉઇસ સર્ચ માટે "લેવ ટોલ્સટોય" કહો છો, તો સ્માર્ટફોન પ્રથમ અને છેલ્લું નામ નહીં, બે શબ્દો નહીં, પરંતુ એક ધ્વનિ સંકેત સાંભળશે જેમાં સ્પષ્ટ સીમાઓ વિના અવાજો એકબીજામાં સરળતાથી વહે છે. સ્પીચ રેકગ્નિશન સિસ્ટમનું કાર્ય આ સિગ્નલમાંથી જે કહેવામાં આવ્યું હતું તેનું પુનર્નિર્માણ કરવાનું છે. પરિસ્થિતિ એ હકીકત દ્વારા જટિલ છે કે સમાન શબ્દસમૂહ, વિવિધ પરિસ્થિતિઓમાં જુદા જુદા લોકો દ્વારા ઉચ્ચારવામાં આવે છે, તે સંપૂર્ણપણે અલગ સંકેતો આપશે. એકોસ્ટિક મોડેલિંગ સિસ્ટમ તેમને યોગ્ય રીતે અર્થઘટન કરવામાં મદદ કરે છે.

જ્યારે તમે વૉઇસ વિનંતી કરો છો, ઉદાહરણ તરીકે, Yandex.Navigator માં, સ્માર્ટફોન તેને રેકોર્ડ કરે છે અને તેને Yandex સર્વર પર મોકલે છે. સર્વર પર, રેકોર્ડિંગને 25 મિલીસેકન્ડ લાંબા, 10 મિલીસેકન્ડના સ્ટેપ સાથે ઘણા નાના ટુકડાઓમાં (ફ્રેમ્સ) વિભાજિત કરવામાં આવે છે. એટલે કે તમારી વાણીની એક સેકન્ડ સો ફ્રેમમાં ફેરવાઈ જાય છે.

પછી તેમાંના દરેકને એકોસ્ટિક મોડેલમાંથી પસાર કરવામાં આવે છે - એક કાર્ય જે નિર્ધારિત કરે છે કે તમે કયો અવાજ કર્યો છે. આ ડેટાના આધારે, મશીન લર્નિંગ પદ્ધતિઓનો ઉપયોગ કરીને પ્રશિક્ષિત સિસ્ટમ, તમે શોધ પરિણામોમાં જુઓ છો તે શબ્દોની વિવિધતા નક્કી કરે છે. મોબાઇલ બ્રાઉઝર, "લીઓ ટોલ્સટોય" ની વિનંતીના જવાબમાં, મહાન લેખક વિશેની સાઇટ્સ શોધશે, અને નેવિગેટર અને નકશા લીઓ ટોલ્સટોય સ્ટ્રીટ ઓફર કરશે.

પરિણામોની ચોકસાઈ સીધી રીતે તેના પર નિર્ભર કરે છે કે સિસ્ટમ બોલાતા અવાજોને કેટલી સારી રીતે ઓળખે છે. આ કરવા માટે, ધ્વન્યાત્મક મૂળાક્ષરો જેની સાથે તે કાર્ય કરે છે તે પૂરતા પ્રમાણમાં સચોટ અને સંપૂર્ણ હોવા જોઈએ.

યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો

રશિયન ભાષામાં, વિવિધ સિદ્ધાંતો અનુસાર, લગભગ 40 ફોનેમ્સ (ધ્વનિ એકમો) છે. અમારી સ્પીચ રેકગ્નિશન સિસ્ટમ ઇનકમિંગ સ્પીચ સિગ્નલ સાથે ફોનેમ્સ સાથે મેળ ખાય છે અને પછી તેમાંથી શબ્દો ભેગા કરે છે. ઉદાહરણ તરીકે, "યાન્ડેક્ષ" શબ્દમાં સાત ફોનેમનો સમાવેશ થાય છે - [th][a][n][d][e][k][s]. ફોનેમ્સની અવધિ અલગ અલગ હોઈ શકે છે, અને જ્યારે ફ્રેમ દ્વારા વિભાજિત થાય છે, ત્યારે "યાન્ડેક્સ" શબ્દ દેખાઈ શકે છે, ઉદાહરણ તરીકે, આના જેવા - [th][th][a][a][a][a][a][a] ][a][a][a][a][n][n][d][d][e][k][s]. કોઈપણ ફોનમેનો ઉચ્ચાર તેના પડોશીઓ અને શબ્દની સ્થિતિ પર આધાર રાખે છે. એટલે કે, શબ્દની શરૂઆતમાં, મધ્યમાં અને અંતે અવાજ [a] ત્રણ અલગ અલગ છે [a], અને "ઓડિયો રેકોર્ડિંગ પર" સંયોજનમાં બે સ્વરો વચ્ચેનો અવાજ [a] અલગ છે. [a] શબ્દ "બક" માં વ્યંજનો વચ્ચે. તેથી, સારી ઓળખ માટે ફોનેમ ખૂબ બરછટ એકમ છે.

ફોનેમના ઉચ્ચારને વધુ સચોટ રીતે મોડલ કરવા માટે, અમે સૌ પ્રથમ દરેક ફોનમેને ત્રણ ભાગોમાં વિભાજીત કરીએ છીએ: પરંપરાગત શરૂઆત, મધ્ય અને અંત. બીજું, અમે અમારું પોતાનું ધ્વન્યાત્મક મૂળાક્ષર વિકસાવ્યું છે, જે ફોનેમની સ્થિતિ અને સંદર્ભને ધ્યાનમાં લે છે. સંદર્ભ-આધારિત ફોનેમ્સના તમામ સંભવિત પ્રકારોને ધ્યાનમાં લેવું તે મૂર્ખતાભર્યું નથી, કારણ કે તેમાંના ઘણા વાસ્તવિક જીવનમાં થતા નથી. તેથી, અમે અમારા પ્રોગ્રામને સમાન અવાજોને એકસાથે ધ્યાનમાં લેવાનું શીખવ્યું. પરિણામે, અમને 4000 પ્રાથમિક એકમો - સેનોન્સનો સમૂહ પ્રાપ્ત થયો. આ યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો છે જેની સાથે અમારી વાણી ઓળખ તકનીક કાર્ય કરે છે.

સંભાવનાઓ

આદર્શ વિશ્વમાં, પ્રોગ્રામ ચોક્કસ રીતે નિર્ધારિત કરશે કે કયો ફોનેમ વૉઇસ વિનંતીના દરેક ટુકડાને અનુરૂપ છે. પરંતુ એક વ્યક્તિ પણ કેટલીકવાર બધા અવાજોને સમજી અથવા સાંભળી શકતી નથી અને સંદર્ભના આધારે શબ્દ પૂર્ણ કરે છે. અને જો કોઈ વ્યક્તિ તેના પોતાના ભાષણ અનુભવ પર આધાર રાખે છે, તો પછી અમારી સિસ્ટમ સંભાવનાઓ સાથે કાર્ય કરે છે.

સૌપ્રથમ, વૉઇસ રિક્વેસ્ટ (ફ્રેમ) ના દરેક ટુકડાની તુલના એક ફોનેમ સાથે નહીં, પરંતુ વિવિધ સાથે, સંભાવનાની વિવિધ ડિગ્રી સાથે યોગ્ય છે. બીજું, સંક્રમણ સંભાવનાઓનું કોષ્ટક છે, જે સૂચવે છે કે "a" પછી એક સંભાવના સાથે "a" પણ હશે, બીજી સંભાવના સાથે "b" હશે, વગેરે. આ તમને ફોનમના ક્રમના પ્રકારો નક્કી કરવાની મંજૂરી આપે છે, અને પછી, ઉચ્ચાર, મોર્ફોલોજી અને સિમેન્ટિક્સ વિશેના પ્રોગ્રામમાં ઉપલબ્ધ ડેટાના આધારે, તમે કહી શકો તેવા શબ્દોના પ્રકારો.

પ્રોગ્રામ શબ્દોને તેમના અર્થ અનુસાર પુનઃસ્થાપિત પણ કરી શકે છે. જો તમે ઘોંઘાટવાળી જગ્યાએ હોવ, સ્પષ્ટ રીતે બોલશો નહીં અથવા અસ્પષ્ટ શબ્દોનો ઉપયોગ કરશો નહીં, તો તે સંદર્ભ અને આંકડાઓના આધારે તમારી વિનંતી પૂર્ણ કરશે. ઉદાહરણ તરીકે, પ્રોગ્રામ "મમ્મીએ ઘા ધોઈ નાખ્યો" ના બદલે "મમ્મીએ ઘા ધોઈ નાખ્યો" તરીકે "મમ્મી ધોયો..." વાક્ય ચાલુ રાખવાની શક્યતા વધારે છે. વિવિધ ડેટા પર મશીન લર્નિંગ માટે આભાર, અમારો પ્રોગ્રામ ઘોંઘાટ માટે પ્રતિરોધક છે, ઉચ્ચારિત વાણીને સારી રીતે ઓળખે છે અને માન્યતાની ગુણવત્તા વક્તાના લિંગ અને ઉંમરથી વ્યવહારીક રીતે સ્વતંત્ર છે.

હાલમાં, અમારી સ્પીચ રેકગ્નિશન ટેક્નોલોજી નેવિગેટર અને મોબાઈલ મેપ્સમાં 94% શબ્દો અને મોબાઈલ બ્રાઉઝરમાં 84% શબ્દોને યોગ્ય રીતે ઓળખે છે. આ કિસ્સામાં, માન્યતા લગભગ એક સેકંડ લે છે. આ પહેલેથી જ ખૂબ જ યોગ્ય પરિણામ છે, અને અમે તેને સુધારવા માટે સક્રિયપણે કામ કરી રહ્યા છીએ. અમે માનીએ છીએ કે થોડા વર્ષોમાં વૉઇસ ઇનપુટ ઇન્ટરફેસ શાસ્ત્રીય પદ્ધતિઓથી હલકી ગુણવત્તાવાળા નહીં હોય.

પી.એસ.ટેક્નોલોજી ઉપરાંત, અમે YaC 2013 પર સ્પીચ રેકગ્નિશન - સ્પીચકિટ માટે એક સાર્વજનિક API પ્રસ્તુત કર્યું છે. તેની સહાયતા સાથે, વિકાસકર્તાઓ Android અને iOS માટે તેમની એપ્લિકેશન્સમાં યાન્ડેક્સ વૉઇસ શોધ ઉમેરી શકે છે. તમે સ્પીચકિટ ડાઉનલોડ કરી શકો છો અને દસ્તાવેજો પણ વાંચી શકો છો.

","contentType":"ટેક્સ્ટ/html"),"પ્રપોઝ્ડબોડી":("સ્રોત":"

આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ - તેમના ફોનથી કરે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ વિકાસના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વૉઇસ નિયંત્રણ છે.

વૉઇસ કંટ્રોલ સ્પીચ રેકગ્નિશન ટેક્નોલોજી પર આધારિત છે. તેમાં વિવિધ ક્ષેત્રોમાં સિદ્ધિઓનો સમાવેશ થાય છે: કોમ્પ્યુટેશનલ ભાષાશાસ્ત્રથી લઈને ડિજિટલ સિગ્નલ પ્રોસેસિંગ સુધી. ઓક્ટોબરની શરૂઆતમાં YaC 2013 કોન્ફરન્સમાં, Yandex એ તેની સ્પીચ રેકગ્નિશન ટેક્નોલોજી રજૂ કરી, અને આજે આપણે તે કેવી રીતે કામ કરે છે તે વિશે વાત કરવા માંગીએ છીએ.

એકોસ્ટિક મોડલ

જો તમે વૉઇસ સર્ચ માટે "લેવ ટોલ્સટોય" કહો છો, તો સ્માર્ટફોન પ્રથમ અને છેલ્લું નામ નહીં, બે શબ્દો નહીં, પરંતુ એક ધ્વનિ સંકેત સાંભળશે જેમાં સ્પષ્ટ સીમાઓ વિના અવાજો એકબીજામાં સરળતાથી વહે છે. સ્પીચ રેકગ્નિશન સિસ્ટમનું કાર્ય આ સિગ્નલમાંથી જે કહેવામાં આવ્યું હતું તેનું પુનર્નિર્માણ કરવાનું છે. પરિસ્થિતિ એ હકીકત દ્વારા જટિલ છે કે સમાન શબ્દસમૂહ, વિવિધ પરિસ્થિતિઓમાં જુદા જુદા લોકો દ્વારા ઉચ્ચારવામાં આવે છે, તે સંપૂર્ણપણે અલગ સંકેતો આપશે. એકોસ્ટિક મોડેલિંગ સિસ્ટમ તેમને યોગ્ય રીતે અર્થઘટન કરવામાં મદદ કરે છે.

જ્યારે તમે વૉઇસ વિનંતી કરો છો, ઉદાહરણ તરીકે, Yandex.Navigator માં, સ્માર્ટફોન તેને રેકોર્ડ કરે છે અને તેને Yandex સર્વર પર મોકલે છે. સર્વર પર, રેકોર્ડિંગને 25 મિલીસેકન્ડ લાંબા, 10 મિલીસેકન્ડના સ્ટેપ સાથે ઘણા નાના ટુકડાઓમાં (ફ્રેમ્સ) વિભાજિત કરવામાં આવે છે. એટલે કે તમારી વાણીની એક સેકન્ડ સો ફ્રેમમાં ફેરવાઈ જાય છે.

પછી તેમાંના દરેકને એકોસ્ટિક મોડેલમાંથી પસાર કરવામાં આવે છે - એક કાર્ય જે નિર્ધારિત કરે છે કે તમે કયો અવાજ કર્યો છે. આ ડેટાના આધારે, મશીન લર્નિંગ પદ્ધતિઓનો ઉપયોગ કરીને પ્રશિક્ષિત સિસ્ટમ, તમે શોધ પરિણામોમાં જુઓ છો તે શબ્દોની વિવિધતા નક્કી કરે છે. મોબાઇલ બ્રાઉઝર, "લીઓ ટોલ્સટોય" ની વિનંતીના જવાબમાં, મહાન લેખક વિશેની સાઇટ્સ શોધશે, અને નેવિગેટર અને નકશા લીઓ ટોલ્સટોય સ્ટ્રીટ ઓફર કરશે.

પરિણામોની ચોકસાઈ સીધી રીતે તેના પર નિર્ભર કરે છે કે સિસ્ટમ બોલાતા અવાજોને કેટલી સારી રીતે ઓળખે છે. આ કરવા માટે, ધ્વન્યાત્મક મૂળાક્ષરો જેની સાથે તે કાર્ય કરે છે તે પૂરતા પ્રમાણમાં સચોટ અને સંપૂર્ણ હોવા જોઈએ.

યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો

રશિયન ભાષામાં, વિવિધ સિદ્ધાંતો અનુસાર, લગભગ 40 ફોનેમ્સ (ધ્વનિ એકમો) છે. અમારી સ્પીચ રેકગ્નિશન સિસ્ટમ ઇનકમિંગ સ્પીચ સિગ્નલ સાથે ફોનેમ્સ સાથે મેળ ખાય છે અને પછી તેમાંથી શબ્દો ભેગા કરે છે. ઉદાહરણ તરીકે, "યાન્ડેક્ષ" શબ્દમાં સાત ફોનેમનો સમાવેશ થાય છે - [th][a][n][d][e][k][s]. ફોનેમ્સની અવધિ અલગ અલગ હોઈ શકે છે, અને જ્યારે ફ્રેમ દ્વારા વિભાજિત થાય છે, ત્યારે "યાન્ડેક્સ" શબ્દ દેખાઈ શકે છે, ઉદાહરણ તરીકે, આના જેવા - [th][th][a][a][a][a][a][a] ][a][a][a][a][n][n][d][d][e][k][s]. કોઈપણ ફોનમેનો ઉચ્ચાર તેના પડોશીઓ અને શબ્દની સ્થિતિ પર આધાર રાખે છે. એટલે કે, શબ્દની શરૂઆતમાં, મધ્યમાં અને અંતે અવાજ [a] ત્રણ અલગ અલગ છે [a], અને "ઓડિયો રેકોર્ડિંગ પર" સંયોજનમાં બે સ્વરો વચ્ચેનો અવાજ [a] અલગ છે. [a] શબ્દ "બક" માં વ્યંજનો વચ્ચે. તેથી, સારી ઓળખ માટે ફોનેમ ખૂબ બરછટ એકમ છે.

ફોનેમના ઉચ્ચારને વધુ સચોટ રીતે મોડલ કરવા માટે, અમે સૌ પ્રથમ દરેક ફોનમેને ત્રણ ભાગોમાં વિભાજીત કરીએ છીએ: પરંપરાગત શરૂઆત, મધ્ય અને અંત. બીજું, અમે અમારું પોતાનું ધ્વન્યાત્મક મૂળાક્ષર વિકસાવ્યું છે, જે ફોનેમની સ્થિતિ અને સંદર્ભને ધ્યાનમાં લે છે. સંદર્ભ-આધારિત ફોનેમ્સના તમામ સંભવિત પ્રકારોને ધ્યાનમાં લેવું તે મૂર્ખતાભર્યું નથી, કારણ કે તેમાંના ઘણા વાસ્તવિક જીવનમાં થતા નથી. તેથી, અમે અમારા પ્રોગ્રામને સમાન અવાજોને એકસાથે ધ્યાનમાં લેવાનું શીખવ્યું. પરિણામે, અમને 4000 પ્રાથમિક એકમો - સેનોન્સનો સમૂહ પ્રાપ્ત થયો. આ યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો છે જેની સાથે અમારી વાણી ઓળખ તકનીક કાર્ય કરે છે.

સંભાવનાઓ

આદર્શ વિશ્વમાં, પ્રોગ્રામ ચોક્કસ રીતે નિર્ધારિત કરશે કે કયો ફોનેમ વૉઇસ વિનંતીના દરેક ટુકડાને અનુરૂપ છે. પરંતુ એક વ્યક્તિ પણ કેટલીકવાર બધા અવાજોને સમજી અથવા સાંભળી શકતી નથી અને સંદર્ભના આધારે શબ્દ પૂર્ણ કરે છે. અને જો કોઈ વ્યક્તિ તેના પોતાના ભાષણ અનુભવ પર આધાર રાખે છે, તો પછી અમારી સિસ્ટમ સંભાવનાઓ સાથે કાર્ય કરે છે.

સૌપ્રથમ, વૉઇસ રિક્વેસ્ટ (ફ્રેમ) ના દરેક ટુકડાની તુલના એક ફોનેમ સાથે નહીં, પરંતુ વિવિધ સાથે, સંભાવનાની વિવિધ ડિગ્રી સાથે યોગ્ય છે. બીજું, સંક્રમણ સંભાવનાઓનું કોષ્ટક છે, જે સૂચવે છે કે "a" પછી એક સંભાવના સાથે "a" પણ હશે, બીજી સંભાવના સાથે "b" હશે, વગેરે. આ તમને ફોનમના ક્રમના પ્રકારો નક્કી કરવાની મંજૂરી આપે છે, અને પછી, ઉચ્ચાર, મોર્ફોલોજી અને સિમેન્ટિક્સ વિશેના પ્રોગ્રામમાં ઉપલબ્ધ ડેટાના આધારે, તમે કહી શકો તેવા શબ્દોના પ્રકારો.

પ્રોગ્રામ શબ્દોને તેમના અર્થ અનુસાર પુનઃસ્થાપિત પણ કરી શકે છે. જો તમે ઘોંઘાટવાળી જગ્યાએ હોવ, સ્પષ્ટ રીતે બોલશો નહીં અથવા અસ્પષ્ટ શબ્દોનો ઉપયોગ કરશો નહીં, તો તે સંદર્ભ અને આંકડાઓના આધારે તમારી વિનંતી પૂર્ણ કરશે. ઉદાહરણ તરીકે, પ્રોગ્રામ "મમ્મીએ ઘા ધોઈ નાખ્યો" ના બદલે "મમ્મીએ ઘા ધોઈ નાખ્યો" તરીકે "મમ્મી ધોયો..." વાક્ય ચાલુ રાખવાની શક્યતા વધારે છે. વિવિધ ડેટા પર મશીન લર્નિંગ માટે આભાર, અમારો પ્રોગ્રામ ઘોંઘાટ માટે પ્રતિરોધક છે, ઉચ્ચારિત વાણીને સારી રીતે ઓળખે છે અને માન્યતાની ગુણવત્તા વક્તાના લિંગ અને ઉંમરથી વ્યવહારીક રીતે સ્વતંત્ર છે.

હાલમાં, અમારી સ્પીચ રેકગ્નિશન ટેક્નોલોજી નેવિગેટર અને મોબાઈલ મેપ્સમાં 94% શબ્દો અને મોબાઈલ બ્રાઉઝરમાં 84% શબ્દોને યોગ્ય રીતે ઓળખે છે. આ કિસ્સામાં, માન્યતા લગભગ એક સેકંડ લે છે. આ પહેલેથી જ ખૂબ જ યોગ્ય પરિણામ છે, અને અમે તેને સુધારવા માટે સક્રિયપણે કામ કરી રહ્યા છીએ. અમે માનીએ છીએ કે થોડા વર્ષોમાં વૉઇસ ઇનપુટ ઇન્ટરફેસ શાસ્ત્રીય પદ્ધતિઓથી હલકી ગુણવત્તાવાળા નહીં હોય.

પી.એસ.ટેક્નોલોજી ઉપરાંત, અમે YaC 2013 પર સ્પીચ રેકગ્નિશન - સ્પીચકિટ માટે એક સાર્વજનિક API પ્રસ્તુત કર્યું છે. તેની સહાયતા સાથે, વિકાસકર્તાઓ Android અને iOS માટે તેમની એપ્લિકેશન્સમાં યાન્ડેક્સ વૉઇસ શોધ ઉમેરી શકે છે. તમે સ્પીચકિટ ડાઉનલોડ કરી શકો છો અને દસ્તાવેજો પણ વાંચી શકો છો.

આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ - તેમના ફોનથી કરે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ વિકાસના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વૉઇસ નિયંત્રણ છે.

વૉઇસ કંટ્રોલ સ્પીચ રેકગ્નિશન ટેક્નોલોજી પર આધારિત છે. તેમાં વિવિધ ક્ષેત્રોમાં સિદ્ધિઓનો સમાવેશ થાય છે: કોમ્પ્યુટેશનલ ભાષાશાસ્ત્રથી લઈને ડિજિટલ સિગ્નલ પ્રોસેસિંગ સુધી. ઓક્ટોબરની શરૂઆતમાં YaC 2013 કોન્ફરન્સમાં, Yandex એ તેની સ્પીચ રેકગ્નિશન ટેક્નોલોજી રજૂ કરી, અને આજે આપણે તે કેવી રીતે કામ કરે છે તે વિશે વાત કરવા માંગીએ છીએ.

એકોસ્ટિક મોડલ

જો તમે વૉઇસ સર્ચ માટે "લેવ ટોલ્સટોય" કહો છો, તો સ્માર્ટફોન પ્રથમ અને છેલ્લું નામ નહીં, બે શબ્દો નહીં, પરંતુ એક ધ્વનિ સંકેત સાંભળશે જેમાં સ્પષ્ટ સીમાઓ વિના અવાજો એકબીજામાં સરળતાથી વહે છે. સ્પીચ રેકગ્નિશન સિસ્ટમનું કાર્ય આ સિગ્નલમાંથી જે કહેવામાં આવ્યું હતું તેનું પુનર્નિર્માણ કરવાનું છે. પરિસ્થિતિ એ હકીકત દ્વારા જટિલ છે કે સમાન શબ્દસમૂહ, વિવિધ પરિસ્થિતિઓમાં જુદા જુદા લોકો દ્વારા ઉચ્ચારવામાં આવે છે, તે સંપૂર્ણપણે અલગ સંકેતો આપશે. એકોસ્ટિક મોડેલિંગ સિસ્ટમ તેમને યોગ્ય રીતે અર્થઘટન કરવામાં મદદ કરે છે.

જ્યારે તમે વૉઇસ વિનંતી કરો છો, ઉદાહરણ તરીકે, Yandex.Navigator માં, સ્માર્ટફોન તેને રેકોર્ડ કરે છે અને તેને Yandex સર્વર પર મોકલે છે. સર્વર પર, રેકોર્ડિંગને 25 મિલીસેકન્ડ લાંબા, 10 મિલીસેકન્ડના સ્ટેપ સાથે ઘણા નાના ટુકડાઓમાં (ફ્રેમ્સ) વિભાજિત કરવામાં આવે છે. એટલે કે તમારી વાણીની એક સેકન્ડ સો ફ્રેમમાં ફેરવાઈ જાય છે.

પછી તેમાંના દરેકને એકોસ્ટિક મોડેલમાંથી પસાર કરવામાં આવે છે - એક કાર્ય જે નિર્ધારિત કરે છે કે તમે કયો અવાજ કર્યો છે. આ ડેટાના આધારે, મશીન લર્નિંગ પદ્ધતિઓનો ઉપયોગ કરીને પ્રશિક્ષિત સિસ્ટમ, તમે શોધ પરિણામોમાં જુઓ છો તે શબ્દોની વિવિધતા નક્કી કરે છે. મોબાઇલ બ્રાઉઝર, "લીઓ ટોલ્સટોય" ની વિનંતીના જવાબમાં, મહાન લેખક વિશેની સાઇટ્સ શોધશે, અને નેવિગેટર અને નકશા લીઓ ટોલ્સટોય સ્ટ્રીટ ઓફર કરશે.

પરિણામોની ચોકસાઈ સીધી રીતે તેના પર નિર્ભર કરે છે કે સિસ્ટમ બોલાતા અવાજોને કેટલી સારી રીતે ઓળખે છે. આ કરવા માટે, ધ્વન્યાત્મક મૂળાક્ષરો જેની સાથે તે કાર્ય કરે છે તે પૂરતા પ્રમાણમાં સચોટ અને સંપૂર્ણ હોવા જોઈએ.

યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો

રશિયન ભાષામાં, વિવિધ સિદ્ધાંતો અનુસાર, લગભગ 40 ફોનેમ્સ (ધ્વનિ એકમો) છે. અમારી સ્પીચ રેકગ્નિશન સિસ્ટમ ઇનકમિંગ સ્પીચ સિગ્નલ સાથે ફોનેમ્સ સાથે મેળ ખાય છે અને પછી તેમાંથી શબ્દો ભેગા કરે છે. ઉદાહરણ તરીકે, "યાન્ડેક્ષ" શબ્દમાં સાત ફોનેમનો સમાવેશ થાય છે - [th][a][n][d][e][k][s]. ફોનેમ્સની અવધિ અલગ અલગ હોઈ શકે છે, અને જ્યારે ફ્રેમ દ્વારા વિભાજિત થાય છે, ત્યારે "યાન્ડેક્સ" શબ્દ દેખાઈ શકે છે, ઉદાહરણ તરીકે, આના જેવા - [th][th][a][a][a][a][a][a] ][a][a][a][a][n][n][d][d][e][k][s]. કોઈપણ ફોનમેનો ઉચ્ચાર તેના પડોશીઓ અને શબ્દની સ્થિતિ પર આધાર રાખે છે. એટલે કે, શબ્દની શરૂઆતમાં, મધ્યમાં અને અંતે અવાજ [a] ત્રણ અલગ અલગ છે [a], અને "ઓડિયો રેકોર્ડિંગ પર" સંયોજનમાં બે સ્વરો વચ્ચેનો અવાજ [a] અલગ છે. [a] શબ્દ "બક" માં વ્યંજનો વચ્ચે. તેથી, સારી ઓળખ માટે ફોનેમ ખૂબ બરછટ એકમ છે.

ફોનેમના ઉચ્ચારને વધુ સચોટ રીતે મોડલ કરવા માટે, અમે સૌ પ્રથમ દરેક ફોનમેને ત્રણ ભાગોમાં વિભાજીત કરીએ છીએ: પરંપરાગત શરૂઆત, મધ્ય અને અંત. બીજું, અમે અમારું પોતાનું ધ્વન્યાત્મક મૂળાક્ષર વિકસાવ્યું છે, જે ફોનેમની સ્થિતિ અને સંદર્ભને ધ્યાનમાં લે છે. સંદર્ભ-આધારિત ફોનેમ્સના તમામ સંભવિત પ્રકારોને ધ્યાનમાં લેવું તે મૂર્ખતાભર્યું નથી, કારણ કે તેમાંના ઘણા વાસ્તવિક જીવનમાં થતા નથી. તેથી, અમે અમારા પ્રોગ્રામને સમાન અવાજોને એકસાથે ધ્યાનમાં લેવાનું શીખવ્યું. પરિણામે, અમને 4000 પ્રાથમિક એકમો - સેનોન્સનો સમૂહ પ્રાપ્ત થયો. આ યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો છે જેની સાથે અમારી વાણી ઓળખ તકનીક કાર્ય કરે છે.

સંભાવનાઓ

આદર્શ વિશ્વમાં, પ્રોગ્રામ ચોક્કસ રીતે નિર્ધારિત કરશે કે કયો ફોનેમ વૉઇસ વિનંતીના દરેક ટુકડાને અનુરૂપ છે. પરંતુ એક વ્યક્તિ પણ કેટલીકવાર બધા અવાજોને સમજી અથવા સાંભળી શકતી નથી અને સંદર્ભના આધારે શબ્દ પૂર્ણ કરે છે. અને જો કોઈ વ્યક્તિ તેના પોતાના ભાષણ અનુભવ પર આધાર રાખે છે, તો પછી અમારી સિસ્ટમ સંભાવનાઓ સાથે કાર્ય કરે છે.

સૌપ્રથમ, વૉઇસ રિક્વેસ્ટ (ફ્રેમ) ના દરેક ટુકડાની તુલના એક ફોનેમ સાથે નહીં, પરંતુ વિવિધ સાથે, સંભાવનાની વિવિધ ડિગ્રી સાથે યોગ્ય છે. બીજું, સંક્રમણ સંભાવનાઓનું કોષ્ટક છે, જે સૂચવે છે કે "a" પછી એક સંભાવના સાથે "a" પણ હશે, બીજી સંભાવના સાથે "b" હશે, વગેરે. આ તમને ફોનમના ક્રમના પ્રકારો નક્કી કરવાની મંજૂરી આપે છે, અને પછી, ઉચ્ચાર, મોર્ફોલોજી અને સિમેન્ટિક્સ વિશેના પ્રોગ્રામમાં ઉપલબ્ધ ડેટાના આધારે, તમે કહી શકો તેવા શબ્દોના પ્રકારો.

પ્રોગ્રામ શબ્દોને તેમના અર્થ અનુસાર પુનઃસ્થાપિત પણ કરી શકે છે. જો તમે ઘોંઘાટવાળી જગ્યાએ હોવ, સ્પષ્ટ રીતે બોલશો નહીં અથવા અસ્પષ્ટ શબ્દોનો ઉપયોગ કરશો નહીં, તો તે સંદર્ભ અને આંકડાઓના આધારે તમારી વિનંતી પૂર્ણ કરશે. ઉદાહરણ તરીકે, પ્રોગ્રામ "મમ્મીએ ઘા ધોઈ નાખ્યો" ના બદલે "મમ્મીએ ઘા ધોઈ નાખ્યો" તરીકે "મમ્મી ધોયો..." વાક્ય ચાલુ રાખવાની શક્યતા વધારે છે. વિવિધ ડેટા પર મશીન લર્નિંગ માટે આભાર, અમારો પ્રોગ્રામ ઘોંઘાટ માટે પ્રતિરોધક છે, ઉચ્ચારિત વાણીને સારી રીતે ઓળખે છે અને માન્યતાની ગુણવત્તા વક્તાના લિંગ અને ઉંમરથી વ્યવહારીક રીતે સ્વતંત્ર છે.

હાલમાં, અમારી સ્પીચ રેકગ્નિશન ટેક્નોલોજી નેવિગેટર અને મોબાઈલ મેપ્સમાં 94% શબ્દો અને મોબાઈલ બ્રાઉઝરમાં 84% શબ્દોને યોગ્ય રીતે ઓળખે છે. આ કિસ્સામાં, માન્યતા લગભગ એક સેકંડ લે છે. આ પહેલેથી જ ખૂબ જ યોગ્ય પરિણામ છે, અને અમે તેને સુધારવા માટે સક્રિયપણે કામ કરી રહ્યા છીએ. અમે માનીએ છીએ કે થોડા વર્ષોમાં વૉઇસ ઇનપુટ ઇન્ટરફેસ શાસ્ત્રીય પદ્ધતિઓથી હલકી ગુણવત્તાવાળા નહીં હોય.

પી.એસ.ટેક્નોલોજી ઉપરાંત, અમે YaC 2013 પર સ્પીચ રેકગ્નિશન - સ્પીચકિટ માટે એક સાર્વજનિક API પ્રસ્તુત કર્યું છે. તેની સહાયતા સાથે, વિકાસકર્તાઓ Android અને iOS માટે તેમની એપ્લિકેશન્સમાં યાન્ડેક્સ વૉઇસ શોધ ઉમેરી શકે છે. તમે સ્પીચકિટ ડાઉનલોડ કરી શકો છો અને દસ્તાવેજો પણ વાંચી શકો છો.

","contentType":"ટેક્સ્ટ/html"),"authorId":"5105614","slug":"72171","canEdit":false,"canComment":false,"isBanned":false,"પ્રકાશિત કરી શકો છો" :false,"viewType":"જૂનું","isDraft":false,"isSubscriber":false,"ટિપ્પણીઓની ગણતરી":13,"modificationDate":"શુક્ર 22 નવેમ્બર 2013 16:24:00 GMT+0000 (UTC)" , "showPreview":true,"approvedPreview":("source":"આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ - તેમના ફોનથી કરે છે. તમે તેનો ઉપયોગ તમારા ઇમેઇલ તપાસવા, દસ્તાવેજો અને ફોટા મોકલવા, નજીકનું ATM શોધવા માટે કરી શકો છો. અથવા કારનો માર્ગ બનાવો આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ ડેવલપમેન્ટના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વોઇસ કંટ્રોલ છે.","html":"આજે ઘણા લોકો રોજબરોજના કાર્યોને સફરમાં હલ કરે છે. - તેમના ફોનમાંથી તમે તેનો ઉપયોગ ઈમેલ ચેક કરવા, નજીકનું ATM શોધવા અથવા કારનો રૂટ બનાવવા માટે કરી શકો છો, તેથી હવે તે સૌથી સંબંધિત ક્ષેત્રોમાંનું એક છે મોબાઇલ ડેવલપમેન્ટ એ વૉઇસ કંટ્રોલ છે.","contentType":"text/html"),"proposedPreview" :("source":"આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ તેમના ફોનથી કરે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ ડેવલપમેન્ટના સૌથી સંબંધિત ક્ષેત્રોમાંનું એક વોઇસ કંટ્રોલ છે.","html":"આજે, ઘણા લોકો રોજબરોજના કાર્યોને સફરમાં - તેમના ફોનથી ઉકેલે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ ડેવલપમેન્ટના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વોઇસ કંટ્રોલ છે.","contentType":"text/html"),"titleImage":null,"tags" :[("displayName ":"Yandex technologies","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company?tag=tekhnologii-yandeksa"),( "displayName":" તે કેવી રીતે કામ કરે છે?","slug":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company?tag=kak-eto-rabotaet ")],"isModerator ":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https ://yandex.ru /blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha":"/blog createWithCaptcha/company/72171" "changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost": "/blog/562886797eba6ef16f805641/ સંપાદિત કરો","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641/nblog/nb88"publishe:76f16f805641/n/blog 6f805641/અપ્રકાશિત","urlRemovePost ":"/blog/ 562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft","url/removeDraft" /562886797eba6ef16f805641/removeD raft", "urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl/subscribe":"/blog/company /562886797eba6ef16f805641","unsubscribeUrl" :"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company/56288686868641/blog" સ્લેટ":"/બ્લોગ/પોસ્ટ/અનુવાદ","urlRelateIssue" :"/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/72171"/translation ,"urlRelatedArticles":"/ blog/api/relatedArticles/company/72171","author":("id":"5105614","uid":("મૂલ્ય":"5105614","lite":false, "હોસ્ટેડ":ખોટા), "ઉનામ":("13":"કડાનેર"),"લોગિન":"મિનુશુમન","ડિસ્પ્લે_નામ":("નામ":"એલેક્સી","અવતાર":("ડિફોલ્ટ" :"21377/5105614-16014116 ","ખાલી":false)),,"સરનામું":" [ઇમેઇલ સુરક્ષિત]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/islands-middle","isYandex true),"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":("orig":("fullPath":"https://avatars.mds.yandex.net/get-yablogs /49865/file_1465551301378/orig")))))">

આ કેવી રીતે કામ કરે છે? વાણી ઓળખ

આજે, ઘણા લોકો રોજબરોજની સમસ્યાઓનું નિરાકરણ - તેમના ફોનથી કરે છે. તેની મદદથી, તમે તમારું ઈમેલ ચેક કરી શકો છો, દસ્તાવેજો અને ફોટા મોકલી શકો છો, નજીકનું ATM શોધી શકો છો અથવા ડ્રાઇવિંગ રૂટ બનાવી શકો છો. આવા તમામ કાર્યો માટે કીબોર્ડનો ઉપયોગ કરવો અનુકૂળ નથી, તેથી હવે મોબાઇલ વિકાસના સૌથી સુસંગત ક્ષેત્રોમાંનું એક વૉઇસ નિયંત્રણ છે.

વૉઇસ કંટ્રોલ સ્પીચ રેકગ્નિશન ટેક્નોલોજી પર આધારિત છે. તેમાં વિવિધ ક્ષેત્રોમાં સિદ્ધિઓનો સમાવેશ થાય છે: કોમ્પ્યુટેશનલ ભાષાશાસ્ત્રથી લઈને ડિજિટલ સિગ્નલ પ્રોસેસિંગ સુધી. ઓક્ટોબરની શરૂઆતમાં એક કોન્ફરન્સમાં, યાન્ડેક્ષે તેની સ્પીચ રેકગ્નિશન ટેક્નોલોજી રજૂ કરી, અને આજે આપણે તે કેવી રીતે કાર્ય કરે છે તે વિશે વાત કરવા માંગીએ છીએ.

એકોસ્ટિક મોડલ

જો તમે વૉઇસ સર્ચ માટે "લેવ ટોલ્સટોય" કહો છો, તો સ્માર્ટફોન પ્રથમ અને છેલ્લું નામ નહીં, બે શબ્દો નહીં, પરંતુ એક ધ્વનિ સંકેત સાંભળશે જેમાં સ્પષ્ટ સીમાઓ વિના અવાજો એકબીજામાં સરળતાથી વહે છે. સ્પીચ રેકગ્નિશન સિસ્ટમનું કાર્ય આ સિગ્નલમાંથી જે કહેવામાં આવ્યું હતું તેનું પુનર્નિર્માણ કરવાનું છે. પરિસ્થિતિ એ હકીકત દ્વારા જટિલ છે કે સમાન શબ્દસમૂહ, વિવિધ પરિસ્થિતિઓમાં જુદા જુદા લોકો દ્વારા ઉચ્ચારવામાં આવે છે, તે સંપૂર્ણપણે અલગ સંકેતો આપશે. એકોસ્ટિક મોડેલિંગ સિસ્ટમ તેમને યોગ્ય રીતે અર્થઘટન કરવામાં મદદ કરે છે.

જ્યારે તમે વૉઇસ વિનંતી કરો છો, ઉદાહરણ તરીકે, Yandex.Navigator માં, સ્માર્ટફોન તેને રેકોર્ડ કરે છે અને તેને Yandex સર્વર પર મોકલે છે. સર્વર પર, રેકોર્ડિંગને 25 મિલીસેકન્ડ લાંબા, 10 મિલીસેકન્ડના સ્ટેપ સાથે ઘણા નાના ટુકડાઓમાં (ફ્રેમ્સ) વિભાજિત કરવામાં આવે છે. એટલે કે તમારી વાણીની એક સેકન્ડ સો ફ્રેમમાં ફેરવાઈ જાય છે.

પછી તેમાંના દરેકને એકોસ્ટિક મોડેલમાંથી પસાર કરવામાં આવે છે - એક કાર્ય જે નિર્ધારિત કરે છે કે તમે કયો અવાજ કર્યો છે. આ ડેટાના આધારે, મશીન લર્નિંગ પદ્ધતિઓનો ઉપયોગ કરીને પ્રશિક્ષિત સિસ્ટમ, તમે શોધ પરિણામોમાં જુઓ છો તે શબ્દોની વિવિધતા નક્કી કરે છે. મોબાઇલ બ્રાઉઝર, "લીઓ ટોલ્સટોય" ની વિનંતીના જવાબમાં, મહાન લેખક વિશેની સાઇટ્સ શોધશે, અને નેવિગેટર અને નકશા લીઓ ટોલ્સટોય સ્ટ્રીટ ઓફર કરશે.

પરિણામોની ચોકસાઈ સીધી રીતે તેના પર નિર્ભર કરે છે કે સિસ્ટમ બોલાતા અવાજોને કેટલી સારી રીતે ઓળખે છે. આ કરવા માટે, ધ્વન્યાત્મક મૂળાક્ષરો જેની સાથે તે કાર્ય કરે છે તે પૂરતા પ્રમાણમાં સચોટ અને સંપૂર્ણ હોવા જોઈએ.

યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો

રશિયન ભાષામાં, વિવિધ સિદ્ધાંતો અનુસાર, લગભગ 40 ફોનેમ્સ (ધ્વનિ એકમો) છે. અમારી સ્પીચ રેકગ્નિશન સિસ્ટમ ઇનકમિંગ સ્પીચ સિગ્નલ સાથે ફોનેમ્સ સાથે મેળ ખાય છે અને પછી તેમાંથી શબ્દો ભેગા કરે છે. ઉદાહરણ તરીકે, "યાન્ડેક્ષ" શબ્દમાં સાત ફોનેમનો સમાવેશ થાય છે - [th][a][n][d][e][k][s]. ફોનેમ્સની અવધિ અલગ અલગ હોઈ શકે છે, અને જ્યારે ફ્રેમ દ્વારા વિભાજિત થાય છે, ત્યારે "યાન્ડેક્સ" શબ્દ દેખાઈ શકે છે, ઉદાહરણ તરીકે, આના જેવા - [th][th][a][a][a][a][a][a] ][a][a][a][a][n][n][d][d][e][k][s]. કોઈપણ ફોનમેનો ઉચ્ચાર તેના પડોશીઓ અને શબ્દની સ્થિતિ પર આધાર રાખે છે. એટલે કે, શબ્દની શરૂઆતમાં, મધ્યમાં અને અંતે અવાજ [a] ત્રણ અલગ અલગ છે [a], અને "ઓડિયો રેકોર્ડિંગ પર" સંયોજનમાં બે સ્વરો વચ્ચેનો અવાજ [a] અલગ છે. [a] શબ્દ "બક" માં વ્યંજનો વચ્ચે. તેથી, સારી ઓળખ માટે ફોનેમ ખૂબ બરછટ એકમ છે.

ફોનેમના ઉચ્ચારને વધુ સચોટ રીતે મોડલ કરવા માટે, અમે સૌ પ્રથમ દરેક ફોનમેને ત્રણ ભાગોમાં વિભાજીત કરીએ છીએ: પરંપરાગત શરૂઆત, મધ્ય અને અંત. બીજું, અમે અમારું પોતાનું ધ્વન્યાત્મક મૂળાક્ષર વિકસાવ્યું છે, જે ફોનેમની સ્થિતિ અને સંદર્ભને ધ્યાનમાં લે છે. સંદર્ભ-આધારિત ફોનેમ્સના તમામ સંભવિત પ્રકારોને ધ્યાનમાં લેવું તે મૂર્ખતાભર્યું નથી, કારણ કે તેમાંના ઘણા વાસ્તવિક જીવનમાં થતા નથી. તેથી, અમે અમારા પ્રોગ્રામને સમાન અવાજોને એકસાથે ધ્યાનમાં લેવાનું શીખવ્યું. પરિણામે, અમને 4000 પ્રાથમિક એકમો - સેનોન્સનો સમૂહ પ્રાપ્ત થયો. આ યાન્ડેક્ષ ધ્વન્યાત્મક મૂળાક્ષરો છે જેની સાથે અમારી વાણી ઓળખ તકનીક કાર્ય કરે છે.

સંભાવનાઓ

આદર્શ વિશ્વમાં, પ્રોગ્રામ ચોક્કસ રીતે નિર્ધારિત કરશે કે કયો ફોનેમ વૉઇસ વિનંતીના દરેક ટુકડાને અનુરૂપ છે. પરંતુ એક વ્યક્તિ પણ કેટલીકવાર બધા અવાજોને સમજી અથવા સાંભળી શકતી નથી અને સંદર્ભના આધારે શબ્દ પૂર્ણ કરે છે. અને જો કોઈ વ્યક્તિ તેના પોતાના ભાષણ અનુભવ પર આધાર રાખે છે, તો પછી અમારી સિસ્ટમ સંભાવનાઓ સાથે કાર્ય કરે છે.

સૌપ્રથમ, વૉઇસ રિક્વેસ્ટ (ફ્રેમ) ના દરેક ટુકડાની તુલના એક ફોનેમ સાથે નહીં, પરંતુ વિવિધ સાથે, સંભાવનાની વિવિધ ડિગ્રી સાથે યોગ્ય છે. બીજું, સંક્રમણ સંભાવનાઓનું કોષ્ટક છે, જે સૂચવે છે કે "a" પછી એક સંભાવના સાથે "a" પણ હશે, બીજી સંભાવના સાથે "b" હશે, વગેરે. આ તમને ફોનમના ક્રમના પ્રકારો નક્કી કરવાની મંજૂરી આપે છે, અને પછી, ઉચ્ચાર, મોર્ફોલોજી અને સિમેન્ટિક્સ વિશેના પ્રોગ્રામમાં ઉપલબ્ધ ડેટાના આધારે, તમે કહી શકો તેવા શબ્દોના પ્રકારો.

પ્રોગ્રામ શબ્દોને તેમના અર્થ અનુસાર પુનઃસ્થાપિત પણ કરી શકે છે. જો તમે ઘોંઘાટવાળી જગ્યાએ હોવ, સ્પષ્ટ રીતે બોલશો નહીં અથવા અસ્પષ્ટ શબ્દોનો ઉપયોગ કરશો નહીં, તો તે સંદર્ભ અને આંકડાઓના આધારે તમારી વિનંતી પૂર્ણ કરશે. ઉદાહરણ તરીકે, પ્રોગ્રામ "મમ્મીએ ઘા ધોઈ નાખ્યો" ના બદલે "મમ્મીએ ઘા ધોઈ નાખ્યો" તરીકે "મમ્મી ધોયો..." વાક્ય ચાલુ રાખવાની શક્યતા વધારે છે. વિવિધ ડેટા પર મશીન લર્નિંગ માટે આભાર, અમારો પ્રોગ્રામ ઘોંઘાટ માટે પ્રતિરોધક છે, ઉચ્ચારિત વાણીને સારી રીતે ઓળખે છે અને માન્યતાની ગુણવત્તા વક્તાના લિંગ અને ઉંમરથી વ્યવહારીક રીતે સ્વતંત્ર છે.

હાલમાં, અમારી સ્પીચ રેકગ્નિશન ટેક્નોલોજી નેવિગેટર અને મોબાઈલ મેપ્સમાં 94% શબ્દો અને મોબાઈલ બ્રાઉઝરમાં 84% શબ્દોને યોગ્ય રીતે ઓળખે છે. આ કિસ્સામાં, માન્યતા લગભગ એક સેકંડ લે છે. આ પહેલેથી જ ખૂબ જ યોગ્ય પરિણામ છે, અને અમે તેને સુધારવા માટે સક્રિયપણે કામ કરી રહ્યા છીએ. અમે માનીએ છીએ કે થોડા વર્ષોમાં વૉઇસ ઇનપુટ ઇન્ટરફેસ શાસ્ત્રીય પદ્ધતિઓથી હલકી ગુણવત્તાવાળા નહીં હોય.

પી.એસ.ટેક્નોલોજી ઉપરાંત, અમે YaC 2013 પર સ્પીચ રેકગ્નિશન - સ્પીચકિટ માટે એક સાર્વજનિક API પ્રસ્તુત કર્યું છે. તેની સહાયતા સાથે, વિકાસકર્તાઓ Android અને iOS માટે તેમની એપ્લિકેશન્સમાં યાન્ડેક્સ વૉઇસ શોધ ઉમેરી શકે છે. તમે સ્પીચકિટ ડાઉનલોડ કરી શકો છો અને દસ્તાવેજો પણ વાંચી શકો છો.

નાણાકીય બજારોમાં પેટર્ન બનાવવાની વૃત્તિ હોય છે જે મોટાભાગે ચળવળની ભાવિ દિશા દર્શાવે છે. ભાવની પેટર્ન ક્રમિક શિખરો અને ચાટના સંયોજનોમાંથી રચાય છે, અને દરેક પેટર્નની પોતાની રચના પદ્ધતિ અને ચોક્કસ ગ્રાફિકલ સ્વરૂપ હોય છે. વ્યવહારોના જથ્થાની ગતિશીલતા ચોક્કસ મોડેલના અસ્તિત્વ માટે પુષ્ટિ કરનાર પરિબળ તરીકે કાર્ય કરે છે. બજારના સહભાગીઓના મનોવિજ્ઞાનના દૃષ્ટિકોણથી તમામ મોડેલો સમજાવવામાં આવ્યા છે.
ગ્રાફિકલ પદ્ધતિ કિંમત પેટર્નને ઓળખવા માટેની મુખ્ય પદ્ધતિઓમાંની એક છે. નોંધ કરો કે આ અથવા તે આકૃતિ નક્કી કરવા માટેના માપદંડો અસ્પષ્ટ છે, બધા સંકેતો વ્યક્તિલક્ષી રીતે જોવામાં આવે છે, શાસ્ત્રીય પદ્ધતિઓ અસ્તવ્યસ્ત છે, અને તેમની પાછળ કોઈ કડક સિસ્ટમ નથી. તેમની ખામીઓ હોવા છતાં, ગ્રાફિકલ પદ્ધતિઓ વ્યવહારુ ઉપયોગ માટે ઉપયોગી છે અને ગંભીર તકનીકી વિશ્લેષણ માટે આધાર પૂરો પાડે છે.
ગ્રાફિક પેટર્નને ઓળખવું અને તેનું વિશ્લેષણ કરવું એ શ્રમ-સઘન કાર્ય છે જે વેપારી પાસેથી ઘણો સમય લે છે. શ્રેષ્ઠ સોફ્ટવેર સાથે સૌથી અનુભવી રોકાણ વિશ્લેષક પણ દરરોજ 50 થી 75 સિક્યોરિટીઝને ટ્રેક કરી શકે છે. વૈશ્વિક શેરબજારોના સ્કેલને ધ્યાનમાં લેતાં આ બહુ નાનું છે.
ભાવ પેટર્ન વિશે સંપૂર્ણ માહિતી વિના, ટેકનિકલ વિશ્લેષક અસંખ્ય વેપારની તકો ગુમાવવાનું ચાલુ રાખશે. રોકાણકારોને વેપાર કાર્યક્ષમતા સુધારવા માટે મોટી સંખ્યામાં નાણાકીય સાધનો માટે સ્થાપિત ચાર્ટ પેટર્ન વિશેની માહિતી ઝડપી, સરળ અને સમયસર ઍક્સેસની જરૂર છે. તાજેતરમાં, વધુ અને વધુ વ્યાપક
ઓટોમેટિક ચાર્ટ રેકગ્નિશન પ્રોગ્રામ્સ - CPR (ચાર્ટ પેટર્ન રેકગ્નિશન).
ઓળખ સિસ્ટમ. કેનેડિયન કંપની Recognia Inc દ્વારા વેપારીને એક શક્તિશાળી ચાર્ટ પેટર્ન ઓળખ સિસ્ટમ પ્રદાન કરવામાં આવે છે. વિકસિત ટેક્નોલોજી ઘણા સિક્યોરિટી બજારોના વિશ્લેષણ માટે પરવાનગી આપે છે. નિષ્ણાતને ફક્ત શોધ પરિમાણો સેટ કરવાની જરૂર છે (નાણાકીય સાધન દ્વારા, ચોક્કસ કિંમતના મોડેલ દ્વારા, વગેરે.) પ્રોગ્રામ ચાર્ટ્સને "સ્કેન" કરે છે અને તે સાધનોને ઓળખે છે જેની સાથે તે આ ક્ષણે નાણાકીય વ્યવહારો કરવા માટે સૌથી વધુ તર્કસંગત છે. કેનેડિયન કંપની રેકોગ્નીયા ઇન્ક. ઓનલાઈન બ્રોકર્સ, ફંડ મેનેજર્સ અને નાણાકીય માહિતી પ્રદાતાઓને એવી સેવા પ્રદાન કરે છે જે માલિકીની ટેકનોલોજીનો ઉપયોગ કરીને ઈવેન્ટ્સ અને પેટર્નને આપમેળે ઓળખે છે.
રેકોગ્નીયા સર્વિસની મદદથી, રોકાણકારને આની તક મળે છે:
તાજેતરની તકનીકી ઘટનાઓ જોઈને ચોક્કસ નાણાકીય સાધન માટેની સંભાવનાઓનું મૂલ્યાંકન કરો;
સિક્યોરિટીઝની સમીક્ષા કરીને પોઝિશન્સ ખોલવા માટે નવી તકો શોધો કે જેના માટે રેકોગ્નિયાએ ચોક્કસ કિંમત પેટર્ન શોધી કાઢી છે;
તેની લાક્ષણિકતાઓનો અભ્યાસ કરીને અને ગ્રાફ જોઈને ઓળખાયેલ ઘટના તેના માટે મહત્વપૂર્ણ છે કે કેમ તે નક્કી કરો;
ચોક્કસ સિક્યોરિટીઝ અથવા ટ્રેડિંગ પ્લેટફોર્મ્સ માટે ચેતવણીઓ સેટ કરો (જો ચાર્ટ પર પસંદ કરેલી સિક્યોરિટીઝ મળી આવે તો ચેતવણી સિગ્નલના નિર્માણ માટે પ્રદાન કરો);
પ્રસ્તુત શૈક્ષણિક સામગ્રીમાંથી તકનીકી વિશ્લેષણ વિશે વધુ જાણો.
ઓળખ સેવાના કાર્યમાં ચાર તબક્કાઓ છે (ફિગ. 6.1).
1) શેરો, બોન્ડ્સ, કોમોડિટીઝ, ચલણો અને સૂચકાંકો સહિતના સાર્વજનિક રૂપે ટ્રેડેડ નાણાકીય સાધનો પરનો ડેટા, ટ્રેડિંગ બંધ થયા પછી આપમેળે રેકગ્નિયાને મોકલવામાં આવે છે. Recognia હાલમાં ઉત્તર અમેરિકાના એક્સચેન્જો પર દરરોજ વેપાર થતી 20,000 થી વધુ સિક્યોરિટીઝનું વિશ્લેષણ કરે છે અને અન્ય વૈશ્વિક બજારોમાંથી સેંકડો નાણાકીય સાધનોનો સમાવેશ કરવાની યોજના ધરાવે છે;
2) પેટન્ટેડ પેટર્ન રેકગ્નિશન એલ્ગોરિધમ્સ અને ન્યુરલ નેટવર્ક ટેક્નોલોજીનો ઉપયોગ કરીને, રેકોગ્નીયા નિયમિતપણે આ નાણાકીય સાધનો માટે કિંમત ડેટાનું વિશ્લેષણ કરે છે, ચાર્ટ પર વર્તમાન અને ઐતિહાસિક કિંમત પેટર્ન આપમેળે શોધી કાઢે છે. તકનીકી વિશ્લેષણના ક્ષેત્રના નિષ્ણાતોએ આ તકનીકના વિકાસમાં ભાગ લીધો હતો;
3) વિશ્લેષણના પરિણામો કંપનીના ગ્રાહકો દ્વારા પ્રાપ્ત થાય છે, જેઓ તેમની વેબસાઇટ્સ પર અનુરૂપ વિભાગો બનાવે છે;
4) રોકાણકારો, બ્રોકર્સ અને પોર્ટફોલિયો મેનેજરો નવી ટ્રેડિંગ તકો શોધવા અને અન્ય રીતે પ્રાપ્ત સિગ્નલોની પુષ્ટિ કરવા પેટર્નનો ઉપયોગ કરે છે. ક્લાઈન્ટો ઓળખાયેલ કિંમત પેટર્ન વિશે મફતમાં માહિતી આપી શકે છે અથવા ચૂકવેલ સેવાનું આયોજન કરી શકે છે. અંતિમ વપરાશકર્તાઓ કોઈપણ ઉપલબ્ધ પરિમાણો (સુરક્ષા નામ, વિનિમય, ક્ષેત્ર, પેટર્નનો પ્રકાર, વગેરે) નો ઉપયોગ કરીને પેટર્નને ઓળખવા માટે વિનંતી કરે છે https://example.recognia.com/demo રેકોગ્નિયા ઓન-લાઈન બ્રોકર પ્રોડક્ટનું ડેમો સંસ્કરણ રજૂ કરે છે. , જે તમામ સંભવિત કાર્યોની ઍક્સેસ પ્રદાન કરે છે, પરંતુ નાણાકીય સાધનોના મર્યાદિત સેટ અને વિલંબ સાથે કિંમતની માહિતીની પ્રાપ્તિ સાથે.
રેકગ્નીયા ઓન-લાઈન બ્રોકર પ્રોડક્ટ રોકાણકારોને નીચેના સાધનો પ્રદાન કરે છે:
ટેકનિકલ ઇવેન્ટ સ્ટોક સ્ક્રકનર (ફિગ. 6.2.) નાણાકીય સાધનોની સૂચિનું સંકલન કરે છે જે વપરાશકર્તા દ્વારા દાખલ કરેલ માપદંડોને પૂર્ણ કરે છે. રોકાણકારે શોધ પરિમાણો સેટ કરવાની જરૂર છે જે ઇચ્છિત તકનીકી વિશ્લેષણ ઇવેન્ટને લાક્ષણિકતા આપે છે: પ્રકાર, તારીખ, અવધિ, મંદી અથવા બુલિશ સંકેતો, વગેરે. વપરાશકર્તા અન્ય શોધ માપદંડ પણ દાખલ કરી શકે છે; વિનિમય, ઉદ્યોગ, સાધનનો પ્રકાર, વેપારનું પ્રમાણ અને ભાવ સ્તર. ઉદાહરણ તરીકે, તમે કદાચ એવા તેલ અને ગેસ સ્ટોક્સ શોધવા માગો છો કે જેઓ તાજેતરમાં ભાવમાં બદલાવની પેટર્ન દર્શાવે છે - "ડબલ બોટમ." આવી સિક્યોરિટીઝ માટે, કિંમત ઉપર તરફ જવાની અપેક્ષા છે;
ટેકનિકલ ઇવેન્ટ લુકઅપ. આ કાર્ય તમને ચોક્કસ સુરક્ષા અથવા અનુક્રમણિકા માટે તમામ તાજેતરની તકનીકી વિશ્લેષણ ઇવેન્ટ્સની સૂચિ મેળવવા માટે પરવાનગી આપે છે. પસંદ કરેલા પેપર માટેની તમામ ઇવેન્ટ્સને ચાર અલગ-અલગ વર્ગોમાં જૂથબદ્ધ કરવામાં આવી છે:
a) ક્લાસિક પેટર્ન (ક્લાસિક પેટર્ન) - પરંપરાગત ગ્રાફિક પેટર્ન, ઉદાહરણ તરીકે, "ડબલ ટોપ" અથવા "માથા અને ખભા";
b) ટૂંકા ગાળાની પેટર્ન અથવા કૅન્ડલસ્ટિક પેટર્ન;
c) સૂચક (સૂચક) - મૂવિંગ એવરેજ પર આધારિત ઇવેન્ટ્સ;
d) ઓસિલેટર (ઓસિલેટર), ઉદાહરણ તરીકે, MACD અથવા RSI.
માન્યતા પરિણામોનું વિઝ્યુલાઇઝેશન. ફિગ માં. આકૃતિ 6.3 રેકગ્નીયા ગ્રાફિકલ મોડલને ઓળખવાનું ઉદાહરણ રજૂ કરે છે. રોકાણકાર નીચેની માહિતી મેળવે છે: ઇવેન્ટનું સંક્ષિપ્ત વર્ણન (પેટર્ન), ઇવેન્ટની તારીખ અને યેનની સંભવિત લક્ષ્ય શ્રેણી. ચાર્ટમાં એવી રેખાઓનો સમાવેશ થાય છે જે પેટર્ન બનાવે છે, ઇવેન્ટની તારીખ દર્શાવતું આઇકન અને ટ્રેન્ડ લાઇન્સ.
Q Recognita Inc. ઝૂડ
મેટાસ્ટોક માટે ચાર્ટ પેટેમ રેકગ્નિશન (CPR) એ મેટાસ્ટોક માટેનો એક વધારાનો નિષ્ણાત પ્રોગ્રામ છે જે તમને છ ક્લાસિક ટ્રેન્ડ રિવર્સલ પેટર્ન (હેડ અને શોલ્ડર ટોપ અને બોટમ, ટ્રિપલ ટોપ, ટ્રિપલ બોટમ, ડબલ ટોપ) અને ડબલ બોટમ અને ત્રણ ચાલુ રાખવા માટે આપમેળે ઓળખવા દે છે. વલણ પેટર્ન
("સપ્રમાણ ત્રિકોણ", "ચડતો ત્રિકોણ" અને "ઉતરતો ત્રિકોણ"). આ ચાર્ટ મોડલ્સ સૌથી વિશ્વસનીય છે.
જ્યારે પ્રોગ્રામ કોઈ પેટર્નની ઓળખ કરે છે, ત્યારે એક્સપર્ટ કોમેન્ટરી બ્લોક, જે ચાર્ટ પર પેટર્ન શોધવામાં આવે ત્યારે વેપારીને ભલામણો આપવા માટે જવાબદાર છે, તે જણાવે છે કે રક્ષણાત્મક સ્ટોપ ઓર્ડર ક્યાં આપવાનું શ્રેષ્ઠ છે અને સંપત્તિની અપેક્ષિત કિંમત શું છે. પ્રોગ્રામ ચાર્ટ પર ઓળખાયેલ બિન-નવી પેટર્નને ચિહ્નિત કરે છે અને પોઝિશનમાં પ્રવેશવા અને બહાર નીકળવા માટે સિગ્નલ જનરેટ કરે છે. CPR તમને કિંમત પેટર્ન માટે બહુવિધ ચાર્ટ ઝડપથી સ્કેન કરવાની મંજૂરી આપે છે.
1. માથા અને ખભાની પેટર્નને ઓળખવી. આ મોડેલ માટે મૂળભૂત નિયમો:
1) અગાઉના અપટ્રેન્ડ: ત્રણ અથવા વધુ સળંગ શિખરો;
2) ડાબા ખભા સુધારાત્મક ઘટાડાને અનુસરે છે;
3) ડાબા ખભા ઉપર નવા સ્તરે વધારો;
4) યેન પાછલા લઘુત્તમ સ્તરે ઘટે છે;
5) ત્રીજું ચઢાણ મધ્યમ શિખરની ટોચ પર પહોંચતું નથી;
6) ગરદન રેખા નીચે બંધ.
જલદી કિંમત ગરદનના સ્તરથી નીચે આવે છે, CPR પ્રોગ્રામ આગામી ટ્રેડિંગ સત્રની શરૂઆતમાં ટૂંકી સ્થિતિ દાખલ કરવા માટે સંકેત આપે છે. લઘુત્તમ લક્ષ્ય કિંમત "નેક" લાઇનના બ્રેકઆઉટ બિંદુથી "હેડ" ના ટોચના બિંદુથી આગામી ડિપ્રેશનના સ્તર સુધીના અંતરને નીચે કાવતરું કરીને નક્કી કરવામાં આવે છે. મહત્તમ લક્ષ્ય કિંમત એ પૂર્વવર્તી અપટ્રેન્ડ પેટર્નના પ્રથમ બારની ન્યૂનતમ કિંમત છે. લક્ષ્ય કિંમતો વિશેની માહિતી નિષ્ણાત કોમેન્ટરીમાં પ્રતિબિંબિત થાય છે.
જો ચોક્કસ સમયગાળાની અંદર લઘુત્તમ લક્ષ્ય કિંમત ન પહોંચી હોય અથવા કિંમત નેકલાઇનથી ઉપર વધે, તો પેટર્ન રદ કરવામાં આવે છે. લઘુત્તમ લક્ષ્ય કિંમત હાંસલ કરવા માટેનો મહત્તમ સમયગાળો ડાબા "ખભા" થી જમણી તરફના અંતરની સમકક્ષ છે.
2. "ટ્રિપલ ટોપ" પેટર્નની ઓળખ. આ મોડેલ માટે મૂળભૂત નિયમો:
ગત અપટ્રેન્ડ: ત્રણ અથવા વધુ સળંગ શિખરો;


4) અગાઉના લઘુત્તમ સ્તરે ભાવ ઘટાડો;
5) ત્રીજો વધારો અગાઉના બે શિખરોના સ્તરે પહોંચે છે;
6) સપોર્ટ લાઇનની નીચે બંધ.
જલદી ભાવ સપોર્ટ લેવલથી નીચે આવે છે, SRY આગલા ટ્રેડિંગ સત્રની શરૂઆતમાં ટૂંકી સ્થિતિ દાખલ કરવા માટે સંકેત આપે છે. ન્યૂનતમ લક્ષ્ય કિંમત ત્રણ શિખરોની સરેરાશ ઊંચાઈને બ્રેકઆઉટ પોઈન્ટથી નીચેની સપોર્ટ લાઈનમાં ગોઠવીને નક્કી કરવામાં આવે છે. મહત્તમ લક્ષ્ય કિંમત એ અગાઉના અપટ્રેન્ડ પેટર્નના પ્રથમ બારની ન્યૂનતમ કિંમત છે.

3. "ડબલ ટોપ" પેટર્નને ઓળખવી. આ મોડેલ માટે મૂળભૂત નિયમો:

2) ડાબી ટોચ સુધારાત્મક ઘટાડો અનુસરે છે;
3) ડાબી ટોચના સ્તર પર નવો વધારો;
4) અગાઉના મંદીના સ્તરની નીચે બંધ.
જલદી ભાવ સપોર્ટ લેવલથી નીચે આવે છે, SRY આગલા ટ્રેડિંગ સત્રની શરૂઆતમાં ટૂંકી સ્થિતિ દાખલ કરવા માટે સંકેત આપે છે. ન્યૂનતમ લક્ષ્ય કિંમત પ્રથમ શિખરની ઊંચાઈને બ્રેકઆઉટ પોઈન્ટથી નીચે સપોર્ટ લાઈનમાં ગોઠવીને નક્કી કરવામાં આવે છે. મહત્તમ લક્ષ્ય કિંમત એ અગાઉના અપટ્રેન્ડ પેટર્નના પ્રથમ બારની ન્યૂનતમ કિંમત છે.
જો ચોક્કસ સમયગાળાની અંદર લઘુત્તમ લક્ષ્ય કિંમત સુધી પહોંચી ન જાય અથવા કિંમત સપોર્ટ લાઇનથી ઉપર વધે, તો પેટર્ન રદ કરવામાં આવે છે. લઘુત્તમ લક્ષ્ય કિંમત સુધી પહોંચવાનો મહત્તમ સમયગાળો ડાબી ટોચથી જમણી ટોચ સુધીના અંતરની સમકક્ષ છે.
4. "ચડતા ત્રિકોણ" પેટર્નની ઓળખ. આ મોડેલ માટે મૂળભૂત નિયમો:
1) અગાઉનું ઉપરનું વલણ: બે અથવા વધુ સળંગ શિખરો;
2) ડાબી ટોચ સુધારાત્મક ઘટાડો અનુસરે છે;
3) ડાબી ટોચના સ્તર પર નવો વધારો;
4) કરેક્શન પાછલા એક કરતા વધારે મંદી બનાવે છે;
5) અગાઉના શિખર ઉપર વધો - બ્રેકઆઉટ પોઈન્ટ.
ત્રિકોણના શિખરો અને ચાટ સાથે દોરેલી વલણ રેખાઓ એકરૂપ થાય છે. ત્રિકોણની લંબાઈના 2/3 અથવા 3/4 આડા ખસેડ્યા પછી, કિંમત સામાન્ય રીતે અગાઉના વલણની દિશામાં તેને તોડે છે. જો ત્રિકોણની લંબાઈના 75% અંતરને આવરી લેતા પહેલા બ્રેકઆઉટ ન થાય, તો પેટર્ન રદ કરવામાં આવે છે.
જલદી ભાવ પ્રતિકાર સ્તરથી ઉપર વધે છે, SRY આગલા ટ્રેડિંગ સત્રની શરૂઆતમાં બાય સિગ્નલ જારી કરે છે. લક્ષ્ય કિંમત સુધી પહોંચવાનો લઘુત્તમ સમયગાળો પ્રથમ ટોપ/બોટમથી બીજા ટોપ/બોટમ સુધીના અંતરની સમકક્ષ છે. ત્રિકોણના પાયાની અડધી લંબાઈ બ્રેકઆઉટ બિંદુથી ઉપર તરફ લંબાવીને લક્ષ્ય કિંમત નક્કી કરવામાં આવે છે.
5. "ઉતરતા ત્રિકોણ" પેટર્નને ઓળખવું. આ મોડેલ માટે મૂળભૂત નિયમો:
અગાઉના ડાઉનટ્રેન્ડ: બે અથવા વધુ સતત મંદી;
2) ડાબી ડિપ્રેશન સુધારાત્મક ઉદયને અનુસરે છે;
3) ડાબી પોલાણના સ્તરમાં નવો ઘટાડો;
4) ઉદય પાછલા એકની નીચે બીજી ટોચ બનાવે છે;
5) અગાઉના ડિપ્રેશનના સ્તરથી નીચેનો ઘટાડો એ બ્રેકઆઉટ પોઈન્ટ છે.
ફ્લેઇલ સપોર્ટ લેવલથી નીચે આવતાની સાથે જ, SRY આગલા ટ્રેડિંગ સત્રની શરૂઆત વખતે ટૂંકી સ્થિતિ દાખલ કરવા માટે સંકેત જારી કરે છે (આકૃતિ 6.4). જો ત્રિકોણની લંબાઈના 75% અંતરને આવરી લેતા પહેલા બ્રેકઆઉટ ન થાય, તો પેટર્ન રદ કરવામાં આવે છે. લક્ષ્ય કિંમત સુધી પહોંચવાનો લઘુત્તમ સમયગાળો પ્રથમ ટોપ/બોટમથી બીજા ટોપ/બોટમ સુધીના અંતરની સમકક્ષ છે. ત્રિકોણના પાયાની અડધી લંબાઈ બ્રેકઆઉટ બિંદુથી નીચે લંબાવીને લક્ષ્ય કિંમત નક્કી કરવામાં આવે છે.
6. "સપ્રમાણ ત્રિકોણ" મોડેલની ઓળખ. આ મોડેલ માટે મૂળભૂત નિયમો:
1) પાછલા ઉપરનું અથવા નીચે તરફનું વલણ: બે અથવા વધુ સળંગ શિખરો;
2) ડાબી ટોચ (ચાટ) સુધારાત્મક ઘટાડા (ઉદય) ને અનુસરે છે;
3) અગાઉના શિખર (ચાટ) ના સ્તરની નીચે (ઉપર) વધારો (ઘટાડો);
4) ઘટાડો (વધારો) પાછલા એકની ઉપર (નીચે) બીજી મંદી (ટોચ) બનાવે છે;
5) ટ્રેન્ડ લાઇનની પ્રગતિ.
એકવાર ભાવ પ્રતિકારક સ્તરથી ઉપર વધે છે, CPR આગલા ટ્રેડિંગ સત્રની શરૂઆતમાં બાય સિગ્નલ જારી કરે છે. જો કિંમત સપોર્ટ લેવલથી નીચે આવે છે, તો CPR આગામી ટ્રેડિંગ સેશનની શરૂઆતમાં ટૂંકી સ્થિતિ દાખલ કરવા માટે સંકેત જારી કરશે. જો ત્રિકોણની લંબાઈના 75% અંતરને આવરી લેતા પહેલા બ્રેકઆઉટ ન થાય, તો પેટર્ન રદ કરવામાં આવે છે. લક્ષ્ય કિંમત હાંસલ કરવા માટેનો લઘુત્તમ સમયગાળો પ્રથમ ટોપ/બોટમથી બીજા ટોપ/બોટમ સુધીના અંતરની સમકક્ષ છે. બ્રેકઆઉટ પોઈન્ટથી ત્રિકોણ આધારની પેટા-લંબાઈને પ્લોટ કરીને લક્ષ્ય કિંમત નક્કી કરવામાં આવે છે.
CPR પાસે એક્સેલ પેકેજ માટે વધારાના સોફ્ટવેરના રૂપમાં ડેટાનું વિશ્લેષણ અને વર્ગીકરણ કરવા માટેના સાધનો છે: AnalyzerXL, DownioaderXL, RTQuotesXL, PredictorXL, BulkQuotesXL, ClassifierXL, PortfolioXL, OptionsXL, તેમની ક્ષમતાઓ કોષ્ટકમાં પ્રસ્તુત છે. 6.1.
તાજેતરમાં, ચાર્ટ પેટર્નને ઓળખવા માટે નવી સૉફ્ટવેર સિસ્ટમ્સ દેખાઈ છે, જેમ કે: Pattem z - Pattem Recognition Software (http://www.thepattemsite.com); રેમ્પ-ચાર્ટ પેટર્ન રેકગ્નિશન સ્કેનર (http; // www.newadawn.com); ઓમ્ની ટ્રેડર ચાર્ટ પેટર્ન રેકગ્નિશન મોડ્યુલ 2 (http://www.onmitrader.com); IBFX - PRS - પેટર્ન રેકગ્નિશન સિસ્ટમ (http://www.ibfx.com)

પ્રસ્તુત કાર્ય મુખ્યત્વે ઉત્તર અમેરિકા અને યુરોપની કંપનીઓ પર જોવામાં આવ્યું હતું. અભ્યાસમાં એશિયન બજારનું નબળું પ્રતિનિધિત્વ છે. પરંતુ અમે સંભવતઃ આ બધી વિગતો અમારા પર છોડીશું. જો કે, ઉદ્યોગના વલણો અને વર્તમાન લાક્ષણિકતાઓનું વર્ણન ખૂબ જ રસપ્રદ રીતે કરવામાં આવ્યું છે, જે પોતે ખૂબ જ રસપ્રદ છે - ખાસ કરીને કારણ કે તે સામાન્ય સારને ગુમાવ્યા વિના વિવિધ ફેરફારોમાં રજૂ કરી શકાય છે. ચાલો તમને કંટાળો ન આપીએ - સંશોધકો ખાતરી આપે છે તેમ કદાચ અમે સૌથી રસપ્રદ ક્ષણોનું વર્ણન કરવાનું શરૂ કરીશું, જ્યાં વાણી ઓળખ ઉદ્યોગ આગળ વધી રહ્યો છે અને નજીકના ભવિષ્યમાં આપણી રાહ શું છે (2012 - 2016) - જેમ કે સંશોધકો ખાતરી આપે છે.

પરિચય

વૉઇસ રેકગ્નિશન સિસ્ટમ્સ એ કમ્પ્યુટિંગ સિસ્ટમ્સ છે જે સામાન્ય પ્રવાહમાંથી વક્તાનું ભાષણ નક્કી કરી શકે છે. આ ટેક્નોલોજી સ્પીચ રેકગ્નિશન ટેક્નોલોજી સાથે સંબંધિત છે, જે મશીનો પર સ્પીચ રેકગ્નિશન પ્રોસેસ કરીને બોલાયેલા શબ્દોને ડિજિટલ ટેક્સ્ટ સિગ્નલમાં રૂપાંતરિત કરે છે. આ બંને તકનીકોનો ઉપયોગ સમાંતર રીતે થાય છે: એક તરફ, ચોક્કસ વપરાશકર્તાના અવાજને ઓળખવા માટે, બીજી તરફ, વાણી ઓળખ દ્વારા વૉઇસ આદેશોને ઓળખવા માટે. ચોક્કસ વ્યક્તિના અવાજને ઓળખવા માટે વૉઇસ રેકગ્નિશનનો ઉપયોગ બાયોમેટ્રિક સુરક્ષા હેતુઓ માટે થાય છે. આ ટેક્નોલોજી મોબાઈલ બેંકિંગમાં ખૂબ જ લોકપ્રિય બની છે, જેને યુઝર્સના પ્રમાણીકરણની જરૂર છે, તેમજ અન્ય વૉઇસ કમાન્ડની જરૂર છે જેથી તેઓને વ્યવહારો પૂર્ણ કરવામાં મદદ મળે.

વૈશ્વિક સ્પીચ રેકગ્નિશન માર્કેટ એ વૉઇસ ઉદ્યોગમાં સૌથી ઝડપથી વિકસતા બજારોમાંનું એક છે. બજારમાં મોટાભાગની વૃદ્ધિ અમેરિકામાંથી આવે છે, ત્યારબાદ યુરોપ, મધ્ય પૂર્વ અને આફ્રિકા (EMEA) અને એશિયા પેસિફિક (APAC) આવે છે. બજારમાં મોટાભાગની વૃદ્ધિ હેલ્થકેર, નાણાકીય સેવાઓ અને જાહેર ક્ષેત્રમાંથી આવે છે. જો કે, અન્ય સેગમેન્ટ જેમ કે ટેલિકોમ્યુનિકેશન્સ અને ટ્રાન્સપોર્ટેશનમાં આગામી કેટલાક વર્ષોમાં વૃદ્ધિમાં નોંધપાત્ર વધારો થવાની અપેક્ષા છે. 2012-2016 દરમિયાન 22.07 ટકાના CAGR પર વધુ વૃદ્ધિ થવાની બજારની આગાહી. (વર્તમાન કંપનીઓની વૃદ્ધિ ગતિશીલતાના સૂચકાંકો).

બજાર વૃદ્ધિના ડ્રાઇવરો

વૈશ્વિક વૉઇસ રેકગ્નિશન માર્કેટની વૃદ્ધિ બહુવિધ પરિબળો પર આધારિત છે. વૉઇસ બાયોમેટ્રિક્સ સેવાઓની માંગમાં વધારો એ મુખ્ય પરિબળોમાંનું એક છે. સુરક્ષા ભંગની વધતી જતી જટિલતા અને આવર્તન સાથે, વ્યવસાયો તેમજ સરકારી સંસ્થાઓ માટે સુરક્ષા એ મુખ્ય જરૂરિયાત બની રહી છે. વૉઇસ બાયોમેટ્રિક્સની ઉચ્ચ માંગ, જે કોઈપણ વ્યક્તિ માટે અનન્ય છે, તે વ્યક્તિની ઓળખ સ્થાપિત કરવામાં મહત્વપૂર્ણ છે. ફોરેન્સિક હેતુઓ માટે સ્પીકર આઇડેન્ટિફિકેશનનો વધતો ઉપયોગ એ બજાર માટે અન્ય મુખ્ય ડ્રાઇવર છે.

વૈશ્વિક ભાષણ ઓળખ બજારના કેટલાક મુખ્ય ડ્રાઇવરો છે:
વૉઇસ બાયોમેટ્રિક્સ સેવાઓની માંગમાં વધારો
ફોરેન્સિક હેતુઓ માટે સ્પીકર ઓળખનો વધારો
લશ્કરી હેતુઓ માટે ભાષણ માન્યતા માટેની માંગ
હેલ્થકેરમાં અવાજની ઓળખ માટે ઉચ્ચ માંગ

શરૂઆતમાં, "બાયોમેટ્રિક્સ" શબ્દ ફક્ત તબીબી સિદ્ધાંતમાં જ જોવા મળતો હતો. જોકે, વ્યવસાયો અને સરકારી એજન્સીઓમાં બાયોમેટ્રિક ટેક્નોલોજીનો ઉપયોગ કરીને સુરક્ષાની જરૂરિયાત વધવા લાગી છે. બાયોમેટ્રિક તકનીકોનો ઉપયોગ એ વૈશ્વિક ભાષણ ઓળખ બજારના મુખ્ય પરિબળોમાંનું એક છે. વૉઇસ રેકગ્નિશનનો ઉપયોગ વ્યક્તિની અધિકૃતતા ચકાસવા માટે થાય છે, કારણ કે દરેક વ્યક્તિનો અવાજ અનન્ય હોય છે. આ ઉચ્ચ સ્તરની ચોકસાઈ અને સલામતીની ખાતરી કરશે. બેંકો, તેમજ હેલ્થકેર એન્ટરપ્રાઇઝીસ જેવી નાણાકીય સંસ્થાઓમાં અવાજની ઓળખનું ખૂબ મહત્વ છે. હાલમાં, વૈશ્વિક બજારમાં બાયોમેટ્રિક્સ ટેક્નોલોજીના હિસ્સાના 3.5% હિસ્સો સ્પીચ રેકગ્નિશન સેગમેન્ટનો છે, પરંતુ આ હિસ્સો સતત વધી રહ્યો છે. ઉપરાંત, બાયોમેટ્રિક ઉપકરણોની ઓછી કિંમત નાના અને મધ્યમ કદના વ્યવસાયોની માંગમાં વધારો કરે છે.

ફોરેન્સિક હેતુઓ માટે સ્પીકર ઓળખનો વધારો

ફોરેન્સિક હેતુઓ માટે સ્પીકર આઇડેન્ટિફિકેશન ટેક્નોલૉજીનો ઉપયોગ એ વૈશ્વિક વૉઇસ રેકગ્નિશન માર્કેટમાં મુખ્ય પ્રેરક દળોમાંનું એક છે. ગુનો કર્યાની શંકાસ્પદ વ્યક્તિનો અવાજ ફોરેન્સિક નમૂનાઓના અવાજ સાથે મેળ ખાય છે કે કેમ તે નિર્ધારિત કરવા માટે એક જટિલ પ્રક્રિયા થાય છે. આ ટેક્નોલોજી કાયદા અમલીકરણ એજન્સીઓને વ્યક્તિની સૌથી અનોખી લાક્ષણિકતાઓ, તેમના અવાજના આધારે ગુનેગારોને ઓળખવા માટે પરવાનગી આપે છે, ત્યાં પ્રમાણમાં ઉચ્ચ સ્તરની ચોકસાઈ પ્રદાન કરે છે. ફોરેન્સિક નિષ્ણાતો તપાસ કરે છે કે ગુનેગાર ન મળે ત્યાં સુધી શંકાસ્પદ વ્યક્તિનો અવાજ નમૂના સાથે મેળ ખાય છે કે કેમ. તાજેતરમાં, આ તકનીકનો ઉપયોગ કેટલાક ફોજદારી કેસોને ઉકેલવામાં મદદ કરવા માટે કરવામાં આવ્યો છે.

લશ્કરી હેતુઓ માટે ભાષણ માન્યતા માટેની માંગ

ઘૂસણખોરોને પ્રવેશતા અટકાવવા માટે મોટાભાગના દેશોમાં લશ્કરી વિભાગો અત્યંત પ્રતિબંધિત વિસ્તારોનો ઉપયોગ કરે છે. આ વિસ્તારમાં ગોપનીયતા અને સુરક્ષા સુનિશ્ચિત કરવા માટે, સૈન્ય વૉઇસ રેકગ્નિશન સિસ્ટમનો ઉપયોગ કરે છે. આ સિસ્ટમો લશ્કરી એજન્સીઓને સુરક્ષિત વિસ્તારમાં અનધિકૃત ઘૂસણખોરીની હાજરી શોધવામાં મદદ કરે છે. સિસ્ટમમાં લશ્કરી કર્મચારીઓ અને સરકારી અધિકારીઓના મતોનો ડેટાબેઝ છે જેમની પાસે સુરક્ષિત વિસ્તારોમાં પ્રવેશ છે. આ લોકોને વૉઇસ રેકગ્નિશન સિસ્ટમ દ્વારા ઓળખવામાં આવે છે, જેનાથી એવા લોકોના પ્રવેશને અટકાવવામાં આવે છે જેમના અવાજો સિસ્ટમ ડેટાબેઝમાં નથી. આ ઉપરાંત, યુએસ એરફોર્સ એરક્રાફ્ટને નિયંત્રિત કરવા માટે વૉઇસ કમાન્ડનો ઉપયોગ કરે છે. વધુમાં, લશ્કરી વિભાગો અન્ય દેશોમાં નાગરિકો સાથે વાતચીત કરવા માટે વાણી ઓળખ અને વૉઇસ-ટુ-ટેક્સ્ટ સિસ્ટમ્સનો ઉપયોગ કરે છે. ઉદાહરણ તરીકે, યુએસ સૈન્ય ઇરાક અને અફઘાનિસ્તાનમાં તેની કામગીરીમાં સ્પીચ રેકગ્નિશન સિસ્ટમનો સક્રિયપણે ઉપયોગ કરી રહ્યું છે. આમ, લશ્કરી હેતુઓ માટે ભાષણ અને અવાજની ઓળખની ઉચ્ચ માંગ છે.

વેસ્ક્યુલર રેકગ્નિશન, વૉઇસ રેકગ્નિશન અને રેટિના સ્કેનિંગ જેવી બાયોમેટ્રિક ટેક્નૉલૉજી હેલ્થકેર સેક્ટરમાં વ્યાપકપણે અપનાવવામાં આવી રહી છે. હેલ્થકેર સેટિંગ્સમાં વૉઇસ ઓળખ એ ઓળખના મુખ્ય મોડ્સમાંથી એક બનવાની અપેક્ષા છે. યુનાઇટેડ સ્ટેટ્સમાં ઘણી હેલ્થકેર કંપનીઓ, હેલ્થ ઇન્સ્યોરન્સ પોર્ટેબિલિટી એન્ડ એકાઉન્ટેબિલિટી એક્ટ (HIPAA) ધોરણોને સંબોધતી, બાયોમેટ્રિક તકનીકોનો પણ ઉપયોગ કરે છે જેમ કે અવાજની ઓળખ, વધુ સુરક્ષિત અને કાર્યક્ષમ દર્દી નોંધણી માટે ફિંગરપ્રિન્ટ ઓળખ, દર્દીની માહિતીનું સંચય, અને દર્દીની તબીબી સુરક્ષા. રેકોર્ડ ક્લિનિકલ ટ્રાયલ સંસ્થાઓ ક્લિનિકલ ટ્રાયલ માટે ભરતી કરાયેલ વ્યક્તિઓને ઓળખવા માટે વૉઇસ રેકગ્નિશનનો પણ અમલ કરી રહી છે. આમ, વૉઇસ બાયોમેટ્રિક્સ એ એશિયા-પેસિફિક પ્રદેશમાં હેલ્થકેર ઉદ્યોગમાં ગ્રાહક ઓળખ માટેના મુખ્ય મોડ્સમાંનું એક છે.

બજાર જરૂરિયાતો



વૈશ્વિક માન્યતા બજાર પર મુખ્ય ચાર વલણો અને સમસ્યાઓની અસર આકૃતિમાં બતાવવામાં આવી છે

કી
વર્તમાન બજાર પર તેમની અસરની તીવ્રતા અને અવધિના આધારે મુદ્દાઓ અને વલણોની અસરનું મૂલ્યાંકન કરવામાં આવે છે. અસર તીવ્રતા વર્ગીકરણ:
ઓછી - બજાર પર ઓછી અથવા કોઈ અસર
મધ્યમ - બજાર પર મધ્યમ સ્તરનો પ્રભાવ
સાધારણ ઉચ્ચ - બજાર પર નોંધપાત્ર અસર
બજાર વૃદ્ધિ પર આમૂલ અસર સાથે ઉચ્ચ - ખૂબ ઊંચી અસર

વધતા વલણો હોવા છતાં, વૈશ્વિક અવાજ ઓળખ બજાર કેટલીક મોટી વૃદ્ધિ અવરોધોનો સામનો કરવાનું ચાલુ રાખે છે. એક મહત્વની સમસ્યા એ એમ્બિયન્ટ અવાજને દબાવવાની મુશ્કેલી છે. વાણી ઓળખના બજારે ઘણી તકનીકી પ્રગતિઓ જોઈ હોવા છતાં, આસપાસના અવાજને દબાવવાની અસમર્થતા હજુ પણ વૉઇસ રેકગ્નિશન એપ્લિકેશન્સની સ્વીકૃતિમાં અવરોધ બની રહી છે. આ બજાર માટેનો બીજો પડકાર વૉઇસ રેકગ્નિશન એપ્લિકેશન્સની ઊંચી કિંમત છે.

વૈશ્વિક અવાજ ઓળખ બજારનો સામનો કરી રહેલા કેટલાક મુખ્ય પડકારો છે:
બાહ્ય અવાજને દબાવવામાં અસમર્થતા
વૉઇસ ઓળખ એપ્લિકેશનની ઊંચી કિંમત
ઓળખની ચોકસાઈ સાથે સમસ્યાઓ
સ્પીકર ચકાસણીમાં સુરક્ષાનું નીચું સ્તર

બાહ્ય અવાજને દબાવવામાં અસમર્થતા

વૉઇસ રેકગ્નિશનના ક્ષેત્રમાં તકનીકી પ્રગતિ હોવા છતાં, અવાજ એ વૈશ્વિક વૉઇસ રેકગ્નિશન માર્કેટમાં એક મુખ્ય પડકાર છે. વધુમાં, વૉઇસ બાયોમેટ્રિક્સ અન્ય પ્રકારના બાયોમેટ્રિક્સની સરખામણીમાં ખાસ કરીને સંવેદનશીલ હોય છે. વૉઇસ રેકગ્નિશન, વૉઇસ બાયોમેટ્રિક્સ અને સ્પીચ રેકગ્નિશન ઍપ્લિકેશનો પર્યાવરણીય અવાજ માટે ખૂબ જ સંવેદનશીલ સાબિત થઈ રહ્યાં છે. પરિણામે, કોઈપણ અવાજની વિક્ષેપ ઓળખની ચોકસાઈમાં દખલ કરે છે. વૉઇસ કમાન્ડ માટે સ્વચાલિત પ્રતિભાવો પણ વિક્ષેપિત થાય છે. આસપાસના અવાજને દબાવવામાં અસમર્થતા એ એકમાત્ર પરિબળ છે જે અવાજની ઓળખ પ્રણાલીઓને શ્રેષ્ઠ પરિણામો પ્રાપ્ત કરવામાં અને વૈશ્વિક બાયોમેટ્રિક ટેક્નોલોજી માર્કેટ શેરની ઊંચી ટકાવારી મેળવવાથી અટકાવે છે.

વૉઇસ રેકગ્નિશન એપ્લિકેશન્સની ઊંચી કિંમત

સ્પીચ રેકગ્નિશન ટેક્નોલોજીના વિકાસમાં અવરોધ ઉભી કરતી મુખ્ય સમસ્યાઓમાંની એક વિકાસ અને અમલીકરણ માટે જરૂરી મોટા રોકાણોની જરૂરિયાત છે. એન્ટરપ્રાઇઝમાં વૉઇસ રેકગ્નિશન ટેક્નૉલૉજીની મોટા પાયે જમાવટ શ્રમ-સઘન છે અને તેના માટે મોટા રોકાણની જરૂર છે. બજેટ પર બચત મર્યાદિત તકનીકી પરીક્ષણ તરફ દોરી જાય છે, તેથી, કોઈપણ નિષ્ફળતા એન્ટરપ્રાઇઝમાં મોટા નુકસાન તરફ દોરી શકે છે. તેથી, સ્વાઇપ કાર્ડ અને કીપેડ જેવા અવાજની ઓળખના વિકલ્પો હજુ પણ ઘણી કંપનીઓમાં સક્રિયપણે ઉપયોગમાં લેવાય છે, ખાસ કરીને નાના અને મધ્યમ કદના વ્યવસાયોમાં, તેમની કિંમત-અસરકારકતાને કારણે. આમ, વૉઇસ રેકગ્નિશન એપ્લીકેશનને એકીકરણ સિસ્ટમની કિંમત, વધારાના સાધનો અને અન્ય ખર્ચ સહિત મોટા નાણાકીય રોકાણોની જરૂર પડે છે.

ઓળખની ચોકસાઈ સાથે સમસ્યાઓ

વૈશ્વિક વૉઇસ રેકગ્નિશન માર્કેટમાં, હાલમાં વૉઇસ રેકગ્નિશન સિસ્ટમ્સ વિવિધ ભાષાઓને ઓળખવામાં અને વૉઇસની અધિકૃતતા નક્કી કરવામાં સક્ષમ હોવા છતાં, એક સામાન્ય સમસ્યા એ નીચા ઓળખ સચોટતા દર છે. કારણ કે સિસ્ટમમાં બોલાયેલા આદેશો અને સંકલિત વાણી ઓળખાણ અને વૉઇસ વેરિફિકેશન ટેક્નોલોજી સાથે ડેટાબેઝને મેચ કરવાની જટિલ પ્રક્રિયા સામેલ છે, પ્રક્રિયાના કોઈપણ ભાગમાં નાની ભૂલ પણ ખોટા પરિણામ તરફ દોરી શકે છે. સ્પીચ રેકગ્નિશન અનિશ્ચિતતા એ વૉઇસ રેકગ્નિશન ઍપ્લિકેશનમાં મુખ્ય મર્યાદાઓમાંની એક છે. જો કે, કેટલાક ઉત્પાદકોએ અવાજની ઓળખમાં ખૂબ જ નીચા સ્તરની ભૂલ સાથે સિસ્ટમો વિકસાવવાનું શરૂ કર્યું છે. તેઓએ 4% કરતા ઓછા અચોક્કસ પરિણામો સાથે સિસ્ટમો વિકસાવી છે (ઉદાહરણ તરીકે, વૉઇસ બાયોમેટ્રિક્સ માપન એ વ્યક્તિના અવાજને ખોટી રીતે ઓળખે છે અને તેને નકારે છે).

સ્પીકર ચકાસણીમાં સુરક્ષાનું નીચું સ્તર

સ્પીકર ચકાસણીમાં ઉચ્ચ સ્તરની અચોક્કસતા નીચા સ્તરની સુરક્ષા તરફ દોરી જાય છે. હાલમાં, વૉઇસ રેકગ્નિશન સિસ્ટમ્સમાં અચોક્કસ પરિણામોની ઊંચી ટકાવારી છે. ખોટા નિર્ણયો લેવાનો દર જેટલો ઊંચો છે, તેટલી ઊંચી સંભાવના છે કે, ઉદાહરણ તરીકે, અનધિકૃત વ્યક્તિને પ્રવેશની પરવાનગી મળશે. વૉઇસ રેકગ્નિશન સિસ્ટમ્સ ખૂબ જ સંવેદનશીલ હોવાથી, તેઓ ગળાની સમસ્યાઓ, ખાંસી, શરદી, બીમારીને કારણે અવાજમાં ફેરફાર સહિતની દરેક વસ્તુને ઉપાડી લે છે, પછી એવી સંભાવના છે કે કોઈ અનધિકૃત વ્યક્તિ બંધ વિસ્તારમાં પ્રવેશ મેળવી શકશે, કારણ આ માટે વૉઇસ-આધારિત માનવ માન્યતામાં સુરક્ષાનું નીચું સ્તર છે.

બજાર વલણો

બજારનો સામનો કરી રહેલા પડકારોની અસર બજારમાં ઉભરી રહેલા વિવિધ વલણોની હાજરીને સરભર કરવાની અપેક્ષા છે. આવો જ એક વલણ મોબાઇલ ઉપકરણો પર વાણી ઓળખની વધતી માંગ છે. મોબાઇલ ઉપકરણોની પ્રચંડ સંભાવનાને ઓળખીને, વૈશ્વિક અવાજ ઓળખ બજારના ઉત્પાદકો મોબાઇલ ઉપકરણો પર કામ કરવા માટે વિશિષ્ટ નવીન એપ્લિકેશનો વિકસાવી રહ્યા છે. આ ભવિષ્યના ડ્રાઇવિંગ પરિબળોમાંનું એક છે. મોબાઈલ બેન્કિંગમાં વોઈસ ઓથેન્ટિકેશનની વધતી જતી માંગ એ વોઈસ રેકગ્નિશન માર્કેટમાં અન્ય એક સકારાત્મક વલણ છે.

વૈશ્વિક અવાજ ઓળખ બજારના કેટલાક મુખ્ય વલણો છે:
મોબાઇલ ઉપકરણો પર વાણી ઓળખની માંગ વધી રહી છે
મોબાઈલ બેંકિંગ માટે વોઈસ ઓથેન્ટિકેશન સેવાઓની માંગ વધી રહી છે
વૉઇસ વેરિફિકેશન અને સ્પીચ રેકગ્નિશનનું એકીકરણ
મર્જર અને એક્વિઝિશનમાં વધારો

મોબાઇલ ઉપકરણો પર વાણી ઓળખની માંગ વધી રહી છે

ડ્રાઇવિંગ કરતી વખતે મોબાઇલ ઉપકરણોના ઉપયોગ પર પ્રતિબંધ મૂકતા ટ્રાફિક નિયમોની વધતી સંખ્યાએ વાણી ઓળખ એપ્લિકેશનની માંગમાં વધારો કર્યો છે. જે દેશોએ કડક પ્રતિબંધો લાદ્યા છેઃ ઓસ્ટ્રેલિયા, ફિલિપાઇન્સ, યુએસ, યુકે, ભારત અને ચિલી. યુ.એસ.માં, 13 થી વધુ રાજ્યો મોબાઇલ ઉપકરણ નિયમોની રજૂઆત છતાં ડ્રાઇવિંગ કરતી વખતે હેન્ડ્સ-ફ્રી ઉપયોગની મંજૂરી આપે છે. પરિણામે, ઉપભોક્તા વધુને વધુ એવા મોબાઇલ ઉપકરણો પસંદ કરી રહ્યા છે જે સ્પીચ રેકગ્નિશન એપ્લીકેશનથી સજ્જ છે જે તેમને ઉપકરણથી જ વિચલિત થયા વિના ઉપકરણને ઍક્સેસ કરવામાં મદદ કરી શકે છે. મોબાઇલ ડિવાઇસમાં સ્પીચ રેકગ્નિશન એપ્લીકેશનની વધતી જતી માંગને પહોંચી વળવા માટે, ઉત્પાદકોએ મોબાઇલ ડિવાઇસ માટે સ્પીચ કમાન્ડ વિકલ્પો વિકસાવવા માટે સંશોધન અને વિકાસ પ્રવૃત્તિઓની સંખ્યામાં વધારો કર્યો છે. પરિણામે, મોબાઇલ ઉપકરણમાં મોટી સંખ્યામાં સ્પીચ રેકગ્નિશન એપ્લીકેશનનો સમાવેશ કરવામાં આવ્યો છે, જેમ કે મ્યુઝિક પ્લેલિસ્ટ મેનેજમેન્ટ, એડ્રેસ રીડિંગ, સબસ્ક્રાઇબર નેમ રીડિંગ, વોઇસ SMS સંદેશાઓ વગેરે.

વધતા વેરિફિકેશનની જરૂરિયાત મોબાઇલ બેન્કિંગમાં વૉઇસ ઓથેન્ટિકેશનના સાર્વત્રિક એકીકરણને આગળ ધપાવી રહી છે. ઉત્તર અમેરિકા અને પશ્ચિમ યુરોપ જેવા પ્રદેશોમાં, મોટી સંખ્યામાં બેંકિંગ ગ્રાહકો ટેલિફોન બેંકિંગ સુવિધાઓનો ઉપયોગ કરે છે. મોટી સંખ્યામાં આવી નાણાકીય સંસ્થાઓ મોબાઇલ વ્યવહારો સ્વીકારવા અથવા નકારવા માટે વપરાશકર્તા પાસેથી વૉઇસ પ્રમાણીકરણના નિર્ણયો સ્વીકારે છે. વધુમાં, મોબાઇલ ઉપકરણો પર વૉઇસ પ્રમાણીકરણને સક્ષમ કરવું ખર્ચ-અસરકારક છે અને તે જ સમયે ઉચ્ચ સ્તરની સુરક્ષા પ્રદાન કરે છે. આમ, મોબાઇલ બેંકિંગ માટે વૉઇસ ઓથેન્ટિકેશનને એકીકૃત કરવાનો ટ્રેન્ડ આવનારા ઘણા વર્ષો સુધી વધતો રહેશે. ખરેખર, ફોન બેંકિંગ સંસ્થાઓ વોઈસ ઓથેન્ટિકેશન સોલ્યુશન પ્રોવાઈડર્સ અને વોઈસ બાયોમેટ્રિક્સ ઈન્કોર્પોરેશન્સ સાથે ભાગીદારી કરે છે, જે એક મુખ્ય સ્પર્ધાત્મક ફાયદો છે.

કેટલાક ઉત્પાદકો વૉઇસ વેરિફિકેશન અને સ્પીચ રેકગ્નિશન ટેક્નોલોજીને એકીકૃત કરવા માટે કામ કરી રહ્યાં છે. એક અલગ પ્રોડક્ટ તરીકે વૉઇસ વેરિફિકેશન ઑફર કરવાને બદલે, ઉત્પાદકો વૉઇસ વેરિફિકેશન અને સ્પીચ રેકગ્નિશન કાર્યક્ષમતાને એકીકૃત કરવાની ઑફર કરી રહ્યાં છે. વૉઇસ વેરિફિકેશન એ નક્કી કરવામાં મદદ કરે છે કે કોણ બોલી રહ્યું છે અને તે જ સમયે કઈ વ્યક્તિ બોલી રહી છે. મોટાભાગના ઉત્પાદકોએ સ્પીચ રેકગ્નિશન એપ્લીકેશન્સ શરૂ કરી છે અથવા તેને લોન્ચ કરવાની પ્રક્રિયામાં છે જેમાં ઉપર વર્ણવેલ બે ટેક્નોલોજીના એકીકરણનો સમાવેશ થાય છે.

મર્જર અને એક્વિઝિશનમાં વધારો

વૈશ્વિક અવાજ ઓળખ બજાર નોંધપાત્ર મર્જર અને એક્વિઝિશન વલણોનું સાક્ષી છે. પ્રબળ માર્કેટ લીડર ન્યુએન્સ કોમ્યુનિકેશન્સ ઇન્ક., જે 50% થી વધુ બજાર હિસ્સો ધરાવે છે, તેણે સ્પીચ રેકગ્નિશન માર્કેટમાં મોટી સંખ્યામાં નાની કંપનીઓ હસ્તગત કરી છે. તે અનુસરે છે કે એક્વિઝિશન એ કંપનીના વિકાસ માટે એક નવો અભિગમ છે, જેના પરિણામે 2007માં ન્યુએન્સે છ એક્વિઝિશન કર્યા હતા. ન્યુએન્સ જેવી મોટી કંપનીઓ દ્વારા હસ્તગત કરી શકાય તેવા અસંખ્ય નાના ખેલાડીઓની હાજરીને કારણે આગામી કેટલાક વર્ષોમાં આ વલણ ચાલુ રહેવાની અપેક્ષા છે. બજાર ટેકનોલોજી આધારિત હોવાથી નાની કંપનીઓ નવીન ઉકેલો વિકસાવી રહી છે. પરંતુ સંસાધનોની અછતને કારણે, આ કંપનીઓ તેમના વ્યવસાયને વધારવામાં અસમર્થ છે. આમ, ન્યુઆન્સ જેવી મોટી કંપનીઓ નવા બજારો અને ઉદ્યોગોમાં પ્રવેશવા માટે પ્રાથમિક વ્યૂહરચના તરીકે સંપાદન પ્રક્રિયાનો ઉપયોગ કરે છે. ઉદાહરણ તરીકે, ન્યુએન્સે Loquendo Inc હસ્તગત કર્યું. EMEA પ્રદેશમાં દાખલ થવા માટે.

નિષ્કર્ષ

વાણી ઓળખ પ્રણાલીના વિકાસની 2 શાખાઓ છે (2012 થી 2016 સુધીમાં બજારનું પ્રમાણ $1.09 થી $2.42 બિલિયન, વૃદ્ધિ દર +22.07%)
સ્પીચ ટુ ટેક્સ્ટ કન્વર્ઝન (માર્કેટનું કદ $860 મિલિયન (2012) થી $1727 મિલિયન (2016) - 2012 થી 2016 સુધીમાં કુલ શેર 79%-71%)
માનવ અવાજની ચકાસણી અને ઓળખ (માર્કેટ વોલ્યુમ $229 મિલિયન (2012) થી $697 મિલિયન - કુલ શેર 21% -28.8% 2012 થી 2016 સુધી)

સ્પર્ધામાં, આ બે દિશાઓની ધાર પર અસ્તિત્વમાં છે તે કંપનીઓ વધુ સક્રિય રીતે વિકાસ કરશે - એક તરફ, વાણી ઓળખ કાર્યક્રમોની ચોકસાઈમાં સુધારો કરશે અને તેને ટેક્સ્ટમાં અનુવાદિત કરશે, બીજી બાજુ, સ્પીકરને ઓળખીને આ સમસ્યાને હલ કરશે અને માહિતીના સ્ત્રોત તરીકે વધારાની ચેનલ (ઉદાહરણ તરીકે વિડિયો) નો ઉપયોગ કરીને તેના ભાષણની ચકાસણી કરવી.

Technavio અભ્યાસ મુજબ, હાલના ભાષણ ઓળખ કાર્યક્રમોની મુખ્ય સમસ્યા એમ્બિયન્ટ અવાજને દબાવવા માટે તેમની સંવેદનશીલતા છે;
- મોબાઇલ ઉપકરણોની સંખ્યા અને ગુણવત્તામાં વધારો અને મોબાઇલ બેંકિંગ સોલ્યુશન્સના વિકાસને કારણે મુખ્ય વલણ એ ભાષણ તકનીકોનો ફેલાવો છે;
- સરકારી સંસ્થાઓ, લશ્કરી ક્ષેત્ર, દવા અને નાણાકીય ક્ષેત્ર હાલમાં ભાષણ ઓળખ તકનીકોના વિકાસમાં મુખ્ય ભૂમિકા ભજવી રહ્યા છે. જો કે, મોબાઇલ એપ્લિકેશન્સ અને વૉઇસ નેવિગેશન કાર્યો, તેમજ બાયોમેટ્રિક્સના રૂપમાં આ પ્રકારની ટેક્નોલોજીની મોટી માંગ છે;
- સ્પીચ રેકગ્નિશન સિસ્ટમ્સનું મુખ્ય બજાર યુએસએમાં છે, પરંતુ સૌથી ઝડપી અને સૌથી વધુ દ્રાવક પ્રેક્ષકો દક્ષિણપૂર્વ એશિયાના દેશોમાં રહે છે, ખાસ કરીને જાપાનમાં (કોલ સેન્ટર્સના સંપૂર્ણ અવાજ ઓટોમેશનને કારણે). એવું માનવામાં આવે છે કે તે આ ક્ષેત્રમાં છે કે એક મજબૂત ખેલાડી દેખાવો જોઈએ, જે ન્યુએન્સ કોમ્યુનિકેશન્સની વૈશ્વિક શક્તિ માટે ગંભીર મદદ બનશે (વૈશ્વિક બજારનો વર્તમાન હિસ્સો 70% છે);
- સ્પીચ રેકગ્નિશન સિસ્ટમ માર્કેટમાં સૌથી સામાન્ય નીતિ મર્જર અને એક્વિઝિશન (M&A) છે - બજારની અગ્રણી કંપનીઓ વર્ચસ્વ જાળવી રાખવા માટે વિશ્વભરની નાની ટેક્નોલોજી પ્રયોગશાળાઓ અથવા કંપનીઓ ખરીદે છે.
- એપ્લિકેશનની કિંમત ઝડપથી ઘટી રહી છે, ચોકસાઈ વધી રહી છે, બહારના અવાજનું ફિલ્ટરિંગ સુધરી રહ્યું છે, સુરક્ષા વધી રહી છે - અલ્ટ્રા-ચોક્કસ વાણી ઓળખ તકનીકના અમલીકરણની અપેક્ષિત તારીખ 2014 છે.

આમ, 2012-2016ના સમયગાળામાં ટેક્નવીયોની આગાહી મુજબ. સ્પીચ રેકગ્નિશન સિસ્ટમ્સનું માર્કેટ 2.5 ગણાથી વધુ વધવાની ધારણા છે. સૌથી વધુ ગતિશીલ અને ઝડપી IT ટેક્નોલોજી માર્કેટમાંનો એક મોટો હિસ્સો એવા ખેલાડીઓને આપવામાં આવશે જેઓ તેમના ઉત્પાદનમાં એક સાથે 2 સમસ્યાઓ હલ કરવામાં સક્ષમ હશે: વાણીને સચોટ રીતે ઓળખતા શીખો અને તેને ટેક્સ્ટમાં અનુવાદિત કરવાનું શીખો, અને ઓળખવામાં પણ સક્ષમ થશો. સ્પીકરનો અવાજ સારી રીતે બોલો અને તેને સામાન્ય પ્રવાહમાંથી ચકાસો. સ્પર્ધામાં એક મોટો ફાયદો ડમ્પિંગ (કૃત્રિમ રીતે આવી ટેક્નોલોજીઓની કિંમતમાં ઘટાડો), મૈત્રીપૂર્ણ ઇન્ટરફેસ અને ઝડપી અનુકૂલન પ્રક્રિયા સાથે - ઉચ્ચ ગુણવત્તાની કાર્ય સાથે પ્રોગ્રામ્સ બનાવવાનું કહી શકાય. એવી અપેક્ષા રાખવામાં આવે છે કે આગામી 5 વર્ષોમાં, નવા ખેલાડીઓ બજારમાં દેખાશે, જે ન્યુન્સ કોમ્યુનિકેશન્સ સ્પીચ રેકગ્નિશન જેવા ઓછા હરવાફરવામાં આવતા મોટા કોર્પોરેશનોને પડકાર આપી શકે છે.

  • બજાર સંશોધન
  • વિકાસની આગાહી
  • સૂક્ષ્મતા
  • ટૅગ્સ ઉમેરો

    બેલોસોવા ઓ.એસ., પાનોવા એલ.

    ઓમ્સ્ક સ્ટેટ ટેકનિકલ યુનિવર્સિટી

    વાણી ઓળખ

    હાલમાં, સ્પીચ રેકગ્નિશન એપ્લીકેશનના વધુ ને વધુ નવા ક્ષેત્રો શોધી રહી છે, જેમાં એપ્લીકેશનથી માંડીને વાણીની માહિતીને ટેક્સ્ટમાં રૂપાંતરિત કરવામાં આવે છે અને ઓન-બોર્ડ વાહન નિયંત્રણ ઉપકરણો સાથે સમાપ્ત થાય છે.

    વાણી ઓળખવાની ઘણી મુખ્ય પદ્ધતિઓ છે:

    1. વ્યક્તિગત આદેશોની ઓળખ -નાના પૂર્વવ્યાખ્યાયિત શબ્દકોશમાંથી શબ્દ અથવા શબ્દસમૂહની અલગ ઉચ્ચાર અને અનુગામી માન્યતા. આપેલ શબ્દકોશના કદ દ્વારા ઓળખની ચોકસાઈ મર્યાદિત છે

    2. વ્યાકરણ દ્વારા ઓળખ -ચોક્કસ નિયમોને અનુરૂપ શબ્દસમૂહોની માન્યતા. વ્યાકરણ સેટ કરવા માટે માનક XML ભાષાઓનો ઉપયોગ કરવામાં આવે છે અને MRCP પ્રોટોકોલ દ્વારા એપ્લિકેશન કરવામાં આવે છે.

    3. સતત ભાષણના પ્રવાહમાં કીવર્ડ્સ માટે શોધો -ભાષણના વ્યક્તિગત વિભાગોની માન્યતા. ભાષણ કાં તો સ્વયંસ્ફુરિત અથવા અમુક નિયમો સાથે સુસંગત હોઈ શકે છે. બોલાતી વાણી સંપૂર્ણપણે ટેક્સ્ટમાં રૂપાંતરિત થતી નથી - તે આપમેળે તે વિભાગો ધરાવે છે જેમાં ઉલ્લેખિત શબ્દો અથવા શબ્દસમૂહો હોય છે.

    4. મોટા શબ્દકોશ પર સતત ભાષણની ઓળખ -જે કહેવામાં આવે છે તે બધું શબ્દશઃ ટેક્સ્ટમાં રૂપાંતરિત થાય છે. માન્યતા વિશ્વસનીયતા ખૂબ ઊંચી છે.

    5. ન્યુરલ સિસ્ટમ્સનો ઉપયોગ કરીને વાણી ઓળખ.ન્યુરલ નેટવર્કના આધારે, પ્રશિક્ષિત અને સ્વ-શિક્ષણ પ્રણાલીઓ બનાવવાનું શક્ય છે, જે વાણી ઓળખ (અને સંશ્લેષણ) સિસ્ટમ્સમાં તેમના ઉપયોગ માટે એક મહત્વપૂર્ણ પૂર્વશરત છે.

    a) સંખ્યાત્મક પરિમાણોના સમૂહ તરીકે ભાષણનું પ્રતિનિધિત્વ.સ્પીચ સિગ્નલની માહિતીપ્રદ લાક્ષણિકતાઓને ઓળખ્યા પછી, તમે આ સુવિધાઓને સંખ્યાત્મક પરિમાણોના ચોક્કસ સમૂહના સ્વરૂપમાં રજૂ કરી શકો છો (એટલે ​​​​કે, ચોક્કસ સંખ્યાત્મક જગ્યામાં વેક્ટર તરીકે). આગળ, પ્રશિક્ષિત ન્યુરલ નેટવર્કનો ઉપયોગ કરીને વાણી આદિમને ઓળખવાનું કાર્ય તેમના વર્ગીકરણમાં ઘટાડવામાં આવે છે.

    b) ન્યુરલ એન્સેમ્બલ્સ.વાણી ઓળખ માટે યોગ્ય અને શિક્ષક વિના પ્રશિક્ષિત ન્યુરલ નેટવર્કના મોડેલ તરીકે, તમે સ્વ-વ્યવસ્થિત કોહોનેન ફીચર મેપ પસંદ કરી શકો છો. તેમાં, વિવિધ ઇનપુટ સિગ્નલો માટે, ન્યુરલ એન્સેમ્બલ્સ રચાય છે જે આ સંકેતોનું પ્રતિનિધિત્વ કરે છે. આ અલ્ગોરિધમમાં આંકડાકીય સરેરાશ કરવાની ક્ષમતા છે, જે આપણને વાણી પરિવર્તનશીલતાની સમસ્યાને હલ કરવાની મંજૂરી આપે છે.

    c) આનુવંશિક ગાણિતીક નિયમો.આનુવંશિક ગાણિતીક નિયમોનો ઉપયોગ કરતી વખતે, સમસ્યાને ઉકેલવા માટે નવું ન્યુરલ નેટવર્ક વધુ સારું કે ખરાબ છે કે કેમ તે નિર્ધારિત કરવા માટે પસંદગીના નિયમો બનાવવામાં આવે છે. વધુમાં, ન્યુરલ નેટવર્કને સંશોધિત કરવાના નિયમો વ્યાખ્યાયિત કરવામાં આવ્યા છે. લાંબા સમય સુધી ન્યુરલ નેટવર્કના આર્કિટેક્ચરને બદલીને અને તે આર્કિટેક્ચર્સને પસંદ કરીને જે તમને સમસ્યાને શ્રેષ્ઠ રીતે હલ કરવાની મંજૂરી આપે છે, વહેલા કે પછી તમે સમસ્યાનો સાચો ઉકેલ મેળવી શકો છો.

    સુસંગત વાણી ઓળખ માટે સામાન્ય અલ્ગોરિધમ

    મૂળ સંકેત

    ઇચ્છિત સિગ્નલનું પ્રારંભિક ફિલ્ટરિંગ અને એમ્પ્લીફિકેશન

    વ્યક્તિગત શબ્દોને હાઇલાઇટ કરવું

    શબ્દ ઓળખ

    વાણી ઓળખ

    માન્ય સિગ્નલ પર પ્રતિક્રિયા

    વાણી ઓળખ પ્રણાલીની સમગ્ર વિવિધતાને કેટલાક જૂથોમાં વિભાજિત કરી શકાય છે.

    1. હાર્ડવેર અમલીકરણ માટે સોફ્ટવેર કર્નલ. TTS એન્જિન - ટેક્સ્ટમાંથી વાણી સંશ્લેષણ, અને ASR એન્જિન - વાણી ઓળખ માટે.

    2. એપ્લિકેશન ડેવલપમેન્ટ માટે પુસ્તકાલયોના સેટ.સ્પીચ ટેક્નોલોજીને એકીકૃત કરવા માટે બે ધોરણો છે: VoiceXML, ઇન્ટરેક્ટિવ વૉઇસ-આધારિત મીડિયા મેનેજમેન્ટ એપ્લિકેશન્સ વિકસાવવા માટે, અને SALT, જે મલ્ટિમોડલ એપ્લિકેશન્સને સપોર્ટ કરે છે જે વાણી ઓળખને ઇનપુટના અન્ય સ્વરૂપો સાથે જોડે છે.

    3. સ્વતંત્ર વપરાશકર્તા એપ્લિકેશન્સ.ડ્રેગન નેચરલી સ્પીકિંગ પ્રિફર્ડ - સતત વાણી ઓળખે છે; ઓળખની ચોકસાઈ 95% છે. "ડિક્ટોગ્રાફ" - કોઈપણ સંપાદકમાં ટેક્સ્ટ દાખલ કરવાના કાર્ય સાથે, ઓળખની ચોકસાઈ - 30-50%.

    4. વિશિષ્ટ એપ્લિકેશન.કંપની "સેન્ટર ફોર સ્પીચ ટેક્નોલોજીસ" આંતરિક બાબતોના મંત્રાલય, એફએસબી, કટોકટીની પરિસ્થિતિઓ મંત્રાલય માટે કાર્યક્રમો વિકસાવે છે અને તેનું ઉત્પાદન કરે છે: "ઇકાર લેબ", "ટ્રાલ", "ટેરિટરી". જર્મન ઇન્સ્ટિટ્યૂટ DFKI એ વર્બમોબિલ વિકસાવ્યું છે, એક પ્રોગ્રામ જે બોલાતી સ્પીચને જર્મનમાંથી અંગ્રેજી અથવા જાપાનીઝમાં ભાષાંતર કરી શકે છે અને તેનાથી વિપરીત, સીધા માઇક્રોફોનમાં બોલાય છે. ચોકસાઈ - 90%.

    5. ઉપકરણો કે જે હાર્ડવેર સ્તરે ઓળખ કાર્ય કરે છે.સેન્સરી ઇન્કએ વૉઇસ ડાયરેક્ટ™ 364 ઇન્ટિગ્રેટેડ સર્કિટ વિકસાવ્યું છે, જે પ્રારંભિક તાલીમ પછી નાની સંખ્યામાં આદેશો (લગભગ 60) ની સ્પીકર-આધારિત ઓળખ કરે છે. પ્રાઇમસ્ટાર ટેકનોલોજી કોર્પોરેશને VP-2025 ચિપ વિકસાવી છે - તે ન્યુરલ નેટવર્ક પદ્ધતિનો ઉપયોગ કરીને ઓળખ કરે છે.

    વાણી ઓળખ પદ્ધતિઓ.

    1. હિડન માર્કોવ મોડલ પદ્ધતિ.તે નીચેની ધારણાઓ પર આધારિત છે: ભાષણને સેગમેન્ટમાં વિભાજિત કરી શકાય છે, જેમાં ભાષણ સિગ્નલને સ્થિર ગણી શકાય, આ રાજ્યો વચ્ચેનું સંક્રમણ તાત્કાલિક છે; મોડેલ દ્વારા જનરેટ થયેલ અવલોકન પ્રતીકની સંભાવના ફક્ત મોડેલની વર્તમાન સ્થિતિ પર આધાર રાખે છે અને તે અગાઉના રાશિઓ પર આધારિત નથી.

    2. સ્લાઇડિંગ વિન્ડો પદ્ધતિ.સાર: વિટરબી અલ્ગોરિધમનો ઉપયોગ કરીને કીવર્ડની ઘટના નક્કી કરવી. કીવર્ડ સિગ્નલમાં ગમે ત્યાંથી શરૂ અને સમાપ્ત થઈ શકે છે, આ પદ્ધતિ કીવર્ડની ઘટનાની તમામ સંભવિત શરૂઆત અને અંતની જોડીમાં પુનરાવર્તિત થાય છે અને કીવર્ડ અને તે સેગમેન્ટ માટે સૌથી વધુ સંભવિત પાથ શોધે છે, જાણે કે તેમાં કીવર્ડ હાજર હોય. દરેક સંભવિત કીવર્ડ પાથ માટે, જો લાગુ કરેલ પાથ અંદાજ પદ્ધતિ અનુસાર ગણતરી કરેલ પાથ મૂલ્ય પૂર્વવ્યાખ્યાયિત મૂલ્ય કરતા વધારે હોય તો હિટના આધારે સંભાવના કાર્ય લાગુ કરવામાં આવે છે. ગેરફાયદા: ઉચ્ચ કોમ્પ્યુટેશનલ જટિલતા; આદેશોમાં એવા શબ્દો શામેલ હોઈ શકે છે જે કીવર્ડ ઓળખ અલ્ગોરિધમ દ્વારા સારી રીતે ઓળખાતા નથી.

    3. એકંદર મોડેલોની પદ્ધતિ.કીવર્ડ રેકગ્નિશન અલ્ગોરિધમ્સ માટે, ઓળખ શબ્દ વિદેશી ભાષણમાં એમ્બેડેડ દેખાય છે. આ આધારે, ફિલર મોડલ પદ્ધતિઓ ફિલર મોડલ્સ દ્વારા વિદેશી ભાષણને સ્પષ્ટપણે મોડેલ કરીને આ વિદેશી ભાષણની પ્રક્રિયા કરે છે. આ કરવા માટે, "સામાન્ય" શબ્દો માન્યતા સિસ્ટમના શબ્દકોશમાં ઉમેરવામાં આવે છે. આ શબ્દોની ભૂમિકા એ સુનિશ્ચિત કરવાની છે કે અજાણ્યા શબ્દ અથવા બિન-સ્પીચ એકોસ્ટિક ઘટનાના સંકેતના કોઈપણ સેગમેન્ટને સિસ્ટમ દ્વારા એક શબ્દ અથવા સામાન્ય શબ્દોની સાંકળ તરીકે ઓળખવામાં આવે છે. દરેક સામાન્યકૃત શબ્દ માટે, એકોસ્ટિક મોડલ બનાવવામાં આવે છે અને તેને સંબંધિત લેબલવાળા સિગ્નલ સેગમેન્ટ્સ સાથે ડેટા કોર્પસ પર તાલીમ આપવામાં આવે છે. ડીકોડરમાંથી આઉટપુટ એ શબ્દકોશના શબ્દો (કીવર્ડ્સ) અને સામાન્ય શબ્દોનો સમાવેશ કરતી સાંકળ છે. સામાન્ય શબ્દો પછી કાઢી નાખવામાં આવે છે અને સાંકળના બાકીના ભાગને માન્યતા પરિણામ ગણવામાં આવે છે. ગેરફાયદા: કીવર્ડ્સને સામાન્ય તરીકે ઓળખવામાં આવી શકે છે; સામાન્યકૃત શબ્દોના મૂળાક્ષરોની શ્રેષ્ઠ પસંદગીની જટિલતા.

    ગ્રંથસૂચિ

    1. સ્વચાલિત વાણી ઓળખની પદ્ધતિઓ: 2 પુસ્તકોમાં. પ્રતિ. અંગ્રેજી/એડમાંથી. ડબલ્યુ. લી. – એમ.: મીર, 1983. – પુસ્તક. 1. 328 પૃ., બીમાર.

    2. વિન્સ્યુક ટી.કે. વિશ્લેષણ, માન્યતા અને ભાષણ સંકેતોનું અર્થઘટન. કિવ: નૌકોવા દુમકા, 1987.

    3. વિન્સ્યુક ટી.કે. IKDP- અને NMM- વાણી ઓળખની પદ્ધતિઓની તુલના // પદ્ધતિઓ અને માહિતીના માધ્યમો. ભાષણ કિવ, 1991.

    4. http://www.mtechnology.ru

    5. http://www.comptek.ru



    શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!