પુરૂષ સિરી અવાજને કેવી રીતે સક્ષમ કરવો. એપલના સિરી વૉઇસ સહાયક

સિરી - વિશ્વાસુ સહાયકદરેક એપલમેન. આ અદ્ભુત સિસ્ટમ સાથે તમે હવામાન શોધી શકો છો, મિત્રોને કૉલ કરી શકો છો, સંગીત સાંભળી શકો છો વગેરે. ફંક્શન તમને જોઈતી કોઈપણ વસ્તુઓ શોધવાની પ્રક્રિયાને ઝડપી બનાવે છે. ચાલો કહીએ કે તમે સિરીને સેન્ટ પીટર્સબર્ગમાં આજનું હવામાન બતાવવા માટે કહો, અને તેણી ખુશીથી તમને મદદ કરશે. તેઓ કહે છે કે ખૂબ જ ટૂંક સમયમાં તે લોકોને સાંભળવામાં સમર્થ હશે, કારણ કે ઘણા લોકો વારંવાર તેમની સમસ્યાઓ વિશે ફરિયાદ કરે છે, અને તે ફક્ત નિઃશંકપણે નજીકની મનોવૈજ્ઞાનિક સેવાની સંખ્યા પ્રદાન કરે છે.

તેથી, ચાલો કલ્પના કરીએ કે તમે તેના અવાજથી કંટાળી ગયા છો અને તેને બદલવા માંગો છો. ઘણા લોકો માને છે કે આ અશક્ય છે, પરંતુ હકીકતમાં અહીં કામ માત્ર વીસ સેકન્ડ લે છે.

એક પગલું.

ચાલો સેટિંગ્સ પર જઈએ. જો કંઈપણ હોય, તો આયકન સામાન્ય રીતે ડેસ્કટોપના પ્રથમ પૃષ્ઠ પર અથવા "ઉપયોગિતાઓ" ફોલ્ડરમાં સ્થિત હોય છે.

પગલું બે

અમને એપ્લિકેશન મળી ગયા પછી, અમે સિરી કૉલમ શોધીએ છીએ. જેમ તમે જાણો છો, આ આઇટમ પ્રોગ્રામના ત્રીજા વિભાગમાં છે.

પગલું ત્રણ.

સિરી શિલાલેખની બાજુમાં, બટનની સ્થિતિને ચાલુ મોડ પર સ્વિચ કરો. જો આ પહેલાથી જ બન્યું હોય, તો પછી આ પગલું અવગણો.

પગલું ચાર

"વૉઇસ" વિભાગ પર જાઓ અને તમને શ્રેષ્ઠ ગમતો વિકલ્પ પસંદ કરો. અહીં તમે વિવિધ ઉચ્ચારો શીખી શકો છો, તેમજ સ્પીકરના લિંગને બદલી શકો છો. બધી ભાષાઓમાં ઉચ્ચારણ હોતું નથી, પરંતુ મોટાભાગની ભાષામાં હોય છે. સામાન્ય રીતે, આ મુખ્ય વસ્તુ નથી, કારણ કે થોડા સમય પછી એપ્લિકેશન પોતે જ તમને અનુકૂળ થવાનું શરૂ કરે છે.

iPhone અને iPad વપરાશકર્તાઓ હવે સિરી માટે ટેક્સ્ટ ક્વેરીઝ અને આદેશો દાખલ કરી શકે છે. પરંતુ અહીં એક મુદ્દો છે. iOS 11 ના બીટા વર્ઝનમાં, તમારે ટેક્સ્ટ અને વૉઇસ ટાઇપિંગ વચ્ચે પસંદગી કરવાની જરૂર છે. જો સિરી ટાઈપિંગ સક્ષમ છે, તો સિરી વૉઇસ આદેશો સ્વીકારશે નહીં. જો સિરી આ વિકલ્પો વચ્ચે આપમેળે સ્વિચ કરી શકે તો તે વધુ અનુકૂળ રહેશે. કદાચ ઉત્પાદક ભવિષ્યના સંસ્કરણોમાં આને ધ્યાનમાં લેશે.

સિરી ટેક્સ્ટ આદેશોનો ઉપયોગ કેવી રીતે કરવો:

iOS 11 માં સિરી માટે ટેક્સ્ટ આદેશોને સક્ષમ કરવા માટે, નીચે મુજબ કરો:

પગલું 1: સિરી અને શોધ વિભાગ ખોલો અને "હે સિરી" વિકલ્પને સક્રિય કરો.


પગલું 2: સેટિંગ્સ > સામાન્ય > ઍક્સેસિબિલિટી > સિરી પર જાઓ.

પગલું 3. "Siri માટે ટેક્સ્ટ ઇનપુટ" વિકલ્પની બાજુમાં સ્વિચને સક્રિય કરો.


પગલું 4: હોમ બટન દબાવો અને પકડી રાખો. હવે, સામાન્ય સાઉન્ડ સિગ્નલને બદલે, "હું કેવી રીતે મદદ કરી શકું" પ્રશ્ન અને સ્ક્રીન પર પ્રમાણભૂત કીબોર્ડ દેખાશે.


પગલું 5: ફક્ત તમારી ક્વેરી અથવા આદેશ દાખલ કરો અને સમાપ્ત પર ક્લિક કરો.

સિરીનો પ્રતિસાદ ટેક્સ્ટ તરીકે પ્રદર્શિત થશે. જો વર્ચ્યુઅલ સહાયક કાર્યને સમજી શકતો નથી, તો તમે વિનંતી પર ક્લિક કરી શકો છો અને તેને સંપાદિત કરી શકો છો.


બાહ્ય કીબોર્ડ

સિરીને વૉઇસ વિનંતીઓ પણ સાથે કામ કરે છે બાહ્ય કીબોર્ડઆઈપેડ પર. હોમ બટનની હાજરી (જેમ કે લોજીટેક K811 પર) ઇનપુટ પ્રક્રિયાને વધુ અનુકૂળ બનાવે છે. કી દબાવીને અને સિરી માટે આદેશનો ઉલ્લેખ કરીને, વપરાશકર્તા કાર્ય કરી શકે છે સરળ કાર્યો, જેમ કે સંદેશ મોકલવો, સંગીત વગાડવું અથવા નોંધ બનાવવી.

આ પ્રકારની કાર્યક્ષમતા હવે ખાસ કરીને મહત્વપૂર્ણ છે કે Appleપલ આઈપેડ પ્રોને કમ્પ્યુટર રિપ્લેસમેન્ટ તરીકે સ્થાન આપી રહ્યું છે. iOS ધીમે ધીમે બની રહ્યું છે ઓપરેટિંગ સિસ્ટમ વ્યાવસાયિક સ્તર, જે હાર્ડવેર સાથે ગાઢ રીતે સંબંધિત છે, તે હંમેશા ઈન્ટરનેટ સાથે જોડાયેલ હોય છે અને સતત વ્યક્તિના ખિસ્સામાં હોય છે.

શું તમે તમારા iPhone પર વ્યક્તિગત સહાયક રાખવા માંગો છો? ઉદાહરણ તરીકે, જેથી તમે તમારા દિવસ, અઠવાડિયું અને મહિનાનું આયોજન કરી શકો, અને કોઈની અંદર સુખદ રીતેવિશે યાદ અપાવ્યું મહત્વપૂર્ણ બાબતો, તમારી મીટિંગ્સ શેડ્યૂલ કરો, સીધી પ્રવૃત્તિઓ કરો, કૉલ કરો અથવા તમારા સ્માર્ટફોનથી સીધા ઇમેઇલ્સ મોકલો. આઇફોન પર આવા બુદ્ધિશાળી અવાજ ઇન્ટરફેસ પ્રોગ્રામ સિરી રશિયામાં વિકસાવવામાં આવ્યો હતો પ્રોજેક્ટ ટીમસિરીપોર્ટ.

સિરી વૉઇસ આસિસ્ટન્ટની વ્યક્તિગત લાક્ષણિકતાઓ બનાવવા માટેની આજની નવીન આવશ્યકતાઓને પૂર્ણ કરે છે કૃત્રિમ બુદ્ધિ. એપ્લીકેશન સુપર સ્માર્ટ છે અને તે બધા તરફથી વોઈસ કમાન્ડને સંપૂર્ણ રીતે હાથ ધરી શકે છે શક્ય ક્રિયાઓસ્માર્ટફોન પર: તમારી સંપર્ક સૂચિમાંથી લોકોને કૉલ કરો, સંદેશા મોકલો, શોધો જરૂરી માહિતી, સ્માર્ટફોન કીબોર્ડનો ઉપયોગ કર્યા વિના બુકમાર્ક્સ અને કાર્ય પાઠો બનાવો, પરંતુ માત્ર વૉઇસ ઇન્ટરફેસ. આ લેખ તમને જણાવશે કે iPhone 4 અથવા iPhone 5 અથવા 6 પેઢીઓ પર સિરી કેવી રીતે ઇન્સ્ટોલ કરવી.

નવી લાઇસન્સ પ્રાપ્ત વ્યક્તિગત સહાયક એપ્લિકેશન એ વૉઇસ રેકગ્નિશન પ્રોગ્રામ છે, અને તમામ Apple ઉપકરણોમાં તે ઇન્સ્ટોલ કરેલ છે. તે ઉમેરવું જોઈએ કે વૉઇસ સહાયક iPhone 4S ઉપકરણો પર iOS 7 પર આધારિત સિરી, iPhone 5 પર Siri, iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 જનરેશન પર કામ કરે છે. વધુમાં, મદદનીશ સેવા આપી શકે છે આઈપેડ મીની, Mini 2 અને Mini 3, પર પણ ઉપલબ્ધ છે આઇપોડ ટચ 5મી પેઢી, ચાલુ એપલ ઉપકરણો Watcha, અને iPad 3જી પેઢી અને ઉચ્ચતર પર પણ કામ કરે છે.

iOS 8.3 ના પ્રકાશન પછી, સિરી આઇફોનને રશિયનમાં ગોઠવી શકાય છે. iOS સિસ્ટમનવી પેઢીના ઉપકરણો પર 10 પણ ધ્યાનમાં લે છે મહાન તકોઅવાજ સહાયક. આ વ્યક્તિગત માહિતી શોધવા અને યાદ રાખવાનું ખૂબ સરળ બનાવે છે, તેઓ કહે છે તેમ, સમય અને નાણાંની બચત કરે છે.

આઇફોન પર સિરી કેવી રીતે સક્ષમ કરવી તે જાણવા માગો છો?

ઉદાહરણ તરીકે, જો તમને iPhone 4 - 7 પર સિરી કેવી રીતે ચાલુ કરવી તે ખબર નથી અથવા સિરીને કેવી રીતે બંધ કરવી તે સમજાતું નથી, તો અમે સ્ટેપ બાય સ્ટેપ આગળ વધીશું. વૉઇસ સહાયકનો ઉપયોગ કરીને iPhone 4S અથવા iPhone 6S પર વૉઇસ સહાયકનો વિચાર કરો. પ્રથમ, તમારે એ શોધવું જોઈએ કે એપ્લિકેશન iPhone 4 અથવા iPhone 6S પર ઇન્સ્ટોલ કરેલી છે કે કેમ અને સિરી શા માટે iPhone પર કામ કરતી નથી. જો તે તારણ આપે છે કે સહાયક પ્રોગ્રામ આઇફોન પર ચલાવી શકાતો નથી, તો નિરાશ થશો નહીં, તમે અન્ય તદ્દન સમાન વૈકલ્પિક પ્રોગ્રામ્સ ઇન્સ્ટોલ કરી શકો છો, ઉદાહરણ તરીકે, ન્યુએન્સ કંપની દ્વારા વિકસિત "ડ્રેગન ગો!" પ્રોગ્રામ, જે ઍક્સેસ કરવામાં સક્ષમ હશે iPhone પર ઇન્સ્ટોલ કરેલા અન્ય પ્રોગ્રામ્સ, જેમ કે Google, Netflix, Yelp અને અન્ય.

જો વેચાણ પર આઇફોન પર વૉઇસ સહાયક ઇન્સ્ટોલ કરેલું હતું, તો મોટા ભાગે તે અંદર હશે સક્રિય સ્થિતિમૂળભૂત આ તપાસવા માટે, તમારા iPhone પર હોમ બટન દબાવી રાખો. જ્યારે તે ઉપયોગ માટે તૈયાર હોય ત્યારે સિરી બીપ કરશે. તમે અવાજ દ્વારા આદેશ આપી શકો છો: ઉદાહરણ તરીકે, મોટેથી સ્પષ્ટપણે કહો: "તમારી મેઇલ તપાસો!"

જો સિરી આવશ્યકતા મુજબ સક્રિય નથી, તો તમે તેને નીચેની રીતે જાતે કરી શકો છો. તમારા ફોનની મુખ્ય સ્ક્રીન ખોલો અને "સેટિંગ્સ" પર ક્લિક કરો, "મૂળભૂત" ફોલ્ડર શોધો અને, તેનો ઉપયોગ કેવી રીતે કરવો તે જાણીને, "સિરી" એપ્લિકેશન લોંચ કરો. જો કે, સ્માર્ટ પ્રોગ્રામ સાથે કામ કરતી વખતે, તમે મદદનીશને એક ડઝન કાર્યો આપી શકો છો, મોટેથી વાતચીત કરી શકો છો. અભિવાદન કહેવાનો પ્રયાસ કરો જેમ કે "હે!" અથવા "હે સિરી!", અથવા, કહો, "હવામાન કેવું છે, સિરી?" આ ઉપરાંત, તમે સેટિંગ્સ વિભાગમાં તમારા સહાયકને પસંદ કરીને તેનું લિંગ નક્કી કરી શકો છો.

સિરીનો અવાજ અથવા ભાષા કેવી રીતે બદલવી

જો વૉઇસ સહાયક તમારી સાથે એવી ભાષામાં વાતચીત કરે છે જે તમે સમજી શકતા નથી, તો તમે તેની ભાષા બદલી શકો છો. આ કરવા માટે, iPhone ના "સેટિંગ્સ" મેનૂમાં Siri શોધો, "Siri Language" આદેશ પસંદ કરો. ભાષા વિકલ્પોની સૂચિ તમારી સામે ખુલશે અને, સ્ક્રોલ કર્યા પછી, તમને જરૂરી એક પસંદ કરો, જેની મદદથી સહાયક ભવિષ્યમાં તમારી સાથે વાતચીત કરશે.

જો તમે વ્યક્તિગત સહાયકની સંચાર શૈલીને પ્રોગ્રામ કરવા માંગતા હો, તો ફક્ત તેના અવાજને જ નહીં, પણ સરનામાંની સ્થાપિત શૈલી, વિવિધ શબ્દસમૂહો કે જે તમને સાંભળીને આનંદ થશે તે પણ ગોઠવો, ફરીથી "સેટિંગ્સ" વિભાગ પર જાઓ, "Siri" પ્રોગ્રામ લોંચ કરો, કમાન્ડ લાઇન "ઑડિઓ ફીડબેક" શોધો અને તે મુજબ તમને અનુકૂળ હોય તેવા સંચાર વિકલ્પને સક્રિય કરો.

માર્ગ દ્વારા, આના વિકાસકર્તાઓ સોફ્ટવેર ઉત્પાદનઅમે વિવેકપૂર્ણ રીતે અવાજ સહાયકની ચેતનામાં અવાજો, સ્વર, ઉચ્ચાર અને બોલીને પણ ઓળખવાની ક્ષમતાનો પરિચય આપ્યો છે;

કારમાં સિરી મોડ

Siri એપને ચાલુ કરવાથી નકશો પસંદ કરીને તમારા કાર્યોને ઘણું સરળ બનાવી શકાય છે સાચી દિશાજ્યારે તમે કાર ચલાવો છો. આ કરવા માટે, કારને ટેકો આપવો આવશ્યક છે સોફ્ટવેર CarPlay અથવા આ પ્રોગ્રામમાં ઉપલબ્ધ "નો લુકિંગ" ફંક્શનનો ઉપયોગ કરો. સહાયકની સેવાઓનો ઉપયોગ કરવા માટે, તમારે તેને સીધા કારના સ્ટીયરિંગ વ્હીલ પર સ્થિત વૉઇસ કમાન્ડ બટન દબાવીને કૉલ કરવાની અને સિરીને યોગ્ય આદેશ આપવાની જરૂર છે.

જો તમારી કારમાં CarPlay-સક્ષમ ટચસ્ક્રીન છે, તો સ્ક્રીન મેનૂમાંથી હોમ બટનને ઍક્સેસ કરીને સિરીને સક્રિય કરો. જો તમે આદેશનો અવાજ કરો છો, તો સહાયક અમલ કરવાનું શરૂ કરતા પહેલા ભાષણમાં વિરામની રાહ જુએ છે. પરંતુ, જો કાર ખૂબ ઘોંઘાટીયા હોય, તો સ્ક્રીન પર સ્થિત બટન સાથે પ્રતિસાદ આપવાનું વધુ સારું છે જે ટ્રાન્સમિટ થાય છે ધ્વનિ તરંગ, અને પછી સિરી અનુમાન કરશે કે તમે સમાપ્ત કરી લીધું છે અને સોંપેલ કાર્ય પૂર્ણ કરવાનું શરૂ કરશે. જો જરૂરી હોય તો, તમારા iPhone સેટિંગ્સમાં જઈને, તમે સિરીને કેવી રીતે અક્ષમ કરવી તે પણ વાંચી શકો છો.

તમે સહાયકને બ્લૂટૂથ હેડસેટ દ્વારા તેમજ USB કેબલ દ્વારા સ્રોત સાથે પણ કનેક્ટ કરી શકો છો. આ કિસ્સામાં, બધી ક્રિયાઓ સમાન ક્રમમાં કરો.

સિરી એ વૉઇસ આસિસ્ટન્ટ છે જે સૌપ્રથમ 2011 માં iOS 5 સાથે રજૂ કરવામાં આવ્યું હતું. અલબત્ત, ત્યારથી તે ગંભીર રીતે વિકસિત થયું છે: તે બોલવાનું શીખી ગયું છે. વિવિધ ભાષાઓ(રશિયનમાં સહિત), મેક કમ્પ્યુટર્સ પર આવ્યા, પ્રોગ્રામ્સ સાથે વાર્તાલાપ કરવાનું શીખ્યા તૃતીય પક્ષ વિકાસકર્તાઓવગેરે. શું થયું છે ઊંડા શિક્ષણઅને સિરીનો અવાજ કેવી રીતે સંશ્લેષણ કરવામાં આવે છે - અમે આ લેખમાં આ વિશે વાત કરીશું.

પરિચય

વાણી સંશ્લેષણ - કૃત્રિમ પ્રજનન માનવ ભાષણ- વ્યાપકપણે ઉપયોગમાં લેવાય છે વિવિધ વિસ્તારો, વૉઇસ સહાયકોથી લઈને રમતો સુધી. તાજેતરમાં, વાણી ઓળખ સાથે, વાણી સંશ્લેષણ એ સિરી જેવા વર્ચ્યુઅલ વ્યક્તિગત સહાયકોનો અભિન્ન ભાગ બની ગયો છે.

ઑડિઓ ઉદ્યોગમાં બે ભાષણ સંશ્લેષણ તકનીકોનો ઉપયોગ થાય છે: પસંદગી ધ્વનિ એકમોઅને પેરામેટ્રિક સંશ્લેષણ. એકમ પસંદગી સંશ્લેષણ પ્રદાન કરે છે ઉચ્ચતમ ગુણવત્તાખાતે પર્યાપ્ત જથ્થોઉચ્ચ ગુણવત્તા ભાષણ રેકોર્ડિંગ્સ, અને આમ તે વ્યાપારી ઉત્પાદનોમાં સૌથી વધુ ઉપયોગમાં લેવાતી ભાષણ સંશ્લેષણ પદ્ધતિ છે. બીજી બાજુ, પેરામેટ્રિક સંશ્લેષણ ખૂબ જ સ્પષ્ટ અને સરળ વાણી પ્રદાન કરે છે, પરંતુ તે ઓછું છે એકંદર ગુણવત્તા. આધુનિક સાઉન્ડ યુનિટ સિલેક્શન સિસ્ટમ્સ બે અભિગમોના કેટલાક ફાયદાઓને જોડે છે અને તેથી તેને હાઇબ્રિડ સિસ્ટમ્સ કહેવામાં આવે છે. હાઇબ્રિડ એકમો પસંદ કરવા માટેની પદ્ધતિઓ તેના જેવી જ છે શાસ્ત્રીય પસંદગીએકમો, પરંતુ કયા ધ્વનિ એકમો પસંદ કરવા જોઈએ તે અનુમાન કરવા માટે તેઓ પેરામેટ્રિક અભિગમનો ઉપયોગ કરે છે.

IN તાજેતરમાંઊંડું શિક્ષણ ક્ષેત્રમાં વેગ પકડી રહ્યું છે ભાષણ તકનીકો, અને મોટે ભાગે શ્રેષ્ઠ છે પરંપરાગત પદ્ધતિઓ, જેમ કે છુપાયેલા માર્કોવ મોડેલ્સ (HMM), જેનો સિદ્ધાંત ઉકેલવાનો છે અજાણ્યા પરિમાણોઅવલોકન કરેલ મુદ્દાઓના આધારે, અને પ્રાપ્ત પરિમાણોનો વધુ વિશ્લેષણમાં ઉપયોગ કરી શકાય છે, ઉદાહરણ તરીકે, પેટર્નની ઓળખ માટે. ઊંડું શિક્ષણ સંપૂર્ણપણે પૂરું પાડવામાં આવ્યું નવો અભિગમભાષણ સંશ્લેષણ માટે, જેને કહેવામાં આવે છે ડાયરેક્ટ મોડેલિંગવેવફોર્મ્સ તે બંને પ્રદાન કરી શકે છે ઉચ્ચ ગુણવત્તાએકમ પસંદગીનું સંશ્લેષણ અને પેરામેટ્રિક સંશ્લેષણની સુગમતા. જો કે, તેના અત્યંત ઊંચા કોમ્પ્યુટેશનલ ખર્ચને જોતાં, ગ્રાહક ઉપકરણો પર તેને અમલમાં મૂકવું હજી શક્ય બનશે નહીં.

વાણી સંશ્લેષણ કેવી રીતે કાર્ય કરે છે

વ્યક્તિગત સહાયક માટે ઉચ્ચ-ગુણવત્તાવાળી ટેક્સ્ટ-ટુ-સ્પીચ (TTS) સિસ્ટમ બનાવવી એ કોઈ સરળ કાર્ય નથી. પ્રથમ પગલું એ એક વ્યાવસાયિક અવાજ શોધવાનું છે જે સુખદ, સમજવામાં સરળ અને સિરીના વ્યક્તિત્વ સાથે મેળ ખાતો હોય. માનવ ભાષણની વિશાળ વિવિધતામાં કેટલીક ભિન્નતાઓ કેપ્ચર કરવા માટે, વ્યાવસાયિક સ્ટુડિયોમાં 10-20 કલાક ભાષણ રેકોર્ડ કરવામાં આવે છે. રેકોર્ડીંગ સ્ક્રિપ્ટો ઓડિયોબુક્સથી નેવિગેશન સૂચનાઓ અને સંકેતોથી લઈને વિનોદી ટુચકાઓના જવાબો સુધીની છે. સામાન્ય રીતે, આ કુદરતી ભાષણનો ઉપયોગ વૉઇસ સહાયકમાં કરી શકાતો નથી કારણ કે સહાયક બોલી શકે તેવા તમામ સંભવિત ઉચ્ચારણોને રેકોર્ડ કરવું અશક્ય છે. આમ, ટીટીએસમાં ધ્વનિ એકમોની પસંદગી તેના પ્રાથમિક ઘટકો જેમ કે ફોનેમ્સમાં રેકોર્ડ કરેલી વાણીને કાપવા અને પછી સંપૂર્ણ રીતે બનાવવા માટે ઇનપુટ ટેક્સ્ટ અનુસાર તેને ફરીથી જોડવા પર આધારિત છે. નવું ભાષણ. વ્યવહારમાં, યોગ્ય ભાષણ સેગમેન્ટ્સ પસંદ કરવા અને તેમને એકબીજા સાથે જોડવા એ સરળ કાર્ય નથી, કારણ કે દરેક ફોનમેની એકોસ્ટિક લાક્ષણિકતાઓ પડોશીઓ અને વાણીના સ્વર પર આધાર રાખે છે, જે ઘણીવાર ભાષણ એકમોએકબીજા સાથે અસંગત. નીચેની આકૃતિ બતાવે છે કે કેવી રીતે વાણીને ફોનેમ્સમાં વિભાજિત વાણી ડેટાબેઝનો ઉપયોગ કરીને સંશ્લેષણ કરી શકાય છે:


આકૃતિનો ઉપરનો ભાગ સંશ્લેષિત ઉચ્ચારણ "યુનિટ સિલેક્શન સિન્થેસિસ" અને ફોનેમ્સનો ઉપયોગ કરીને તેનું ધ્વન્યાત્મક ટ્રાન્સક્રિપ્શન દર્શાવે છે. અનુરૂપ સિન્થેટીક સિગ્નલ અને તેના સ્પેક્ટ્રોગ્રામ નીચે દર્શાવેલ છે. સ્પીચ સેગમેન્ટ્સ, લીટીઓ દ્વારા વિભાજિત, ડેટાબેઝમાંથી વાણીના સતત સેગમેન્ટ્સ છે જેમાં એક અથવા વધુ ફોનમ્સ શામેલ હોઈ શકે છે.

TTS માં ધ્વનિ એકમો પસંદ કરવાની મુખ્ય સમસ્યા એ છે કે એકમોનો ક્રમ (દા.ત. ફોનેમ્સ) શોધવો જે ઇનપુટ ટેક્સ્ટ અને અનુમાનિત સ્વરૃપને સંતુષ્ટ કરે છે, જો કે તે સાંભળી શકાય તેવા અવરોધો વિના એકસાથે જોડી શકાય. પરંપરાગત રીતે, પ્રક્રિયામાં બે ભાગોનો સમાવેશ થાય છે: ફ્રન્ટ-એન્ડ અને બેક-એન્ડ (ઇનકમિંગ અને આઉટગોઇંગ ડેટા), જો કે આધુનિક સિસ્ટમોસીમા ક્યારેક અસ્પષ્ટ હોઈ શકે છે. ફ્રન્ટ-એન્ડનો હેતુ પ્રદાન કરવાનો છે ધ્વન્યાત્મક ટ્રાન્સક્રિપ્શનઅને ઇન્ટોનેશન માહિતી આધારિત સ્ત્રોત ટેક્સ્ટ. આમાં સ્રોત ટેક્સ્ટનું સામાન્યકરણ પણ શામેલ છે, જેમાં સંખ્યાઓ, સંક્ષિપ્ત શબ્દો વગેરે શામેલ હોઈ શકે છે.


ટેક્સ્ટ એનાલિસિસ મોડ્યુલ દ્વારા જનરેટ કરાયેલ સાંકેતિક ભાષાકીય રજૂઆતનો ઉપયોગ કરીને, ઇન્ટોનેશન જનરેશન મોડ્યુલ એકોસ્ટિક લાક્ષણિકતાઓ માટેના મૂલ્યોની આગાહી કરે છે જેમ કે શબ્દસમૂહની અવધિ અને સ્વરૃપ. આ મૂલ્યોનો ઉપયોગ યોગ્ય ધ્વનિ એકમો પસંદ કરવા માટે થાય છે. એકમ પસંદગીમાં સમસ્યા છે ઉચ્ચ જટિલતા, તેથી જ આધુનિક સિન્થેસાઇઝર પદ્ધતિઓનો ઉપયોગ કરે છે મશીન લર્નિંગ, જે ટેક્સ્ટ અને વાણી વચ્ચેના પત્રવ્યવહારને શીખી શકે છે, અને પછી સબટેક્સ્ટના અર્થોમાંથી ભાષણ લક્ષણોના અર્થની આગાહી કરી શકે છે. સિન્થેસાઇઝરનો ઉપયોગ કરીને તાલીમના તબક્કા દરમિયાન આ મોડેલ શીખવું જોઈએ મોટી માત્રામાંટેક્સ્ટ અને સ્પીચ ડેટા. આ મોડેલમાં ઇનપુટ સંખ્યાત્મક ભાષાકીય કાર્યો છે જેમ કે ફોનેમ, શબ્દ અથવા શબ્દસમૂહની ઓળખ, જે ઉપયોગી સંખ્યાત્મક સ્વરૂપમાં રૂપાંતરિત થાય છે. મોડેલના આઉટપુટમાં ભાષણની સંખ્યાત્મક એકોસ્ટિક લાક્ષણિકતાઓનો સમાવેશ થાય છે, જેમ કે સ્પેક્ટ્રમ, મૂળભૂત આવર્તન અને શબ્દસમૂહની અવધિ. સંશ્લેષણ દરમિયાન, પ્રશિક્ષિત આંકડાકીય મોડેલનો ઉપયોગ ઇનપુટ ટેક્સ્ટ સુવિધાઓને મેપ કરવા માટે થાય છે ભાષણ કાર્યો, જેનો ઉપયોગ પછી ધ્વનિ એકમ પસંદગીની બેકએન્ડ પ્રક્રિયાને નિયંત્રિત કરવા માટે થાય છે, જ્યાં યોગ્ય સ્વર અને સમયગાળો મહત્વપૂર્ણ છે.

ફ્રન્ટ-એન્ડથી વિપરીત, બેકએન્ડ મોટે ભાગે ભાષા સ્વતંત્ર છે. તે ઇચ્છિત ધ્વનિ એકમોને પસંદ કરવા અને તેમને એક શબ્દસમૂહમાં જોડવાનો (એટલે ​​​​કે, તેમને એકસાથે ગ્લુઇંગ) નો સમાવેશ કરે છે. જ્યારે સિસ્ટમને પ્રશિક્ષિત કરવામાં આવે છે, ત્યારે રેકોર્ડ કરેલ સ્પીચ અને રેકોર્ડિંગ સ્ક્રિપ્ટ (એકોસ્ટિક સ્પીચ રેકગ્નિશન મોડલ્સનો ઉપયોગ કરીને) વચ્ચે ફરજિયાત ગોઠવણીનો ઉપયોગ કરીને રેકોર્ડ કરેલ સ્પીચ ડેટાને વ્યક્તિગત સ્પીચ સેગમેન્ટ્સમાં વિભાજિત કરવામાં આવે છે. પછી વિભાજિત ભાષણનો ઉપયોગ ધ્વનિ એકમોનો ડેટાબેઝ બનાવવા માટે થાય છે. ડેટાબેઝને વધુ અપડેટ કરવામાં આવી રહ્યું છે મહત્વપૂર્ણ માહિતી, જેમ કે દરેક એકમના ભાષાકીય સંદર્ભ અને એકોસ્ટિક લાક્ષણિકતાઓ. કન્સ્ટ્રક્ટેડ ડિવાઇસ ડેટાબેઝ અને અનુમાનિત ઇન્ટોનેશન ફંક્શન્સનો ઉપયોગ કરીને જે પસંદગી પ્રક્રિયાને નિર્ધારિત કરે છે, વિટર્બી શોધ કરવામાં આવે છે (ટોચ પર લક્ષ્ય ફોનેમ્સ છે, નીચે સંભવિત સાઉન્ડ બ્લોક્સ છે, લાલ રેખા તેમનું શ્રેષ્ઠ સંયોજન છે):


પસંદગી બે માપદંડો પર આધારિત છે: પ્રથમ, ધ્વનિ એકમોમાં સમાન (લક્ષ્ય) સ્વરૃપ હોવું આવશ્યક છે, અને બીજું, એકમો, જો શક્ય હોય તો, સીમાઓ પર શ્રાવ્ય અવરોધો વિના સંયોજિત હોવા જોઈએ. આ બે માપદંડોને અનુક્રમે લક્ષ્ય અને જોડાણ ખર્ચ કહેવામાં આવે છે. લક્ષ્ય ખર્ચ એ અનુમાનિત લક્ષ્યો વચ્ચેનો તફાવત છે એકોસ્ટિક લાક્ષણિકતાઓઅને દરેક બ્લોકમાંથી એકોસ્ટિક પ્રોપર્ટીઝ કાઢવામાં આવે છે, જ્યારે જોડાણ ખર્ચ અનુગામી એકમો વચ્ચેનો એકોસ્ટિક તફાવત છે:


એકમોનો શ્રેષ્ઠ ક્રમ નક્કી કર્યા પછી, વ્યક્તિ ધ્વનિ સંકેતોસતત કૃત્રિમ ભાષણ બનાવવા માટે સંકલિત.

હિડન માર્કોવ મોડલ્સ (HMMs) નો સામાન્ય રીતે લક્ષ્ય અનુમાન માટે આંકડાકીય મોડલ તરીકે ઉપયોગ થાય છે કારણ કે તેઓ એકોસ્ટિક પેરામીટર્સના વિતરણનું સીધું મોડેલ બનાવે છે અને તેથી લક્ષ્ય કિંમતની ગણતરી કરવા માટે તેનો ઉપયોગ સરળતાથી કરી શકાય છે. જો કે, ડીપ લર્નિંગ-આધારિત અભિગમો ઘણીવાર પેરામેટ્રિક સ્પીચ સિન્થેસિસમાં એચએમએમને પાછળ છોડી દે છે.

સિરીની TTS સિસ્ટમનો ધ્યેય એક જ ડીપ લર્નિંગ-આધારિત મોડલને તાલીમ આપવાનો છે જે ડેટાબેઝમાં ઓડિયો એકમો માટે લક્ષ્ય અને જોડાણ ખર્ચ બંનેની આપમેળે અને સચોટ આગાહી કરી શકે છે. આમ, HMM ને બદલે, તે ચોક્કસ લાક્ષણિકતાઓ માટે વિતરણની આગાહી કરવા માટે મિશ્રણ ઘનતા નેટવર્ક (MDN) નો ઉપયોગ કરે છે. SPNs પરંપરાગત ડીપ ન્યુરલ નેટવર્ક્સ (DNNs) ને ગૌસીયન મોડલ્સ સાથે જોડે છે.

પરંપરાગત GNS એ કૃત્રિમ છે ન્યુરલ નેટવર્કઇનપુટ અને આઉટપુટ સ્તરો વચ્ચે ચેતાકોષોના કેટલાક છુપાયેલા સ્તરો સાથે. આમ, DNN ઇનપુટ અને આઉટપુટ લાક્ષણિકતાઓ વચ્ચેના જટિલ અને બિનરેખીય સંબંધનું મોડેલ બનાવી શકે છે. તેનાથી વિપરીત, એચએમએમ ગૌસીયન વિતરણોના સમૂહનો ઉપયોગ કરીને ઇનપુટ આપેલ આઉટપુટની સંભાવના વિતરણનું મોડેલ કરે છે અને સામાન્ય રીતે અપેક્ષા મહત્તમ કરવાની પદ્ધતિનો ઉપયોગ કરીને તાલીમ આપવામાં આવે છે. SPS ઇનપુટ અને આઉટપુટ ડેટા વચ્ચેના જટિલ સંબંધને મોડેલ કરવા માટે DNN નો ઉપયોગ કરીને, DNN અને HMM ના ફાયદાઓને જોડે છે, પરંતુ આઉટપુટ પર સંભાવના વિતરણ પ્રદાન કરે છે:


સિરી SPS પર આધારિત એકીકૃત લક્ષ્ય અને જોડાણ મોડલ્સનો ઉપયોગ કરે છે, જે બંને લક્ષ્ય વાણી લાક્ષણિકતાઓ (સ્પેક્ટ્રમ, પિચ અને અવધિ) અને ધ્વનિ એકમો વચ્ચે જોડાણ ખર્ચના વિતરણની આગાહી કરી શકે છે. ક્યારેક ભાષણ લક્ષણો, જેમ કે જોડાણો, તદ્દન સ્થિર હોય છે અને ધીમે ધીમે વિકાસ પામે છે - ઉદાહરણ તરીકે સ્વરોના કિસ્સામાં. અન્યત્ર, વાણી ખૂબ જ ઝડપથી બદલાઈ શકે છે - ઉદાહરણ તરીકે, જ્યારે અવાજ અને અનવૉઇસ્ડ વાણી અવાજો વચ્ચે સંક્રમણ થાય છે. આ પરિવર્તનશીલતાને ધ્યાનમાં લેવા માટે, મોડેલ તેના પરિમાણોને ઉપરોક્ત વિવિધતા અનુસાર સમાયોજિત કરવામાં સક્ષમ હોવા જોઈએ. ATP આ મોડેલમાં બનેલા પૂર્વગ્રહોનો ઉપયોગ કરીને કરે છે. સંશ્લેષણની ગુણવત્તામાં સુધારો કરવા માટે આ મહત્વપૂર્ણ છે, કારણ કે અમે વર્તમાન સંદર્ભ માટે વિશિષ્ટ લક્ષ્ય અને જોડાણ ખર્ચની ગણતરી કરવા માંગીએ છીએ.

ATP નો ઉપયોગ કરીને કુલ ખર્ચના આધારે એકમોની ગણતરી કર્યા પછી, ધ્વનિ એકમોના શ્રેષ્ઠ સંયોજનને શોધવા માટે પરંપરાગત વિટર્બી શોધ કરવામાં આવે છે. સરળ અને સતત કૃત્રિમ વાણી ઉત્પન્ન કરવા માટે શ્રેષ્ઠ જોડાણ સમય શોધવા માટે આને વેવફોર્મ ઓવરલેપ મેચિંગનો ઉપયોગ કરીને જોડવામાં આવે છે.

પરિણામો

સિરીમાં SPS નો ઉપયોગ કરવા માટે, 48 kHz ની આવર્તન પર ઓછામાં ઓછા 15 કલાકની ઉચ્ચ-ગુણવત્તાવાળી ભાષણ રેકોર્ડિંગ રેકોર્ડ કરવામાં આવી હતી. બળજબરીપૂર્વક ગોઠવણીનો ઉપયોગ કરીને વાણીને ફોનેમ્સમાં વિભાજિત કરવામાં આવી હતી, એટલે કે, સ્પીચ સિગ્નલમાંથી કાઢવામાં આવેલી એકોસ્ટિક લાક્ષણિકતાઓ સાથે ઇનપુટ ઑડિઓ સિક્વન્સને સંરેખિત કરવા માટે સ્વચાલિત વાણી ઓળખ લાગુ કરવામાં આવી હતી. આ વિભાજન પ્રક્રિયાના પરિણામે અંદાજે 1-2 મિલિયન ફોનેમ્સની રચના થઈ.

SPS પર આધારિત ધ્વનિ એકમો પસંદ કરવાની પ્રક્રિયા હાથ ધરવા માટે, એક લક્ષ્ય અને જોડાણ મોડલ બનાવવામાં આવ્યું હતું. SPS માં ઇનપુટ ડેટા મુખ્યત્વે કેટલાક સાથે દ્વિસંગી મૂલ્યોનો સમાવેશ કરે છે વધારાના કાર્યો, જે સંદર્ભ વિશેની માહિતીનું પ્રતિનિધિત્વ કરે છે (બે અગાઉના અને નીચેના ફોનેમ્સ).

ગુણવત્તા નવી સિસ્ટમ TTS સિરી અગાઉના એક કરતા ચડિયાતી છે - નીચે આપેલા ચિત્રમાં અસંખ્ય પરીક્ષણો દ્વારા આની પુષ્ટિ થાય છે (રસપ્રદ રીતે, તે સિરીનો નવો રશિયન અવાજ હતો જેને શ્રેષ્ઠ રેટ કરવામાં આવ્યો હતો):


શ્રેષ્ઠ ધ્વનિ ગુણવત્તા એટીપી પર આધારિત ડેટાબેઝ સાથે ચોક્કસપણે સંકળાયેલી છે - આ ખાતરી કરે છે શ્રેષ્ઠ પસંદગીઅને સાઉન્ડ બ્લોક્સનું જોડાણ, વધુ ઉચ્ચ આવર્તનસેમ્પલિંગ (22 kHz વિ. 48 kHz) અને સુધારેલ ઓડિયો કમ્પ્રેશન.

મૂળ લેખ વાંચો (જરૂરી સારું જ્ઞાનઅંગ્રેજી અને ભૌતિકશાસ્ત્ર), અને તમે iOS 9, 10 અને 11 માં સિરીનો અવાજ કેવી રીતે બદલાયો તે પણ સાંભળી શકો છો.



શું તમને લેખ ગમ્યો? તમારા મિત્રો સાથે શેર કરો!