Comment activer la voix masculine Siri. L'assistant vocal Siri d'Apple

Siri - fidèle assistant chaque pommier. Avec ce système génial, vous pouvez rechercher la météo, appeler des amis, écouter de la musique, etc. La fonction accélère le processus de recherche de tout ce dont vous avez besoin. Disons que vous demandez à Siri d'afficher la météo d'aujourd'hui à Saint-Pétersbourg et qu'elle se fera un plaisir de vous aider. On dit que très bientôt, elle pourra écouter les gens, car beaucoup se plaignent souvent de leurs problèmes et elle ne propose sans âme que le numéro du service psychologique le plus proche.

Alors imaginons que vous en ayez assez de sa voix et que vous souhaitiez la changer. Beaucoup de gens pensent que cela est impossible, mais en réalité, le travail ici ne prend qu'une vingtaine de secondes.

Première étape.

Passons aux paramètres. Au contraire, l'icône se trouve généralement sur la première page du bureau ou dans le dossier « Utilitaires ».

Deuxième étape

Après avoir trouvé l'application, nous recherchons la colonne Siri. Comme vous le savez, cet élément fait partie de la troisième section du programme.

Troisième étape.

À côté de l'inscription Siri, passez la position du bouton en mode activé. Si cela s'est déjà produit, ignorez cette étape.

Quatrième étape

Accédez à la section « Voix » et sélectionnez l'option que vous préférez. Ici, vous pouvez apprendre différents accents et changer le sexe de l'orateur. Toutes les langues n’ont pas un accent, mais la plupart en ont. En général, ce n'est pas l'essentiel, puisqu'au bout d'un moment l'application elle-même commence à s'adapter à vous.

Les utilisateurs d'iPhone et d'iPad peuvent désormais saisir des requêtes textuelles et des commandes pour Siri. Mais il y a un point ici. Dans les versions bêta d'iOS 11, vous devez choisir entre la saisie textuelle et vocale. Si Siri Typing est activé, Siri n'acceptera pas les commandes vocales. Ce serait beaucoup plus pratique si Siri pouvait basculer automatiquement entre ces options. Peut-être que le constructeur en tiendra compte dans les futures versions.

Comment utiliser les commandes de texte Siri :

Pour activer les commandes de texte pour Siri dans iOS 11, procédez comme suit :

Étape 1 : Ouvrez la section Siri et recherche et activez l'option Écouter « Hey Siri ».

Étape 2 : Accédez à Paramètres > Général > Accessibilité > Siri.

Étape 3. Activez le commutateur à côté de l'option «Saisie de texte pour Siri».

Étape 4 : Appuyez et maintenez le bouton Accueil. Désormais, au lieu du signal sonore habituel, la question « Comment puis-je aider » et un clavier standard apparaîtront à l'écran.

Étape 5 : Entrez simplement votre requête ou commande et cliquez sur Terminer.

La réponse de Siri sera affichée sous forme de texte. Si l'assistant virtuel ne comprend pas la tâche, vous pouvez cliquer sur la demande et la modifier.

Clavier externe

Les requêtes vocales adressées à Siri fonctionnent également avec clavier externe sur iPad. La présence d'un bouton Home (comme sur le Logitech K811) rend le processus de saisie encore plus pratique. En appuyant sur une touche et en spécifiant une commande pour Siri, l'utilisateur peut effectuer tâches simples, comme envoyer un message, écouter de la musique ou créer une note.

Ce type de fonctionnalité est particulièrement important maintenant qu'Apple positionne l'iPad Pro comme un ordinateur de remplacement. iOS devient progressivement système opérateur niveau professionnel, qui est étroitement lié au matériel, est toujours connecté à Internet et se trouve constamment dans la poche d’une personne.

Souhaitez-vous avoir un assistant personnel sur votre iPhone ? Par exemple, pour que vous puissiez planifier votre journée, votre semaine et même votre mois, et que quelqu'un à d'une manière agréable rappelé questions importantes, planifiez vos réunions, dirigez des activités, passez des appels ou envoyez des e-mails directement depuis votre smartphone. Un tel programme d'interface vocale intelligente Siri sur iPhone a été développé en Russie équipe de projet SiriPort.

Les caractéristiques individuelles de l'assistant vocal Siri répondent aux exigences innovantes d'aujourd'hui en matière de création intelligence artificielle. L'application est super intelligente et peut exécuter entièrement les commandes vocales de tous. actions possibles sur un smartphone : appeler des personnes de votre liste de contacts, envoyer des messages, rechercher informations nécessaires, créez des signets et des textes de tâches sans utiliser le clavier du smartphone, mais uniquement l'interface vocale. Cet article vous expliquera comment installer Siri sur un iPhone 4 ou un iPhone 5 ou 6 générations.

La nouvelle application d'assistant personnel sous licence est un programme de reconnaissance vocale et tous les appareils Apple l'ont installé. Il faut ajouter que l'assistant vocal fonctionne sur la base d'iOS 7 sur les appareils iPhone 4S utilisant Siri, Siri sur iPhone 5, sur iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 génération. De plus, l'assistant peut servir iPadMini, Mini 2 et Mini 3, également disponibles sur iPod Touch 5ème génération, sur Appareils Apple Watcha, et fonctionne également sur iPad 3ème génération et supérieur.

Après la sortie d'iOS 8.3, Siri iPhone peut être configuré en russe. Système iOS 10 sur les appareils de nouvelle génération prend également en compte de belles opportunités assistant vocal. Cela facilite grandement la recherche et la mémorisation des informations personnelles, ce qui permet, comme on dit, d'économiser du temps et de l'argent.

Vous voulez savoir comment activer Siri sur iPhone ?

Par exemple, si vous ne savez pas comment activer Siri sur iPhone 4 à 7 ou si vous ne comprenez pas comment désactiver Siri, nous procéderons étape par étape. Pensez à l'assistant vocal sur iPhone 4S ou iPhone 6S à l'aide de l'assistant vocal. Tout d'abord, vous devez savoir si l'application est installée sur l'iPhone 4 ou l'iPhone 6S et pourquoi Siri ne fonctionne pas sur l'iPhone. S'il s'avère que le programme assistant ne peut pas être exécuté sur l'iPhone, ne désespérez pas, vous pouvez installer d'autres programmes alternatifs assez similaires, par exemple le programme « Dragon Go ! » développé par la société Nuance, auquel vous pourrez accéder. d'autres programmes installés sur l'iPhone, tels que Google, Netflix, Yelp et autres.

Si l'assistant vocal a été installé sur l'iPhone lors de la vente, il le sera très probablement état actif défaut. Pour vérifier cela, maintenez enfoncé le bouton Accueil de votre iPhone. Siri émettra un bip lorsqu'il sera prêt à être utilisé. Vous pouvez donner une commande vocale : par exemple, dites clairement à voix haute : « Vérifiez votre courrier !

Si Siri n'est pas activé comme requis, vous pouvez le faire vous-même comme suit. Ouvrez l'écran principal de votre téléphone et cliquez sur « Paramètres », recherchez le dossier « Basique » et, sachant comment l'utiliser, lancez l'application « Siri ». Cependant, lorsque vous travaillez avec un programme intelligent, vous pouvez confier une douzaine de tâches à un assistant, en communiquant à voix haute. Essayez de dire une salutation telle que « Hé ! » ou "Hey Siri!", ou dites: "Quel temps fait-il, Siri?" De plus, vous pouvez déterminer le sexe de votre assistant en le sélectionnant dans la section paramètres.

Comment changer la voix ou la langue de Siri

Si l'assistant vocal communique avec vous dans une langue que vous ne comprenez pas, vous pouvez changer sa langue. Pour ce faire, recherchez Siri dans le menu « Paramètres » de l’iPhone, sélectionnez la commande « Langue Siri ». Une liste d'options de langue s'ouvrira devant vous et, après avoir fait défiler, sélectionnez celle dont vous avez besoin, à l'aide de laquelle l'assistant communiquera avec vous à l'avenir.

Si vous souhaitez programmer le style de communication d'un assistant individuel, configurez non seulement sa voix, mais également le style d'adresse établi, diverses phrases que vous aurez plaisir à entendre. Pour cela, rendez-vous à nouveau dans la section « Paramètres », lancez le programme « Siri », recherchez la ligne de commande « Retour audio » et activez ainsi l'option de communication qui vous convient.

Au fait, les développeurs de ceci produit logiciel Nous avons prudemment introduit dans l'esprit de l'assistant vocal la capacité de reconnaître les voix, l'intonation, l'accent et même le dialecte ; il comprend toutes les langues ;

Mode Siri dans la voiture

L'activation de l'application Siri peut rendre vos tâches beaucoup plus faciles en sélectionnant une carte la bonne direction quand vous conduisez une voiture. Pour ce faire, la voiture doit supporter logiciel CarPlay ou utilisez la fonction « pas de recherche » disponible dans ce programme. Pour utiliser les services de l'assistant, vous devez l'appeler en appuyant sur le bouton de commande vocale situé directement sur le volant de la voiture et donner à Siri la commande appropriée.

Si votre voiture est équipée d'un écran tactile compatible CarPlay, activez Siri en accédant au bouton Accueil depuis le menu de l'écran. Si vous énoncez une commande, l'assistant attend une pause dans la parole avant de commencer à l'exécuter. Mais, si la voiture est très bruyante, il vaut mieux répondre avec un bouton situé sur l'écran qui transmet onde sonore, puis Siri devinera que vous avez terminé et commencera à terminer la tâche assignée. Si nécessaire, en allant dans les paramètres de votre iPhone, vous pouvez également lire comment désactiver Siri.

Vous pouvez également connecter l'assistant à la source via un casque Bluetooth, ainsi que via un câble USB. Dans ce cas, effectuez toutes les actions dans le même ordre.

Siri est un assistant vocal introduit pour la première fois en 2011 avec iOS 5. Bien sûr, depuis, il s'est sérieusement développé : il a appris à parler différentes langues(y compris en russe), est venu aux ordinateurs Mac, a appris à interagir avec des programmes de développeurs tiers etc., mais il n'a fait un saut qualitatif qu'avec l'annonce d'iOS 10 - désormais sa voix est basée sur l'apprentissage en profondeur, ce qui lui permet d'avoir un son plus naturel et plus fluide. Ce qui s'est passé apprentissage profond et comment la voix de Siri est synthétisée - nous en parlerons dans cet article.

Introduction

Synthèse vocale - reproduction artificielle discours humain- largement utilisé dans divers domaines, des assistants vocaux aux jeux. Récemment, associée à la reconnaissance vocale, la synthèse vocale est devenue partie intégrante des assistants personnels virtuels tels que Siri.

Il existe deux technologies de synthèse vocale utilisées dans l'industrie audio : la sélection unités sonores et synthèse paramétrique. La synthèse de sélection d'unités fournit la plus haute qualitéà quantité suffisante haute qualité enregistrements vocaux, et c'est donc la méthode de synthèse vocale la plus largement utilisée dans les produits commerciaux. D'un autre côté, la synthèse paramétrique fournit une parole très claire et fluide, mais a un qualité globale. Les systèmes modernes de sélection d’unités sonores combinent certains des avantages des deux approches et sont donc appelés systèmes hybrides. Les méthodes de sélection des unités hybrides sont similaires à celles sélection classique unités, mais ils utilisent une approche paramétrique pour prédire quelles unités sonores doivent être sélectionnées.

DANS dernièrement le deep learning prend de l’ampleur dans le domaine technologies vocales, et est largement supérieur méthodes traditionnelles, comme les modèles de Markov cachés (HMM), dont le principe est de résoudre paramètres inconnus sur la base de ceux observés, et les paramètres obtenus peuvent être utilisés dans une analyse plus approfondie, par exemple pour la reconnaissance de formes. Apprentissage profond fourni entièrement nouvelle approcheà la synthèse vocale, appelée modélisation directe formes d'onde. Il peut fournir les deux haute qualité synthèse de la sélection d'unités et la flexibilité de la synthèse paramétrique. Cependant, compte tenu de ses coûts de calcul extrêmement élevés, il ne sera pas encore possible de l'implémenter sur des appareils grand public.

Comment fonctionne la synthèse vocale

Créer un système de synthèse vocale (TTS) de haute qualité pour un assistant personnel n'est pas une tâche facile. La première étape consiste à trouver une voix professionnelle qui semble agréable, facile à comprendre et qui correspond à la personnalité de Siri. Pour capturer certaines des variations de la grande diversité de la parole humaine, il faut 10 à 20 heures de parole pour être enregistrée dans un studio professionnel. Les scripts d'enregistrement vont des livres audio aux instructions de navigation, en passant par les astuces, les réponses et les blagues pleines d'esprit. Généralement, cette parole naturelle ne peut pas être utilisée dans un assistant vocal car il est impossible d’enregistrer tous les énoncés possibles que l’assistant peut prononcer. Ainsi, la sélection des unités sonores dans TTS repose sur le découpage de la parole enregistrée en ses composants élémentaires, tels que les phonèmes, puis sur leur recombinaison en fonction du texte saisi pour créer complètement nouveau discours. En pratique, sélectionner des segments vocaux appropriés et les combiner entre eux n'est pas une tâche facile, car les caractéristiques acoustiques de chaque phonème dépendent des phonèmes voisins et de l'intonation de la parole, ce qui rend souvent unités vocales incompatibles les uns avec les autres. La figure ci-dessous montre comment la parole peut être synthétisée à l'aide d'une base de données vocale divisée en phonèmes :

La partie supérieure de la figure montre l’énoncé synthétisé « Unit Selection Synthesis » et sa transcription phonétique à l’aide de phonèmes. Le signal synthétique correspondant et son spectrogramme sont présentés ci-dessous. Les segments vocaux, séparés par des lignes, sont des segments continus de parole issus de la base de données pouvant contenir un ou plusieurs phonèmes.

Le principal problème de la sélection des unités sonores dans TTS est de trouver une séquence d'unités (par exemple des phonèmes) qui satisfont le texte saisi et l'intonation prédite, à condition qu'elles puissent être combinées entre elles sans problèmes audibles. Traditionnellement, le processus se compose de deux parties : front-end et back-end (données entrantes et sortantes), bien que dans systèmes modernes la frontière peut parfois être ambiguë. Le but du front-end est de fournir transcription phonétique et informations d'intonation basées sur texte source. Cela inclut également la normalisation du texte source, qui peut contenir des chiffres, des abréviations, etc. :

À l'aide de la représentation linguistique symbolique générée par le module d'analyse de texte, le module de génération d'intonation prédit les valeurs des caractéristiques acoustiques telles que la durée de la phrase et l'intonation. Ces valeurs sont utilisées pour sélectionner les unités sonores appropriées. Le problème de sélection d’unité a grande complexité, c'est pourquoi les synthétiseurs modernes utilisent des méthodes apprentissage automatique, qui peut apprendre la correspondance entre le texte et la parole, puis prédire la signification des caractéristiques de la parole à partir de la signification du sous-texte. Ce modèle doit être appris pendant la phase de formation du synthétiseur en utilisant grande quantité données textuelles et vocales. L'entrée de ce modèle est constituée de fonctions linguistiques numériques telles que l'identification de phonèmes, de mots ou de phrases, converties en une forme numérique utilisable. Le résultat du modèle consiste en des caractéristiques acoustiques numériques de la parole, telles que le spectre, la fréquence fondamentale et la durée de la phrase. Lors de la synthèse, un modèle statistique entraîné est utilisé pour mapper les caractéristiques du texte d'entrée à fonctions vocales, qui sont ensuite utilisés pour contrôler le processus back-end de sélection des unités sonores, où l'intonation et la durée appropriées sont importantes.

Contrairement au front-end, le backend est largement indépendant de la langue. Elle consiste à sélectionner les unités sonores souhaitées et à les concaténer (c'est-à-dire les coller ensemble) en une phrase. Lorsque le système est entraîné, les données vocales enregistrées sont segmentées en segments vocaux individuels en utilisant un alignement forcé entre la parole enregistrée et le script d'enregistrement (à l'aide de modèles de reconnaissance vocale acoustique). La parole segmentée est ensuite utilisée pour créer une base de données d'unités sonores. La base de données est en cours de mise à jour informations importantes, comme le contexte linguistique et les caractéristiques acoustiques de chaque unité. En utilisant la base de données d'appareils construite et les fonctions d'intonation prédites qui déterminent le processus de sélection, une recherche de Viterbi est effectuée (en haut se trouvent les phonèmes cibles, en dessous se trouvent les blocs sonores possibles, la ligne rouge est leur meilleure combinaison) :

La sélection est basée sur deux critères : premièrement, les unités sonores doivent avoir la même intonation (cible), et deuxièmement, les unités doivent, si possible, être combinées sans problèmes audibles aux frontières. Ces deux critères sont appelés respectivement coûts cibles et coûts de concaténation. Le coût cible est la différence entre les objectifs prévus caractéristiques acoustiques et les propriétés acoustiques extraites de chaque bloc, tandis que le coût de concaténation est la différence acoustique entre les unités suivantes :

Après avoir déterminé la séquence optimale d'unités, l'individu signaux sonores concaténés pour créer un discours synthétique continu.

Les modèles de Markov cachés (HMM) sont couramment utilisés comme modèle statistique pour les prédictions de cibles car ils modélisent directement les distributions des paramètres acoustiques et peuvent donc être facilement utilisés pour calculer le coût de la cible. Cependant, les approches basées sur l’apprentissage profond surpassent souvent les HMM en synthèse vocale paramétrique.

L'objectif du système TTS de Siri est de former un modèle unique basé sur l'apprentissage profond qui peut prédire automatiquement et avec précision les coûts de cible et de concaténation pour les unités audio de la base de données. Ainsi, au lieu du HMM, il utilise un réseau de densité de mélange (MDN) pour prédire les distributions de certaines caractéristiques. Les SPN combinent des réseaux de neurones profonds (DNN) conventionnels avec des modèles gaussiens.

Un GNS conventionnel est un artificiel réseau neuronal avec plusieurs couches cachées de neurones entre les couches d’entrée et de sortie. Ainsi, un DNN peut modéliser la relation complexe et non linéaire entre les caractéristiques d’entrée et de sortie. En revanche, un HMM modélise la distribution de probabilité de la sortie en fonction de l'entrée à l'aide d'un ensemble de distributions gaussiennes et est généralement formé à l'aide de la méthode de maximisation des attentes. SPS combine les avantages de DNN et HMM, en utilisant DNN pour modéliser la relation complexe entre les données d'entrée et de sortie, mais en fournissant une distribution de probabilité en sortie :

Siri utilise des modèles unifiés de cible et de concaténation basés sur SPS, qui peuvent prédire la distribution des caractéristiques de la parole cible (spectre, hauteur et durée) et les coûts de concaténation entre les unités sonores. Parfois caractéristiques vocales, comme les affixes, sont assez stables et se développent lentement - par exemple dans le cas des voyelles. Ailleurs, la parole peut changer assez rapidement, par exemple lors de la transition entre les sons de la parole voisés et non voisés. Pour tenir compte de cette variabilité, le modèle doit pouvoir ajuster ses paramètres en fonction de la variabilité susmentionnée. Pour ce faire, ATP utilise les biais intégrés au modèle. Ceci est important pour améliorer la qualité de la synthèse, puisque nous souhaitons calculer des coûts de cible et de concaténation spécifiques au contexte actuel.

Après avoir compté les unités sur la base du coût total à l'aide de l'ATP, une recherche de Viterbi traditionnelle est effectuée pour trouver la meilleure combinaison d'unités sonores. Ceux-ci sont ensuite combinés à l’aide d’une correspondance de chevauchement de formes d’onde pour trouver des temps de concaténation optimaux afin de produire une parole synthétique fluide et continue.

Résultats

Pour utiliser SPS dans Siri, au moins 15 heures d'enregistrements vocaux de haute qualité ont été enregistrées à une fréquence de 48 kHz. La parole a été divisée en phonèmes à l'aide d'un alignement forcé, c'est-à-dire qu'une reconnaissance vocale automatique a été appliquée pour aligner la séquence audio d'entrée sur les caractéristiques acoustiques extraites du signal vocal. Ce processus de segmentation a abouti à la création d'environ 1 à 2 millions de phonèmes.

Pour mener à bien le processus de sélection d'unités sonores basées sur le SPS, un modèle de cible unique et de concaténation a été créé. Les données d'entrée du SPS sont principalement constituées de valeurs binaires avec quelques fonctions supplémentaires, qui représentent des informations sur le contexte (deux phonèmes précédents et suivants).

Qualité nouveau système TTS Siri est supérieur au précédent - ceci est confirmé par de nombreux tests dans l'image ci-dessous (fait intéressant, c'est la nouvelle voix russe de Siri qui a été la mieux notée) :

La meilleure qualité sonore est précisément associée à la base de données basée sur l'ATP - cela garantit meilleur choix et concaténation de blocs sonores, plus haute fréquenceéchantillonnage (22 kHz contre 48 kHz) et compression audio améliorée.

Lire l'article original (obligatoire bonne connaissance anglais et physique), et vous pouvez également écouter comment la voix de Siri a changé dans iOS 9, 10 et 11.