¿Por qué cambió la voz de Siri? El asistente de voz Siri de Apple

¿Te gustaría tener un asistente personal en tu iPhone? Por ejemplo, para que puedas planificar tu día, semana e incluso mes, y alguien en de una manera agradable recordado sobre asuntos importantes, programe sus reuniones, dirija actividades, realice llamadas o envíe correos electrónicos directamente desde su teléfono inteligente. En Rusia se desarrolló un programa de interfaz de voz tan inteligente como Siri en iPhone equipo del proyecto SiriPort.

Las características individuales del asistente de voz Siri cumplen con los requisitos innovadores actuales para crear inteligencia artificial. La aplicación es súper inteligente y puede ejecutar comandos de voz desde todos posibles acciones en un teléfono inteligente: llame a suscriptores desde su lista de contactos, envíe mensajes, busque información necesaria, cree marcadores y textos de tareas sin utilizar el teclado del teléfono inteligente, sino solo la interfaz de voz. Este artículo le dirá cómo instalar Siri en un iPhone 4 o iPhone 5 o 6 generaciones.

La nueva aplicación de asistente personal con licencia es un programa de reconocimiento de voz y todos los dispositivos Apple lo tienen instalado. Cabe agregar que el asistente de voz funciona según iOS 7 en dispositivos iPhone 4S usando Siri, Siri en iPhone 5, en iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 generación. Además, el asistente puede servir iPad Mini, Mini 2 y Mini 3, también disponibles en iPod Touch 5ta generación, en dispositivos Apple Watcha y también funciona en iPad de tercera generación y superiores.

Después del lanzamiento de iOS 8.3, Siri iPhone se puede configurar en ruso. El sistema iOS 10 en dispositivos de nueva generación también tiene en cuenta grandes oportunidades asistente de voz. Esto hace que sea mucho más fácil encontrar y recordar información personal, ahorrando, como dicen, tiempo y dinero.

¿Quieres saber cómo habilitar Siri en iPhone?

Por ejemplo, si no sabe cómo activar Siri en el iPhone 4 - 7 o no comprende cómo desactivar Siri, procederemos paso a paso. Considere el asistente de voz en iPhone 4S o iPhone 6S usando el asistente de voz. Primero, debes averiguar si la aplicación está instalada en el iPhone 4 o en el iPhone 6S y por qué Siri no funciona en el iPhone. Si resulta que el programa asistente no se puede ejecutar en el iPhone, no te desesperes, puedes instalar otros programas alternativos bastante similares, por ejemplo, el programa “Dragon Go!” desarrollado por la empresa Nuance, al que podrás acceder. otros programas instalados en el iPhone, como Google, Netflix, Yelp y otros.

Si el asistente de voz se instaló en el iPhone en el momento de la venta, lo más probable es que esté en estado activo por defecto. Para comprobar esto, mantenga presionado el botón Inicio en su iPhone. Siri emitirá un pitido cuando esté listo para usarse. Puedes dar una orden por voz: por ejemplo, di claramente en voz alta: "¡Revisa tu correo!".

Si Siri no se activa como se requiere, puedes hacerlo tú mismo de la siguiente manera. Abre la pantalla principal de tu teléfono y haz clic en “Configuración”, busca la carpeta “Básica” y, sabiendo usarla, inicia la aplicación “Siri”. Sin embargo, cuando trabaja con un programa inteligente, puede asignar una docena de tareas a un asistente, comunicándose en voz alta. Intente decir un saludo como "¡Oye!" o "¡Oye Siri!", o di "¿Qué tiempo hace, Siri?". Además, puedes determinar el sexo de tu asistente seleccionándolo en la sección de configuración.

Cómo cambiar la voz o el idioma de Siri

Si el asistente de voz se comunica contigo en un idioma que no entiendes, puedes cambiar su idioma. Para hacer esto, busque Siri en el menú "Configuración" del iPhone, seleccione el comando "Idioma Siri". Se abrirá una lista de opciones de idioma frente a usted y, después de desplazarse, seleccione la que necesita, con la ayuda de la cual el asistente se comunicará con usted en el futuro.

Si deseas programar el estilo de comunicación de un asistente individual, configura no solo su voz, sino también el estilo de dirección establecido, diversas frases que te complacerá escuchar, para ello accede nuevamente a la sección “Configuración”. Inicie el programa "Siri", busque la línea de comando "Comentarios de audio" y, en consecuencia, active la opción de comunicación que más le convenga.

Por cierto, los desarrolladores de este producto de software Con prudencia introdujimos en la conciencia del asistente de voz la capacidad de reconocer voces, entonación, acento e incluso dialecto; comprende cualquier idioma;

Modo Siri en el coche

Activar la aplicación Siri puede facilitar mucho tus tareas seleccionando un mapa la dirección correcta cuando conduces un coche. Para ello, el coche debe soportar software CarPlay o utilice la función “no mirar” disponible en este programa. Para utilizar los servicios del asistente, debe llamarlo presionando el botón de comando de voz ubicado directamente en el volante del automóvil y darle a Siri el comando apropiado.

Si su automóvil tiene una pantalla táctil habilitada para CarPlay, active Siri accediendo al botón Inicio desde el menú de la pantalla. Si expresa un comando, el asistente espera una pausa en el habla antes de comenzar a ejecutarse. Pero, si el coche hace mucho ruido, es mejor responder con un botón situado en la pantalla que transmite onda de sonido y luego Siri adivinará que ha terminado y comenzará a completar la tarea asignada. Si es necesario, accediendo a la configuración de tu iPhone, también puedes leer cómo desactivar Siri.

También puede conectar el asistente a la fuente mediante unos auriculares Bluetooth, así como mediante un cable USB. En este caso, realice todas las acciones en el mismo orden.

EN últimamente a nuestro vida diaria Los asistentes de voz están cada vez más extendidos. La mayoría de los usuarios del iPhone y otros productos de Apple están familiarizados con uno de ellos: Siri, pero pocos comprenden todas las perspectivas de los asistentes virtuales y saben cómo utilizar todas sus capacidades y funciones.

¿Qué es un asistente de voz?

Imagínese, su devoto amigo está siempre a su lado, quien está listo para hablar con usted en cualquier momento del día o de la noche, responder cualquiera de sus preguntas y seguir instrucciones. Al mismo tiempo, nunca se cansa, nunca tiene Mal humor, y cada día se vuelve más inteligente y te comprende mejor. Estos son los asistentes de voz que están disponibles para uso diario hoy.

Los asistentes de voz están integrados en computadoras, tabletas, teléfonos, relojes inteligentes, parlantes inteligentes e incluso automóviles. Es importante entender que la interacción con el asistente de voz se realiza exclusivamente mediante voz, sin utilizar las manos, sin pulsar ningún botón. esto es fundamental nueva manera interacción entre una persona y un programa, que es muy similar a la comunicación entre personas.

  • siri de Apple.
  • Asistente de Google empresa google.
  • alexa de Amazon.
  • Alicia de Yandex.

Ya hemos escrito sobre y, y en este artículo hablaremos en detalle sobre Siri.


Asistente de voz Siri

Siri es un asistente de voz que fue el primero en admitir el idioma ruso, y solo entonces apareció el doméstico, lanzado a finales de 2017, e incluso más tarde, en el verano de 2018, hablaba ruso. Siri reconoce bastante bien el habla rusa, incluso si hay música cerca o hay ruidos extraños.


Siri en el iPhone SE

Siri no siempre fue propiedad de Apple. Inicialmente, era una aplicación separada en Tienda de aplicaciones para iOS. En 2010, Apple adquirió Siri Inc. y su desarrollo único. Poco después de la compra, Apple incorporó Siri al iPhone 4S y luego a sus dispositivos posteriores. Luego, en 2011, Siri se convirtió en el primer producto en el mercado de asistentes de voz personales.

Siri se adapta a cada usuario individualmente, estudia sus preferencias y comienza a comprender mejor a su "maestro". Esto se nota principalmente en la mejora del reconocimiento de voz tras las primeras semanas de uso. También puedes decirle a Siri cómo dirigirse a ti y los nombres de tus contactos en tu libreta de direcciones para que pueda entenderte mejor. Y cuando Siri pronuncia nombres incorrectamente, siempre puedes corregirla y mostrarle el acento correcto.

Siri está disponible en iPhone, iPad, Mac, Apple Watch, Apple TV y casi todos autos modernos a través de la función CarPlay. La forma de iniciar Siri y la lista de comandos disponibles varía según su dispositivo.


Cómo iniciar Siri en iPhone, iPad y iPod touch

Inicie presionando el botón Inicio

Siri está disponible en todos los iPhone, comenzando con el iPhone 4s, en funcionamiento sistema ios 5 y superiores. Para iniciar Siri en un iPhone (excepto iPhone X), debes mantener presionado el botón central de Inicio.

Para iniciar Siri en el iPhone X, debes mantener presionado el botón lateral.

Después del pitido, podrá realizar una solicitud. En algunos dispositivos, debes esperar a que Siri aparezca en la pantalla antes de dar una orden.

Hola Siri: cómo habilitar Siri con tu voz

Siri se puede iniciar únicamente usando tu voz, sin presionar ningún botón. Todo lo que tienes que hacer es decir "Hola Siri". Después de la señal sonora, puede hacer una pregunta o dar una orden.

Para ello se debe activar la función “Hey Siri” en el dispositivo: Ajustes → Siri y buscar → Escuchar “Hey Siri”.

En todos los modelos de iPhone, empezando por el iPhone 6s, así como en el iPad Pro, esta función se puede utilizar en cualquier momento diciendo "Oye Siri" para que los micrófonos del dispositivo puedan captarla. En iPhones y iPads anteriores, la función de escucha constante solo funciona cuando el dispositivo está conectado a un cargador.

Cómo habilitar Siri en auriculares

Usando unos auriculares originales Apple con botones mando a distancia o auriculares Bluetooth compatibles, puedes activar Siri presionando el botón central o el botón de llamada. Después del pitido, podrá realizar una solicitud.

Usando los AirPods inalámbricos de Apple para iniciar Siri dos veces tocar superficie exterior cualquier auricular.

Siri en Mac

Siri está disponible en computadoras Mac que ejecutan macOS 10.12 Sierra y versiones posteriores del sistema operativo. Sin embargo, en en este momento La funcionalidad del asistente de voz en una Mac es limitada. Todo lo que Siri puede hacer aquí es hacer llamadas FaceTime, escribir mensajes, reproducir música, mostrar el pronóstico del tiempo y ayudarte a trabajar con archivos y carpetas.


Siri en Mac

Vale la pena señalar que trabajar con archivos en una computadora usando un asistente de voz es realmente conveniente. Siri puede realizar búsqueda rápida archivos, ordenarlos por tipo, fecha o palabra clave. Por ejemplo, si le dices a Siri: "Muéstrame mis fotos de ayer", se abrirá una carpeta con los archivos multimedia correspondientes.

Hay varias formas de activar Siri en Mac:

Es probable que haya más comandos para Siri en futuras versiones de macOS, incluidos comandos para HomeKit. Esta sería una continuación lógica de la integración del asistente de voz de Apple en sus computadoras portátiles y de escritorio.


Funciones de Siri

Siri, un asistente personal, puede responder preguntas, dar recomendaciones y ejecutar órdenes. Veamos algunos de ellos.


Esto es sólo una pequeña parte de todo lo que Siri puede hacer. Familiarícese con un gran número Los comandos se pueden encontrar en nuestro artículo sobre comandos para Siri. Encontrarás una lista completa de comandos para el asistente de voz en iPhones y altavoces inteligentes Home Pod en nuestra referencia. aplicación móvil, que actualizamos periódicamente. Puedes descargar la aplicación Siri Commands de forma gratuita. Al instalarlo, siempre tendrás lo mejor lista actual Comandos para el asistente de voz.

Los usuarios de iPhone y iPad ahora pueden ingresar consultas de texto y comandos para Siri. Pero hay un punto aquí. En las versiones beta de iOS 11, debes elegir entre escritura de texto y voz. Cuando Escribir para Siri está habilitado, Siri no aceptará comandos de voz. Sería mucho más conveniente si Siri pudiera cambiar entre estas opciones automáticamente. Quizás el fabricante tenga esto en cuenta en futuras versiones.

Cómo utilizar los comandos de texto de Siri:

Para habilitar los comandos de texto para Siri en iOS 11, haga lo siguiente:

Paso 1: abre la sección Siri y Buscar y activa la opción Escuchar “Hey Siri”.


Paso 2: Ve a Configuración > General > Accesibilidad > Siri.

Paso 3. Activa el interruptor junto a la opción "Entrada de texto para Siri".


Paso 4: Mantenga presionado el botón Inicio. Ahora, en lugar de la señal de sonido habitual, aparecerá en la pantalla la pregunta "¿Cómo puedo ayudar?" y un teclado estándar.


Paso 5: Simplemente ingrese su consulta o comando y haga clic en Finalizar.

La respuesta de Siri se mostrará como texto. Si el asistente virtual no comprende la tarea, puede hacer clic en la solicitud y editarla.


Teclado externo

Las solicitudes de voz a Siri también funcionan con teclado externo en iPad. La presencia de un botón de Inicio (como en el Logitech K811) hace que el proceso de entrada sea aún más cómodo. Al presionar una tecla y especificar un comando para Siri, el usuario puede realizar tareas simples, como enviar un mensaje, reproducir música o crear una nota.

Este tipo de funcionalidad es especialmente importante ahora que Apple está posicionando el iPad Pro como reemplazo de la computadora. iOS se está volviendo gradualmente Sistema operativo nivel profesional, que está estrechamente relacionado con el hardware, siempre está conectado a Internet y está constantemente en el bolsillo de una persona.

siri- fiel asistente cada hombre de manzana. Con este increíble sistema puedes buscar el clima, llamar a amigos, escuchar música, etc. La función acelera el proceso de encontrar cualquier cosa que necesite. Digamos que le pides a Siri que te muestre el tiempo de hoy en San Petersburgo y ella te ayuda con mucho gusto. Dicen que muy pronto podrá escuchar a la gente, ya que muchos suelen quejarse de sus problemas y ella sólo ofrece desalmadamente el número del servicio psicológico más cercano.

Entonces, imaginemos que usted está cansado de su voz y le gustaría cambiarla. Mucha gente piensa que esto es imposible, pero en realidad el trabajo aquí sólo lleva unos veinte segundos.

Paso uno.

Vayamos a la configuración. En todo caso, el icono suele estar ubicado en la primera página del escritorio o en la carpeta "Utilidades".

Paso dos

Una vez que hayamos encontrado la aplicación, buscamos la columna Siri. Como sabes, este elemento se encuentra en la tercera sección del programa.

Paso tres.

Junto a la inscripción de Siri, cambie la posición del botón al modo encendido. Si esto ya sucedió, omita este paso.

Paso cuatro

Ve a la sección “Voz” y selecciona la opción que más te guste. Aquí puedes aprender diferentes acentos, así como cambiar el género del hablante. No todos los idiomas tienen acento, pero la mayoría sí. En general, esto no es lo principal, ya que al cabo de un tiempo la propia aplicación empieza a adaptarse a ti.

Siri es un asistente de voz que se introdujo por primera vez en 2011 junto con iOS 5. Eso sí, desde entonces ha evolucionado seriamente: ha aprendido a hablar. diferentes idiomas(incluso en ruso), llegó a las computadoras Mac, aprendió a interactuar con programas de desarrolladores externos etc., pero dio un salto cualitativo solo con el anuncio de iOS 10; ahora su voz se basa en aprendizaje profundo, permitiéndole sonar más natural y suave. Qué es el aprendizaje profundo y cómo se sintetiza la voz de Siri: de esto hablaremos en este artículo.

Introducción

Síntesis de voz - reproducción artificial habla humana- ampliamente utilizado en varias áreas, desde asistentes de voz hasta juegos. Recientemente, combinada con el reconocimiento de voz, la síntesis de voz se ha convertido en una parte integral de los asistentes personales virtuales como Siri.

Hay dos tecnologías de síntesis de voz utilizadas en la industria del audio: selección unidades de sonido y síntesis paramétrica. La síntesis de selección de unidades proporciona la más alta calidad en cantidad suficiente alta calidad grabaciones de discursos y, por tanto, es el método de síntesis de voz más utilizado en productos comerciales. Por otro lado, la síntesis paramétrica proporciona un habla muy clara y fluida, pero tiene un menor calidad general. Los sistemas modernos de selección de unidades de sonido combinan algunas de las ventajas de los dos enfoques y, por lo tanto, se denominan sistemas híbridos. Los métodos para seleccionar unidades híbridas son similares a los selección clásica unidades, pero utilizan un enfoque paramétrico para predecir qué unidades de sonido deben seleccionarse.

Recientemente, el aprendizaje profundo ha ido ganando impulso en este campo. tecnologías del habla, y es ampliamente superior métodos tradicionales, como los modelos ocultos de Markov (HMM), cuyo principio es resolver parámetros desconocidos basándose en los observados, y los parámetros obtenidos se pueden utilizar en análisis posteriores, por ejemplo, para el reconocimiento de patrones. Aprendizaje profundo proporcionado completamente nuevo enfoque a la síntesis de voz, que se llama modelado directo formas de onda. Él puede proporcionar ambos alta calidad síntesis de selección de unidades y la flexibilidad de la síntesis paramétrica. Sin embargo, dados sus costos computacionales extremadamente altos, aún no será posible implementarlo en dispositivos de consumo.

Cómo funciona la síntesis de voz

Crear un sistema de conversión de texto a voz (TTS) de alta calidad para un asistente personal no es una tarea fácil. El primer paso es encontrar una voz profesional que suene agradable, fácil de entender y que coincida con la personalidad de Siri. Para capturar algunas de las variaciones en la gran diversidad del habla humana, se necesitan entre 10 y 20 horas para grabarla en un estudio profesional. Los guiones de grabación van desde audiolibros hasta instrucciones de navegación, y desde sugerencias hasta respuestas y chistes ingeniosos. Normalmente, este habla natural no se puede utilizar en un asistente de voz porque es imposible grabar todas las expresiones posibles que el asistente puede pronunciar. Así, la selección de unidades de sonido en TTS se basa en cortar el habla grabada en sus componentes elementales, como los fonemas, y luego recombinarlos de acuerdo con el texto de entrada para crear completamente nuevo discurso. En la práctica, seleccionar segmentos de habla apropiados y combinarlos entre sí no es una tarea fácil, ya que las características acústicas de cada fonema dependen de los vecinos y de la entonación del habla, lo que muchas veces hace que unidades de habla incompatibles entre sí. La siguiente figura muestra cómo se puede sintetizar el habla utilizando una base de datos de voz dividida en fonemas:


La parte superior de la figura muestra el enunciado sintetizado “Síntesis de selección de unidades” y su transcripción fonética mediante fonemas. La señal sintética correspondiente y su espectrograma se muestran a continuación. Los segmentos de voz, separados por líneas, son segmentos continuos de voz de la base de datos que pueden contener uno o más fonemas.

El principal problema a la hora de seleccionar unidades de sonido en TTS es encontrar una secuencia de unidades (por ejemplo, fonemas) que satisfagan el texto introducido y la entonación prevista, siempre que puedan combinarse sin fallos audibles. Tradicionalmente, el proceso consta de dos partes: front-end y back-end (datos entrantes y salientes), aunque en sistemas modernos el límite puede ser a veces ambiguo. El propósito del front-end es proporcionar transcripción fonética y la información de entonación basada texto fuente. Esto también incluye la normalización del texto fuente, que puede contener números, abreviaturas, etc.:


Utilizando la representación lingüística simbólica generada por el módulo de análisis de texto, el módulo de generación de entonación predice valores para características acústicas como la duración y la entonación de la frase. Estos valores se utilizan para seleccionar las unidades de sonido adecuadas. El problema de selección de unidades tiene alta complejidad, razón por la cual los sintetizadores modernos utilizan métodos aprendizaje automático, que puede aprender la correspondencia entre el texto y el habla y luego predecir el significado de las características del habla a partir del significado del subtexto. Este modelo debe aprenderse durante la fase de entrenamiento del sintetizador utilizando gran cantidad datos de texto y voz. La entrada a este modelo son funciones lingüísticas numéricas, como la identificación de fonemas, palabras o frases, convertidas en una forma numérica utilizable. El resultado del modelo consta de características acústicas numéricas del habla, como el espectro, la frecuencia fundamental y la duración de la frase. Durante la síntesis, se utiliza un modelo estadístico entrenado para asignar características del texto de entrada a funciones del habla, que luego se utilizan para controlar el proceso final de selección de unidades de sonido, donde la entonación y la duración apropiadas son importantes.

A diferencia del front-end, el backend es en gran medida independiente del idioma. Consiste en seleccionar las unidades sonoras deseadas y concatenarlas (es decir, pegarlas) formando una frase. Cuando se entrena el sistema, los datos de voz grabados se segmentan en segmentos de voz individuales mediante una alineación forzada entre la voz grabada y el guión de grabación (utilizando modelos de reconocimiento de voz acústico). Luego, el habla segmentada se utiliza para crear una base de datos de unidades de sonido. La base de datos se está actualizando aún más. información importante, como el contexto lingüístico y las características acústicas de cada unidad. Utilizando la base de datos del dispositivo construida y las funciones de entonación predichas que determinan el proceso de selección, se realiza una búsqueda de Viterbi (en la parte superior están los fonemas de destino, debajo están los posibles bloques de sonido, la línea roja es su mejor combinación):


La selección se basa en dos criterios: en primer lugar, las unidades de sonido deben tener la misma entonación (objetiva) y, en segundo lugar, las unidades deben, si es posible, combinarse sin fallos audibles en los límites. Estos dos criterios se denominan costos objetivo y de concatenación, respectivamente. El costo objetivo es la diferencia entre los objetivos previstos. características acústicas y las propiedades acústicas extraídas de cada bloque, mientras que el coste de concatenación es la diferencia acústica entre unidades posteriores:


Después de determinar la secuencia óptima de unidades, el individuo señales de sonido concatenados para crear un discurso sintético continuo.

Los modelos ocultos de Markov (HMM) se utilizan comúnmente como modelo estadístico para predicciones de objetivos porque modelan directamente las distribuciones de parámetros acústicos y, por lo tanto, pueden usarse fácilmente para calcular el costo objetivo. Sin embargo, los enfoques basados ​​en el aprendizaje profundo a menudo superan a los HMM en la síntesis paramétrica del habla.

El objetivo del sistema TTS de Siri es entrenar un modelo único basado en aprendizaje profundo que pueda predecir de forma automática y precisa los costos de destino y de concatenación para las unidades de audio en la base de datos. Por lo tanto, en lugar de HMM, utiliza una red de densidad mixta (MDN) para predecir distribuciones de ciertas características. Los SPN combinan redes neuronales profundas (DNN) convencionales con modelos gaussianos.

Un GNS convencional es un artificial red neuronal con varias capas ocultas de neuronas entre las capas de entrada y salida. Por tanto, una DNN puede modelar la relación compleja y no lineal entre las características de entrada y salida. Por el contrario, un HMM modela la distribución de probabilidad de la salida dada la entrada utilizando un conjunto de distribuciones gaussianas y normalmente se entrena utilizando el método de maximización de expectativas. SPS combina las ventajas de DNN y HMM, utilizando DNN para modelar la relación compleja entre los datos de entrada y salida, pero proporcionando una distribución de probabilidad en la salida:


Siri utiliza modelos unificados de concatenación y destino basados ​​en SPS, que pueden predecir la distribución de las características del habla objetivo (espectro, tono y duración) y los costos de concatenación entre unidades de sonido. A veces características del habla, como los afijos, son bastante estables y se desarrollan lentamente, por ejemplo en el caso de las vocales. En otros lugares, el habla puede cambiar con bastante rapidez, por ejemplo, durante la transición entre sonidos sonoros y sordos. Para tener en cuenta esta variabilidad, el modelo debe poder ajustar sus parámetros de acuerdo con la variabilidad antes mencionada. ATP hace esto utilizando sesgos integrados en el modelo. Esto es importante para mejorar la calidad de la síntesis, ya que queremos calcular los costos objetivo y de concatenación específicos del contexto actual.

Después de contar las unidades en función del coste total utilizando ATP, se realiza una búsqueda tradicional de Viterbi para encontrar la mejor combinación de unidades de sonido. Luego se combinan mediante coincidencia de superposición de formas de onda para encontrar tiempos de concatenación óptimos para producir un habla sintética fluida y continua.

Resultados

Para utilizar SPS en Siri, se grabaron un mínimo de 15 horas de grabaciones de voz de alta calidad a una frecuencia de 48 kHz. El habla se dividió en fonemas mediante alineación forzada, es decir, se aplicó reconocimiento automático del habla para alinear la secuencia de audio de entrada con las características acústicas extraídas de la señal del habla. Este proceso de segmentación resultó en la creación de aproximadamente entre 1 y 2 millones de fonemas.

Para realizar el proceso de selección de unidades de sonido en base al SPS se creó un modelo de objetivo único y concatenación. Los datos de entrada al SPS consisten principalmente en valores binarios con algunos funciones adicionales, que representan información sobre el contexto (dos fonemas anteriores y siguientes).

Calidad nuevo sistema TTS Siri es superior al anterior; esto lo confirman numerosas pruebas en la imagen a continuación (curiosamente, fue la nueva voz rusa de Siri la que obtuvo la mejor calificación):


La mejor calidad de sonido está asociada precisamente a la base de datos basada en ATP, lo que garantiza mejor elección y concatenación de bloques de sonido, más frecuencia alta muestreo (22 kHz frente a 48 kHz) y compresión de audio mejorada.

Leer el artículo original (obligatorio) buen conocimiento Inglés y física), y también puedes escuchar cómo cambió la voz de Siri en iOS 9, 10 y 11.



¿Te gustó el artículo? ¡Comparte con tus amigos!