¿Qué dice la voz? ¿Qué puedes aprender sobre una persona a partir de su discurso?

¡Hola querido lector!

Les traigo un artículo interesante e informativo sobre un método específico de reconocimiento de locutores. Hace apenas un par de meses me encontré con el uso de coeficientes melcepstrales para el reconocimiento de voz. No encontró respuesta, probablemente por falta de estructura, aunque el material que abordó fue muy interesante. Asumiré la responsabilidad de transmitir este material en un formato accesible y continuaré con el tema del reconocimiento de voz en Habré.

Debajo del corte, describiré todo el proceso de identificación de una persona por voz, desde la grabación y procesamiento del sonido hasta la determinación directa de la identidad del hablante.

Grabación de sonido

Nuestra historia comienza grabando una señal analógica de una fuente externa utilizando un micrófono. Como resultado de esta operación obtendremos un conjunto de valores que corresponden al cambio de amplitud del sonido a lo largo del tiempo. Este principio de codificación se llama modulación de código de pulso, también conocido como PCM (modulación de código de pulso). Como puede imaginar, los datos "sin procesar" obtenidos de la transmisión de audio aún no son adecuados para nuestros propósitos. El primer paso es transformar los bits rebeldes en un conjunto de valores significativos: amplitudes de señal. Como entrada usaré un archivo wav firmado por PCM de 16 bits sin comprimir con una frecuencia de muestreo de 16 kHz.

Double readAmplitudeValues(bool isBigEndian) ( int MSB, LSB; // búfer de bytes de bytes altos y bajos = ReadDataFromExternalSource(); // lee datos de algún lugar double data = new double; for (int i = 0; i< buffer.length; i += 2) { if(isBigEndian) // задает порядок байтов во входном сигнале { // первым байтом будет MSB MSB = buffer; // вторым байтом будет LSB LSB = buffer; } else { // наоборот LSB = buffer; MSB = buffer; } // склеиваем два байта, чтобы получить 16-битное вещественное число // все значения делятся на максимально возможное - 2^15 data[i] = ((MSB << 8) || LSB) / 32768; } return data; }
Puede actualizar sus conocimientos sobre el orden de bytes en Wikipedia.

Procesamiento de audio

Los valores de amplitud resultantes pueden no ser los mismos incluso para dos grabaciones idénticas debido al ruido externo, diferentes volúmenes de señal de entrada y otros factores. La normalización se utiliza para llevar los sonidos a un "denominador común". La idea de la normalización de picos es simple: dividir todos los valores de amplitud por el máximo (dentro de un archivo de audio determinado). De esta manera, ecualizamos muestras de voz grabadas en diferentes volúmenes, poniendo todo en una escala de -1 a 1. Es importante que después de tal transformación, cualquier sonido llene completamente el espacio dado.

La normalización, en mi opinión, es el algoritmo de preprocesamiento de audio más simple y eficaz. También hay muchos otros: “cortar” frecuencias superiores o inferiores a una determinada, suavizar frecuencias, etc.

Divide y vencerás

Incluso cuando se trabaja con sonido a una frecuencia de muestreo mínima suficiente (16 kHz), el tamaño de las características únicas de una segunda muestra de sonido es simplemente enorme: 16.000 valores de amplitud. No es posible realizar operaciones complejas con tales volúmenes de datos. Además, no está del todo claro cómo comparar objetos con diferente número de características únicas.

Primero, reduzcamos la complejidad computacional del problema dividiéndolo en subtareas más pequeñas. Con este movimiento matamos dos pájaros de un tiro, porque al establecer un tamaño fijo de la subtarea y promediar los resultados del cálculo para todas las tareas, obtendremos un número predeterminado de características para clasificar.

La figura muestra el "corte" de una señal de audio en fotogramas de longitud N con media superposición. La necesidad de superposición se debe a la distorsión del sonido si los marcos estuvieran ubicados uno al lado del otro. Aunque en la práctica esta técnica suele descuidarse para ahorrar recursos informáticos. Siguiendo las recomendaciones, elegiremos una longitud de fotograma de 128 ms como compromiso entre precisión (fotogramas largos) y velocidad (fotogramas cortos). El resto del discurso que no ocupe un fotograma completo se puede rellenar con ceros hasta alcanzar el tamaño deseado o simplemente descartarlo.

Para eliminar efectos no deseados durante el procesamiento posterior del cuadro, multiplicamos cada elemento del cuadro por una función de ponderación especial ("ventana"). El resultado será la selección de la parte central del marco y una suave atenuación de las amplitudes en sus bordes. Esto es necesario para lograr mejores resultados al ejecutar la transformada de Fourier, ya que se centra en una señal que se repite infinitamente. En consecuencia, nuestro marco debe encajar consigo mismo y lo más suavemente posible. Hay muchísimas ventanas. Usaremos la ventana de Hamming.

n - número de serie del elemento en el marco para el cual se calcula el nuevo valor de amplitud
N - como antes, longitud del cuadro (número de valores de señal medidos por período)

Transformada discreta de Fourier

El siguiente paso es obtener un espectrograma a corto plazo de cada cuadro por separado. Para estos fines utilizamos la transformada discreta de Fourier.

N - como antes, longitud del cuadro (número de valores de señal medidos por período)
x n - amplitud de la enésima señal
X k - N amplitudes complejas de señales sinusoidales que componen la señal original

Además, construimos cada valor. X k al cuadrado para obtener más logaritmos.

Ir a escala de tiza

Hoy en día, los sistemas de reconocimiento de voz de mayor éxito son aquellos que utilizan el conocimiento sobre la estructura del audífono. Hay algunas palabras sobre esto sobre Habré. En resumen, el oído interpreta los sonidos no de forma lineal, sino en una escala logarítmica. Hasta ahora hemos realizado todas las operaciones en "hercios", ahora pasemos a "tiza". Un dibujo te ayudará a visualizar la dependencia.

Como puede verse, la escala de tiza se comporta linealmente hasta 1000 Hz y después presenta una naturaleza logarítmica. La transición a una nueva escala se describe mediante una simple dependencia.

m - frecuencia en tiza
f - frecuencia en hercios

Obtener un vector de características

Ahora estamos más cerca que nunca de nuestro objetivo. El vector de características constará de esos mismos coeficientes melcepstrales. Los calculamos usando la fórmula.

c n - coeficiente cepstral de tiza numerado n
S k - amplitud del valor k-ésimo en el marco en tizas
K - un número predeterminado de coeficientes melcepstrales
norte ∈

Normalmente el número k elija igual a 20 y comience a contar desde 1 debido a que el coeficiente c 0 lleva poca información sobre el hablante, ya que es, de hecho, un promedio de las amplitudes de la señal de entrada.

Entonces, ¿quién habló de todos modos?

La última etapa es la clasificación de los hablantes. La clasificación se lleva a cabo calculando la medida de similitud entre los datos de prueba y los datos ya conocidos. La medida de similitud se expresa por la distancia desde el vector de características de la señal de prueba al vector de características que ya ha sido clasificado. Nos interesará la solución más sencilla: la distancia entre manzanas de la ciudad.

Esta solución es más adecuada para vectores de naturaleza discreta, a diferencia de la distancia euclidiana.

El lector atento probablemente recordará que el autor al comienzo del artículo mencionó el promedio de las características de los marcos del habla. Entonces, llenando este vacío, concluyo el artículo con una descripción del algoritmo para encontrar el vector de características promediado para varios fotogramas y varias muestras de voz.

Agrupación

Encontrar un vector de características para una muestra no es difícil: dicho vector se representa como la media aritmética de los vectores que caracterizan cuadros individuales del habla. Para aumentar la precisión del reconocimiento, simplemente es necesario promediar los resultados no solo entre fotogramas, sino también tener en cuenta el rendimiento de varias muestras de voz. Al tener varias grabaciones de voz, es razonable no promediar los indicadores en un vector, sino realizar una agrupación, por ejemplo utilizando el método k-medias.

Resultados

Así, hablé de un sistema sencillo pero eficaz para identificar a una persona por voz. En resumen, el proceso de reconocimiento se estructura de la siguiente manera:

Recopilamos varias muestras de discursos de formación, cuantas más, mejor.
Encontramos un vector de rasgos característicos para cada uno de ellos.
Para muestras con un autor conocido, realizamos agrupaciones con un centro (promediado) o varios. Los resultados aceptables comienzan con el uso de 4 centros para cada hablante.
En el modo de identificación, encontramos la distancia desde el vector de prueba hasta los centros de cluster estudiados durante el entrenamiento. Cualquiera que sea el grupo al que se acerque más el discurso de prueba es el hablante al que asignamos la muestra.
Incluso es posible establecer experimentalmente un cierto intervalo de confianza: la distancia máxima a la que se puede ubicar una muestra de prueba desde el centro del conglomerado. Si se excede este valor, clasifique la muestra como desconocida.

Siempre agradezco comentarios útiles sobre cómo mejorar el material. Gracias por su atención.

¿Alguna vez has pensado en lo importante que es el sonido de tu voz para la comunicación? ¿Y qué impresión de nosotros mismos nos creamos “desde las primeras notas”? Esto puede parecer una exageración, sin embargo, cada vez que escuchamos la voz de alguien, vivimos una determinada experiencia neurobiológica. El caso es que los canales auditivos están conectados a áreas del cerebro responsables de las emociones. Por lo tanto, la tonalidad puede indicar tanto ciertos rasgos de carácter del oponente como los sentimientos que está experimentando actualmente. Por ejemplo, alguien que tiene una voz más profunda se percibe desde los primeros minutos de comunicación como inteligente y exitoso (en el nivel subconsciente, el interlocutor puede incluso desear casarse con usted o celebrar un contrato comercial). Pero una voz resonante y "aguda" deja un regusto nervioso, incluso ligeramente histérico, en la comunicación; es difícil sentirse seguro al lado de una persona así; Los defectos del habla hacen que el interlocutor sea menos competitivo por error, pero esta impresión puede ser engañosa. Por no hablar del sexy medio susurro... Perdón por el juego de palabras, pero ¿qué dice realmente la voz sobre nosotros?

Demasiado alto

A los hombres y mujeres que se comunican en un “tono elevado” (agudo, agudo, silbante) no se les toma en serio. Esta voz se asocia con personas inseguras, débiles, indecisas e inmaduras. Se cree que sus dueños están en desacuerdo con su sexualidad: la niegan o incluso la bloquean. Cuando tomamos conciencia de nuestro lado sensual, automáticamente bajamos el tono de nuestra voz, y si esto nunca sucede, la persona está reñida con sus deseos.

Demasiado baja

Sorprendentemente, el otro extremo suele ser beneficioso: la gente trata con gran respeto a una persona con voz profunda (especialmente a un hombre). Así hablan los líderes, aquellos que sienten poder sobre quienes los rodean, saben lo que valen y tienen grandes capacidades. ¡Ten cuidado y no te excedas! Cuando la voz es demasiado pesada, empieza a sonar artificial y pretenciosa.

Profundo

Un signo de entusiastas y ricos. El dueño de una voz aterciopelada y voluminosa (como acompañada de un ligero eco) declara a los demás su sensualidad y, al mismo tiempo, inspira seguridad emocional. Parece que el interlocutor tiene el control total de su propia vida, por eso disfrutamos tanto escuchándolo. Para desarrollar esta “profundidad” en ti mismo, practica el sonido “u” con más frecuencia.

deliberadamente sexy

Cuando una persona "enciende" una voz sexy y cooperativa, no tenga ninguna duda: se trata de un verdadero manipulador. Este seductor tiene un ego enorme y cree que puede aprovecharse fácilmente de los demás para su propio beneficio. Aquellos que caen fácilmente en su cebo sexy algún día se sentirán muy decepcionados cuando lo escuchen hablar con una voz completamente normal.

Demasiado dulce

Otro truco consiste en tener una voz tan conmovedora, con un tono suave y palabras afectuosas, que un interlocutor sensible pueda sufrir un “shock diabético” al escucharla por primera vez. Aunque estas personas son percibidas como muy amables, será muy difícil confiar en alguien que siempre suena tan dulce.

Suave, "sin vida"

Parecería que es muy conveniente adoptar una posición neutral en relación a la voz y no destacar demasiado. Sin embargo, un sonido plano y monótono confiere al hablante características tan disonantes como la apatía, la indiferencia e incluso la depresión.

Muy silencioso

"Caballos oscuros" ¿Crees que un sonido modesto y silencioso es señal de personas tímidas e inseguras? Sin embargo, a menudo detrás de esta "piel de oveja" (siempre que no se trate de problemas de salud) se esconde, si no un "lobo", sí un tirano que, por el contrario, quiere atraer la atención de todos con la ayuda de un truco de voz. . Para ellos es importante que la gente pida repetir lo dicho, para darle mayor significado a las palabras y utilizarlas como un juego de poder.

Muy alto

Aquellos que habitualmente gritan durante una conversación lo hacen para atraer más atención y crear revuelo. Por lo general, estas personas se asocian con la arrogancia y se las percibe como socialmente torpes, jactanciosas y envidiosas.

Temblor

Cualquiera que tenga este tipo de voz está experimentando tensión nerviosa o está muy molesto por algo. Una persona así se preocupa constantemente por todo, especialmente por la cuestión de cómo lo percibirán los extraños. Además, estas personas a menudo inspiran miedo y dan la impresión de ser neuróticos peligrosos.

Agresivo

Las personas que hablan “sin darle importancia”, con irritación, como si lanzaran palabras a su oponente, son personas con un carácter fuerte. Se trata de rivales celosos y agresivos que rara vez hacen concesiones. Incluso en el contexto del diálogo más inofensivo y cotidiano, pueden, inesperadamente, desarrollar un teatro de operaciones militares.

Nasal

El sonido nasal es un signo de "niñeras". Conmueven, pero no inspiran, rara vez se los toma en serio y nunca se escuchan sus opiniones. Puede resultar extremadamente difícil para personas inteligentes y educadas con ese tono de voz dar la impresión de ser una persona verdaderamente conocedora de cualquier tema.

Por la voz de una persona se puede determinar su carácter, su estado de ánimo e incluso sus cualidades espirituales. El timbre de una voz, como el patrón único de las huellas dactilares, es estrictamente individual, y en Estados Unidos, Inglaterra e Italia una grabación de voz se considera un documento legal indiscutible que no puede ser falsificado.

A algunas personas se les da genéticamente una voz agradable, mientras que otras tienen que vivir con una voz “desagradable”. Pero siempre hay una salida: puedes trabajar tu voz. Cuando se usan con habilidad, el habla y la voz se convierten en una poderosa arma psicológica que afecta el subconsciente del interlocutor.

Los psicólogos han identificado las reacciones emocionales básicas de una persona ante diversas variaciones en el tono y el timbre de la voz del interlocutor.

Una voz alta y sonora se asocia con la juventud, la energía y, desgraciadamente, con la inmadurez y la inexperiencia. Según las estadísticas, las mujeres y (especialmente) los hombres con esa voz tienen muchas menos probabilidades de ser nombrados para puestos importantes. Se hizo una observación interesante: cuanto más alta es la voz, más baja es la posición.

Además, el subconsciente interpreta un sonido agudo y penetrante como una señal de alarma. Así, una voz aguda que suena durante mucho tiempo provoca una sensación involuntaria de malestar en el interlocutor y reduce el grado de confianza en las palabras. El dueño de una voz muy aguda debe, más que nadie, prestar atención al contenido y la entonación de su discurso.

Quienes tienen la voz baja son mucho más afortunados: se asocia con la autosuficiencia, la confianza y la inteligencia. Las personas con esa voz son percibidas por los demás como conocedoras y, por lo tanto, más autoritarias. Cuanto más baja es la voz de un hombre, más fuerte y confiable parece a los ojos de una mujer. Por cierto, las estadísticas tampoco niegan la influencia de la voz en el éxito con el sexo opuesto. Probablemente hayas notado la aparición de pensamientos románticos mientras hablabas por teléfono con un hombre desconocido con un timbre de voz agradable.

Sólo la voz baja y aterciopelada de una persona que nunca hemos visto puede evocar el sentimiento de amor más fuerte. Esto se debe a la lectura subconsciente del código genético del interlocutor. El hecho es que una voz baja es causada por un mayor contenido de hormonas sexuales masculinas en la sangre, por lo que el dueño de esa voz es más temperamental. Por eso una mujer de voz baja, pechosa y rica en entonaciones les parece más sexy a los hombres que la dueña de una voz fina y monótona.

Pero para convencer o seducir a un interlocutor, una mujer no necesita tener una voz baja y bella por naturaleza; basta con armarse de su propia voz (cualquier voz que exista), de inteligencia (lo suficientemente mundana) y de paciencia. Primero, trabaje su voz: el sonido de su voz está influenciado no solo por el componente hormonal de la sangre, sino también por la estructura de las cuerdas vocales, el estado de ánimo psicológico y los patrones respiratorios.

Cuide su postura: con una buena postura, los órganos respiratorios están colocados correctamente, lo que le permite ser ligero y libre. El sonido debe salir del cofre. Para comprobar la corrección del ejercicio, coloca tu mano sobre tu pecho; si vibra, estás en el camino correcto.

Cantar fortalece la respiración y mejora el sonido de la voz. Si te quedas solo en el apartamento contigo mismo y con las tareas del hogar, intenta cantar algo lo suficientemente alto. Inflar globos: esto fortalece enormemente el sistema respiratorio, informa Horoscope.ru.

Varíe su discurso con entonaciones, especialmente si tiende a presentar información "en una sola nota". Lea en voz alta un pequeño fragmento de texto (preferiblemente un poema) varias veces, llenándolo de nuevas entonaciones con cada nueva lectura. Aprenda a formular claramente la idea que desea transmitir al oyente. Esto le evitará los traicioneros "muidos" en las pausas entre secciones significativas del discurso. Abastecerse de argumentos a favor de su opinión, hacer hincapié correctamente. Es imposible convencer a alguien de algo masticando frases en silencio. Recuerde que la información presentada sólo medio decibelio más alto tiene mucho más éxito a la hora de persuadir al oyente y es mejor absorbida por él. Establezca el “nivel de volumen” óptimo para su voz. Cuente en voz alta del uno al diez, elevando gradualmente la voz; cuando escuche un sonido que le convenga, recuérdelo y luego intente seguirlo.

delicada voz femenina- (tierna, hermosa, agradable, inofensiva, pacífica, interesante, relajada, suave, no ronca, ligera, brillante, polifónica, femenina). Son personas que aprenden rápidamente y se adaptan fácilmente intelectualmente. Son liberales y tienen inclinación por la experimentación y el análisis. Hasta cierto punto, también son desconfiados, exigen que quienes los rodean se responsabilicen de sus errores, son muy morales, disciplinados y responsables.

voz gorda- cálido, grave, fuerte, bueno, espeso. Características de estas personas: inestabilidad emocional, variabilidad, inestabilidad de intereses, falta de autocontrol, desconfianza, celos, competitividad, aumento de la autoestima, tensión, excitación.

voz suave- (suave, jugosa, buena, tonal, tranquila, alta, no nasal, sonora). Los dueños de esa voz son confiados, no celosos, desinteresados, olvidan fácilmente las dificultades, son flexibles, tolerantes y dóciles. También tienen cualidades como alegría, jovialidad, calma, confianza en uno mismo y serenidad.

La voz del líder- (activo, seguro de sí mismo, expresivo). Estas personas son persistentes, asertivas, independientes, seguras de sí mismas, valientes y obstinadas. Pueden ser poco ceremoniosos y conflictivos. Son receptivos, sociables, amigables, impulsivos y les encanta ser vistos. También son sencillos, emocionalmente indisciplinados, naturales y espontáneos, caracterizados por la energía, la vivacidad, la agilidad, la locuacidad y la flexibilidad.

La voz de un hombre sabio- (superficial, antiguo, natural, impresionante). Cualidades de estas personas: tristeza, evitación de la sociedad, silencio, cautela, sospecha, madurez emocional, independencia. Estos son realistas, racionalistas y lógicos. Están ocupados resolviendo cuestiones prácticas, organizando asuntos personales, son tranquilos, firmes y evitan todo lo inusual.

voz joven- (infantil, ruidoso, rápido, alegre, alegre, agudo, sonoro, frívolo, elevado). Son personas impacientes, dependientes, sentimentales, emotivas, sensibles. Disfrutan de la fantasía, actúan según la intuición y son amables con ellos mismos y con los demás.

Voz arrastrada- (ininteligible, vago, líquido, nasal, ronco). La voz arrastrada es una cualidad casi inaceptable para un psicólogo. Estas personas son autosuficientes e independientes, independientes, impacientes, sentimentales, emocionales, sensibles, amables con ellos mismos y con los demás, y también impulsivas. Bajo control conductual. Las actividades de estas personas son desordenadas, caóticas y desorganizadas.

¿Cómo entender la voz de una persona? La voz es lo primero con lo que nos familiarizamos en una persona al inicio de la comunicación. Una voz puede decir mucho sobre él. El timbre, el tono y la fuerza de la voz juegan un papel importante en la comunicación. Los políticos, psicólogos y empresarios utilizan con mucha habilidad el conocimiento de estas sencillas reglas.

Propiedades y características de la voz humana.

si un hombre comienza a tartamudear, sonrojarse, mirar hacia otro lado, sus palmas comienzan a sudar, entonces esto una señal clara de que está mintiendo. Pero a veces hay que lidiar con el hecho de que a algunas personas les sucede lo contrario: se sienten bastante seguras cuando mienten y empiezan a tartamudear cuando dicen la verdad.

También es importante prestar atención al tono del interlocutor, ya que puede expresar diferentes pensamientos. Por ejemplo, un tono agudo y animado puede indicar una aceptación entusiasta de tus palabras o una falta de confianza en lo que dices.

Es importante escuchar las palabras de tu interlocutor y notar cualquier cambio en su voz. Si La voz cambió de alegre a apagada y tranquila., entonces probablemente ofendiste a la persona de alguna manera.

Las personas en las que se confía y se aprecian suelen hablar en voz más baja, como ocurre cuando dicen algo que no está destinado a extraños.