Que dit la voix ? Que pouvez-vous apprendre sur une personne à partir de son discours ?

Bonjour, cher lecteur !

J'attire votre attention sur un article intéressant et informatif sur une méthode spécifique de reconnaissance du locuteur. Il y a quelques mois à peine, j'ai découvert l'utilisation de coefficients mel-cepstraux pour la reconnaissance vocale. Il n’a pas trouvé de réponse, probablement en raison d’une structure insuffisante, bien que le matériel abordé soit très intéressant. Je prendrai sur moi la responsabilité de transmettre ce matériel sous une forme accessible et de poursuivre le sujet de la reconnaissance vocale sur Habré.

Sous la coupe, je décrirai l'ensemble du processus d'identification d'une personne par la voix, depuis l'enregistrement et le traitement du son jusqu'à la détermination directe de l'identité de l'orateur.

Enregistrement sonore

Notre histoire commence par l'enregistrement d'un signal analogique provenant d'une source externe à l'aide d'un microphone. À la suite de cette opération, nous obtiendrons un ensemble de valeurs qui correspondent à l'évolution de l'amplitude du son au fil du temps. Ce principe de codage est appelé modulation par impulsions codées ou PCM (Pulse-code modulation). Comme vous pouvez le deviner, les données « brutes » obtenues à partir du flux audio ne conviennent pas encore à nos besoins. La première étape consiste à transformer les bits indisciplinés en un ensemble de valeurs significatives - les amplitudes des signaux.

En entrée, j'utiliserai un fichier wav non compressé signé PCM 16 bits avec une fréquence d'échantillonnage de 16 kHz.< buffer.length; i += 2) { if(isBigEndian) // задает порядок байтов во входном сигнале { // первым байтом будет MSB MSB = buffer; // вторым байтом будет LSB LSB = buffer; } else { // наоборот LSB = buffer; MSB = buffer; } // склеиваем два байта, чтобы получить 16-битное вещественное число // все значения делятся на максимально возможное - 2^15 data[i] = ((MSB << 8) || LSB) / 32768; } return data; }
Double readAmplitudeValues(bool isBigEndian) ( int MSB, LSB; // tampon d'octets d'octets hauts et bas = ReadDataFromExternalSource(); // lire les données depuis quelque part double data = new double; for (int i = 0; i

Vous pouvez actualiser vos connaissances sur l'ordre des octets sur Wikipédia.

Traitement audio

La normalisation, à mon avis, est l’algorithme de prétraitement audio le plus simple et le plus efficace. Il y en a aussi bien d’autres : « couper » les fréquences supérieures ou inférieures à une donnée donnée, les lisser, etc.

Diviser pour régner

Même lorsque vous travaillez avec du son à la fréquence d'échantillonnage minimale suffisante (16 kHz), la taille des caractéristiques uniques d'un deuxième échantillon sonore est tout simplement énorme - 16 000 valeurs d'amplitude. Il n’est pas possible d’effectuer des opérations complexes sur de tels volumes de données. De plus, il n’est pas tout à fait clair comment comparer des objets présentant différents nombres de caractéristiques uniques.

Tout d’abord, réduisons la complexité informatique du problème en le décomposant en sous-tâches plus petites. Avec cette décision, nous faisons d'une pierre deux coups, car en définissant une taille fixe de sous-tâche et en faisant la moyenne des résultats de calcul pour toutes les tâches, nous obtiendrons un nombre prédéterminé de caractéristiques à classer.


La figure montre le « découpage » d'un signal audio en trames de longueur N avec un demi-chevauchement. Le besoin de chevauchement est causé par la distorsion du son si les cadres étaient situés les uns à côté des autres. Bien qu'en pratique cette technique soit souvent négligée pour économiser les ressources informatiques. En suivant les recommandations, nous choisirons une longueur de trame de 128 ms comme compromis entre précision (trames longues) et vitesse (trames courtes). Le reste du discours qui n'occupe pas une image complète peut être complété par des zéros jusqu'à la taille souhaitée ou simplement supprimé.

Pour éliminer les effets indésirables lors du traitement ultérieur de l'image, nous multiplions chaque élément de l'image par une fonction de pondération spéciale (« fenêtre »). Le résultat sera la sélection de la partie centrale du cadre et une atténuation douce des amplitudes sur ses bords. Ceci est nécessaire pour obtenir de meilleurs résultats lors de l'exécution de la transformée de Fourier, car elle se concentre sur un signal répétitif à l'infini. En conséquence, notre cadre doit s'emboîter avec lui-même et aussi facilement que possible. Il y a un grand nombre de fenêtres. Nous utiliserons la fenêtre de Hamming.

n - numéro de série de l'élément dans le cadre pour lequel la nouvelle valeur d'amplitude est calculée
N - comme auparavant, longueur de trame (nombre de valeurs de signal mesurées par période)

Transformée de Fourier discrète

L'étape suivante consiste à obtenir un spectrogramme à court terme de chaque image séparément. À ces fins, nous utilisons la transformée de Fourier discrète.

N - comme auparavant, longueur de trame (nombre de valeurs de signal mesurées par période)
x n - amplitude du nième signal
X k - N amplitudes complexes des signaux sinusoïdaux composant le signal original

De plus, nous construisons chaque valeur Xk au carré pour un logarithme supplémentaire.

Aller à l'échelle de craie

Aujourd’hui, les systèmes de reconnaissance vocale les plus performants sont ceux qui utilisent la connaissance de la structure de l’aide auditive. Il y a quelques mots à ce sujet sur Habré. Bref, l’oreille n’interprète pas les sons de manière linéaire, mais sur une échelle logarithmique. Jusqu’à présent, nous avons effectué toutes les opérations sur « hertz », passons maintenant à la « craie ». Un dessin vous aidera à visualiser la dépendance.


Comme on peut le constater, l'échelle de craie se comporte de manière linéaire jusqu'à 1 000 Hz, puis présente un caractère logarithmique. Le passage à une nouvelle échelle est décrit par une simple dépendance.

m - fréquence à la craie
f - fréquence en hertz

Obtention d'un vecteur de caractéristiques

Nous sommes désormais plus proches que jamais de notre objectif. Le vecteur de caractéristiques sera constitué de ces mêmes coefficients mel-cepstraux. Nous les calculons à l'aide de la formule

c n - coefficient craie-cepstral numéroté n
S k - amplitude de la kème valeur dans le cadre en craies
K - un nombre prédéterminé de coefficients mel-cepstraux
n ∈

Généralement le numéro K choisissez égal à 20 et commencez à compter à partir de 1 car le coefficient c 0 contient peu d’informations sur le locuteur, puisqu’il s’agit en fait d’une moyenne des amplitudes du signal d’entrée.

Alors, qui a parlé, de toute façon ?

La dernière étape est la classification des locuteurs. La classification est effectuée en calculant la mesure de similarité entre les données de test et les données déjà connues. La mesure de similarité est exprimée par la distance entre le vecteur caractéristique du signal de test et le vecteur caractéristique déjà classé. Nous nous intéresserons à la solution la plus simple : la distance des pâtés de maisons.

Cette solution est plus adaptée aux vecteurs de nature discrète, contrairement à la distance euclidienne.

Le lecteur attentif se souviendra probablement que l'auteur a mentionné au début de l'article la moyenne des caractéristiques des cadres vocaux. Ainsi, comblant cette lacune, je conclus l'article par une description de l'algorithme permettant de trouver le vecteur de caractéristiques moyenné pour plusieurs images et plusieurs échantillons de parole.

Regroupement

Trouver un vecteur de caractéristiques pour un échantillon n'est pas difficile : un tel vecteur est représenté comme la moyenne arithmétique des vecteurs caractérisant des cadres de discours individuels. Pour augmenter la précision de la reconnaissance, il suffit simplement de faire la moyenne des résultats non seulement entre les trames, mais également de prendre en compte les performances de plusieurs échantillons de parole. Disposant de plusieurs enregistrements vocaux, il est raisonnable de ne pas faire la moyenne des indicateurs sur un vecteur, mais d'effectuer un clustering, par exemple en utilisant la méthode des k-means.

Résultats

Ainsi, j'ai parlé d'un système simple mais efficace pour identifier une personne par la voix. En résumé, le processus de reconnaissance est structuré comme suit :
  1. Nous collectons plusieurs échantillons de discours de formation, plus il y en a, mieux c'est.
  2. Nous trouvons un vecteur de traits caractéristiques pour chacun d’eux.
  3. Pour les échantillons dont l'auteur est connu, nous effectuons un clustering avec un centre (moyenne) ou plusieurs. Des résultats acceptables commencent par l'utilisation de 4 centres pour chaque enceinte.
  4. En mode identification, on retrouve la distance du vecteur de test aux centres de cluster étudiés lors de la formation. Quel que soit le groupe dont le discours de test est le plus proche, c'est le locuteur auquel nous attribuons l'échantillon.
  5. Il est même possible d’établir expérimentalement un certain intervalle de confiance, c’est-à-dire la distance maximale à laquelle un échantillon test peut être localisé par rapport au centre de la grappe. Si cette valeur est dépassée, classez l'échantillon comme inconnu.

J'apprécie toujours les commentaires utiles sur l'amélioration du matériel. Merci pour votre attention.

Avez-vous déjà pensé à l'importance du son de votre voix pour la communication ? Et quelle impression de nous-mêmes créons-nous « dès les premières notes » ? Cela peut sembler exagéré, mais chaque fois que nous entendons la voix de quelqu'un, nous vivons une certaine expérience neurobiologique. Le fait est que les conduits auditifs sont reliés aux zones du cerveau responsables des émotions. Ainsi, la tonalité peut indiquer à la fois certains traits de caractère de l'adversaire et les sentiments qu'il éprouve actuellement. Par exemple, quelqu'un qui a une voix plus grave est perçu dès les premières minutes de communication comme intelligent et réussi (l'interlocuteur au niveau subconscient peut même avoir le désir de vous épouser ou de conclure un contrat commercial). Mais une voix sonore et « aiguë » laisse un arrière-goût nerveux, voire légèrement hystérique, de la communication ; il est difficile de se sentir en sécurité à côté d'une telle personne ; Les défauts d'élocution rendent à tort l'interlocuteur moins compétitif, mais cette impression peut être trompeuse. Sans parler du demi-chuchotement sexy... Pardonnez le jeu de mots, mais que dit vraiment la voix de nous ?

Trop grand

Les hommes et les femmes qui communiquent sur un « ton élevé » (aigu, aigu, sifflant) ne sont pas pris au sérieux. Cette voix est associée à des personnes peu sûres d’elles, faibles, indécises et immatures. On pense que ses propriétaires sont en contradiction avec leur sexualité - ils la nient ou même la bloquent. Lorsque nous prenons conscience de notre côté sensuel, nous baissons automatiquement le ton de notre voix, et si cela n'arrive jamais, la personne est en contradiction avec ses désirs.

Trop bas

Étonnamment, l'autre extrême est généralement bénéfique : les gens traitent une personne avec une voix grave (en particulier un homme) avec un grand respect. C'est ainsi que parlent les dirigeants, ceux qui ressentent du pouvoir sur ceux qui les entourent, connaissent leur valeur et possèdent de grandes capacités. Soyez prudent et n'en faites pas trop ! Lorsque la voix est trop lourde, elle commence à paraître artificielle et prétentieuse.

Profond

Un signe de passionnés et de riches. Le propriétaire d'une voix veloutée et volumineuse (comme accompagnée d'un léger écho) déclare aux autres sa sensualité et, en même temps, inspire une sécurité émotionnelle. Il semble que l’interlocuteur contrôle totalement sa propre vie, c’est pourquoi nous aimons tant l’écouter. Pour développer cette « profondeur » en vous, pratiquez plus souvent le son « u ».

Délibérément sexy

Lorsqu'une personne « active » une voix coopérative et sexy, n'ayez aucun doute : il s'agit d'un véritable manipulateur. Ce séducteur a un ego énorme et croit pouvoir facilement profiter des autres pour son propre bénéfice. Ceux qui craquent facilement pour son appât sexy seront un jour grandement déçus lorsqu'ils l'entendront parler d'une voix tout à fait normale.

Trop sucré

Une autre astuce est d'avoir une voix si touchante, avec un ton doux et des mots affectueux, qu'un interlocuteur sensible peut subir un « choc diabétique » en l'entendant pour la première fois. Même si ces personnes sont perçues comme très gentilles, il sera très difficile de faire confiance à quelqu’un qui semble toujours aussi gentil.

Lisse, « pas de vie »

Il semblerait qu'il soit très pratique d'adopter une position neutre par rapport à la voix et de ne pas trop se démarquer. Cependant, un son plat et monotone confère à l'orateur des caractéristiques dissonantes telles que l'apathie, l'indifférence et même la dépression.

Très calme

"Chevaux sombres". Pensez-vous qu'un son modeste et faible est le signe de personnes timides et peu sûres d'elles ? Pourtant, souvent derrière ces « vêtements de mouton » (à condition qu'il ne s'agisse pas de problèmes de santé) se cache, sinon un « loup », du moins un tyran qui, au contraire, veut attirer l'attention de tous à l'aide d'un tour de voix. . Il est important pour eux que les gens demandent à répéter ce qui a été dit, à donner plus de sens aux mots et à les utiliser comme un jeu de pouvoir.

Très fort

Ceux qui crient régulièrement dans une conversation le font pour attirer davantage l'attention sur eux et créer du bruit. Généralement, ces personnes sont associées à l’arrogance et sont perçues comme socialement maladroites, vantardes et envieuses.

Tremblant

Quiconque a ce type de voix éprouve une tension nerveuse ou est très contrarié par quelque chose. Une telle personne s’inquiète constamment de tout, en particulier de la question de savoir comment les étrangers la percevront. De plus, ces personnes inspirent souvent la peur, donnant l'impression de névrosés dangereux.

Agressif

Les personnes qui parlent « avec désinvolture », avec irritation, comme pour lancer des mots à leur adversaire, sont des personnes au fort caractère. Ce sont des rivaux zélés et agressifs qui font rarement des compromis. Même dans le cadre du dialogue quotidien le plus inoffensif, ils peuvent, de manière tout à fait inattendue, développer un théâtre d’opérations militaires.

Nasale

Le bruit nasal est un signe de « nounous ». Ils touchent mais n’inspirent pas, ils sont rarement pris au sérieux et les opinions ne sont jamais écoutées. Il peut être extrêmement difficile pour des personnes intelligentes et instruites, avec un tel ton de voix, de donner l'impression d'être une personne vraiment bien informée sur n'importe quel sujet.

Par la voix d’une personne, on peut déterminer son caractère, son humeur et même ses qualités spirituelles. Le timbre d'une voix, tout comme le motif unique des empreintes digitales, est strictement individuel, et aux États-Unis, en Angleterre et en Italie, un enregistrement vocal est considéré comme un document juridique indiscutable et infalsifiable.

Certaines personnes ont génétiquement une voix agréable, tandis que d’autres doivent vivre avec une voix « méchante ». Mais il y a toujours une issue : vous pouvez travailler votre voix. Lorsqu'elles sont utilisées habilement, la parole et la voix deviennent une arme psychologique puissante qui affecte le subconscient de l'interlocuteur.

Les psychologues ont identifié les réactions émotionnelles fondamentales d’une personne face à diverses variations de la hauteur et du timbre de la voix de l’interlocuteur.

Une voix haute et sonore est associée à la jeunesse, à l'énergie et, hélas, à l'immaturité et à l'inexpérience. Selon les statistiques, les femmes et (surtout) les hommes ayant une telle voix ont beaucoup moins de chances d'être nommées à des postes importants. Une observation intéressante a été faite : plus la voix est haute, plus la position est basse.

De plus, un son perçant et aigu est lu par le subconscient comme un signal d’alarme. Ainsi, une voix aiguë qui sonne longtemps provoque une sensation involontaire d'inconfort chez l'interlocuteur et réduit le degré de confiance dans les mots. Le propriétaire d'une voix très haute doit, plus que quiconque, faire attention au contenu et à l'intonation de son discours.

Ceux qui ont une voix basse ont beaucoup plus de chance : elle est associée à l’autonomie, à la confiance et à l’intelligence. Les personnes ayant une telle voix sont perçues par les autres comme étant bien informées et, par conséquent, faisant plus autorité. Plus la voix d’un homme est basse, plus il paraît fort et fiable aux yeux d’une femme. Soit dit en passant, les statistiques ne nient pas non plus l'influence de la voix sur le succès avec le sexe opposé. Vous avez probablement remarqué l'émergence de pensées romantiques en parlant au téléphone avec un homme inconnu au timbre de voix agréable.

Seule la voix basse et veloutée d’une personne que nous n’avons jamais vue peut évoquer le sentiment d’amour le plus fort. Cela est dû à la lecture subconsciente du code génétique de l’interlocuteur. Le fait est qu'une voix basse est causée par une teneur accrue en hormones sexuelles mâles dans le sang. Par conséquent, le propriétaire d'une telle voix est plus capricieux. C'est pourquoi une femme à la voix basse et thoracique, riche en intonations, semble aux hommes plus sexy que celle qui possède une voix monotone et fine.

Mais pour convaincre ou séduire un interlocuteur, une femme n'a pas besoin d'avoir une voix basse naturellement belle ; il suffit de s'armer de sa propre voix (n'importe quelle voix qui existe), de son intelligence (assez mondaine) et de sa patience. Tout d'abord, travaillez votre voix : le son de votre voix est influencé non seulement par la composante hormonale du sang, mais aussi par la structure des cordes vocales, l'humeur psychologique et les habitudes respiratoires.

Surveillez votre posture - avec une bonne posture, les organes respiratoires sont correctement positionnés, ce qui lui permet d'être léger et libre. Le son doit sortir de la poitrine. Pour vérifier l'exactitude de l'exercice, placez votre main sur votre poitrine ; si elle vibre, vous êtes sur la bonne voie.

Chanter renforce la respiration et améliore le son de la voix. Resté seul dans l'appartement avec vous-même et les tâches ménagères, essayez de chanter quelque chose d'assez fort. Gonflez des ballons - cela renforce considérablement le système respiratoire, conseille Horoscope.ru.

Variez votre discours avec les intonations, surtout si vous avez tendance à présenter les informations « sur une seule note ». Lisez à haute voix un petit morceau de texte (de préférence un poème) plusieurs fois, en le remplissant de nouvelles intonations à chaque nouvelle lecture. Apprenez à formuler clairement l'idée que vous souhaitez transmettre à l'auditeur. Cela vous évitera les « meuglements » perfides lors des pauses entre des sections significatives du discours. Faites le plein d'arguments en faveur de votre opinion, mettez l'accent correctement Il est impossible de convaincre quelqu'un de quelque chose en mâchant tranquillement des phrases. N'oubliez pas que les informations présentées à peine un demi décibel plus fort réussissent beaucoup mieux à convaincre l'auditeur et sont mieux absorbées par lui. Définissez le « niveau de volume » optimal pour votre voix. Comptez à haute voix de un à dix, en élevant progressivement la voix ; lorsque vous entendez un son qui vous convient, souvenez-vous-en, puis essayez de le suivre.

Voix féminine délicate- (doux, beau, agréable, inoffensif, paisible, intéressant, détendu, doux, pas rauque, léger, lumineux, polyphonique, féminin). Ce sont des personnes qui apprennent rapidement et s’adaptent facilement intellectuellement. Ils sont libéraux et ont un penchant pour l’expérimentation et l’analyse. Dans une certaine mesure, ils sont également méfiants, ils exigent que leur entourage assume la responsabilité de leurs erreurs, ils sont hautement moraux, disciplinés et responsables.

Grosse voix- chaud, grave, fort, bon, épais. Caractéristiques de ces personnes : instabilité émotionnelle, variabilité, instabilité des intérêts, manque de maîtrise de soi, méfiance, jalousie, compétitivité, estime de soi accrue, tension, excitation.

Voix douce- (doux, juteux, bon, tonal, calme, aigu, non nasal, sonore). Les propriétaires d'une telle voix sont confiants, non jaloux, altruistes, oublient facilement les difficultés, flexibles, tolérants et dociles. Ils possèdent également des qualités telles que la gaieté, la gaieté, le calme, la confiance en eux et la sérénité.

La voix du leader- (actif, sûr de lui, expressif). Ces personnes sont persistantes, affirmées, indépendantes, sûres d’elles, courageuses et volontaires. Ils peuvent être sans cérémonie et conflictuels. Ils sont réactifs, sociables, amicaux, impulsifs et aiment être vus. Ils sont également directs, émotionnellement indisciplinés, naturels et spontanés, caractérisés par l'énergie, la vivacité, l'agilité, la bavardage et la flexibilité.

La voix d'un sage- (superficiel, ancien, naturel, impressionnant). Qualités de ces personnes : tristesse, évitement de la société, silence, prudence, suspicion, maturité émotionnelle, indépendance. Ce sont des réalistes, des rationalistes et des logiciens. Ils sont occupés à résoudre des problèmes pratiques, à organiser leurs affaires personnelles, sont calmes, fermes et évitent tout ce qui est inhabituel.

Voix jeune- (enfantin, bruyant, rapide, joyeux, joyeux, aigu, sonore, frivole, aigu). Ce sont des personnes impatientes, dépendantes, sentimentales, émotives, sensibles. Ils aiment la fantaisie, agissent selon leur intuition et sont doux avec eux-mêmes et avec les autres.

Voix trouble- (indistinct, vague, liquide, nasal, rauque). La voix trouble est une qualité presque inacceptable pour un psychologue. Ces personnes sont autonomes et indépendantes, indépendantes, impatientes, sentimentales, émotives, sensibles, douces envers elles-mêmes et envers les autres, et aussi impulsives. Faible contrôle comportemental. Les activités de ces personnes sont désordonnées, chaotiques et inorganisées.


Comment comprendre la voix d'une personne ? La voix est la première chose avec laquelle nous nous familiarisons chez une personne au début de la communication. Une voix peut en dire long sur lui. Le timbre de la voix, sa hauteur et sa force jouent un rôle important dans la communication. Les politiciens, les psychologues et les hommes d’affaires utilisent très habilement leurs connaissances de ces règles simples.


Propriétés et caractéristiques de la voix humaine

Si un homme commence à bégayer, à rougir, à détourner le regard, ses paumes commencent à transpirer, puis ça un signe clair qu'il ment. Mais parfois, il faut faire face au fait que le contraire arrive à certaines personnes : elles sont assez confiantes lorsqu'elles mentent et commencent à bégayer lorsqu'elles disent la vérité.

Il est également important de faire attention au ton de l'interlocuteur, puisqu'il peut exprimer des pensées différentes. Par exemple, un ton aigu et animé peut indiquer soit une acceptation enthousiaste de vos paroles, soit un manque de confiance dans ce que vous dites.

Il est important d'écouter les propos de votre interlocuteur et de remarquer tout changement dans sa voix. Si la voix est passée de joyeuse à sourde et calme, alors vous avez probablement offensé la personne d'une manière ou d'une autre.

Les personnes en qui on a confiance et qui sont appréciées s'expriment généralement d'une voix un peu plus calme, comme c'est le cas lorsqu'elles disent quelque chose qui n'est pas destiné aux étrangers.



Avez-vous aimé l'article? Partage avec tes amis!