Luxembourg - Drapeau Luxembourg

Incoterms :DDP
Tous les prix incluent les taxes et les droits de douane pour les modes d'expédition sélectionnés.

Confirmez votre choix de devise:

Euros
Livraison gratuite pour la plupart des commandes supérieures à 50 € (EUR)

Dollars US
Livraison gratuite pour la plupart des commandes supérieures à $60 (USD)

Bench Talk pour les ingénieurs concepteurs

Mouser Blog | France

rss

Le blog officiel de Mouser Electronics


La technologie vocale a bien plus à offrir que les produits plus intelligents Stephen Evanczuk

Source : ArtemisDiana - stock.adobe.com

 

Grâce aux progrès réalisés dans le domaine de la synthèse vocale, des services d’assistance intelligents comme Amazon Alexa, Apple Siri et bien d’autres sont aujourd’hui très répandus, mais ce n’est qu’une étape dans le développement de fonctions vocales toujours plus sophistiquées et qui devraient bientôt devoir permettre de proposer des services plus « vitaux ». En effet, les technologies de la parole, s’appuyant sur les possibilités qu’offre l’intelligence artificielle (IA), ambitionnent désormais de (re)donner leur voix à des millions de personnes subissant un trouble ou la perte de la parole.

La technologie de pointe liée à la parole sous-tend un énorme marché, extrêmement concurrentiel pour les produits intelligents. Selon le Smart Audio Report 20221, une étude annuelle commandée par la NPR et Edison Research, 62 % des Américains âgés de 18 ans et plus ont recours à l’assistance vocale sur au moins un type d’appareil. Pour les entreprises, il est essentiel que les utilisateurs soutiennent cette tendance, et ce, non seulement pour pérenniser leur marque de synthèse vocale, mais aussi pour tirer le meilleur parti des interactions directes entre les consommateurs et l’IA qui les écoute et leur répond sous la forme d’une conversation naturelle avec leur appareil.

Un processus de synthèse vocale complexe

La technologie de synthèse vocale a considérablement évolué depuis les systèmes d’encodage vocal ou vocodeurs développés il y a près d’un siècle dans le but de réduire la bande passante qu’utilisaient les transmissions par ligne téléphonique. Les vocodeurs d’aujourd’hui sont des sous-systèmes sophistiqués reposant sur des algorithmes d’apprentissage profond comme les réseaux neuronaux convolutifs (CNN). En pratique, ces vocodeurs neuronaux sont la dernière étape d’un processus de synthèse vocale complexe. Ils intègrent un modèle acoustique capable de conférer à la voix diverses caractéristiques permettant à l’auditeur de l’associer à un sexe, un âge et d’autres caractéristiques individuelles propres à une voix humaine. Dans cette chaîne, le modèle acoustique génère des caractéristiques acoustiques, généralement sous forme de spectrogrammes de Mel, qui transposent le domaine de fréquence linéaire dans un domaine considéré comme plus représentatif de la perception humaine. Ensuite, les vocodeurs neuronaux (comme WaveNet de Google DeepMind) utilisent ces caractéristiques acoustiques pour générer des formes d’onde de sortie audio de haute qualité.

L’industrie propose de nombreuses applications du text-to-speech (TTS), un système de conversion de texte écrit en texte parlé : applications mobiles téléchargeables, packages open source comme OpenTTS et services cloud multilingues complets comme Amazon Polly, Google Text-to-Speech et Microsoft Azure Text to Speech, pour n’en citer que quelques-uns. De nombreux packages et services TTS prennent en charge le SSML. Ce langage de balisage destiné aux applications de synthèse vocale est devenu le standard dans l’industrie, ce qui permet d’adopter une approche cohérente dans le développement d’applications de synthèse vocale utilisant des modèles de parole plus réalistes qui tiennent compte, notamment, des pauses, de la formulation, de l’emphase et de l’intonation.

Donner la parole à l’individu

De nos jours, le logiciel TTS permet de produire une voix synthétique d’une qualité nettement supérieure à la parole robotique produite par des appareils comme l’électrolarynx ou celui que le regretté Stephan Hawking continuait d’utiliser, malgré les progrès de la technologie de restitution de la voix2. Malgré ces améliorations, les packages et services de ce type sont principalement utilisés pour fournir une interface vocale réaliste à des applications, des sites Web, des vidéos, des systèmes de réponse vocale automatisés, etc. La reproduction de la voix d’une personne en particulier, avec ses tons et ses modèles de discours propres, ne fait pas partie des principales applications du TTS.

Bien que certains services comme Google offrent la possibilité de créer une voix de synthèse à partir d’enregistrements fournis par l’utilisateur, ils ne sont pas conçus dans l’optique de rendre sa voix propre à une personne ayant perdu l’usage de la parole. Or, pour ces personnes, il s’agit d’un besoin impératif, car notre voix personnelle est intimement liée à notre identité. Une salutation « dite » transmet bien davantage d’informations que les mots en soi. Les conséquences de la perte de la parole dépassent largement le seul fait de ne pouvoir vocaliser les sons. Elles impliquent notamment une forte déconnexion des personnes concernées. La technologie émergente de synthèse vocale porte l’espoir d’offrir à ces personnes la possibilité d’interagir avec des tiers avec une voix qui leur est propre.

L’émergence du clonage de la voix

Pourtant, des efforts sont faits pour démocratiser l’accès à une voix de synthèse qui corresponde à la personnalité de son utilisateur. Par exemple, l’acteur Val Kilmer a révélé l’année dernière qu’après avoir perdu sa voix en raison d’une opération pour un cancer de la gorge, la société britannique Sonantic lui avait fourni une voix de synthèse que l’on pouvait reconnaître comme étant la sienne. Un autre exemple de clonage de voix qui fit parler de lui est celui de la voix du célèbre chef Anthony Bourdain. Dans un documentaire retraçant sa vie, on peut l’entendre dire un texte qu’il avait écrit, mais jamais prononcé de son vivant.

Un autre pionnier de la technologie vocale, VocalID, fournit des voix personnalisées qui peuvent être créées à partir des enregistrements qu’une personne peut consigner auprès de l’entreprise en prévision du moment où elle perdra sa voix ou à partir d’enregistrements vocaux réalisés par des bénévoles dont l’entreprise dispose déjà. Ces enregistrements sont sélectionnés en fonction de l’utilisateur. Celui-ci peut dès lors exécuter l’application de synthèse vocale personnalisée sur son appareil mobile IoS, Android ou Windows pour converser avec une voix qui lui est unique.

La technologie de clonage des voix évolue rapidement. Cet été, Amazon a démontré qu’il était possible de cloner une voix à partir d’échantillons audio de moins de 60 secondes. La démonstration d’Amazon fut présentée comme un moyen de faire revivre la voix de proches décédés, mais cette prouesse technique prouve avant tout que l’IA présente le potentiel de créer une sortie vocale empruntant une voix familière.

Étant donné le lien entre voix et identité, la génération d’une voix en haute fidélité constitue à la fois une belle réponse à des attentes et une menace. En effet, comme c’est déjà le cas dans le domaine de la vidéo, le deepfake appliqué à la voix humaine représente une menace importante en matière de sécurité. Il a déjà été rapporté qu’en 2020, une somme de 35 millions de dollars avait pu être détournée grâce un clone vocal de haute qualité. Il s’est avéré que le directeur de la banque avait procédé au transfert des fonds sur la foi d’une demande adressée par téléphone par une voix qu’il avait cru reconnaître, mais qui était en réalité un deepfake.

Conclusion

Compte tenu du potentiel commercial de cette technologie, les chercheurs (tant du secteur public que privé) planchent activement sur de nouvelles méthodes permettant de générer une voix de synthèse capable de reproduire toutes les nuances de la voix humaine afin d’accroître l’engagement du consommateur. En dehors de cette utilisation commerciale, la technologie avancée de synthèse vocale présente également un intérêt primordial pour des millions de personnes muettes de naissance ou ayant perdu l’usage de la parole à la suite d’un accident ou d’une maladie.

Sources

1. The Smart Audio Report. National Public Media, juin 2022. https://www.nationalpublicmedia.com/insights/reports/smart-audio-report

2. Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, 15 juillet 2021. https://beyondwords.io/blog/stephen-hawkings-voice



« Retour


Stephen Evanczuk's Blog

Tous les auteurs

Voir plus Voir plus
Afficher les articles par date