La technologie vocale a bien plus à offrir que les produits plus intelligents

Le 26 janvier 2023 dans Général, Médical, Tout par Stephen Evanczuk

Source : ArtemisDiana - stock.adobe.com

Grâce aux progrès réalisés dans le domaine de la synthèse vocale, des services d’assistance intelligents comme Amazon Alexa, Apple Siri et bien d’autres sont aujourd’hui très répandus, mais ce n’est qu’une étape dans le développement de fonctions vocales toujours plus sophistiquées et qui devraient bientôt devoir permettre de proposer des services plus « vitaux ». En effet, les technologies de la parole, s’appuyant sur les possibilités qu’offre l’intelligence artificielle (IA), ambitionnent désormais de (re)donner leur voix à des millions de personnes subissant un trouble ou la perte de la parole.

La technologie de pointe liée à la parole sous-tend un énorme marché, extrêmement concurrentiel pour les produits intelligents. Selon le Smart Audio Report 2022¹, une étude annuelle commandée par la NPR et Edison Research, 62 % des Américains âgés de 18 ans et plus ont recours à l’assistance vocale sur au moins un type d’appareil. Pour les entreprises, il est essentiel que les utilisateurs soutiennent cette tendance, et ce, non seulement pour pérenniser leur marque de synthèse vocale, mais aussi pour tirer le meilleur parti des interactions directes entre les consommateurs et l’IA qui les écoute et leur répond sous la forme d’une conversation naturelle avec leur appareil.

Un processus de synthèse vocale complexe

La technologie de synthèse vocale a considérablement évolué depuis les systèmes d’encodage vocal ou vocodeurs développés il y a près d’un siècle dans le but de réduire la bande passante qu’utilisaient les transmissions par ligne téléphonique. Les vocodeurs d’aujourd’hui sont des sous-systèmes sophistiqués reposant sur des algorithmes d’apprentissage profond comme les réseaux neuronaux convolutifs (CNN). En pratique, ces vocodeurs neuronaux sont la dernière étape d’un processus de synthèse vocale complexe. Ils intègrent un modèle acoustique capable de conférer à la voix diverses caractéristiques permettant à l’auditeur de l’associer à un sexe, un âge et d’autres caractéristiques individuelles propres à une voix humaine. Dans cette chaîne, le modèle acoustique génère des caractéristiques acoustiques, généralement sous forme de spectrogrammes de Mel, qui transposent le domaine de fréquence linéaire dans un domaine considéré comme plus représentatif de la perception humaine. Ensuite, les vocodeurs neuronaux (comme WaveNet de Google DeepMind) utilisent ces caractéristiques acoustiques pour générer des formes d’onde de sortie audio de haute qualité.

L’industrie propose de nombreuses applications du text-to-speech (TTS), un système de conversion de texte écrit en texte parlé : applications mobiles téléchargeables, packages open source comme OpenTTS et services cloud multilingues complets comme Amazon Polly, Google Text-to-Speech et Microsoft Azure Text to Speech, pour n’en citer que quelques-uns. De nombreux packages et services TTS prennent en charge le SSML. Ce langage de balisage destiné aux applications de synthèse vocale est devenu le standard dans l’industrie, ce qui permet d’adopter une approche cohérente dans le développement d’applications de synthèse vocale utilisant des modèles de parole plus réalistes qui tiennent compte, notamment, des pauses, de la formulation, de l’emphase et de l’intonation.

Donner la parole à l’individu

De nos jours, le logiciel TTS permet de produire une voix synthétique d’une qualité nettement supérieure à la parole robotique produite par des appareils comme l’électrolarynx ou celui que le regretté Stephan Hawking continuait d’utiliser, malgré les progrès de la technologie de restitution de la voix². Malgré ces améliorations, les packages et services de ce type sont principalement utilisés pour fournir une interface vocale réaliste à des applications, des sites Web, des vidéos, des systèmes de réponse vocale automatisés, etc. La reproduction de la voix d’une personne en particulier, avec ses tons et ses modèles de discours propres, ne fait pas partie des principales applications du TTS.

Bien que certains services comme Google offrent la possibilité de créer une voix de synthèse à partir d’enregistrements fournis par l’utilisateur, ils ne sont pas conçus dans l’optique de rendre sa voix propre à une personne ayant perdu l’usage de la parole. Or, pour ces personnes, il s’agit d’un besoin impératif, car notre voix personnelle est intimement liée à notre identité. Une salutation « dite » transmet bien davantage d’informations que les mots en soi. Les conséquences de la perte de la parole dépassent largement le seul fait de ne pouvoir vocaliser les sons. Elles impliquent notamment une forte déconnexion des personnes concernées. La technologie émergente de synthèse vocale porte l’espoir d’offrir à ces personnes la possibilité d’interagir avec des tiers avec une voix qui leur est propre.

L’émergence du clonage de la voix

Pourtant, des efforts sont faits pour démocratiser l’accès à une voix de synthèse qui corresponde à la personnalité de son utilisateur. Par exemple, l’acteur Val Kilmer a révélé l’année dernière qu’après avoir perdu sa voix en raison d’une opération pour un cancer de la gorge, la société britannique Sonantic lui avait fourni une voix de synthèse que l’on pouvait reconnaître comme étant la sienne. Un autre exemple de clonage de voix qui fit parler de lui est celui de la voix du célèbre chef Anthony Bourdain. Dans un documentaire retraçant sa vie, on peut l’entendre dire un texte qu’il avait écrit, mais jamais prononcé de son vivant.

Un autre pionnier de la technologie vocale, VocalID, fournit des voix personnalisées qui peuvent être créées à partir des enregistrements qu’une personne peut consigner auprès de l’entreprise en prévision du moment où elle perdra sa voix ou à partir d’enregistrements vocaux réalisés par des bénévoles dont l’entreprise dispose déjà. Ces enregistrements sont sélectionnés en fonction de l’utilisateur. Celui-ci peut dès lors exécuter l’application de synthèse vocale personnalisée sur son appareil mobile IoS, Android ou Windows pour converser avec une voix qui lui est unique.

La technologie de clonage des voix évolue rapidement. Cet été, Amazon a démontré qu’il était possible de cloner une voix à partir d’échantillons audio de moins de 60 secondes. La démonstration d’Amazon fut présentée comme un moyen de faire revivre la voix de proches décédés, mais cette prouesse technique prouve avant tout que l’IA présente le potentiel de créer une sortie vocale empruntant une voix familière.

Étant donné le lien entre voix et identité, la génération d’une voix en haute fidélité constitue à la fois une belle réponse à des attentes et une menace. En effet, comme c’est déjà le cas dans le domaine de la vidéo, le deepfake appliqué à la voix humaine représente une menace importante en matière de sécurité. Il a déjà été rapporté qu’en 2020, une somme de 35 millions de dollars avait pu être détournée grâce un clone vocal de haute qualité. Il s’est avéré que le directeur de la banque avait procédé au transfert des fonds sur la foi d’une demande adressée par téléphone par une voix qu’il avait cru reconnaître, mais qui était en réalité un deepfake.

Conclusion

Compte tenu du potentiel commercial de cette technologie, les chercheurs (tant du secteur public que privé) planchent activement sur de nouvelles méthodes permettant de générer une voix de synthèse capable de reproduire toutes les nuances de la voix humaine afin d’accroître l’engagement du consommateur. En dehors de cette utilisation commerciale, la technologie avancée de synthèse vocale présente également un intérêt primordial pour des millions de personnes muettes de naissance ou ayant perdu l’usage de la parole à la suite d’un accident ou d’une maladie.

Sources

1. The Smart Audio Report. National Public Media, juin 2022. https://www.nationalpublicmedia.com/insights/reports/smart-audio-report

2. Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, 15 juillet 2021. https://beyondwords.io/blog/stephen-hawkings-voice

« Retour

Stephen Evanczuk's Blog

Publications liées

La nano-architectonique dans les applications de haute technologie

Les nanotechnologies existent depuis un certain temps déjà. Elles ont pris de nombreuses formes au fil des ans, depuis les techniques d’application de matériaux bruts à l’échelle nanométrique (par exemple la lithographie) jusqu’à la conception de matériaux hautement fonctionnels de 100 nm ou moins, voire de couches de matériaux d’un atome d’épaisseur. C’est donc un vaste domaine que celui des nanotechnologies. Du fait qu’il comprend des aspects de tous les domaines scientifiques traditionnels (biologie, chimie, physique et ingénierie), le champ d’application de la nanotechnologie et des nanomatériaux ne cesse de s’étendre.
Rapprocher l’IA des produits intelligents

Robots pour particuliers et robots industriels, lunettes de réalité augmentée, accès intelligent aux bâtiments ou aux données, véhicules autonomes… Les exemples ne manquent pas pour démontrer que les produits dotés d’une intelligence artificielle (IA) seront bientôt des éléments essentiels de notre société.
Capteurs imprimables : une technologie clé pour les appareils de santé wearables ?

L'adoption de dispositifs de surveillance des soins de santé qui sont à la fois souples et adaptés à l'utilisateur a gagné du terrain1. Stimulés par le besoin de soins à distance pendant la pandémie de COVID-19 et par les progrès technologiques en matière de précision des capteurs, les dispositifs de surveillance des soins de santé wearables sont de plus en plus répandus dans de nombreux domaines de la santé.
Les matériaux 2D peuvent-ils aider les concepteurs à construire des ordinateurs plus sophistiqués ?

Plus les technologies de calcul progressent et plus la puissance de calcul augmente, plus les composants informatiques se miniaturisent. Il faut reconnaître que les progrès réalisés dans le domaine du calcul au cours des deux dernières décennies sont tout simplement stupéfiants. Cela dit, l’utilisation de matériaux massifs pour réduire la taille des composants de calcul a ses limites.
Éclairages à LED: le chemin vers un avenir plus lumineux

Les LED ont parcouru un long chemin depuis leurs modestes débuts en tant que voyants lumineux et écrans de calculatrices.
L’impact de la nanotechnologie sur les dispositifs de stockage d’énergie

Longtemps, scientifiques et ingénieurs ont cherché par tous les moyens à améliorer le rendement des systèmes de stockage d’énergie. Plusieurs pistes ont ainsi été explorées : augmenter leur capacité de stockage, réduire leur taille physique, concevoir des systèmes à charge rapide et même des systèmes hybrides tout-en-un, par exemple les modules hybrides batterie-ultracondensateur.

Tags : apprentissage automatique, apprentissage profond, clonage vocal, ia, réseaux neuronaux, synthèse vocale, vocodeur

Mouser Blog | France

Le blog officiel de Mouser Electronics

Un processus de synthèse vocale complexe

Donner la parole à l’individu

L’émergence du clonage de la voix

Conclusion

Sources

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur

Mouser Blog | France

Le blog officiel de Mouser Electronics

Un processus de synthèse vocale complexe

Donner la parole à l’individu

L’émergence du clonage de la voix

Conclusion

Sources

Publications liées

La nano-architectonique dans les applications de haute technologie

Rapprocher l’IA des produits intelligents

Capteurs imprimables : une technologie clé pour les appareils de santé wearables ?

Les matériaux 2D peuvent-ils aider les concepteurs à construire des ordinateurs plus sophistiqués ?

Éclairages à LED: le chemin vers un avenir plus lumineux

L’impact de la nanotechnologie sur les dispositifs de stockage d’énergie

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur