Microsoft présente des voix HD avec une expressivité améliorée dans Azure AI Speech

L’année dernière, Microsoft a dévoilé des voix d’IA ultra-réalistes conçues pour les applications conversationnelles, telles que les chatbots, les assistants vocaux, les jeux, etc. Grâce au SDK Azure Speech ou à l’API REST, les développeurs peuvent intégrer ces voix neuronales de synthèse vocale (TTS) dans leurs applications. Ces derniers mois, Microsoft a considérablement élargi son offre, proposant désormais plus de 500 voix neuronales dans plus de 140 langues et régions.

Aujourd’hui, Microsoft a présenté une version HD améliorée de son service de synthèse vocale neuronale pour certaines voix. Ces nouvelles voix HD améliorent l’expressivité globale grâce à une détection des émotions qui prend en compte le contexte du texte saisi. Microsoft affirme que ces dernières voix HD utilisent des modèles de langage à transformateur auto-régressif, produisant une parole qui s’aligne sur le timbre de la voix de la plateforme sélectionnée. Les avantages des nouvelles voix HD incluent :

Génération de discours de type humain : le modèle mis à niveau interprète avec précision le texte d’entrée et comprend le sentiment sous-jacent, lui permettant d’ajuster le ton de la parole en temps réel pour correspondre à l’émotion transmise.
Conversationnel : Ce nouveau modèle génère des pauses et des accentuations spontanées. Microsoft souligne qu’il peut reproduire des phonèmes courants tels que les pauses et les mots de remplissage.
Variations de prosodie : le système vocal HD introduit de légères variations dans chaque sortie, améliorant le réalisme en garantissant que chaque phrase sonne différemment de la parole générée précédemment.

Garfield He, responsable du programme Cognitive Services Speech chez Microsoft, a commenté le lancement de la voix HD :

« Grâce à une technologie innovante qui utilise des caractéristiques acoustiques et linguistiques pour générer un discours caractérisé par des variations riches et naturelles, elle détecte habilement les signaux émotionnels dans le texte et ajuste de manière autonome le ton et le style de la voix. Cette mise à niveau offre un modèle de parole plus humain marqué par une intonation, un rythme et des émotions améliorés. »

Un exemple de contenu audio généré avec ce modèle de voix HD peut être trouvé dans la vidéo ci-dessous.

https://www.youtube.com/watch?v=UCYok4I4a24

Les nouvelles voix HD sont actuellement disponibles en avant-première pour les développeurs de trois régions : l’Est des États-Unis, l’Europe de l’Ouest et l’Asie du Sud-Est. Le coût d’utilisation de ces voix HD est fixé à 30 $ par million de caractères.

Source : Microsoft

Source