Le nouveau modèle vocal d’IA de Microsoft : un potentiel changement pour les deepfakes

Améliorations d’Azure AI Speech : Présentation du modèle neuronal TTS DragonV2.1

Microsoft a dévoilé une mise à niveau significative de ses fonctionnalités Azure AI Speech avec le lancement du modèle de synthèse vocale neuronale DragonV2.1. Ce modèle « zero-shot » révolutionne la synthèse vocale en permettant la génération de voix expressives et naturelles à partir d’un minimum de données d’entrée. Ces améliorations promettent une précision de prononciation supérieure et un contrôle accru des caractéristiques vocales, établissant ainsi une nouvelle norme en matière de technologie vocale.

Principales caractéristiques de DragonV2.1

Le modèle DragonV2.1 mis à niveau prend en charge la synthèse vocale dans plus de 100 langues, ne nécessitant qu’un bref échantillon de la voix de l’utilisateur pour un fonctionnement efficace. Cette fonctionnalité marque une avancée significative par rapport au modèle DragonV1 précédent, qui rencontrait des difficultés de prononciation, notamment pour les entités nommées.

DragonV2.1 dispose d’une large gamme d’applications, notamment :

Personnalisation des voix pour les chatbots
Doublage de contenu vidéo avec la voix originale d’un acteur dans de nombreuses langues

Amélioration du naturel et du contrôle

L’une des caractéristiques marquantes du nouveau modèle est sa capacité à créer une prosodie plus réaliste et plus stable, offrant ainsi une expérience d’écoute améliorée. Microsoft signale une réduction moyenne notable de 12, 8 % du taux d’erreurs verbales (WER) par rapport à son prédécesseur, DragonV1. Les utilisateurs peuvent contrôler avec précision divers aspects de la prononciation et de l’accent grâce aux balises phonémiques SSML (Speech Synthesis Markup Language) et aux lexiques personnalisés.

Préoccupations concernant les deepfakes et stratégies d’atténuation

Si ces avancées offrent des perspectives prometteuses, elles suscitent également des inquiétudes quant à l’utilisation abusive potentielle de cette technologie pour la création de deepfakes. Pour lutter contre ces risques, Microsoft a mis en place des politiques d’utilisation strictes exigeant des utilisateurs qu’ils obtiennent le consentement explicite du propriétaire de la voix d’origine, qu’ils divulguent les contenus générés de manière synthétique et qu’ils interdisent toute forme d’usurpation d’identité ou de tromperie.

De plus, Microsoft introduit des filigranes automatiques dans la synthèse vocale. Cette fonctionnalité affiche une précision de détection impressionnante de 99, 7 % dans divers scénarios de manipulation audio, renforçant ainsi la sécurité contre toute utilisation abusive des voix générées par l’IA.

Premiers pas avec Azure AI Speech

Pour découvrir les fonctionnalités de la fonction vocale personnalisée, les utilisateurs intéressés peuvent l’essayer sur Speech Studio. Les entreprises souhaitant un accès complet à l’API peuvent également postuler ici pour intégrer ces fonctionnalités avancées à leurs applications.

Image via Depositphotos.com

Source et images