El nuevo modelo de voz con inteligencia artificial de Microsoft: un potencial punto de inflexión para los deepfakes

Mejoras en Azure AI Speech: Presentación del modelo TTS neuronal DragonV2.1

Microsoft ha presentado una importante actualización de sus capacidades de voz con IA de Azure con el lanzamiento del modelo de texto a voz (TTS) neuronal DragonV2.1. Este modelo de cero disparos revoluciona la síntesis de voz al permitir la generación de voces expresivas y naturales a partir de datos de entrada mínimos. Las mejoras prometen una precisión de pronunciación superior y un mayor control sobre las características de la voz, estableciendo un nuevo estándar en la tecnología de voz.

Características principales de DragonV2.1

El modelo DragonV2.1 actualizado admite la síntesis de voz en más de 100 idiomas, requiriendo solo una breve muestra de la voz del usuario para un funcionamiento eficaz. Esta capacidad supone un avance significativo respecto al modelo DragonV1 anterior, que presentaba dificultades con la pronunciación, especialmente en lo que respecta a las entidades con nombre.

DragonV2.1 tiene una amplia gama de aplicaciones, que incluyen:

Personalización de voces para chatbots
Doblaje de contenido de video con la voz original de un actor en varios idiomas

Naturalidad y control mejorados

Una de las características destacadas del nuevo modelo es su capacidad para crear una prosodia más realista y estable, lo que se traduce en una experiencia auditiva mejorada. Microsoft informa de una notable reducción promedio del 12, 8 % en la tasa de error de palabras (WER) en comparación con su predecesor, Dragon V1. Los usuarios pueden ejercer un control preciso sobre diversos aspectos de la pronunciación y el acento mediante etiquetas de fonemas y léxicos personalizados del Lenguaje de Marcado de Síntesis de Voz (SSML).

Preocupaciones sobre los deepfakes y estrategias de mitigación

Si bien estos avances ofrecen oportunidades interesantes, también generan inquietud sobre el posible uso indebido de esta tecnología para crear deepfakes. Para combatir estos riesgos, Microsoft ha implementado estrictas políticas de uso que exigen a los usuarios obtener el consentimiento explícito del propietario original de la voz, informar sobre la generación sintética de contenido y prohibir cualquier forma de suplantación de identidad o engaño.

Además, Microsoft está introduciendo marcas de agua automáticas en la salida de voz sintetizada. Esta función ofrece una impresionante precisión de detección del 99, 7 % en diversas situaciones de manipulación de audio, lo que mejora la seguridad contra el uso indebido de las voces generadas por IA.

Introducción a Azure AI Speech

Para explorar las capacidades de la función de voz personal, los usuarios interesados pueden probarla en Speech Studio. Además, las empresas que buscan acceso completo a la API pueden solicitar aquí la integración de estas funciones avanzadas en sus aplicaciones.

Imagen vía Depositphotos.com

Fuente e imágenes