Microsoft presenta voces HD con expresividad mejorada en Azure AI Speech

El año pasado, Microsoft presentó voces de IA superrealistas diseñadas para aplicaciones conversacionales, como chatbots, asistentes de voz, juegos y más. Con el SDK de Azure Speech o la API REST, los desarrolladores podían integrar estas voces neuronales de texto a voz (TTS) en sus aplicaciones. En los últimos meses, Microsoft ha ampliado significativamente su oferta y ahora cuenta con más de 500 voces neuronales en más de 140 idiomas y configuraciones regionales.

Hoy, Microsoft presentó una versión HD mejorada de su servicio de texto a voz neuronal para voces seleccionadas. Estas nuevas voces HD mejoran la expresividad general mediante la detección de emociones que tiene en cuenta el contexto del texto de entrada. Microsoft afirma que estas últimas voces HD utilizan modelos de lenguaje de transformación autorregresiva, lo que produce un habla que se alinea con el timbre de voz de la plataforma seleccionada. Las ventajas de las nuevas voces HD incluyen:

Generación de voz similar a la humana : el modelo mejorado interpreta con precisión el texto de entrada y comprende el sentimiento subyacente, lo que le permite ajustar el tono de habla en tiempo real para que coincida con la emoción transmitida.
Conversacional : Este nuevo modelo genera pausas espontáneas y énfasis. Microsoft destaca que puede replicar fonemas comunes como pausas y palabras de relleno.
Variaciones de prosodia : el sistema de voz HD introduce ligeras variaciones en cada salida, mejorando el realismo al garantizar que cada oración suene diferente del habla generada previamente.

Garfield He, gerente del programa Cognitive Services Speech de Microsoft, comentó sobre el lanzamiento de HD Voice:

“Con una tecnología innovadora que emplea características acústicas y lingüísticas para generar un habla caracterizada por variaciones naturales y ricas, detecta hábilmente las señales emocionales dentro del texto y ajusta de manera autónoma el tono y el estilo de la voz. Esta actualización ofrece un patrón de habla más parecido al humano, marcado por una entonación, un ritmo y una emoción mejorados”.

En el siguiente vídeo se puede encontrar una muestra del contenido de audio generado con este modelo de voz HD.

https://www.youtube.com/watch?v=UCYok4I4a24

Las nuevas voces en HD se encuentran actualmente en versión preliminar para desarrolladores en tres regiones: este de EE. UU., Europa occidental y sudeste asiático. El costo de utilizar estas voces en HD se establece en $30 por cada millón de caracteres.

Fuente: Microsoft

Fuente