Microsoft apresenta vozes HD com expressividade aprimorada no Azure AI Speech

No ano passado, a Microsoft revelou vozes de IA super-realistas projetadas para aplicativos de conversação, como chatbots, assistentes de voz, jogos e muito mais. Com o Azure Speech SDK ou REST API, os desenvolvedores podem integrar essas vozes neurais de texto para fala (TTS) em seus aplicativos. Nos últimos meses, a Microsoft expandiu significativamente suas ofertas, agora ostentando mais de 500 vozes neurais em mais de 140 idiomas e localidades.

Hoje, a Microsoft apresentou uma versão HD aprimorada do seu serviço neural text-to-speech para vozes selecionadas. Essas novas vozes HD aprimoram a expressividade geral por meio da detecção de emoções que considera o contexto do texto de entrada. A Microsoft afirma que essas últimas vozes HD utilizam modelos de linguagem de transformador auto-regressivo, produzindo fala que se alinha com o timbre de voz da plataforma selecionada. As vantagens das novas vozes HD incluem:

Geração de fala semelhante à humana : o modelo atualizado interpreta com precisão o texto de entrada e entende o sentimento subjacente, permitindo ajustar o tom de fala em tempo real para corresponder à emoção transmitida.
Conversacional : Este novo modelo gera pausas espontâneas e ênfase. A Microsoft destaca que ele pode replicar fonemas comuns, como pausas e palavras de preenchimento.
Variações de prosódia : O sistema de voz HD introduz pequenas variações em cada saída, aumentando o realismo ao garantir que cada frase soe diferente da fala gerada anteriormente.

Garfield He, gerente do programa Cognitive Services Speech da Microsoft, comentou sobre o lançamento do HD Voice:

“Com tecnologia inovadora que emprega recursos acústicos e linguísticos para gerar fala caracterizada por variações ricas e naturais, ele habilmente detecta pistas emocionais dentro do texto e ajusta autonomamente o tom e o estilo da voz. Esta atualização fornece um padrão de fala mais humano, marcado por entonação, ritmo e emoção aprimorados.”

Um exemplo de conteúdo de áudio gerado com este modelo de voz HD pode ser encontrado no vídeo abaixo.

https://www.youtube.com/watch?v=UCYok4I4a24

As novas vozes HD estão atualmente em pré-visualização para desenvolvedores em três regiões: Leste dos EUA, Oeste da Europa e Sudeste Asiático. O custo para utilizar essas vozes HD é definido em US$ 30 por 1 milhão de caracteres.

Fonte: Microsoft

Fonte