Novo modelo de voz de IA da Microsoft: uma potencial mudança de jogo para deepfakes

Melhorias no Azure AI Speech: Apresentando o Modelo Neural TTS do DragonV2.1

A Microsoft revelou uma atualização significativa para seus recursos de IA do Azure com o lançamento do modelo de conversão de texto em fala (TTS) Neural DragonV2.1. Este modelo “zero-shot” revoluciona a síntese de voz, permitindo a geração de vozes expressivas e naturais a partir de um mínimo de dados de entrada. Os aprimoramentos prometem proporcionar precisão de pronúncia superior e maior controle sobre as características da voz, estabelecendo um novo padrão em tecnologia de voz.

Principais recursos do DragonV2.1

O modelo atualizado do DragonV2.1 suporta síntese de fala em mais de 100 idiomas, exigindo apenas um breve exemplo da voz do usuário para uma operação eficaz. Essa capacidade representa uma evolução significativa em relação ao modelo anterior do DragonV1, que enfrentava desafios de pronúncia, principalmente em relação a entidades nomeadas.

O DragonV2.1 tem uma ampla gama de aplicações, incluindo:

Personalização de vozes para chatbots
Dublagem de conteúdo de vídeo na voz original de um ator em vários idiomas

Naturalidade e controle aprimorados

Um dos recursos de destaque do novo modelo é a capacidade de criar prosódias mais realistas e estáveis, resultando em experiências auditivas aprimoradas. A Microsoft relata uma redução média notável de 12, 8% na Taxa de Erros de Palavras (WER) em comparação com seu antecessor, o DragonV1. Os usuários podem exercer um controle preciso sobre vários aspectos da pronúncia e do sotaque por meio de marcadores fonêmicos da Linguagem de Marcação de Síntese de Fala (SSML) e léxicos personalizados.

Preocupações sobre Deepfakes e Estratégias de Mitigação

Embora os avanços ofereçam oportunidades empolgantes, eles também levantam preocupações sobre o potencial uso indevido dessa tecnologia para a criação de deepfakes. Para combater esses riscos, a Microsoft implementou políticas de uso rigorosas que exigem que os usuários obtenham o consentimento explícito do proprietário original da voz, divulguem quando o conteúdo é gerado sinteticamente e proíbam qualquer forma de personificação ou engano.

Além disso, a Microsoft está introduzindo marcas d’água automáticas na saída de voz sintetizada. Esse recurso apresenta uma impressionante precisão de detecção de 99, 7% em vários cenários de manipulação de áudio, aumentando a segurança contra o uso indevido de vozes geradas por IA.

Introdução ao Azure AI Speech

Para explorar os recursos do recurso de voz pessoal, usuários interessados podem experimentá-lo no Speech Studio. Além disso, empresas que buscam acesso total à API podem se inscrever aqui para integrar esses recursos avançados em seus aplicativos.

Imagem via Depositphotos.com

Fonte e Imagens