Il nuovo modello vocale AI di Microsoft: un potenziale punto di svolta per i deepfake

Miglioramenti in Azure AI Speech: introduzione del modello TTS neurale DragonV2.1

Microsoft ha presentato un significativo aggiornamento delle funzionalità di Azure AI Speech con il lancio del modello di sintesi vocale neurale DragonV2.1. Questo modello “zero-shot” rivoluziona la sintesi vocale consentendo la generazione di voci espressive e naturali a partire da un numero minimo di dati di input. I miglioramenti promettono di offrire una precisione di pronuncia superiore e un controllo migliorato sulle caratteristiche vocali, stabilendo un nuovo standard nella tecnologia vocale.

Caratteristiche principali di DragonV2.1

Il modello DragonV2.1 aggiornato supporta la sintesi vocale in oltre 100 lingue, richiedendo solo un breve esempio della voce dell’utente per un funzionamento efficace. Questa funzionalità segna un significativo progresso rispetto al precedente modello DragonV1, che presentava difficoltà di pronuncia, in particolare per quanto riguarda le entità nominate.

DragonV2.1 ha una vasta gamma di applicazioni, tra cui:

Personalizzazione delle voci per i chatbot
Doppiaggio di contenuti video con la voce originale di un attore in numerose lingue

Naturalezza e controllo migliorati

Una delle caratteristiche più importanti del nuovo modello è la sua capacità di creare una prosodia più realistica e stabile, che si traduce in esperienze di ascolto migliorate. Microsoft segnala una notevole riduzione media del 12, 8% nel tasso di errore di parola (WER) rispetto al suo predecessore, Dragon V1. Gli utenti possono esercitare un controllo dettagliato su vari aspetti della pronuncia e dell’accento tramite tag fonemici SSML (Speech Synthesis Markup Language) e lessici personalizzati.

Preoccupazioni sui deepfake e sulle strategie di mitigazione

Sebbene questi progressi offrano interessanti opportunità, sollevano anche preoccupazioni circa il potenziale uso improprio di questa tecnologia per la creazione di deepfake. Per contrastare questi rischi, Microsoft ha implementato rigide policy di utilizzo che richiedono agli utenti di ottenere il consenso esplicito del proprietario originale della voce, di dichiarare quando il contenuto viene generato sinteticamente e di vietare qualsiasi forma di impersonificazione o inganno.

Inoltre, Microsoft sta introducendo filigrane automatiche nell’output vocale sintetizzato. Questa funzionalità vanta un’incredibile precisione di rilevamento del 99, 7% in vari scenari di manipolazione audio, migliorando la sicurezza contro l’uso improprio delle voci generate dall’intelligenza artificiale.

Introduzione ad Azure AI Speech

Per esplorare le potenzialità della funzionalità vocale personale, gli utenti interessati possono provarla su Speech Studio. Inoltre, le aziende che desiderano un accesso completo all’API possono fare domanda qui per integrare queste funzionalità avanzate nelle loro applicazioni.

Immagine tramite Depositphotos.com

Fonte e immagini