Nowy model głosu AI firmy Microsoft: potencjalny przełom w przypadku deepfake’ów

Nowy model głosu AI firmy Microsoft: potencjalny przełom w przypadku deepfake’ów

Ulepszenia w Azure AI Speech: wprowadzenie neuronowego modelu TTS DragonV2.1

Firma Microsoft zaprezentowała znaczącą aktualizację możliwości platformy Azure AI Speech, wprowadzając na rynek neuronowy model syntezy mowy (TTS) DragonV2.1. Ten model bezstratny rewolucjonizuje syntezę głosu, umożliwiając generowanie ekspresyjnych i naturalnie brzmiących głosów przy użyciu minimalnej ilości danych wejściowych. Udoskonalenia obiecują zapewnić najwyższą dokładność wymowy i lepszą kontrolę nad charakterystyką głosu, wyznaczając nowy standard w technologii głosowej.

Główne cechy DragonV2.1

Ulepszony model DragonV2.1 obsługuje syntezę mowy w ponad 100 językach, wymagając jedynie krótkiego przykładu głosu użytkownika do efektywnego działania. Ta funkcja stanowi znaczący postęp w porównaniu z wcześniejszym modelem DragonV1, który borykał się z problemami z wymową, szczególnie w odniesieniu do jednostek nazwanych.

DragonV2.1 ma szeroki zakres zastosowań, w tym:

  • Dostosowywanie głosów dla chatbotów
  • Podkładanie głosu w treściach wideo w oryginalnym głosie aktora w wielu językach

Poprawiona naturalność i kontrola

Jedną z wyróżniających cech nowego modelu jest możliwość tworzenia bardziej realistycznej i stabilnej prozodii, co przekłada się na lepsze wrażenia słuchowe. Microsoft odnotowuje znaczącą średnią redukcję współczynnika błędów w słowach (WER) o 12, 8% w porównaniu z poprzednim modelem, DragonV1. Użytkownicy mogą precyzyjnie kontrolować różne aspekty wymowy i akcentu dzięki znacznikom fonemów SSML (Speech Synthesis Markup Language) i dostosowanym leksykonom.

Obawy dotyczące deepfake’ów i strategii łagodzenia ich skutków

Choć postęp technologiczny stwarza ekscytujące możliwości, budzi on również obawy dotyczące potencjalnego nadużycia tej technologii do tworzenia deepfake’ów. Aby przeciwdziałać tym zagrożeniom, Microsoft wdrożył surowe zasady użytkowania, które wymagają od użytkowników uzyskania wyraźnej zgody od pierwotnego właściciela głosu, ujawniania, kiedy treść jest generowana syntetycznie, oraz zakazują wszelkich form podszywania się pod kogoś lub oszustwa.

Ponadto Microsoft wprowadza automatyczne znaki wodne w syntezowanym dźwięku. Funkcja ta charakteryzuje się imponującą dokładnością wykrywania na poziomie 99, 7% w różnych scenariuszach manipulacji dźwiękiem, zwiększając bezpieczeństwo przed niewłaściwym wykorzystaniem głosów generowanych przez sztuczną inteligencję.

Wprowadzenie do usługi Azure AI Speech

Aby poznać możliwości funkcji osobistego głosu, zainteresowani użytkownicy mogą wypróbować ją w Speech Studio. Dodatkowo firmy poszukujące pełnego dostępu do API mogą zgłosić się tutaj, aby zintegrować te zaawansowane funkcje ze swoimi aplikacjami.

Zdjęcie za pośrednictwem Depositphotos.com

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *