Microsoft wprowadza głosy HD z ulepszoną ekspresją w Azure AI Speech

W zeszłym roku Microsoft zaprezentował superrealistyczne głosy AI przeznaczone do aplikacji konwersacyjnych, takich jak chatboty, asystenci głosowi, gry i inne. Dzięki Azure Speech SDK lub REST API deweloperzy mogli zintegrować te neuronowe głosy zamiany tekstu na mowę (TTS) ze swoimi aplikacjami. W ostatnich miesiącach Microsoft znacznie rozszerzył swoją ofertę, oferując obecnie ponad 500 neuronowych głosów w ponad 140 językach i ustawieniach regionalnych.

Dzisiaj Microsoft wprowadził ulepszoną wersję HD swojej neuronowej usługi text-to-speech dla wybranych głosów. Te nowe głosy HD zwiększają ogólną ekspresję poprzez wykrywanie emocji, które bierze pod uwagę kontekst tekstu wejściowego. Microsoft twierdzi, że te najnowsze głosy HD wykorzystują autoregresywne modele języka transformatorowego, produkując mowę, która jest zgodna z barwą głosu wybranej platformy. Zalety nowych głosów HD obejmują:

Generowanie mowy zbliżonej do ludzkiej : Udoskonalony model dokładnie interpretuje wprowadzany tekst i rozumie ukryte emocje, co pozwala mu na bieżąco dostosowywać ton wypowiedzi do przekazywanych emocji.
Konwersacyjny : Ten nowy model generuje spontaniczne pauzy i naciski. Microsoft podkreśla, że może replikować typowe fonemy, takie jak pauzy i słowa wypełniające.
Zmiany prozodii : System głosowy HD wprowadza niewielkie zmiany w każdym wyjściu, zwiększając realizm poprzez zapewnienie, że każde zdanie brzmi inaczej niż poprzednio wygenerowana mowa.

Garfield He, kierownik programu Cognitive Services Speech w firmie Microsoft, tak skomentował wprowadzenie głosu HD:

„Dzięki innowacyjnej technologii, która wykorzystuje cechy akustyczne i językowe do generowania mowy charakteryzującej się bogatymi, naturalnymi wariacjami, umiejętnie wykrywa wskazówki emocjonalne w tekście i autonomicznie dostosowuje ton i styl głosu. Ta aktualizacja zapewnia bardziej ludzki wzór mowy, charakteryzujący się ulepszoną intonacją, rytmem i emocjami”.

Przykładową zawartość audio wygenerowaną za pomocą tego modelu głosu HD można zobaczyć na poniższym filmie.

https://www.youtube.com/watch?v=UCYok4I4a24

PodCast content creation with Azure neural HD voices and GPT (Andrew & Emma) (https://www.youtube.com/watch?v=UCYok4I4a24)

Nowe głosy HD są obecnie dostępne w wersji zapoznawczej dla deweloperów w trzech regionach: East US, West Europe i Southeast Asia. Koszt wykorzystania tych głosów HD ustalono na 30 USD za 1 milion znaków.