Microsoft führt HD-Stimmen mit verbesserter Ausdruckskraft in Azure AI Speech ein

Letztes Jahr stellte Microsoft superrealistische KI-Stimmen vor , die für Konversationsanwendungen wie Chatbots, Sprachassistenten, Spiele und mehr entwickelt wurden. Mit dem Azure Speech SDK oder der REST-API konnten Entwickler diese neuronalen Text-to-Speech-Stimmen (TTS) in ihre Anwendungen integrieren. In den letzten Monaten hat Microsoft sein Angebot deutlich erweitert und bietet nun über 500 neuronale Stimmen in mehr als 140 Sprachen und Gebietsschemas.

Heute hat Microsoft eine verbesserte HD-Version seines neuronalen Text-to-Speech-Dienstes für ausgewählte Stimmen vorgestellt. Diese neuen HD-Stimmen verbessern die allgemeine Ausdruckskraft durch Emotionserkennung, die den Kontext des Eingabetextes berücksichtigt. Microsoft behauptet, dass diese neuesten HD-Stimmen autoregressive Transformer-Sprachmodelle verwenden und Sprache erzeugen, die mit der Stimmfarbe der ausgewählten Plattform übereinstimmt. Zu den Vorteilen der neuen HD-Stimmen gehören:

Menschliche Sprachgenerierung : Das verbesserte Modell interpretiert eingegebenen Text präzise und versteht die zugrunde liegende Stimmung, sodass es den Sprechton in Echtzeit an die übermittelte Emotion anpassen kann.
Konversationell : Dieses neue Modell erzeugt spontane Pausen und Betonungen. Microsoft hebt hervor, dass es gängige Phoneme wie Pausen und Füllwörter replizieren kann.
Prosodievariationen : Das HD-Sprachsystem führt in jeder Ausgabe leichte Variationen ein und erhöht den Realismus, indem sichergestellt wird, dass jeder Satz anders klingt als die zuvor generierte Sprache.

Garfield He, Cognitive Services Speech-Programmmanager bei Microsoft, kommentierte die Einführung von HD Voice wie folgt:

„Mit innovativer Technologie, die akustische und linguistische Merkmale nutzt, um Sprache mit reichhaltigen, natürlichen Variationen zu erzeugen, erkennt es gekonnt emotionale Hinweise im Text und passt Ton und Stil der Stimme selbstständig an. Dieses Upgrade liefert ein menschlicheres Sprachmuster, das durch verbesserte Intonation, Rhythmus und Emotion gekennzeichnet ist.“

Beispiele für mit diesem HD-Sprachmodell generierte Audioinhalte finden Sie im folgenden Video.

https://www.youtube.com/watch?v=UCYok4I4a24

Die neuen HD-Stimmen stehen Entwicklern derzeit in drei Regionen als Vorschau zur Verfügung: Ost-USA, Westeuropa und Südostasien. Die Kosten für die Nutzung dieser HD-Stimmen betragen 30 US-Dollar pro 1 Million Zeichen.

Quelle: Microsoft

Quelle