Microsoft, Azure AI Speech에서 향상된 표현력을 갖춘 HD Voices 출시

작년에 Microsoft는 챗봇, 음성 비서, 게임 등과 같은 대화형 애플리케이션을 위해 설계된 매우 사실적인 AI 음성을 공개했습니다 . Azure Speech SDK 또는 REST API를 사용하면 개발자는 이러한 신경망 텍스트 음성 변환(TTS) 음성을 애플리케이션에 통합할 수 있습니다. 최근 몇 달 동안 Microsoft는 제공 범위를 크게 확장하여 현재 140개 이상의 언어와 로캘에 걸쳐 500개 이상의 신경망 음성을 자랑합니다.

오늘 Microsoft는 일부 음성에 대한 신경 텍스트-음성 서비스의 향상된 HD 버전을 출시했습니다. 이 새로운 HD 음성은 입력 텍스트의 맥락을 고려하는 감정 감지를 통해 전반적인 표현력을 향상시킵니다. Microsoft는 이 최신 HD 음성이 자동 회귀 변환기 언어 모델을 활용하여 선택한 플랫폼의 음성 음색과 일치하는 음성을 생성한다고 주장합니다. 새로운 HD 음성의 장점은 다음과 같습니다.

사람과 같은 음성 생성 : 업그레이드된 모델은 입력 텍스트를 정확하게 해석하고 근본적인 감정을 이해하여 전달되는 감정에 맞게 실시간으로 말투를 조정할 수 있습니다.
대화형 : 이 새로운 모델은 자발적인 멈춤과 강조를 생성합니다. Microsoft는 멈춤과 필러 단어와 같은 일반적인 음소를 복제할 수 있다고 강조합니다.
음성학적 변화 : HD 음성 시스템은 각 출력에 미묘한 차이를 도입하여 모든 문장이 이전에 생성된 음성과 다르게 들리도록 보장하여 현실감을 높입니다.

Microsoft의 Cognitive Services Speech 프로그램 관리자인 Garfield He는 HD 음성 출시에 대해 다음과 같이 언급했습니다.

“음향 및 언어적 특징을 활용하여 풍부하고 자연스러운 변형이 특징인 음성을 생성하는 혁신적인 기술을 통해 텍스트 내의 감정적 단서를 능숙하게 감지하고 음성의 톤과 스타일을 자율적으로 조정합니다. 이 업그레이드는 향상된 음조, 리듬 및 감정이 특징인 보다 인간적인 음성 패턴을 제공합니다.”

이 HD 음성 모델로 생성된 샘플 오디오 콘텐츠는 아래 비디오에서 확인할 수 있습니다.

https://www.youtube.com/watch?v=UCYok4I4a24

PodCast content creation with Azure neural HD voices and GPT (Andrew & Emma) (https://www.youtube.com/watch?v=UCYok4I4a24)

새로운 HD 음성은 현재 동부 미국, 서부 유럽, 동남아시아의 세 지역에서 개발자를 대상으로 미리보기 중입니다. 이러한 HD 음성을 사용하는 데 드는 비용은 100만 자당 30달러로 설정되어 있습니다.

출처: Microsoft

원천