마이크로소프트의 새로운 AI 음성 모델: 딥페이크의 판도를 바꿀 잠재력

마이크로소프트의 새로운 AI 음성 모델: 딥페이크의 판도를 바꿀 잠재력

Azure AI Speech의 향상된 기능: DragonV2.1 Neural TTS 모델 소개

Microsoft는 DragonV2.1 Neural 텍스트 음성 변환(TTS) 모델을 출시하며 Azure AI Speech 기능을 대폭 업그레이드했습니다.이 제로샷 모델은 최소한의 입력 데이터로 표현력이 풍부하고 자연스러운 음성을 생성하여 음성 합성에 혁신을 가져왔습니다.이러한 향상된 기능은 탁월한 발음 정확도와 향상된 음성 특성 제어 기능을 제공하여 음성 기술의 새로운 기준을 제시할 것입니다.

DragonV2.1의 주요 기능

업그레이드된 DragonV2.1 모델은 100개 이상의 언어에 대한 음성 합성을 지원하며, 효과적인 작동을 위해 사용자 음성의 간단한 예시만 필요합니다.이 기능은 특히 명명된 개체와 관련하여 발음에 어려움을 겪었던 이전 DragonV1 모델에 비해 상당한 발전을 보여줍니다.

DragonV2.1은 다음을 포함한 광범위한 응용 프로그램을 제공합니다.

  • 챗봇 음성 사용자 정의
  • 다양한 언어로 배우의 원래 목소리로 비디오 콘텐츠를 더빙합니다.

향상된 자연스러움과 제어력

새 모델의 가장 큰 특징 중 하나는 더욱 사실적이고 안정적인 운율을 구현하여 향상된 청취 경험을 제공한다는 것입니다. Microsoft는 이전 모델인 DragonV1에 비해 단어 오류율(WER)이 평균 12.8% 감소했다고 보고했습니다.사용자는 음성 합성 마크업 언어(SSML) 음소 태그와 맞춤형 어휘집을 통해 발음과 억양의 다양한 측면을 세밀하게 제어할 수 있습니다.

딥페이크에 대한 우려와 완화 전략

이러한 발전은 흥미로운 기회를 제공하지만, 딥페이크 제작에 이 기술이 악용될 가능성에 대한 우려도 제기합니다.이러한 위험을 방지하기 위해 Microsoft는 사용자가 원음 소유자의 명시적인 동의를 얻고, 콘텐츠가 합성적으로 생성될 경우 이를 공개하며, 모든 형태의 사칭이나 사기 행위를 금지하는 엄격한 사용 정책을 시행하고 있습니다.

또한, Microsoft는 합성 음성 출력에 자동 워터마크를 도입합니다.이 기능은 다양한 오디오 조작 시나리오에서 99.7%의 뛰어난 탐지 정확도를 자랑하며, AI가 생성한 음성의 오용으로부터 보안을 강화합니다.

Azure AI Speech 시작하기

개인 음성 기능의 기능을 자세히 알아보고 싶으시다면 Speech Studio 에서 직접 체험해 보세요.또한, API 전체 이용 권한을 원하는 기업은 여기에서 신청하여 이러한 고급 기능을 자사 애플리케이션에 통합할 수 있습니다.

이미지 출처: Depositphotos.com

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다