
微軟在 Azure OpenAI 服務中推出創新的 GPT-4o 迷你音訊模型
微軟最近發布了兩種先進的音訊模型——GPT-4o-Mini-Realtime-Preview 和 GPT-4o-Mini-Audio-Preview。 Azure OpenAI 服務的這些創新功能有望重新定義語音驅動的互動並增強 AI 產生的內容。
革命性的即時語音交互
GPT-4o-Mini-Realtime-Preview模型為即時語音互動設立了新的標準。透過這種模型,開發人員能夠創建適合客戶服務機器人和智慧虛擬助理等應用程式的沉浸式語音體驗。其先進的音訊處理功能促進了自然的交流,顯著提高了響應時間。
經濟高效的音訊解決方案
另一方面,GPT-4o-Mini-Audio-Preview型號提供了一種經濟實惠的替代方案,同時提供了卓越的音訊互動品質。該模型為企業利用人工智慧驅動的音訊功能打開了大門,從情感分析到將文字轉換為引人入勝的音訊內容——與現有的 GPT-4o 音訊模型相比,所有這些的成本只是其中的一小部分。
具有 GPT-4o-Audio 預覽模型的聊天完成 API 旨在透過結合自然音訊元素來改變使用者與 AI 互動的方式,為需要細緻理解和回應產生的應用程式增加深度。
廣泛應用於各行業
Azure OpenAI 資深產品經理 Allan Carranza 強調,這些模式與現有的 Realtime API 和 Chat Completion API 的整合可確保為使用者提供無縫的體驗。這些模型的應用範圍涉及多個領域;例如,語音機器人和虛擬助理現在可以提供更精確的答案,從而提高客戶滿意度。
此外,電玩遊戲開發、播客和電影製作領域的內容創作者可以期待看到他們的工作流程透過先進的語音生成而顯著簡化。卡蘭薩強調了醫療保健和法律服務利用這項技術進行即時音訊翻譯的潛力,可以有效地彌合語言差距。
與即時 API 和聊天完成 API 相關的 GPT 4o 模型都支援音訊和語音功能,每個模型都為 AI 驅動的使用者體驗提供了獨特的功能。
新車型上市
新的 GPT-4o-Mini-Realtime-Preview 和 GPT-4o-Mini-Audio-Preview 模型現在可以在 Azure AI Foundry 中公開預覽。鼓勵企業和開發人員探索這些變革工具來增強他們的應用程式。
發佈留言 ▼