阿里巴巴最新人工智慧在多項基準測試中擊敗 GPT-3.5，Claude

這不是投資建議。作者沒有持有上述任何股票的部位。

2024年標誌著全球人工智慧競賽的強勁開局，中國科技巨頭阿里巴巴集團也宣布了其Qwen人工智慧模型的最新迭代。除了世界上最知名的人工智慧聊天機器人 OpenAI 的 ChatGPT 之外，Meta 的 Llama 和亞馬遜合作夥伴 Anthropic 的 Claude 等其他模式是消費者和企業在選擇滿足其需求的人工智慧平台時的幾種選擇。

阿里巴巴最新的 Qwen 迭代是 Qwen 1.5，根據社交媒體平台 X 上共享的基準測試，該模型在一些基準測試分數上擊敗了 ChatGPT 和 Claude。

阿里巴巴的 Qwen 1.5 在測試教學流暢性的多個基準測試中擊敗了 Claude 和 ChatGPT

就像在電腦或智慧型手機上運行的作業系統一樣，人工智慧模型也是一個軟體。這使得軟體工程師和分析師能夠評估其性能，當涉及阿里巴巴最新的Qwen 1.5時，一些分數顯示它優於Anthropic的Claude和OpenAI的ChatGPT。

測試作業系統的基準評估其處理指令和運行應用程式的能力，而人工智慧模型的基準通常圍繞著測試模型產生輸出的能力。

MT-bench 和 Alapaca-Eval 是兩個這樣的基準測試，X 上分享的分數顯示阿里巴巴 Qwen 1.5 的一個變體在這兩個基準測試中超越了 ChatGPT 和 Claude。 MT-bench 測試模型回答一組預定義問題的能力，這些問題不僅試圖將其與聊天機器人區分開來，還嘗試確定模型是否可以在涉及兩方快速參與的艱難對話環境中「堅守陣地」與彼此。

基準分數顯示，Qwen 在 MT-bench 中排名第四，僅落後 GPT-4 Turbo 和前兩個 GPT-4 版本，即版本 0613 和 0314。

阿里巴巴發布Qwen 1.5

示範： https: //t.co/goMcWMsIzT

最大的開源 Qwen1.5-72B-Chat，在 MT-Bench 和 Alpaca-Eval v2 上表現出卓越的性能，超越了 Claude-2.1、GPT-3.5-Turbo-0613 pic.twitter.com/50dNuUpEBx

— AK (@_akhaliq) 2024 年 2 月 5 日

Alapaca-Eval 是一個基準測試，它使用參考模型來模擬人類交互，並確定正在測試的 AI 模型提供的結果與基線相符的程度。它還為用戶提供了一個排行榜來追蹤他們的測試，今天的基準測試顯示 Qwen 1.5 的 Alapaca-Eval 性能僅落後於 GPT-4 Turbo 和紐約 HuggingFace 的 Yi-34B。

Qwen1.5是同類中最大的開源模式之一，並得到了阿里巴巴海量運算資源的支持。開源人工智慧就像開源軟體一樣，將其程式碼提供給用戶和開發人員，以便他們能夠理解模型並製作自己的變體。 Meta 的 Llama 也出現在今天的樂譜中，它也是一個開源模型。

2024 年初，華爾街和公司都對AI 充滿關注，Meta、微軟和Alphabet 等大型科技巨頭的盈利報告都聚焦於AI Meta 首席執行官馬克·扎克伯格(Mark Zuckerberg) 計劃今年購買數十萬個GPU ，為AI 提供動力在公司的財報電話會議上，這位高管解釋說，他決定增強 Meta 的計算能力，是因為之前的疏忽導致公司能力不足。

同樣，從晶片製造商和設計商台積電和AMD的財報中也可以看出，他們的管理層對AI的未來表示樂觀。台積電的管理層有信心該公司有穩定的基礎來捕捉任何AI需求，而AMD則認為AI最終可以到本世紀末，其價值將達到數千億美元。

阿里巴巴最新人工智慧在多項基準測試中擊敗 GPT-3.5，Claude

阿里巴巴的 Qwen 1.5 在測試教學流暢性的多個基準測試中擊敗了 Claude 和 ChatGPT

相關文章:

維魯卡·索爾特 (Veruca Salt) 在 TikTok 上發生了什麼？一個月大男嬰不幸去世，影響者的真實姓名和所有信息

碧藍幻想Relink有浪漫嗎？

發佈留言取消回覆

阿里巴巴的 Qwen 1.5 在測試教學流暢性的多個基準測試中擊敗了 Claude 和 ChatGPT

相關文章:

發佈留言 取消回覆

發佈留言取消回覆