M3 Ultra DeepSeek R1：6,710 億個參數、448GB 統一記憶體、200W 以下高頻寬效能、無需多 GPU

本週早些時候，蘋果發布了最新版本的 Mac Studio，搭載了最先進的 M3 Ultra 晶片。這款創新處理器不僅重新定義了效能標準，而且超越了 Apple 自己的基準，具有高達 32 核心 CPU 和 80 核心 GPU 的令人印象深刻的配置。與其前身 M2 Ultra 相比，這種組合顯著增強了計算和圖形能力。此外，M3 Ultra 也輕鬆處理了擁有驚人的 6, 710 億個參數的 DeepSeek R1 模型，展現了其實力。

革命性的性能：M3 Ultra 晶片的功能

DeepSeek R1 型號重量為 404GB，需要通常與 GPU VRAM 相關的高頻寬記憶體。 Apple M3 Ultra 的與眾不同之處在於其統一的記憶體架構，可以有效分配資源，同時保持低功耗。YouTube 頻道 Dave2D最近的分析深入分析了這種架構如何提升效能，尤其是與早期的 Apple 矽片型號相比。

相較之下，傳統的 PC 設定通常需要多個高階 GPU 才能有效運行如此廣泛的 AI 模型，從而大大增加功耗。然而，M3 Ultra晶片的運作效率更高。這歸功於其高頻寬記憶體的共享資源池，這使得複雜的 AI 模型能夠以類似於 VRAM 的方式利用記憶體資源，從而確保最佳效能。

值得注意的是，雖然較小的 AI 模型可以平穩且有效率地執行且不會耗盡全部資源，但龐大的 DeepSeek R1 需要 Apple 的精英 M3 Ultra 晶片配置，該晶片具有驚人的 512GB 記憶體。但是，macOS 限制了預設的 VRAM 分配；因此，需要進行調整——透過終端將限制增加到 448GB。

儘管 DeepSeek R1 模型是 4 位元量化版本，犧牲了一些精確度，但它在 M3 Ultra Mac Studio 的限制內運作良好，保持了其 6, 710 億個參數。在功耗方面，M3 Ultra 脫穎而出，執行此資源密集型模型時整個系統的功耗低於 200W。這種能源需求只是傳統多 GPU 系統實現類似效能等級所需能量的一小部分，Dave 指出，這種配置可能需要 M3 Ultra 晶片十倍的功耗。

有趣的是，擁有 6, 710 億個參數的 R1 模型與 700 億個參數的模型等較小的迭代相比表現出了更優異的性能，這可能歸功於 M3 Ultra 設計固有的架構效率。總體而言，蘋果的 M3 Ultra 晶片成為了一個強大的競爭者，能夠管理超越傳統預期的廣泛 AI 模型。我們期待進一步深入了解這款卓越晶片的效能和效率，敬請關注更多更新。

來源和圖片