M3 Ultra DeepSeek R1：6710 亿个参数、448GB 统一内存、200W 以下高带宽性能、无需多 GPU

本周早些时候，苹果发布了最新款 Mac Studio，该款产品搭载了尖端的 M3 Ultra 芯片。这款创新处理器不仅重新定义了性能标准，还超越了苹果自己的基准测试，其配置高达 32 核 CPU 和 80 核 GPU。与前代产品 M2 Ultra 相比，这一组合显著增强了计算和图形处理能力。此外，M3 Ultra 还轻松处理了 DeepSeek R1 模型，该模型拥有惊人的 6710 亿个参数，展现了其强大实力。

革命性的性能：M3 Ultra 芯片的功能

DeepSeek R1 型号的重量为 404GB，需要通常与 GPU VRAM 相关的高带宽内存。Apple 的 M3 Ultra 与众不同之处在于其统一的内存架构，它可以高效分配资源，同时保持低功耗。YouTube 频道Dave2D最近的一项分析深入了解了这种架构如何提升性能，尤其是与早期的 Apple 芯片型号相比。

相比之下，传统的 PC 设置通常需要多个高端 GPU 才能有效运行如此庞大的 AI 模型，从而大大增加了功耗。然而，M3 Ultra 芯片的运行效率要高得多。这归功于其高带宽内存的共享资源池，它允许复杂的 AI 模型以类似于 VRAM 的方式利用内存资源，从而确保最佳性能。

必须注意的是，虽然较小的 AI 模型可以流畅高效地运行，不会耗尽所有资源，但庞大的 DeepSeek R1 需要 Apple 的精英 M3 Ultra 芯片配置，该芯片具有惊人的 512GB 内存。但是，macOS 限制了默认 VRAM 分配；因此，需要进行调整——通过终端将限制增加到 448GB。

尽管 DeepSeek R1 模型是 4 位量化版本，会牺牲一些精度，但它在 M3 Ultra Mac Studio 的限制下运行良好，保持了 6710 亿个参数。在功耗方面，M3 Ultra 脱颖而出，在执行这个资源密集型模型时，整个系统的功耗低于 200W。这一能耗只是传统多 GPU 系统实现类似性能水平所需能耗的一小部分，Dave 指出，这种配置可能需要 M3 Ultra 芯片十倍的功耗。

有趣的是，拥有 6710 亿个参数的 R1 模型表现出比 700 亿个参数的较小迭代（例如 700 亿个参数的模型）更好的性能，这可能是由于 M3 Ultra 设计固有的架构效率。总体而言，Apple 的 M3 Ultra 芯片成为强大的竞争者，能够管理超出传统预期的大量 AI 模型。我们期待进一步深入了解这款卓越芯片的性能和效率，敬请期待更多更新。

来源和图片