谷歌发布 Gemini 3，在主要人工智能基准测试中超越 OpenAI 的 GPT-5.1

隆重推出 Gemini 3：谷歌最新的 AI 突破

经过数周的猜测和预热，备受瞩目的谷歌DeepMind Gemini 3模型正式发布。这款尖端模型展现了先进的推理能力和多模态处理能力，使其在人工智能领域脱颖而出。

基准成功与成就

谷歌宣布，Gemini 3 以 1501 分的 Elo 分数领跑 LMArena 排行榜。除了这一卓越成就外，该模型在“人类最后的考试”（Humanity’s Last Exam）测试中取得了 37.5% 的分数，在 GPQA Diamond 测试中更是高达 91.9%。此外，它在 MathArena Apex 测试中取得了突破性的 23.4% 的分数，并在多模态推理基准测试中展现出更优异的性能。Gemini 3 Pro 版本表现尤为突出，在 MMMU-Pro 测试中取得了 81% 的分数，在 Video-MMMU 测试中取得了 87.6% 的分数。值得一提的是，该模型在衡量事实准确性的 SimpleQA Verified 测试中也取得了 72.1% 的领先成绩。

请查看下图，了解 Gemini 3 Pro 与 GPT 5.1 和 Claude Sonnet 4.5 的对比基准测试结果：

Gemini 3 深度思考：性能提升

除了标准模型外，谷歌还推出了 Gemini 3 的深度思考模式，该模式在各项人工智能基准测试中表现更佳。根据谷歌最新数据，这一高级模式在“人类最后的考试”（Humanity’s Last Exam）测试中取得了 41% 的得分，在 GPQA Diamond 测试中取得了 93.8% 的得分，在 ARC-AGI-2 测试（验证代码执行，已获 ARC Prize 认证）中取得了 45.1% 的得分。令人印象深刻的是，所有 Gemini 3 模型都保持着一百万个令牌的宽广上下文窗口。

无障碍与创新新时代

与以往缓慢上市的版本不同，谷歌现在采取了积极的推广策略。谷歌搜索中的AI模式已经利用Gemini 3技术，提供全新的生成式用户界面体验。这包括动态视觉布局和能够实时响应用户查询的交互式工具。

开发和消费者供应

SWE-bench 验证基准测试表明，Gemini 3 Pro 的编码能力得分为 76.2%，略低于 OpenAI 的 GPT 5.1 和 Anthropic 的 Sonnet 4.5。对于渴望使用此模型的开发者来说，它现在可以在各种平台上使用，包括 Google AI Studio、Vertex AI、Gemini CLI、Cursor、GitHub、JetBrains、Manus、Replit 以及新推出的 Google Antigravity 智能体开发平台。

对于普通用户而言，Gemini 3 模型现已可通过 Gemini 应用使用。此外，Google AI Pro 和 Ultra 订阅用户可通过搜索中的 AI 模式访问该模型，而企业用户则可通过 Vertex AI 和 Gemini Enterprise 来利用其功能。Gemini 3 的深度思考模式预计将在未来几周内向 Google AI Ultra 订阅用户推出。

图片来源及图片

谷歌发布 Gemini 3，在主要人工智能基准测试中超越 OpenAI 的 GPT-5.1

隆重推出 Gemini 3：谷歌最新的 AI 突破

基准成功与成就

Gemini 3 深度思考：性能提升

无障碍与创新新时代

开发和消费者供应

相关文章:

三星DDR5-5600 16GB内存条价格飙升：韩国市场三个月内价格上涨3倍

《风之交汇处》中解锁旅行者位置：完整地图指南

发表回复取消回复

隆重推出 Gemini 3：谷歌最新的 AI 突破

基准成功与成就

Gemini 3 深度思考：性能提升

无障碍与创新新时代

开发和消费者供应

相关文章:

发表回复 取消回复

发表回复取消回复