隆重推出 Gemini 3:谷歌最新的 AI 突破
经过数周的猜测和预热,备受瞩目的谷歌DeepMind Gemini 3模型正式发布。这款尖端模型展现了先进的推理能力和多模态处理能力,使其在人工智能领域脱颖而出。
基准成功与成就
谷歌宣布,Gemini 3 以 1501 分的 Elo 分数领跑 LMArena 排行榜。除了这一卓越成就外,该模型在“人类最后的考试”(Humanity’s Last Exam)测试中取得了 37.5% 的分数,在 GPQA Diamond 测试中更是高达 91.9%。此外,它在 MathArena Apex 测试中取得了突破性的 23.4% 的分数,并在多模态推理基准测试中展现出更优异的性能。Gemini 3 Pro 版本表现尤为突出,在 MMMU-Pro 测试中取得了 81% 的分数,在 Video-MMMU 测试中取得了 87.6% 的分数。值得一提的是,该模型在衡量事实准确性的 SimpleQA Verified 测试中也取得了 72.1% 的领先成绩。
请查看下图,了解 Gemini 3 Pro 与 GPT 5.1 和 Claude Sonnet 4.5 的对比基准测试结果:

Gemini 3 深度思考:性能提升
除了标准模型外,谷歌还推出了 Gemini 3 的深度思考模式,该模式在各项人工智能基准测试中表现更佳。根据谷歌最新数据,这一高级模式在“人类最后的考试”(Humanity’s Last Exam)测试中取得了 41% 的得分,在 GPQA Diamond 测试中取得了 93.8% 的得分,在 ARC-AGI-2 测试(验证代码执行,已获 ARC Prize 认证)中取得了 45.1% 的得分。令人印象深刻的是,所有 Gemini 3 模型都保持着一百万个令牌的宽广上下文窗口。
无障碍与创新新时代
与以往缓慢上市的版本不同,谷歌现在采取了积极的推广策略。谷歌搜索中的AI模式已经利用Gemini 3技术,提供全新的生成式用户界面体验。这包括动态视觉布局和能够实时响应用户查询的交互式工具。
开发和消费者供应
SWE-bench 验证基准测试表明,Gemini 3 Pro 的编码能力得分为 76.2%,略低于 OpenAI 的 GPT 5.1 和 Anthropic 的 Sonnet 4.5。对于渴望使用此模型的开发者来说,它现在可以在各种平台上使用,包括 Google AI Studio、Vertex AI、Gemini CLI、Cursor、GitHub、JetBrains、Manus、Replit 以及新推出的 Google Antigravity 智能体开发平台。
对于普通用户而言,Gemini 3 模型现已可通过 Gemini 应用使用。此外,Google AI Pro 和 Ultra 订阅用户可通过搜索中的 AI 模式访问该模型,而企业用户则可通过 Vertex AI 和 Gemini Enterprise 来利用其功能。Gemini 3 的深度思考模式预计将在未来几周内向 Google AI Ultra 订阅用户推出。
发表回复