推理型人工智能的新兴进展:谷歌和 OpenAI 推出新模型
9 月,OpenAI 推出了创新的 o1 系列大型语言模型 (LLM),进一步提高了标准。这些先进的模型在提供响应之前会优先进行彻底的推理,这使得它们在科学、编码和数学等领域的复杂任务中非常有效。
如今,谷歌推出了自己的以推理为中心的法学硕士项目,名为Gemini 2.0 Flash Thinking。这个实验模型被命名为gemini-2.0-flash-thinking-exp-1219
,现在开发人员可以通过 Google AI Studio 访问它。谷歌声称,该模型在多模态理解、逻辑推理和编码应用方面表现出色。
根据谷歌的声明,延长推理计算时间取得了令人鼓舞的成果。然而,具体的性能基准尚未公布以证实这些说法。不过,Chatbot Arena的初步反馈表明,Gemini-2.0-Flash-Thinking 取得了令人瞩目的排名,目前在所有评估类别中均位居第一。
Chatbot Arena 的最新消息⚡🤔 @GoogleDeepMind的 Gemini-2.0-Flash-Thinking 在所有类别中首次亮相!从 Gemini-2.0-Flash 的飞跃:– 总体:#3 → #1 – 总体(风格控制):#4 → #1 – 数学:#2 → #1 – 创意写作:#2 → #1 – 困难提示:#1 → #1…… https://t.co/lO1DiTiOOj pic.twitter.com/cq2MRMbWZ1
— lmarena.ai (原 lmsys.org) (@lmarena_ai) 2024 年 12 月 19 日
Gemini 2.0 闪存思维的关键用例
对于有兴趣尝试 Gemini 2.0 Flash Thinking 模型的开发人员,Google 概述了几个引人注目的用例:
- 用先进的推理解决最复杂的问题
- 透明地展示模型的思维过程
- 解决具有挑战性的编码和数学查询
该尖端模型拥有超过 128k 个标记的上下文长度,并且知识截止期延长至 2024 年 8 月。开发人员可以通过访问Google AI Studio和 Vertex AI 中的 Gemini API 来利用 Gemini 推理模型。
想看看 Gemini 2.0 Flash Thinking 的实际效果吗?看看这个演示,其中模型解决了一个物理问题并解释了其推理。pic.twitter.com/ Nl0hYj7ZFS
— Jeff Dean (@JeffDean) 2024 年 12 月 19 日
竞争优势:OpenAI 的 o1 模型更新
本周早些时候,OpenAI 还宣布推出其 o1 推理模型,该模型现已在 API 框架中的使用层 5 上供开发人员使用。o1 模型的最新版本在几个广受认可的 AI 基准中报告了最先进的性能。开发人员可以利用此模型来增强各种应用程序,包括改进客户服务机制、优化供应链物流和更准确的财务预测。
随着谷歌和 OpenAI 相继推出以推理为重点的法学硕士学位,开发创新人工智能应用的格局在多个行业变得越来越活跃。
发表回复