2025 年即将到来，Google Gemini 的主要功能将于 2024 年推出

2024 年极大地改变了技术格局，尤其是谷歌，该公司以 Gemini 的名义推出了一系列人工智能创新。该计划突出介绍了对话式聊天机器人以及多个基础人工智能模型。

在这一年中，谷歌在生成式人工智能领域推出了众多产品和增强功能。除了这些新的 Gemini 功能的亮点之外，值得探索的是这家科技巨头在 2024 年淘汰的各种产品，以及预期的 Instagram 功能愿望清单。

注意：以下列表主要重点介绍了 2024 年发布的 Gemini 关键功能，但并未涵盖所有开发内容。

从巴德到双子座：品牌重塑革命

今年，谷歌的一项重大变革是将其聊天机器人 Bard 更名为 Gemini，使其命名规则与其现有型号保持一致。在此次转型过程中，这家科技公司推出了 Gemini 1.0 Pro 型号，并使该聊天机器人可以在 230 个国家/地区使用 40 多种语言。

一位谷歌工程师解释了双子座 (Gemini) 这个名字背后的象征意义，将其与以二元性而闻名的黄道十二星座联系起来，这与双子座处理各种数据类型的能力相呼应。此外，这个名字也向美国宇航局的双子座计划致敬，这是一项早期的月球探索计划。

推出移动应用程序和订阅模式

今年 2 月，谷歌推出了适用于 Android 的 Gemini 应用，最终取代 Google Assistant 成为默认语音助手。Android 用户接受了这款新的聊天机器人，而 iOS 用户则可以通过 Google 应用访问它。

同月，该公司推出了名为 Gemini Advanced 的付费订阅服务，让用户可以使用最先进的型号，包括 Gemini Ultra 1.0、1.5 Pro 和 Gemini-Exp-1206 等实验版本。

此外，“帮帮我写”等功能也已在 Chromebook Plus 设备上推出，并在主屏幕应用程序架上提供了便捷的双子按钮。

将人工智能融入谷歌地图

3 月份，谷歌通过整合对谷歌地图的支持，提升了 Gemini 聊天机器人的实用性。用户现在可以直接通过聊天机器人发出导航命令。

例如，用户可以说“导航我到 [X]”，Gemini 就会提供旅行距离、预计持续时间以及 Google 地图链接等信息，然后不久就会启动导航。

推出 Vids：全新视频创作工具

今年 4 月，谷歌推出了 Vids，这是一款 Gemini 增强型工具，旨在简化培训、营销和其他用途的视频制作。借助时间轴式界面，用户可以无缝地从 Google Drive 中组装视频资产、录制画外音或直接从应用程序拍摄影片。

协作功能允许用户管理谁可以编辑、评论或查看他们的项目。请注意，Google Vids 是 Workspace 套件中的付费插件。

YouTube 音乐集成

5 月份，YouTube 推出了一款新的音乐扩展程序，使 Gemini 用户能够与 YouTube 音乐交互以发现曲目、收听电台以及探索新的艺术家和播放列表。

持续发展：全新 Gemini 车型

2024 年还见证了 Gemini 模型的各种升级。5 月份推出的 Gemini 1.5 Flash 提供了一个轻量级的 LLM，针对摘要、聊天交互、图像和视频字幕以及数据提取等任务进行了优化。

进一步的改进包括更紧凑的 Gemini 1.5 Flash-8B 版本和新的 Gemini 1.5 Pro 型号，后者在编码任务方面具有更高的性能。12 月，谷歌发布了实验性的 Gemini 2.0 Flash 型号，支持原生生成的图像和多语言音频功能。

询问照片助手

在 2024 年 Google I/O 大会上，Ask Photos 助手亮相。这款数字助手由 Gemini 提供支持，旨在筛选您的图库、生成个性化标题以及创建旅行快照。

进军教育领域

5 月，谷歌将 Gemini 的功能扩展到教育领域，推出了两个新插件：Gemini Education 和 Gemini Education Premium。这些功能包括 AI 驱动的笔记功能和增强的数据保护措施。

将 Gemini 嵌入工作区应用程序

谷歌继续履行其跨平台集成 AI 的使命，于 6 月在 Workspace 应用程序中推出了 Gemini 侧面板。这些面板根据应用程序的上下文自定义功能。例如，Gemini 可以在 Gmail 中汇总电子邮件线程或协助在 Google Slides 中创建演示文稿幻灯片。

11 月，Gemini 侧面板已添加到 Google Chat 中，使用户能够有效地总结对话。

Gemini Live 简介

在 8 月份的 Pixel 硬件发布会上，谷歌推出了 Gemini Live，利用人工智能聊天机器人打造动态对话体验。即使应用在后台运行或设备锁定，用户也可以进行自然对话并继续对话。

https://www.youtube.com/watch?v=fY5jwF7TQmE

Go Live with Gemini (https://www.youtube.com/watch?v=fY5jwF7TQmE)

该功能最初是 Gemini Advanced 计划的一部分，后来通过 Android 和 iOS 上的 Gemini 应用程序向所有用户提供，此后不久又增加了对 40 多种语言的支持。

打造定制宝石

随着 Custom Gems 的推出，用户现在可以定制自己的 Gemini 聊天机器人来执行特定任务，无论是为活动集思广益还是充当虚拟导师。

这项高级功能可供 150 多个国家/地区的 Gemini Advanced、Business 和 Enterprise 计划用户使用。用户可以探索预制宝石或直接通过宝石管理器创建新宝石。

推出 Imagen 3 和 Whisk Generator

10 月，谷歌发布了其顶级文本转图片生成模型 Imagen 3，该模型与 Gemini 生态系统无缝集成，支持所有语言。该模型增强了对用户指令的理解，可以创建照片级逼真的风景、艺术画作和富有想象力的场景，并且可进行后续改进。

除了 Imagen 3，谷歌还推出了 Whisk 工具，可以从现有图像生成图像，进一步扩展其创意产品。

Gemini 与 Opera 和 Snapchat 合作

谷歌与 Opera 合作，将 Gemini 的功能集成到其 Aria 浏览器内 AI 中，通过先进的文本转语音和图像生成功能增强浏览体验。

此外，Snapchat 与 Google 合作改进了其 My AI 聊天机器人，从而带来了更复杂的多模式体验。报告显示，此次整合使美国平台上的用户参与度提高了 2.5 倍。

深度研究：新型 AI 研究助理

对于从事广泛研究的人来说，新的深度研究助手旨在简化流程。此工具有助于彻底分析文档、总结和从大型数据集中提取关键见解。

我们还在 Gemini Advanced 中引入了一项名为“深度研究”的新代理功能，这是一个研究助手，可以深入研究复杂主题并为您创建包含相关来源链接的报告。pic.twitter.com/ imYd4tktEG

– Sundar Pichai (@sundarpichai) 2024 年 12 月 11 日

Deep Research 是 Gemini Advanced 的一部分，支持 150 多个国家/地区的 45 多种语言。

在地图中使用自然语言导航

Google 地图最近进行了一项改进，允许用户使用自然语言搜索。例如，输入“晚上和朋友一起做的事”即可获得建议地点的摘要评论，从而提供更直观的浏览体验。

从 Spotify 流式传输

Gemini 的最新更新不仅兼容 YouTube Music，还兼容 Spotify。用户现在可以通过 Android 上的 Gemini 界面点播歌曲、浏览播放列表以及使用歌词搜索音乐，前提是他们拥有 Spotify Premium 帐户。

围绕双子座的争议

尽管取得了进展，但谷歌的 Gemini 仍面临争议。今年 2 月，图像生成功能因存在偏见而受到批评，导致谷歌暂时中止该服务，以解决相关问题。

其他报告指出，即使禁用了特定设置，也存在未经授权的 PDF 摘要事件。此外，调查结果还显示，一个承包商团队帮助评估了 Gemini 的输出结果与竞争模型，这引发了人们对响应相似性的质疑。

来源和图片