2024 年极大地改变了技术格局,尤其是谷歌,该公司以 Gemini 的名义推出了一系列人工智能创新。该计划突出介绍了对话式聊天机器人以及多个基础人工智能模型。
在这一年中,谷歌在生成式人工智能领域推出了众多产品和增强功能。除了这些新的 Gemini 功能的亮点之外,值得探索的是这家科技巨头在 2024 年淘汰的各种产品,以及预期的 Instagram 功能愿望清单。
注意:以下列表主要重点介绍了 2024 年发布的 Gemini 关键功能,但并未涵盖所有开发内容。
从巴德到双子座:品牌重塑革命
今年,谷歌的一项重大变革是将其聊天机器人 Bard 更名为 Gemini,使其命名规则与其现有型号保持一致。在此次转型过程中,这家科技公司推出了 Gemini 1.0 Pro 型号,并使该聊天机器人可以在 230 个国家/地区使用 40 多种语言。
一位谷歌工程师解释了双子座 (Gemini) 这个名字背后的象征意义,将其与以二元性而闻名的黄道十二星座联系起来,这与双子座处理各种数据类型的能力相呼应。此外,这个名字也向美国宇航局的双子座计划致敬,这是一项早期的月球探索计划。
推出移动应用程序和订阅模式
今年 2 月,谷歌推出了适用于 Android 的 Gemini 应用,最终取代 Google Assistant 成为默认语音助手。Android 用户接受了这款新的聊天机器人,而 iOS 用户则可以通过 Google 应用访问它。
同月,该公司推出了名为 Gemini Advanced 的付费订阅服务,让用户可以使用最先进的型号,包括 Gemini Ultra 1.0、1.5 Pro 和 Gemini-Exp-1206 等实验版本。
此外,“帮帮我写”等功能也已在 Chromebook Plus 设备上推出,并在主屏幕应用程序架上提供了便捷的双子按钮。
将人工智能融入谷歌地图
3 月份,谷歌通过整合对谷歌地图的支持,提升了 Gemini 聊天机器人的实用性。用户现在可以直接通过聊天机器人发出导航命令。
例如,用户可以说“导航我到 [X]”,Gemini 就会提供旅行距离、预计持续时间以及 Google 地图链接等信息,然后不久就会启动导航。
推出 Vids:全新视频创作工具
今年 4 月,谷歌推出了 Vids,这是一款 Gemini 增强型工具,旨在简化培训、营销和其他用途的视频制作。借助时间轴式界面,用户可以无缝地从 Google Drive 中组装视频资产、录制画外音或直接从应用程序拍摄影片。
协作功能允许用户管理谁可以编辑、评论或查看他们的项目。请注意,Google Vids 是 Workspace 套件中的付费插件。
YouTube 音乐集成
5 月份,YouTube 推出了一款新的音乐扩展程序,使 Gemini 用户能够与 YouTube 音乐交互以发现曲目、收听电台以及探索新的艺术家和播放列表。
持续发展:全新 Gemini 车型
2024 年还见证了 Gemini 模型的各种升级。5 月份推出的 Gemini 1.5 Flash 提供了一个轻量级的 LLM,针对摘要、聊天交互、图像和视频字幕以及数据提取等任务进行了优化。
进一步的改进包括更紧凑的 Gemini 1.5 Flash-8B 版本和新的 Gemini 1.5 Pro 型号,后者在编码任务方面具有更高的性能。12 月,谷歌发布了实验性的 Gemini 2.0 Flash 型号,支持原生生成的图像和多语言音频功能。
询问照片助手
在 2024 年 Google I/O 大会上,Ask Photos 助手亮相。这款数字助手由 Gemini 提供支持,旨在筛选您的图库、生成个性化标题以及创建旅行快照。
进军教育领域
5 月,谷歌将 Gemini 的功能扩展到教育领域,推出了两个新插件:Gemini Education 和 Gemini Education Premium。这些功能包括 AI 驱动的笔记功能和增强的数据保护措施。
将 Gemini 嵌入工作区应用程序
谷歌继续履行其跨平台集成 AI 的使命,于 6 月在 Workspace 应用程序中推出了 Gemini 侧面板。这些面板根据应用程序的上下文自定义功能。例如,Gemini 可以在 Gmail 中汇总电子邮件线程或协助在 Google Slides 中创建演示文稿幻灯片。
11 月,Gemini 侧面板已添加到 Google Chat 中,使用户能够有效地总结对话。
Gemini Live 简介
在 8 月份的 Pixel 硬件发布会上,谷歌推出了 Gemini Live,利用人工智能聊天机器人打造动态对话体验。即使应用在后台运行或设备锁定,用户也可以进行自然对话并继续对话。
该功能最初是 Gemini Advanced 计划的一部分,后来通过 Android 和 iOS 上的 Gemini 应用程序向所有用户提供,此后不久又增加了对 40 多种语言的支持。
打造定制宝石
随着 Custom Gems 的推出,用户现在可以定制自己的 Gemini 聊天机器人来执行特定任务,无论是为活动集思广益还是充当虚拟导师。
这项高级功能可供 150 多个国家/地区的 Gemini Advanced、Business 和 Enterprise 计划用户使用。用户可以探索预制宝石或直接通过宝石管理器创建新宝石。
推出 Imagen 3 和 Whisk Generator
10 月,谷歌发布了其顶级文本转图片生成模型 Imagen 3,该模型与 Gemini 生态系统无缝集成,支持所有语言。该模型增强了对用户指令的理解,可以创建照片级逼真的风景、艺术画作和富有想象力的场景,并且可进行后续改进。
除了 Imagen 3,谷歌还推出了 Whisk 工具,可以从现有图像生成图像,进一步扩展其创意产品。
Gemini 与 Opera 和 Snapchat 合作
谷歌与 Opera 合作,将 Gemini 的功能集成到其 Aria 浏览器内 AI 中,通过先进的文本转语音和图像生成功能增强浏览体验。
此外,Snapchat 与 Google 合作改进了其 My AI 聊天机器人,从而带来了更复杂的多模式体验。报告显示,此次整合使美国平台上的用户参与度提高了 2.5 倍。
深度研究:新型 AI 研究助理
对于从事广泛研究的人来说,新的深度研究助手旨在简化流程。此工具有助于彻底分析文档、总结和从大型数据集中提取关键见解。
我们还在 Gemini Advanced 中引入了一项名为“深度研究”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为您创建包含相关来源链接的报告。pic.twitter.com/ imYd4tktEG
– Sundar Pichai (@sundarpichai) 2024 年 12 月 11 日
Deep Research 是 Gemini Advanced 的一部分,支持 150 多个国家/地区的 45 多种语言。
在地图中使用自然语言导航
Google 地图最近进行了一项改进,允许用户使用自然语言搜索。例如,输入“晚上和朋友一起做的事”即可获得建议地点的摘要评论,从而提供更直观的浏览体验。
从 Spotify 流式传输
Gemini 的最新更新不仅兼容 YouTube Music,还兼容 Spotify。用户现在可以通过 Android 上的 Gemini 界面点播歌曲、浏览播放列表以及使用歌词搜索音乐,前提是他们拥有 Spotify Premium 帐户。
围绕双子座的争议
尽管取得了进展,但谷歌的 Gemini 仍面临争议。今年 2 月,图像生成功能因存在偏见而受到批评,导致谷歌暂时中止该服务,以解决相关问题。
其他报告指出,即使禁用了特定设置,也存在未经授权的 PDF 摘要事件。此外,调查结果还显示,一个承包商团队帮助评估了 Gemini 的输出结果与竞争模型,这引发了人们对响应相似性的质疑。
发表回复