谷歌的新 AI 工具“Whisk”允许基于图像的提示实现互动乐趣

介绍 Whisk：Google 的新图像生成工具

以搜索技术创新而闻名的谷歌，又推出了一款令人印象深刻的生成式人工智能产品：Whisk。这款突破性的工具目前处于实验阶段，它允许用户通过输入现有的视觉效果来创建图像，而无需详细的文本提示。

Whisk 允许用户上传多张图像，这些图像可用于各种目的，包括定义所需输出的主题、风格和整体场景。在后台，该工具利用 Google 的 Gemini 生成文本描述，然后由高级图像生成模型Imagen 3进行处理。

Imagen 3 于今年早些时候推出，被 Google 誉为该公司迄今为止最精致的图像模型。据 Google 介绍，它生成的图像细节丰富，光照效果好，并且能够最大程度地减少干扰性伪影，与之前的版本相比有了显著的改进。

Introducing Whisk: Prompt Less, Play More | Google Labs (https://www.youtube.com/watch?v=fyFDztZxlEc)

在最近发表的一篇博客文章中，谷歌详细说明了 Whisk 如何捕捉输入图像的“本质”，而不必提供精确的复制品。这意味着生成的图像可能在多个方面有所不同，例如肤色、身高或发型。

为了解决生成的图像中可能出现的差异，Whisk 为用户提供了一个调整底层文本提示的选项。Google 承认某些功能可能对特定项目至关重要，因此他们确保用户可以在创作过程的任何阶段灵活地编辑这些提示。

虽然 Whisk 包含一些让人联想到传统图像编辑工具的功能，但谷歌强调，它本质上是一款“创意工具”。它旨在促进实验性探索和动态创意，而不仅仅是一个传统的编辑器。此外，用户可以选择下载他们生成的图像以供个人或专业使用。

目前，Whisk 可供已加入 Google Labs 计划的美国用户使用，该计划提供一系列实验性生成式 AI 功能。如果您有兴趣尝试 Whisk，可以通过此链接访问。