Apple 采用创新技术训练 AI 模型，通过将合成数据与真实电子邮件进行比较，并通过嵌入和隐私工具提高文本输出质量

尽管个性化 Siri 功能备受期待，但苹果公司宣布，该功能的推出将推迟到明年，即 iOS 18.4 系统发布之后。不过，员工反馈表明，公司内部对该功能可能在今年晚些时候正式推出持乐观态度。最近的洞察揭示了苹果公司正在如何改进其 AI 训练流程，尤其是通过开发 Apple Intelligence 来改进。

创新训练方法：苹果如何在保护用户隐私的同时利用合成数据

鉴于个性化 Siri 的延迟，彭博社的一篇报道揭示了苹果训练其 AI 系统的策略。该报道引用了苹果机器学习研究中心的一篇博客，该博客讨论了使用合成数据训练 AI 模型。

批评人士指出，苹果在人工智能领域一直落后于竞争对手。该公司对合成数据的非常规使用带来了一些挑战。例如，该方法难以有效地解读趋势，而这些趋势对于需要全面总结或清晰沟通的工具（例如起草冗长的电子邮件）来说是必不可少的。

认识到这些挑战后，苹果推出了一种创新方法，允许将合成数据与实际用户电子邮件进行比较，同时确保尊重用户隐私。此过程旨在提高AI模型的有效性，从而实现更好的沟通功能。

为了改进我们的模型，我们需要生成一组包含大量电子邮件的集合，涵盖邮件中最常见的主题。为了整理出一组具有代表性的合成电子邮件，我们首先会创建大量涵盖各种主题的合成邮件。例如，我们可以创建一条合成邮件：“你想在明天上午 11:30 打网球吗？”

这个过程无需了解具体用户的电子邮件信息。然后，我们会为每条合成消息生成一个表示，称为“嵌入”，它能够捕捉消息的一些关键维度，例如语言、主题和长度。之后，这些嵌入会被发送到少数选择加入设备分析功能的用户设备。

然后，参与的设备会选择一小部分近期用户电子邮件样本，并计算其嵌入。之后，每台设备会判断哪个合成嵌入与这些样本最接近。利用差分隐私技术，Apple 可以了解所有设备上最常选择的合成嵌入，而无需了解任何特定设备上选择了哪种合成嵌入。

这些最常选择的合成嵌入可用于生成训练或测试数据，或者我们可以运行额外的策展步骤来进一步优化数据集。例如，如果关于打网球的消息是排名靠前的嵌入之一，那么可以生成一条类似的消息，将“网球”替换为“足球”或其他运动，并将其添加到数据集中，进行下一轮策展（参见图 1）。这个过程使我们能够改进合成电子邮件的主题和语言，从而帮助我们训练模型，使其在电子邮件摘要等功能中创建更好的文本输出，同时保护隐私。

尽管苹果承认其当前方法存在局限性，但新技术有望在不侵犯隐私权或收集敏感信息的情况下，更好地理解用户趋势。据彭博社报道，这项改进的功能预计将在即将发布的 iOS 18.5 和 macOS 15.5 测试版中推出。更多详情，您可以浏览苹果关于此主题的综合文章。

来源和图片