
尽管个性化 Siri 功能备受期待,但苹果公司宣布,该功能的推出将推迟到明年,即 iOS 18.4 系统发布之后。不过,员工反馈表明,公司内部对该功能可能在今年晚些时候正式推出持乐观态度。最近的洞察揭示了苹果公司正在如何改进其 AI 训练流程,尤其是通过开发 Apple Intelligence 来改进。
创新训练方法:苹果如何在保护用户隐私的同时利用合成数据
鉴于个性化 Siri 的延迟,彭博社的一篇报道揭示了苹果训练其 AI 系统的策略。该报道引用了苹果机器学习研究中心的一篇博客,该博客讨论了使用合成数据训练 AI 模型。
批评人士指出,苹果在人工智能领域一直落后于竞争对手。该公司对合成数据的非常规使用带来了一些挑战。例如,该方法难以有效地解读趋势,而这些趋势对于需要全面总结或清晰沟通的工具(例如起草冗长的电子邮件)来说是必不可少的。
认识到这些挑战后,苹果推出了一种创新方法,允许将合成数据与实际用户电子邮件进行比较,同时确保尊重用户隐私。此过程旨在提高AI模型的有效性,从而实现更好的沟通功能。
为了改进我们的模型,我们需要生成一组包含大量电子邮件的集合,涵盖邮件中最常见的主题。为了整理出一组具有代表性的合成电子邮件,我们首先会创建大量涵盖各种主题的合成邮件。例如,我们可以创建一条合成邮件:“你想在明天上午 11:30 打网球吗?”
这个过程无需了解具体用户的电子邮件信息。然后,我们会为每条合成消息生成一个表示,称为“嵌入”,它能够捕捉消息的一些关键维度,例如语言、主题和长度。之后,这些嵌入会被发送到少数选择加入设备分析功能的用户设备。
然后,参与的设备会选择一小部分近期用户电子邮件样本,并计算其嵌入。之后,每台设备会判断哪个合成嵌入与这些样本最接近。利用差分隐私技术,Apple 可以了解所有设备上最常选择的合成嵌入,而无需了解任何特定设备上选择了哪种合成嵌入。
这些最常选择的合成嵌入可用于生成训练或测试数据,或者我们可以运行额外的策展步骤来进一步优化数据集。例如,如果关于打网球的消息是排名靠前的嵌入之一,那么可以生成一条类似的消息,将“网球”替换为“足球”或其他运动,并将其添加到数据集中,进行下一轮策展(参见图 1)。这个过程使我们能够改进合成电子邮件的主题和语言,从而帮助我们训练模型,使其在电子邮件摘要等功能中创建更好的文本输出,同时保护隐私。
尽管苹果承认其当前方法存在局限性,但新技术有望在不侵犯隐私权或收集敏感信息的情况下,更好地理解用户趋势。据彭博社报道,这项改进的功能预计将在即将发布的 iOS 18.5 和 macOS 15.5 测试版中推出。更多详情,您可以浏览苹果关于此主题的综合文章。
发表回复 ▼