Cloudflare 揭露 Perplexity 对被屏蔽网站的秘密抓取行为，引发强烈反对，并引发人们对 AI 伦理、透明度和内容抓取的担忧

人工智能搜索初创公司 Perplexity 因被指控规避了旨在阻止其网络爬虫访问某些受保护网站的措施而陷入争议。Cloudflare 最近发布的一份报告称，Perplexity 采用了欺骗性手段，伪装其身份以绕过旨在保护网站内容的限制。具体而言，这些指控表明，该公司通过使用屏蔽用户代理和切换服务提供商来逃避检测，从而绕过了 robots.txt 文件中规定的准则（该准则指示网站哪些部分应禁止机器人访问）。

Perplexity 声称可以抓取受保护的网站，引发争议

Cloudflare 的指控源于该公司开展的一项广泛调查。作为调查的一部分，他们创建了一个隐藏的、带有爬虫限制的网页，该网页既未公开链接也未编入索引，旨在作为测试 Perplexity 爬虫能力的“蜜罐”。Cloudflare 表示，Perplexity 的系统成功访问了这个受限制的网页，并将其内容添加到搜索结果中，这引发了人们对该公司数据收集行为的严重担忧。

Cloudflare 声称，这些行为不仅违反了其服务条款，而且在道德上也存在问题。因此，Perplexity 已被从已验证机器人列表中移除。Cloudflare 已宣布计划加强对人工智能爬虫的限制，表明其将采取积极主动的方式，防止未经授权的数据抓取。与此形成鲜明对比的是，Perplexity 坚决否认这些指控，声称调查忽视了透明度，并且未能提供令人信服的证据。该公司认为，Cloudflare 要么夸大了调查结果，要么完全曲解了情况。

此次事件影响深远，因为Cloudflare持续对Perplexity采取强硬立场，这对这家初创公司旨在展现相对于传统搜索引擎透明度的品牌建设构成了挑战。这一事件凸显了数字领域一个日益严重的问题：围绕内容访问及其货币化的持续冲突。

此外，此次事件也引发了人工智能领域关于数据来源的广泛讨论，以及随着人工智能技术日益强大和商业化，可能出现的可疑做法。Cloudflare 首席执行官 Matthew Prince 一直直言不讳地指出，这些人工智能模型可能会给内容创作者和出版商带来潜在风险。作为回应，Cloudflare 目前提供了一个框架，向人工智能公司收取内容访问费用，并已在其平台上启动了对人工智能爬虫的自动屏蔽功能。

来源和图片