Cloudflare带来了一项突破性变革:这家互联网基础设施巨头屏蔽了主流的AI 爬虫程序,以保护在线内容。这一决定重新定义了创作者、科技公司和消费者之间的平衡,有望彻底改变网络数据的管理和保护方式。
对抗人工智能爬虫:Cloudflare 的决定
Cloudflare自 7 月 1 日起,针对未经授权从网站收集数据的主要人工智能公司发起了一项攻势。该公司声明,所有采用 Cloudflare 的新网站都将默认屏蔽人工智能爬虫,除非获得所有者的明确许可。然而,在过去,网站管理员必须主动阻止人工智能机器人收集数据。
这种逻辑反转保护了超过20% 的网络,即 Cloudflare 客户所覆盖的份额,并响应了越来越多的有关速度减慢和中断的报告,这些报告是由来自大型 AI 公司的机器人(如OpenAI的 GPTBot 和Anthropic的 ClaudeBot)的大量自动请求造成的。
人工智能爬虫的影响:现象的数量
人工智能爬虫产生的流量已达到惊人的水平。例如,GoogleBot 检测到云托管服务 Vercel每月从这些软件收到超过 45 亿个请求。与普通的搜索引擎爬虫不同,人工智能爬虫会主动攻击服务器,在几个小时内多次访问同一页面,或者每秒向网站发送数百个请求。
结果如何?网站速度变慢,真实用户访问困难,人们普遍感觉自己被“提取”了内容,既没有规则,也没有报酬。从美联社到康泰纳仕,再到齐夫·戴维斯,众多出版商和公司都谴责大型人工智能科技公司未经授权进行大规模收集数据的行为。
保护内容的新规则和技术
Cloudflare 的举措并非仅限于表面禁令。该公司确实宣布将利用机器学习和行为分析技术来检测所谓的“影子爬虫”,即试图绕过常规拦截的伪装机器人。这样,不仅已声明的爬虫,甚至更复杂的爬虫尝试都将被拦截。
此外,人工智能供应商现在必须获得许可才能访问数据,并明确说明使用目的,无论是用于算法训练还是简单的搜索功能。Cloudflare 由此将决定谁可以与其信息交互的权力交还给了发布者。
主要出版集团的抗议推动了这项新政策的诞生。现有的排除系统,例如传统的robots.txt文件,经常被人工智能机器人忽略,这些机器人往往会在不遵守尊重数字知识产权规则的情况下“挖掘”网络内容。
按次付费:迈向内容的新经济模式
Cloudflare 的革新还带来了另一项创新:按次付费 (Pay Per Crawl)计划。该系统目前处于内测阶段,允许发布者为希望将其内容用于 AI 训练的用户设定访问价格。只有付款后才能获得访问权限,否则将被拒绝。
从技术角度来看,Cloudflare 将使用HTTP 402“需要付款”代码,该代码返回给未启用的爬虫。这是一个潜在的有效解决方案,由于其与现有 Web 系统的兼容性,已经准备好实施。
人工智能界的反应和监管问题
Cloudflare 的决定直接影响了人工智能公司,这些公司迄今为止一直不愿支付许可证或费用。《大西洋月刊》首席执行官尼古拉斯·汤普森强调,迄今为止,公司可以肆无忌惮地行事,而现在他们必须协商并承认内容所有权。另一方面,一些科技界的领袖,例如 Meta 的尼克·克莱格,警告称,引入严格的限制可能会危及人工智能领域的增长和创新。
这场争论也延伸到了监管层面。版权局的一份报告承认,生成技术的某些用途可能具有“变革性”。然而,未经同意的大规模收集不能被视为合理使用。这一立场已产生重大的制度性影响,包括特朗普政府立即撤换了知识产权局局长。
在线内容保护的未来
Cloudflare 的这项举措重塑了在线内容创作者和利用者之间的平衡。屏蔽数据访问并将其货币化,赋予出版商对其作品的使用地点和方式拥有真正的掌控权。因此,许多人工智能公司需要重新组织数据采集策略和流程,推动与出版界的更高透明度和合作。
随着数字生态系统逐渐适应这种范式转变,基础设施领域的其他主要参与者很可能会效仿Cloudflare的做法。这可能会开启数字权利捍卫的新时代,创造价值的人将受到激励和保护。关于采用按次付费模式的时机和方法,以及它将对人工智能发展产生的影响,仍存在疑问。
在不断变化的环境下,监控反爬虫AI策略的演变并积极参与讨论对所有相关实体都至关重要。与未经授权的机器人的斗争可能只是增强网络作为集体可持续资产的新时代的开始。