Cloudflare帶來了一項突破性變革:這家互聯網基礎設施巨頭屏蔽了主流的AI 爬蟲程序,以保護在線內容。這一決定重新定義了創作者、科技公司和消費者之間的平衡,有望徹底改變網絡數據的管理和保護方式。
對抗人工智能爬蟲:Cloudflare 的決定
Cloudflare自 7 月 1 日起,針對未經授權從網站收集數據的主要人工智能公司發起了一項攻勢。該公司聲明,所有采用 Cloudflare 的新網站都將默認屏蔽人工智能爬蟲,除非獲得所有者的明確許可。然而,在過去,網站管理員必須主動阻止人工智能機器人收集數據。
這種邏輯反轉保護了超過20% 的網絡,即 Cloudflare 客戶所覆蓋的份額,並響應了越來越多的有關速度減慢和中斷的報告,這些報告是由來自大型 AI 公司的機器人(如OpenAI的 GPTBot 和Anthropic的 ClaudeBot)的大量自動請求造成的。
人工智能爬蟲的影響:現象的數量
人工智能爬蟲產生的流量已達到驚人的水平。例如,GoogleBot 檢測到雲託管服務 Vercel每月從這些軟件收到超過 45 億個請求。與普通的搜索引擎爬蟲不同,人工智能爬蟲會主動攻擊服務器,在幾個小時內多次訪問同一頁面,或者每秒向網站發送數百個請求。
結果如何?網站速度變慢,真實用戶訪問困難,人們普遍感覺自己被“提取”了內容,既沒有規則,也沒有報酬。從美聯社到康泰納仕,再到齊夫·戴維斯,衆多出版商和公司都譴責大型人工智能科技公司未經授權進行大規模收集數據的行爲。
保護內容的新規則和技術
Cloudflare 的舉措並非僅限於表面禁令。該公司確實宣佈將利用機器學習和行爲分析技術來檢測所謂的“影子爬蟲”,即試圖繞過常規攔截的僞裝機器人。這樣,不僅已聲明的爬蟲,甚至更復雜的爬蟲嘗試都將被攔截。
此外,人工智能供應商現在必須獲得許可才能訪問數據,並明確說明使用目的,無論是用於算法訓練還是簡單的搜索功能。Cloudflare 由此將決定誰可以與其信息交互的權力交還給了發佈者。
主要出版集團的抗議推動了這項新政策的誕生。現有的排除系統,例如傳統的robots.txt文件,經常被人工智能機器人忽略,這些機器人往往會在不遵守尊重數字知識產權規則的情況下“挖掘”網絡內容。
按次付費:邁向內容的新經濟模式
Cloudflare 的革新還帶來了另一項創新:按次付費 (Pay Per Crawl)計劃。該系統目前處於內測階段,允許發佈者爲希望將其內容用於 AI 訓練的用戶設定訪問價格。只有付款後才能獲得訪問權限,否則將被拒絕。
從技術角度來看,Cloudflare 將使用HTTP 402“需要付款”代碼,該代碼返回給未啓用的爬蟲。這是一個潛在的有效解決方案,由於其與現有 Web 系統的兼容性,已經準備好實施。
人工智能界的反應和監管問題
Cloudflare 的決定直接影響了人工智能公司,這些公司迄今爲止一直不願支付許可證或費用。《大西洋月刊》首席執行官尼古拉斯·湯普森強調,迄今爲止,公司可以肆無忌憚地行事,而現在他們必須協商並承認內容所有權。另一方面,一些科技界的領袖,例如 Meta 的尼克·克萊格,警告稱,引入嚴格的限制可能會危及人工智能領域的增長和創新。
這場爭論也延伸到了監管層面。版權局的一份報告承認,生成技術的某些用途可能具有“變革性”。然而,未經同意的大規模收集不能被視爲合理使用。這一立場已產生重大的制度性影響,包括特朗普政府立即撤換了知識產權局局長。
在線內容保護的未來
Cloudflare 的這項舉措重塑了在線內容創作者和利用者之間的平衡。屏蔽數據訪問並將其貨幣化,賦予出版商對其作品的使用地點和方式擁有真正的掌控權。因此,許多人工智能公司需要重新組織數據採集策略和流程,推動與出版界的更高透明度和合作。
隨着數字生態系統逐漸適應這種範式轉變,基礎設施領域的其他主要參與者很可能會效仿Cloudflare的做法。這可能會開啓數字權利捍衛的新時代,創造價值的人將受到激勵和保護。關於採用按次付費模式的時機和方法,以及它將對人工智能發展產生的影響,仍存在疑問。
在不斷變化的環境下,監控反爬蟲AI策略的演變並積極參與討論對所有相關實體都至關重要。與未經授權的機器人的鬥爭可能只是增強網絡作爲集體可持續資產的新時代的開始。