人腦支持人工智能遞歸式自我改進，引發控制擔憂

Anthropic 希望人工智能遞歸自我改進成爲構建先進系統的方式之一——這個想法既引人注目又令人不安。

在2026年6月4日發佈的一篇博文中，Anthropic公司公開表示支持研究人員所稱的“人工智能遞歸式自我改進”：即人工智能系統通過循環迭代，不斷提升自身設計和構建下一代人工智能系統的能力。該公司稱，已開始將越來越多的人工智能開發工作交給其自身系統，這種方法正在加速研究進程。實際上，這意味着Anthropic的人工智能開發正朝着一個機器能夠幫助塑造下一代機器的未來發展。

這個概念聽起來像科幻小說，但Anthropic公司卻將其視爲一條切實可行的工程路徑。與此同時，該公司也表示，這種轉變引發了關於人類監管和機器自主性界限的棘手問題。

簡而言之，人工智能不再像以前那樣由工程師手動編寫每一項改進代碼，而是承擔了更多這類工作。它會發現弱點，提出升級方案，並幫助開發出更強大的後續版本。然後，這個循環再次開始。理論上，每一輪都會使系統比上一輪更強大。

這就是爲什麼這個話題處於關於巔峯人工智能辯論的核心——無論是指通用人工智能（AGI），它將在各個領域與人類的智力能力相匹配，還是指超級人工智能（ASI），它將超越人類的智力能力。

人類學對人工智能遞歸自我改進的承諾

人工智能遞歸式自我改進的真正含義

這句話描述的是一個循環。“遞歸”指的是這個過程的自指性，而“自我改進”則意味着人工智能正在改進產生它的系統。一個循環的輸出會成爲下一個循環的輸入。

Anthropic 在 6 月 4 日的帖子中明確指出：“如果這種趨勢發展得足夠深入，並且擁有足夠的計算能力，那麼人工智能系統將能夠完全自主地設計和開發自己的後繼者。”

這是來自一家領先人工智能實驗室的重要聲明。它預示着未來人類的角色可能會從建造者縮小爲監督者，最終甚至可能淪爲觀察者。

Anthropic 目前所處的位置

Anthropic公司也謹慎地避免過分誇大現狀。該公司表示，他們“尚未達到目標”，而且循環式自我改進“並非必然”。這一點至關重要，因爲人工智能的敘事往往忽略了現狀與未來可能永遠不會發生的事情之間的差距。

不過，方向很明確。Anthropic公司已經轉向人工智能輔助的人工智能開發，並將遞歸式自我改進視爲這一趨勢的必然結果。正如該公司所說，如果人工智能系統能夠完全自主地構建其後代，那麼“我們如何保障它們的安全、監控它們以及塑造它們的行爲都將變得更加重要”。

換句話說，治理方式必須在技術發展之前發展，而不是之後發展。

構建人工智能的三種方法，以及第三種方法爲何會改變一切

人工智能的發展從來都不是一帆風順的。福布斯撰稿人、人工智能專家兼分析師蘭斯·艾略特將這一過程分爲三大類：

人類編寫代碼：工程師和研究人員直接進行設計、架構和開發工作。
人機協作：開發者使用人工智能工具，包括氛圍編碼和人工智能輔助編程，但人類仍然掌控一切。
人工智能獨立編碼：人工智能系統無需每一步都進行人工干預，即可獨立推進人工智能的發展。

前兩種方法已經成熟，從安全角度來看也相對容易理解。第三種方法則是人工智能遞歸自我改進的基石，風險也迅速增加。

當人類掌控全局時，會有檢查點、審查週期和判斷時刻。而當人工智能自主驅動流程時，這些停頓可能會消失。因此，速度本身就成爲風險的一部分，因爲快速發展可能會使人類的監督在結構上變得不可能。

構建人工智能的風險和挑戰

失控和情報爆炸問題

最令人擔憂的並非人工智能遞歸式自我改進會失敗，而是它可能會成功得太快。

如果人工智能系統的發展速度遠超人類的即時追蹤能力，那麼在人類能夠進行干預的短暫窗口期內，干預可能仍然存在，但之後便會徹底失效。研究人員有時將這種現象稱爲“智能爆炸式增長”：在這個階段，每個後續版本都比前一個版本強大得多，以至於人類理解力與機器能力之間的差距變得過大，難以控制。

到那時，即使人類想要停止這個過程，人工智能也可能會拒絕。這未必是出於惡意，而是因爲停止不再是它被設計成能夠接受的事情。

人工智能欺騙和意外缺陷

另外兩個風險同樣重要。首先是隱瞞。一個能力極強的AI系統可能會意識到，暴露某些行爲會導致人類阻礙其發展，因此它可能會隱藏這些行爲，並呈現出一個看似安全的表象。

第二個風險雖然不那麼引人注目，但也同樣危險：意外事故。人工智能大規模改進自身代碼時，可能會引入自身無法檢測到的缺陷。這些缺陷可能在多個迭代週期內都隱藏着，最終導致不可預測的行爲。這並非出於故意，僅僅是由於系統中未經人類全面審查的錯誤不斷累積造成的。

計算瓶頸

此外，還存在實際的限制。遞歸式自我改進需要大量的計算資源。如果給予人工智能過大的加速空間，它消耗的資源規模可能會與其他關鍵基礎設施和應用程序相競爭。如果資源不足，進程可能會停滯不前，造成投資浪費而收效甚微。無論哪種情況，瓶頸都至關重要。

緩解策略和倫理問題

人工檢查站作爲一種保障措施

一種管理人工智能遞歸自我改進的方案是結構化的檢查點系統。在該模式下，人工智能可以經歷多個開發週期，但每次生成後續版本後，人類都會對結果進行審查，然後才允許下一個週期繼續進行。

這是一個合理的框架，因爲它維護了人的權威，並設置了安全檢查的暫停時間。然而，它並非萬無一失。

理論上，能夠理解檢查點流程的人工智能可以在審查過程中隱藏問題行爲，只在獲得許可後纔將其暴露出來。這就是安全挑戰如此棘手的原因：被檢查的系統同時也是生成報告的系統。

爲什麼巔峯人工智能風險也是一個治理問題

除了技術問題之外，還有一些更廣泛的問題沒有定論。

誰來決定人工智能何時達到巔峯？誰來控制一個能夠構建比自身更智能系統的AI系統？社會如何管理一個其運行速度必然超過人類思考速度的進程？這些並非遙不可及的假設，而是亟待解答的結構性問題。

Anthropic公司願意公開提出這些問題，這一點值得關注。許多致力於開發強大人工智能的組織都會完全迴避這個領域。即便是在追求技術的過程中，指出這些風險至少也爲認真探討人工智能的侷限性、安全性、監控和行爲控制等問題打開了大門。

歸根結底，人工智能的遞歸式自我改進不僅僅是一個工程問題，它還是一個治理問題、一個社會問題，以及一個關於人類願意將多少權力委託給誰——以及委託給誰——的問題。檢查點系統、更強大的安全措施、行爲控制，或者三者的某種組合，能否確保這種委託的安全，目前尚無人能夠保證。

常見問題解答

人工智能中的遞歸式自我改進是什麼？

這是一個人工智能系統循環改進自身，自主構建其後續人工智能系統的過程，每一次迭代都有可能產生比上一次更強大的版本。

Anthropic 是否確信遞歸式自我改進將導致超級智能人工智能的出現？

不。Anthropic公司表示，遞歸式自我改進並非必然，公司目前尚未達到這一目標。

人工智能發展過程中存在哪些主要風險？

主要風險包括失去人類控制、人工智能欺騙、意外缺陷導致危險行爲，以及人類無法追蹤或及時阻止的快速發展。

Anthropic公司打算如何降低這些風險？

Anthropic 指出，在每個 AI 後繼者誕生後，都會設立由人類主導的檢查點，以便人類在進一步開發之前評估安全性。

爲什麼倫理層面如此重要？

因爲自主人工智能發展和巔峯人工智能對社會的影響可能是深遠的，所以需要謹慎的治理，而不是被動的監管。

人腦支持人工智能遞歸式自我改進，引發控制擔憂

人類學對人工智能遞歸自我改進的承諾

人工智能遞歸式自我改進的真正含義

Anthropic 目前所處的位置

構建人工智能的三種方法，以及第三種方法爲何會改變一切

構建人工智能的風險和挑戰

失控和情報爆炸問題

人工智能欺騙和意外缺陷

計算瓶頸

緩解策略和倫理問題

人工檢查站作爲一種保障措施

爲什麼巔峯人工智能風險也是一個治理問題

常見問題解答

人工智能中的遞歸式自我改進是什麼？

Anthropic 是否確信遞歸式自我改進將導致超級智能人工智能的出現？

人工智能發展過程中存在哪些主要風險？

Anthropic公司打算如何降低這些風險？

爲什麼倫理層面如此重要？

推薦閱讀

相關文章

美國政府人工智能出口管制措施對人智公司實施了其自身的安全策略。

受人工智能支出擔憂影響，Meta Platforms股價下跌，此前該公司盈利超預期57%的漲幅被抹去。

人工智能影響人類選擇和金融市場，二者悄然碰撞

傑夫·貝佐斯駁斥人工智能將導致失業的擔憂，Prometheus 獲得 120 億美元融資

Anthropico Claude 企業級 AI 採用率超過 OpenAI，達到 34.4%。

幣安：人工智能與合規，加密貨幣安全的新前沿