过去两年,人工智能的重心发生了转变。2022-2023年,一切都围绕着大型模型及其训练展开;而如今,真正的战场不再是构建模型,而是模型的持续运行,以及每天响应数十亿次查询的能力。这是一场推理之战,其重要性远超表面。
Messari在其报告《 2025 年人工智能现状》中明确指出:到 2030 年,推理将占全球计算需求的 50% 到 75%。如此高的占比将彻底重塑人工智能基础设施的格局。
如今,用户每次打开 ChatGPT、生成图像、寻求建议、分析文本、请求智能体浏览网页或做出决策时,都在进行推理。同样,成千上万的 AI 智能体也在后台持续运行,无需用户监控,它们也在进行推理。
其结果是计算资源消耗呈垂直增长,远远超过训练模型本身所需的资源。
新的压力来自:真实用户,真实互动
人工智能发展迅猛的原因有很多,但都指向同一个方向:人工智能已成为一项大众服务。用户不再局限于尝试,而是以日常、长期且日益复杂的方式使用人工智能。
ChatGPT 会话变得更长、更复杂:根据 Messari 报告的数据,用户在模型上花费的时间在一年内翻了一番,单次会话的平均时长增加了 75%。这是一个非常明确的信号:人工智能不再是“偶尔”使用的助手,而是一个真正的操作环境,用户会停留更长时间,发出更广泛、更密集的请求。
此外,消费级人工智能的爆炸式增长也推波助澜。2024年,人工智能应用的下载量突破10亿,同比增长超过100%。ChatGPT的周活跃用户已超过7亿,而Gemini、Copilot和Claude等应用也呈现出类似的增长趋势。这股持续不断的需求浪潮转化为计算资源,进而推高了成本。
“推理”因素:智能模型的成本要高得多
更复杂的是,以“推理”为导向的模型的兴起。这类模型不仅能完成句子,还会尝试进行推理、解释和规划。与传统模型相比,这些模型回答同一个问题所需的词元数量最多可达十倍。
如果再加上业界已经采用了基于强化学习的后训练技术(如DeepSeek所展示的那样),计算压力将进一步激增。强化学习会针对每个问题生成数千次迭代,从而在工业规模上成倍增加计算消耗。
换句话说:人工智能越智能,运行成本就越高。
成本问题:推理已成为人工智能新的“核心挑战”
有一点经常被低估:训练成本巨大,但这是一次性成本。模型一旦训练完成,就永久存在了。而推理的成本则截然不同,它是持续的、无限的,与使用它的用户、代理和应用程序的数量成正比。
对于 OpenAI、Anthropic 和 Google 等大型人工智能实验室而言,推理已成为一项主要支出。而这种趋势正在悄然酝酿一场与加密生态系统息息相关的变革。
开源改变了格局:更小巧、更快、更具成本效益的模型。
尽管专有模型的规模和复杂性持续增长,但开源模型正在迅速缩小差距。根据 Messari 引用的人工智能分析基准测试,如今最佳封闭模型和大规模开源模型之间的差异出奇地小,尤其是在成本方面。
与 ChatGPT-5 相比,具有 1200 亿个参数的开放模型在推理成本上最多可降低 90%,而能力损失相对较小。
但真正的变革在于参数量在40亿到400亿之间的中小型模型。如今,许多这类模型能够在单个消费级GPU(例如RTX 4090或5090)上运行,从而解决复杂的任务。这意味着推理不再需要集中在庞大的数据中心进行:它可以分布式运行。
而这正是去中心化人工智能的世界找到其天然立足之地的地方。
去中心化计算网络(DCN)的兴起:一种新的计算经济
去中心化计算网络(DCN) ,例如 Render、Akash、io.net、Aethir、Hyperbolic、EigenCloud 和 Exabits,汇集了分布在全球各地的数百万个 GPU。多年来,这些网络一直难以找到真正的市场:由于延迟以及 GPU 之间持续的信息交换,训练大型模型实在太过复杂。
但推断则是另一回事。
推理所需的横向通信量要少得多,可以高度并行化地执行,并且能够利用异构硬件。它不需要完美且高度同步的集群。对于成千上万个分散的节点来说,推理是一项理想的任务,尤其是在如今小型模型也变得异常强大的情况下。
这一次,市场真正到来了。Messari 将其定义为整个去中心化人工智能 (deAI) 领域首次真正意义上的“产品市场契合”。
42号案例:群体智能的实际演示
报告中提到的诸多创新中,最引人注目的是“四十二网络”(Fortytwo Network)。该网络协调安装在用户笔记本电脑上的小型模型。这些模型像蜂群一样协同工作:每个模型回答同一个问题,然后评估其他模型的回答,最终,网络基于共识生成最优答案。
该机制可生成链上信用、声誉和奖励。其效率之高,使得 Fortytwo 甚至能够生成完全由集群生成的数据集,并用 Rust 语言对专用模型进行微调,最终取得优于规模更大的模型的结果。
这是一个具体的例子,说明去中心化不仅是可取的,而且已经具有竞争力。
验证问题:去中心化推理的关键所在
每次在分布式节点上执行请求时,都会出现一个关键问题:如何确保结果正确?而这正是密码学发挥决定性作用的地方。
梅萨里分析了目前三种占主导地位的方法:
- 零知识证明(zkML),速度慢但极其安全;
- 乐观体系,即除非受到质疑,否则结果被认为是有效的;
- 硬件安全区(TEE),速度更快,但基于硬件信任。
该领域的先驱者之一是 EigenCloud,它为市场带来了确定性和可验证的推理,与 OpenAI 的 API 兼容,并且已被 Coinbase 和 Google 用于代理框架。
验证并非技术细节:它使人工智能适用于金融、医疗、治理和自主交易等领域。它是人工智能与Web 3.0之间的桥梁。
未来:由持续消耗计算资源的代理人组成的经济体
报告的结论很明确:人工智能的未来不会由规模最大的模型主导,而是由那些能够以最具可扩展性、成本效益和可验证性的方式进行推理的模型主导。如果今天人类用户发出数百万个请求,那么明天自主代理将发出数十亿个请求。而每一个请求都需要计算成本。
到那时,去中心化计算网络将不再是一种实验性的选择,而将成为一种经济必需品。
结论
我们正在进入推理时代,而不是训练时代。
这是一个需求无限增长的时代,计算不再是一项孤立的投资,而是一种持续的流动,每秒钟都需要为数百万个模型(无论大小)提供服务。
正是在这广阔的经济空间中,加密货币世界找到了它最自然的角色:协调、验证、分配和节约支持日益智能化的社会所需的计算能力。