算力战争下半场:推理即一切
Site Owner
发布于 2026-05-24
当Scaling Law从训练阶段延伸到推理阶段,AI行业的游戏规则正在被彻底改写。o1和DeepSeek-R1带来的不只是新技术,而是一整套新的竞争逻辑——从资源游戏到效率游戏。这篇文章告诉你:为什么现在才发生、谁在受益、为什么Agent的算力账单会爆炸,以及技术决策者必须问自己的三个问题。

算力战争下半场:推理即一切
2017年,OpenAI创始人Sam Altman说过一句话:"看起来我们要 Scale up。"那年Transformer刚出来,GPT-1还是个玩具。但历史回头看,总是很清晰——那个判断改变了整个行业。
过去八年,游戏规则只有一条:把模型做大,把数据堆多,让训练算力暴力出奇迹。Scaling Law就是那根指挥棒。所有人的眼睛都盯着NVIDIA的市值,所有人的军备竞赛都在pre-training阶段。
2025年,规则变了。
新大陆不是Scaling Law的延续,是它的反面
2025年的AI圈,o1和DeepSeek-R1横空出世,带来了一个被行业迅速接受的新概念:推理时间缩放(Inference-Time Scaling)。
简单说:不再只是训练时拼命算,推理时也可以拼命算。模型回答问题之前,会"停下来想一想"——这个思考过程本身就是一种算力消耗,而花更多算力让模型想得更深,效果确实更好。
这听起来像是Scaling Law的自然延伸。但稍微深想一层,你会发现它本质上是两代人完全不同的博弈策略:
| Pre-training Scaling | Inference-Time Scaling | |
|---|---|---|
| 算力砸在 | 训练阶段 | 推理阶段 |
| 核心资源 | GPU集群、数据 | 推理时间、内存带宽 |
| Scaling的对象 | 参数、数据、浮点运算 | Token数量、思考步数 |
| 瓶颈 | 训不起、太贵 | 等不起、太慢 |
| 代表玩家 | OpenAI GPT-5、Meta | OpenAI o1、DeepSeek-R1 |
这不只是技术路线的分歧,这是两套完全不同的商业逻辑。
Pre-training Scaling的受益者,是那些能买到最多H100的人——大厂、云计算巨头、国家队。推理时间Scaling的受益者,是那些能把推理效率做高的人——优化推理框架的、搞量化压缩的、做专用推理芯片的。
前者是资源游戏,后者是效率游戏。 当行业从资源游戏转向效率游戏,游戏规则和玩家版图都会重构。
为什么现在才发生?
推理时间Scaling这个事情,理论上早就有人想过。为什么2025年才成为主流?
原因一:LLM的基础能力终于到了"值得思考"的门槛。
以前的小模型,你让它思考十分钟,它也写不出什么好代码。模型太弱,思考是浪费时间。但GPT-4级别以上的模型,已经有能力从更深的推理中持续获益——给它更多时间,它真的能想到更巧妙的解法。这条曲线在2024年出现了拐点。
原因二:Pre-training Scaling的边际收益在递减。
GPT-3到GPT-4的跨越是质的飞跃,但GPT-4到GPT-4.5,业界心照不宣的共识是:进步没有那么大。而R1和o1通过在推理阶段投入更多算力,在很多任务上直接追平甚至超越了用更多数据训练的下一代模型。换句话说:推理阶段多思考,比训练阶段多堆数据,更划算。
原因三:行业需要新的叙事来维持估值。
这个原因说出来不好听,但很现实。2023年大家都在喊"AGI就在眼前",2024年开始有人悄悄修正措辞"通用人工智能还需要更多突破",2025年的融资PPT再不换个新说法,投资人就不买单了。推理时间Scaling恰好提供了一个听起来很深刻、又很容易向非技术人员解释的新叙事。
推理时间的军备竞赛已经开始
2025年我们看到的格局是:头部公司all-in推理时间Scaling,中腰部公司在拼命跟进。
OpenAI的o系列、Anthropic的强化学习路线、DeepSeek的R系列——这些头部玩家已经不满足于"训练一个更强的模型",而是转向"训练一个更会思考的模型"。投资逻辑从"模型参数越大越强"变成了"推理效率越高越强"。
Google发布的Gemini 2.0 Thinking系列是这个趋势的跟进者。国内字节的豆包、阿里的通义,也都在内部投入了相当的资源研究推理阶段的计算分配。
有意思的是,这条路线反而给了开源社区更大的空间。
Pre-trainingScaling需要海量的GPU集群、顶级的数据管道——这些事情只有大厂能做。但推理效率的优化,量化、剪枝、投机解码、长上下文优化,这些是工程问题,开源社区可以深度参与。DeepSeek-R1用很低的成本做出了与o1匹敌的效果,这个示范效应比任何融资PPT都有说服力。
推理时间Scaling的胜利,是工程派的胜利。
被低估的后果:Agent时代的算力账单
如果推理时间Scaling成为主流,有一个被普遍忽视的连锁反应:Agent的算力成本会爆炸。
现在的Agent,本质上是让模型反复调用工具、多次推理来完成一个任务。每一次工具调用都是一次推理,每一次推理都要消耗算力。如果Agent执行一个复杂任务需要50步推理,那它的成本就是单次问答的50倍。
这不是假设,这是现实。
Cursor、Devin、Claude Code这些AI编程工具,现在单次任务的平均消耗已经远超普通ChatGPT对话。用户在用这些工具时感受到的"慢",本质上是算力在消耗。
当推理时间Scaling遇上Agent时代,算力需求不是线性增长,是指数级增长。
这个逻辑如果成立,有两个推论:
推论一:推理芯片的市场需求会被进一步放大。 NVIDIA的H100是训练芯片,但推理芯片的战争其实刚刚开始。Groq的LPU、Tenstorrent的推理卡、 Cerebras 的超快推理芯片——这些专用推理芯片的崛起,本质上都是在这个趋势里押注。
推论二:Agent的产品设计会发生根本性转变。 现在大家的设计思路是"让模型多调用工具把任务做完",未来的设计思路会变成"如何在有限的推理预算内完成任务"。这不是细节优化,这是产品哲学的转变。
不同的人,在同一个趋势里看到的截然不同
行业里对推理时间Scaling的态度,正在分化出三种截然不同的叙事。
叙事一:这是AGI的必经之路(乐观派)
这一派认为,推理时间Scaling揭示了一个简单的事实:现在的模型之所以还没有达到人类水平的通用智能,是因为我们在它们身上投入的"思考时间"还不够多。当模型能像人类一样花几天、几周去思考一个问题的时候,AGI会自然涌现。这个叙事优美、简单、让人愿意相信。
叙事二:这是算力厂商的新瓶装旧酒(怀疑派)
这一派认为,推理时间Scaling只是把成本从训练阶段转移到了推理阶段,本质上还是在卖算力。OpenAI和NVIDIA在这个叙事里的角色没有变,只是换了一个更高级的说法。真正的AGI不会因为你给它更多推理时间就突然到来——否则人类早该比现在聪明十倍,因为我们每天都在"推理"。
叙事三:这是工程路线的阶段性收敛(技术派)
这一派最冷静,他们认为推理时间Scaling就是一个很自然的技术优化方向,不是什么"范式革命"。历史上计算机视觉、语音识别、NLP都经历过类似的过程:从暴力数据训练,到引入推理结构和先验知识,再到现在 的"让模型多想一会儿"。这只是深度学习在补历史欠账,不是什么新纪元。
三种叙事,各有道理,也各有盲区。但有一点是确定的:2026年,谁能在推理效率上做出突破,谁就拿到了入场券。
给技术决策者的话
这篇文章不是要给你一个确定的答案——而是要你意识到,这个问题正在被太多人用错误的框架讨论。
当你听到"推理时间Scaling是AGI必经之路"时,你要问:这个结论有没有数据支撑,还是只是叙事上的需要?
当你听到"算力战争已经结束,现在是效率为王"时,你要问:效率的提升能不能弥补pre-training边际收益递减带来的能力差距?
当你决定All in Agent的时候,你要问:你的目标用户的付费意愿,能不能覆盖一个任务50倍于普通对话的算力成本?
这三个问题没有人能替你回答。
但有一件事是清晰的:2026年,AI行业的竞争维度,正在从"谁训练的模型最强"转向"谁能把推理过程安排得更聪明"。这个转变,会淘汰一批在这一轮里靠大模型概念估值、却没有任何推理优化能力的公司。
也会让那些在工程上真正扎得深的人,走上舞台中央。
(题图由豆包·Seedream 5.0 生成 / 深蓝紫背景,发光大脑内部,算法血管蔓延,中央电路齿轮,未来科技感)