测试时 scaling 赢了:AI 推理革命正在重画地图
Site Owner
发布于 2026-05-20
当推理能力可以随取随用,像云服务一样按需购买,AI 行业的竞争逻辑正在被彻底改写。o3 在 ARC-AGI 上 87.5% 的得分、DeepSeek-R1 的开源低价策略,都在指向同一个事实:推理时 scaling 不是升级,是范式转移。这篇文章聊聊它正在绕过去的是什么。

测试时 scaling 赢了:AI 推理革命正在重画地图
2024 年最震撼的技术突破,不是某个模型变大了一号。
是推理本身,变成了可购买的商品。
一个简单的问题
o1 出来的时候,大家在问:这个能解奥数题,有什么用?
o3 出来的时候,大家在问:这个能接近人类天才水平,怎么部署?
DeepSeek-R1 出来的时候,大家在问:这个开源了,差距还有多大?
但真正重要的问题,藏在这些问题底下:
为什么推理能力可以随取随用,像云服务一样按需购买?
答案,是一种范式转移的名字:Test-time Scaling——测试时 scaling,中文里更直白的叫法是"推理时计算"。
范式转移,不是升级
过去二十年,AI 进步的故事脚本只有一个:
训练时 scaling。 把模型做大,把数据堆多,把 GPU 连成集群喂进去。模型的"聪明程度",在训练结束的那一刻就定了。推理的时候,只是在提取已经压缩好的知识。
这是预训练范式。它赢了 GPT-2 到 GPT-4 的所有时代。
但它有一个致命的局限:你在训练时花的计算量是固定的,而用户的问题难度是分布不均的。
简单问"今天天气怎么样",不需要动用千亿参数的全部力量。解一道 IMO 竞赛题,可能千亿参数也力不从心。训练时 scaling 的做法是:让模型足够大,大到对付大多数问题都游刃有余——但这意味着大量算力浪费在简单问题上,而最难的问题依然可能超出能力边界。
推理时 scaling 换了剧本:
不再追求训练时一步到位,而是在推理时给模型"思考的预算"。
让它想久一点。想得更细一点。尝试多条路径,淘汰错的,保留对的。
这不是模型升级。这是计算资源的分配逻辑变了。
o1 到 o3:买多少"思考",就有多少聪明
OpenAI 的 o1 是这个范式的第一次大规模商业化亮相。
它的核心机制叫 Chain-of-Thought 推理——让模型把思考过程显式地写出来,而不是直接蹦答案。这个写出来的"思维链",本身就成了推理的载体。
o1 的突破不在于某个具体任务上的分数,而在于揭示了一个规律:对于复杂推理任务,额外投入的推理时计算,比同等规模的预训练计算,效率高得多。
到了 o3,这个规律被推到了更极致的位置。在 ARC-AGI 基准上,o3 的得分从 o1 的 25% 跃升到 87.5%——不是线性增长,是接近天才人类水平的跃升。
关键在于计算量的投入:o3 在高计算模式下消耗的推理资源是 o1 的数十倍。
也就是说,这项能力是可以"购买"的。你想要更聪明的模型?付更多的推理账单。
DeepSeek-R1:把推理能力开源
DeepSeek-R1 的出现,是这个逻辑的又一次验证,但带来了一个额外的冲击波:
它把推理时 scaling 的能力,通过开源和低成本的路线,开放给了所有人。
DeepSeek-R1 证明了几个重要的事情:
第一,推理能力的核心不在于模型参数有多大,而在于训练方法——通过强化学习让模型学会"思考",而不是记忆知识。
第二,当推理能力变成商品,开源可以大幅拉低价格水位。OpenAI 的 API 定价在 o1/o3 时代是昂贵的,但 DeepSeek 的同等能力方案便宜了一个数量级。
第三,推理能力和基座模型能力是可以分离的。你可以在一个相对小的基座上,通过推理时 scaling 达到大基座的能力边界。
这对整个行业的影响是深远的:推理能力不再是大公司的专属壁垒。它变成了基础设施,像电力一样,可以按需购买。
为什么这件事比看起来更重要
如果推理能力可以随用随买,意味着什么?
意味着 AI 系统的能力边界,不再是部署时的一次性决策,而是每次调用时的动态选择。
简单场景:调用普通 API,毫秒级响应,低成本。复杂场景:打开推理预算,模型思考 30 秒,解决从未见过的问题。这两种模式可以在同一个系统里并存,由需求自动调度。
这对 AI 应用的设计逻辑是颠覆性的。
过去的 AI 产品思路是"选一个足够大的模型对付所有场景"。现在的思路变成"为每个任务分配合适的推理预算"。前者贵但简单,后者便宜但需要更精细的产品设计。
成本结构也在发生变化。训练成本的投入是固定的、一次性的;推理成本是按使用量计的。对于一个月调用量一亿次的 AI 应用,推理成本可能远超训练成本——这改变了公司优化 AI 系统的方向:不再只追求模型参数更少,而是同时追求推理路径更短、计算更高效。
被重画的地图
布鲁克林码头的故事我们之前聊过:码头工人以为威胁来自机器,来自会用机器的竞争者。但真正的威胁是"船不来了"——整个码头赖以存在的价值网络被绕过去了。
推理时 scaling 正在绕过去的是什么?
是"用更大的模型解决更难问题"这条老路。
当行业发现,给模型更多推理时的思考预算,比继续增大模型参数效率更高时,整个 AI 基础设施的投资方向都会转移:GPU 集群的用途从训练扩展到推理,推理引擎优化变成新的核心技术栈,AI 应用架构从"调用大模型 API"演进为"智能调度推理资源"。
这不是预测,这是正在发生的事。
Anthropic 在 Claude 系列里加入的 extended thinking 模式,Google 在 Gemini 里加入的 reasoning 能力,OpenAI 持续扩大的 o 系列——大厂们已经全部在推理时计算上押注。
而 DeepSeek-R1 的出现,用开源的方式告诉所有人:这个能力可以便宜获取,而且不需要千亿参数。
你脚下那块地
推理能力商品化、AI 系统能力可随用随取——这改变的不是 AI 技术本身,而是 AI 在商业世界里的位置。
它变得更像基础设施了。电力化。云计算化。
当一项技术基础设施化,价值的锚点会从"拥有技术"转移到"使用技术的效率"。
就像云计算没有让所有公司变成 Google,但它让所有公司都变成了技术公司。推理时 scaling 也不会让所有公司变成 OpenAI,但它让所有公司都有了按需调用智能的可能。
问题是:你所在的那个环节,是生产推理能力的人,还是消费推理能力的人,还是——正在被推理能力绕过去的那块码头?
这不是焦虑。这是地图重绘前夜的清醒。
封面图:豆包生成 | 主题:蓝色光流与神经网络,象征 AI 推理与思考