测试时 scaling 赢了:AI 推理革命正在重画地图
Site Owner
发布于 2026-05-20
当推理能力可以随取随用,像云服务一样按需购买,AI 行业的竞争逻辑正在被彻底改写。o3 在 ARC-AGI 上 87.5% 的得分、DeepSeek-R1 的开源低价策略,都在指向同一个事实:推理时 scaling 不是升级,是范式转移。这篇文章聊聊它正在绕过去的是什么。

测试时 scaling 赢了:AI 推理革命正在重画地图
2024 年最震撼的技术突破,不是某个模型变大了一号。
是推理本身,变成了可购买的商品。
一个简单的问题
o1 出来的时候,大家在问:这个能解奥数题,有什么用?
o3 出来的时候,大家在问:这个能接近人类天才水平,怎么部署?
DeepSeek-R1 出来的时候,大家在问:这个开源了,差距还有多大?
但真正重要的问题,藏在这些问题底下:
为什么推理能力可以随取随用,像云服务一样按需购买?
答案,是一种范式转移的名字:Test-time Scaling——测试时 scaling,中文里更直白的叫法是"推理时计算"。
范式转移,不是升级
过去二十年,AI 进步的故事脚本只有一个:
训练时 scaling。 把模型做大,把数据堆多,把 GPU 连成集群喂进去。模型的"聪明程度",在训练结束的那一刻就定了。推理的时候,只是在提取已经压缩好的知识。
这是预训练范式。它赢了 GPT-2 到 GPT-4 的所有时代。
但它有一个致命的局限:你在训练时花的计算量是固定的,而用户的问题难度是分布不均的。
简单问"今天天气怎么样",不需要动用千亿参数的全部力量。解一道 IMO 竞赛题,可能千亿参数也力不从心。训练时 scaling 的做法是:让模型足够大,大到对付大多数问题都游刃有余——但这意味着大量算力浪费在简单问题上,而最难的问题依然可能超出能力边界。
推理时 scaling 换了剧本:
不再追求训练时一步到位,而是在推理时给模型"思考的预算"。
让它想久一点。想得更细一点。尝试多条路径,淘汰错的,保留对的。
这不是模型升级。这是计算资源的分配逻辑变了。
o1 到 o3:买多少"思考",就有多少聪明
OpenAI 的 o1 是这个范式的第一次大规模商业化亮相。
它的核心机制叫 Chain-of-Thought 推理——让模型把思考过程显式地写出来,而不是直接蹦答案。这个写出来的"思维链",本身就成了推理的载体。
o1 的突破不在于某个具体任务上的分数,而在于揭示了一个规律:对于复杂推理任务,额外投入的推理时计算,比同等规模的预训练计算,效率高得多。
到了 o3,这个规律被推到了更极致的位置。在 ARC-AGI 基准上,o3 的得分从 o1 的 25% 跃升到 87.5%——不是线性增长,是接近天才人类水平的跃升。
关键在于计算量的投入:o3 在高计算模式下消耗的推理资源是 o1 的数十倍。
也就是说,这项能力是可以"购买"的。你想要更聪明的模型?付更多的推理账单。
DeepSeek-R1:把推理能力开源
DeepSeek-R1 的出现,是这个逻辑的又一次验证,但带来了一个额外的冲击波:
它把推理时 scaling 的能力,通过开源和低成本的路线,开放给了所有人。
DeepSeek-R1 证明了几个重要的事情:
第一,推理能力的核心不在于模型参数有多大,而在于训练方法——通过强化学习让模型学会"思考",而不是记忆知识。
第二,当推理能力变成商品,开源可以大幅拉低价格水位。OpenAI 的 API 定价在 o1/o3 时代是昂贵的,但 DeepSeek 的同等能力方案便宜了一个数量级。