当推理能力可以随取随用，像云服务一样按需购买，AI 行业的竞争逻辑正在被彻底改写。o3 在 ARC-AGI 上 87.5% 的得分、DeepSeek-R1 的开源低价策略，都在指向同一个事实：推理时 scaling 不是升级，是范式转移。这篇文章聊聊它正在绕过去的是什么。

测试时 scaling 赢了：AI 推理革命正在重画地图

2024 年最震撼的技术突破，不是某个模型变大了一号。

是推理本身，变成了可购买的商品。

一个简单的问题

o1 出来的时候，大家在问：这个能解奥数题，有什么用？

o3 出来的时候，大家在问：这个能接近人类天才水平，怎么部署？

DeepSeek-R1 出来的时候，大家在问：这个开源了，差距还有多大？

但真正重要的问题，藏在这些问题底下：

为什么推理能力可以随取随用，像云服务一样按需购买？

答案，是一种范式转移的名字：Test-time Scaling——测试时 scaling，中文里更直白的叫法是"推理时计算"。

过去二十年，AI 进步的故事脚本只有一个：

训练时 scaling。 把模型做大，把数据堆多，把 GPU 连成集群喂进去。模型的"聪明程度"，在训练结束的那一刻就定了。推理的时候，只是在提取已经压缩好的知识。

这是预训练范式。它赢了 GPT-2 到 GPT-4 的所有时代。

但它有一个致命的局限：你在训练时花的计算量是固定的，而用户的问题难度是分布不均的。

简单问"今天天气怎么样"，不需要动用千亿参数的全部力量。解一道 IMO 竞赛题，可能千亿参数也力不从心。训练时 scaling 的做法是：让模型足够大，大到对付大多数问题都游刃有余——但这意味着大量算力浪费在简单问题上，而最难的问题依然可能超出能力边界。

推理时 scaling 换了剧本：

不再追求训练时一步到位，而是在推理时给模型"思考的预算"。

让它想久一点。想得更细一点。尝试多条路径，淘汰错的，保留对的。

这不是模型升级。这是计算资源的分配逻辑变了。

OpenAI 的 o1 是这个范式的第一次大规模商业化亮相。

它的核心机制叫 Chain-of-Thought 推理——让模型把思考过程显式地写出来，而不是直接蹦答案。这个写出来的"思维链"，本身就成了推理的载体。

o1 的突破不在于某个具体任务上的分数，而在于揭示了一个规律：对于复杂推理任务，额外投入的推理时计算，比同等规模的预训练计算，效率高得多。

到了 o3，这个规律被推到了更极致的位置。在 ARC-AGI 基准上，o3 的得分从 o1 的 25% 跃升到 87.5%——不是线性增长，是接近天才人类水平的跃升。

关键在于计算量的投入：o3 在高计算模式下消耗的推理资源是 o1 的数十倍。

也就是说，这项能力是可以"购买"的。你想要更聪明的模型？付更多的推理账单。

DeepSeek-R1 的出现，是这个逻辑的又一次验证，但带来了一个额外的冲击波：

它把推理时 scaling 的能力，通过开源和低成本的路线，开放给了所有人。

DeepSeek-R1 证明了几个重要的事情：

第一，推理能力的核心不在于模型参数有多大，而在于训练方法——通过强化学习让模型学会"思考"，而不是记忆知识。

第二，当推理能力变成商品，开源可以大幅拉低价格水位。OpenAI 的 API 定价在 o1/o3 时代是昂贵的，但 DeepSeek 的同等能力方案便宜了一个数量级。