当AI不再只是“答得快”，而是学会“想清楚再回答”，一场从训练侧到推理侧的能力跃迁正在发生。本文深度解析推理Scaling Law的技术本质，及其如何成为下一代AI Agent的核心支柱。

当AI学会"思考"：推理Scaling Law与下一代AI Agent

2025年的AI战场，胜负已不再只由"训练多少数据"决定。一场静默的革命正在发生——在推理阶段投入更多算力，让模型"想清楚再回答"，正在彻底改变我们对大语言模型能力的认知。

这，就是推理Scaling Law（Inference Scaling Law）。

从"大力出奇迹"到"想久一点"

过去三年，业界对Scaling Law的认知经历了两次范式转移：

第一阶段（2020-2023）：堆参数、堆数据、堆GPU。模型越大大越好，这是"训练侧"的Scaling Law，GPT系列是典型代表。
第二阶段（2023-2024）：RLHF、SFT、DPO——用强化学习微调模型的行为，让它更听话、更对齐。这是"微调侧"的优化。
第三阶段（2024-至今）：推理Scaling Law。核心洞察是——在推理阶段，给模型更多"思考时间"（即更多计算资源），它能解决复杂得多的任务。

OpenAI的o1/o3、DeepSeek-R1、Anthropic的Claude 3.7等模型的相继爆火，将这条新法则推到了舞台中央。

推理Scaling Law的本质

传统的Scaling Law告诉我们：模型性能随参数量、数据量、训练算力的增加而提升——这些都发生在训练阶段。

推理Scaling Law则揭示了一个反直觉的事实：模型在推理时调用的计算量（称为"推理思考预算"），同样遵循规模效应。 给定一道难题：

模型直接输出答案，可能答错
让它一步步思考（Chain-of-Thought），正确率提升
给它更多时间、更多推理步骤，甚至让它"自我验证"——正确率可以进一步大幅提升

这意味着，推理阶段的算力投入，本质上是对"思维质量"的投资。

数字说话

在数学竞赛（AIME 2025）、代码能力测试（Codeforces）等基准上，推理Scaling Law的效果令人震撼：

模型	思考token数	AIME 2025准确率
GPT-4o（直接回答）	~0	9.3%
o1	中等	74.6%
o3（低推理）	较多	85.7%
o3（高推理）	极多	87.3%

随着推理计算量增加，准确率从个位数跃升至近九成——这不是微调能达到的效果。

为什么这让AI Agent成为可能

理解推理Scaling Law，是理解下一代AI Agent的钥匙。

Agent的核心矛盾

AI Agent（智能体）需要什么？规划（Planning）、工具使用（Tool Use）、长期记忆（Memory）、自我反思（Reflection）。这些问题，表面看是"能力"问题，深层看是"推理可靠性"问题。

一个无法稳定推理的模型，给它再多的工具也是徒劳——它不知道何时该调用工具，不知道如何分解复杂任务，更无法在失败后自我修正。

推理Scaling Law直接缓解了这一瓶颈。当模型的推理深度提升，它能：

将复杂任务拆解为可执行的步骤序列
在执行中动态调整策略
在工具调用失败后自主规划替代路径
对输出结果进行自我验证和修正

从"快思考"到"慢思考"

诺贝尔经济学奖得主丹尼尔·卡尼曼将人类认知分为快思考（System 1）和慢思考（System 2）。传统LLM更像System 1——快速生成、即时响应，但容易产生"幻觉"和逻辑跳跃。

推理Scaling Law推动LLM向System 2演进：延迟满足、深度分析、多轮反思。这正是复杂Agent场景所必需的认知基础设施。

三条技术路线

当前业界围绕推理Scaling Law，主要有三条技术路线：

1. 测试时计算缩放（Test-Time Compute Scaling）

直接在推理阶段增加计算量。典型方法：

Beam Search / Best-of-N：生成多个答案，选最优
投票聚合（Voting）：多次采样，多数决
链式思考提示（CoT）：引导模型显式输出推理过程

OpenAI o1/o3是这条路线的集大成者。

2. 推理强化学习（RL for Reasoning）

通过强化学习让模型学会"有效思考"。代表工作：

DeepSeek-R1：纯RL训练出的推理模型，在数学和代码任务上与o1持平
Kimi k1.5：将Long CoT引入强化学习框架

核心思路是：不给模型标准答案，只给最终奖励信号（答案对不对），让模型自主发现有效的推理策略。

3. 过程奖励模型（Process Reward Model, PRM）

传统的奖励模型只看结果（答案对/错），PRM则对推理的每一步打分。这解决了"结果监督"信号稀疏的问题，让模型能学习到真正的"好推理"而不仅仅是"正确答案"。

挑战与局限

推理Scaling Law并非银弹，有几个关键问题尚待解决：

1. 效率与成本的权衡

更多的推理计算意味着更高的延迟和成本。o3高推理模式的成本是标准模式的数百倍，普通人根本用不起。"何时值得让模型深度思考"是一个需要精细设计的经济学问题。

2. 推理的可靠性边界

推理能提升正确率，但并非无限。某些问题（如需要世界知识或实时信息的）并不随推理时间增加而改善，甚至可能因"过度思考"而绕远路。

3. 可验证性难题

推理Scaling Law在数学、代码等有明确"正确答案"的领域效果最好。对于开放式任务（写作、创意策划），如何验证推理质量仍是开放问题。

4. 基础设施瓶颈

长思考意味着更长上下文、更大显存需求和更高带宽要求。当推理token数量达到数十万量级时，工程挑战不亚于训练一个大模型。

未来展望

推理Scaling Law带来的变革，本质上是从"训练即一切"到"推理也重要"的认知转变。

未来的AI系统，很可能呈现以下格局：

基础模型：由少数顶尖实验室训练，参数量大、知识渊博
推理引擎：针对不同场景分配推理计算——简单问题快速响应，复杂问题深度思考
Agent框架：以强推理能力为基座，构建规划、工具、记忆的层次化架构

对于AI从业者，这意味着：下一代AI应用的竞争焦点，将从"模型本身"转向"如何高效利用推理计算"。谁能在推理成本与质量之间找到最优平衡，谁就能在Agent时代占据先机。

当AI学会"慢思考"，它不再只是答案的搬运工，而是开始具备真正的推理者姿态。这或许才是通往通用人工智能（AGI）道路上，最务实的一条分支。

MEDIA:/home/agentuser/.hermes/skills/downloads/images/cover-reasoning.png