模型越来越强、越来越便宜，但真正拉开差距的，是上下文设计的质量。当算力不再是瓶颈，分配算力的判断力才是。

上下文工程——AI时代的算力分配革命

OpenAI Frontier 团队，5个人，每天烧掉2000到3000美金的token，驱动10亿量级的推理调用。

不是省着用的。是故意这么花的。

负责人 Ryan Lopopolo 的原话："吝啬token，就是吝啬效率。"

这条信息藏在 Latent Space 播客的一个角落里，没多少人认真对待。但它指向一个正在发生、却少有人公开承认的转折——

AI竞争的主战场，正在从"模型能力"转移到"上下文工程"。

你以为的瓶颈是模型，其实是算力分配

过去两年，所有人都在问同一个问题：哪个模型最强？

但真正在生产环境里跑过 AI 系统的人，问的是另一个问题：我的 token 应该优先给谁？

这不是文字游戏。

当 Claude 3.7 开放 200K 上下文，当 Gemini 2.0 Flash Thinking 对所有用户免费，当 GPT-4o 的 API 价格每年跌 90%——"模型能力不足"这个借口，正在变得越来越难成立。

真正的瓶颈变成了：你把什么样的信息，在什么时机，送到模型手里。

这才是上下文工程这件事的本质——不是优化 prompt 的措辞，而是设计整套"让 AI 在正确的时间得到正确的计算资源"的系统。

一个反直觉的效率公式

传统软件开发的效率公式很简单：代码越少越好。少一行代码，少一个 bug，少一分维护负担。

AI 编程时代，这个公式被彻底颠覆了。

Ryan Lopopolo 的团队，每天消耗 10 亿 token。对应的产出是：5 个人，5 个月，100 万行代码，1500 个 PR，全部 AI 自主完成合并。

人均产出：20 万行代码/月。

这个数字放在传统工程管理语境里，是不可能的。

但如果你把 token 消耗换算成成本，逻辑就通了：2000 到 3000 美金/天，换来的是一支不需要休息、不会情绪波动、可以并行跑四个 Codex 实例同时处理四个独立 PR 的"虚拟工程队"。

人的时间被解放出来，去做决策；模型的计算力被充分调用，去做执行。

这是上下文工程最纯粹的形式——不是"让 AI 帮我写代码"，是"把工程决策的颗粒度拆到足够小，让每个决策都能被 AI 高效执行"。

token 边际成本趋近零，但分配决策越来越贵

DeepSeek 把 API 价格打到接近零，Google 跟，OpenAI 被迫应战。token 的边际成本，每隔几个月就跌一截。

按道理，这应该让 AI 应用开发变得更便宜。

但现实是：token 越便宜，"在哪里浪费 token"的问题越突出。

我见过团队每月烧几万美金，模型响应质量依然不稳定。问题不在模型，在上下文——大量的 token 被用在检索无关信息、重复的背景介绍、过度的推理确认上。模型每秒都在"读"没用的东西，真正需要它思考的环节，反而因为上下文里噪音太多而跑偏。

免费时代的奢侈病：算力不要钱，但注意力是有限的。

上下文工程要解决的，就是这个矛盾——在 token 成本趋近于零的环境里，通过精细的上下文设计，让每一次推理计算的"信息密度"最大化。

上下文工程的三个层次

怎么设计上下文？

不是写更长的 system prompt。Ryan 的团队早就验证过：当上下文里 token 过多时，AI 的输出质量反而下降——因为它需要花更多计算力去"理解"哪些是噪声，哪些是信号。

他们的做法拆成三层：

第一层：结构化分层。 把"机构知识"（团队规范、工作流约定、验收标准）固化成文本规范，让每个 agent 进入任务时，首先读到的是一套清晰的行动边界。这不是 prompt，是宪法。

第二层：最小可用上下文。 每个子任务在独立的上下文窗口里执行，主窗口始终干净。GSD（Get Shit Done）项目的方法论如出一辙——让 AI 永远在"巅峰状态"下工作，不会因为上下文积累变长而质量衰减。

第三层：动态路由。 根据任务类型，把 token 分配给不同的处理节点。不是所有任务都需要最强的推理模型，也不是所有任务都需要最长的上下文。精准匹配，是效率的来源。

你的上下文工程师了吗？

上下文工程还没有成为一个正式职位。但它正在成为事实。

在我看到的 AI 应用团队里，token 分配的决策质量，已经开始显著拉开团队之间的差距。

有的团队，AI 产出质量不稳定，工程师每天花大量时间"debug AI output"——改 prompt，调参数，等模型回滚。

有的团队，AI 产出稳定可预期，不是因为模型更好，是因为上下文设计更合理——任务边界清晰，信息密度高，推理路径短。

前者把 AI 当工具，后者把 AI 当系统。

区别在于：工具是你去适应它，系统是它来适应你。

结论：算力民主化之后，决策力是新的护城河

模型能力会继续趋同。API 价格会继续下跌。token 边际成本会继续逼近零。

这些趋势不会停，也停不了。

但上下文设计能力——知道该给模型什么信息、在哪个节点给、如何组织信息密度——这个能力，模型帮不了你。

它需要的是对业务的深层理解，对 AI 工作机制的直觉，以及持续迭代的工程纪律。

当算力不再是瓶颈，分配算力的判断力才是。

这不是一个技术问题。这是一个战略问题。

备选标题：

吝啬token，就是吝啬效率——上下文工程的时代来了
10亿token背后的秘密：AI竞争的主战场已经转移
当算力不再稀缺，什么才是真正的壁垒？

金句：

吝啬token，就是吝啬效率。
token 越便宜，"在哪里浪费 token"的问题越突出。
当算力不再是瓶颈，分配算力的判断力才是。

社群文案：

OpenAI 内部团队每天烧 2000-3000 美金 token，还说这是"不疏忽"——上下文工程的时代真的来了。
模型越来越强、越来越便宜，但真正拉开差距的，是上下文设计的质量。
当算力民主化之后，决定胜负的不再是"用不用 AI"，是"怎么用"。