AI Agent 的可靠性陷阱:为什么 Demo 惊艳,上线就崩?
Site Owner
发布于 2026-05-01
Demo 惊艳、上线崩盘——这是 2025-2026 年 AI Agent 领域的集体困境。问题不在模型不够强,而在于忽视了 model + harness 的组合本质。本文拆解 Agent 在生产环境中的五个结构性脆弱点,并给出工程师从「手动改产物」到「系统改 harness」的能力升级路径。

AI Agent 的可靠性陷阱:为什么 Demo 惊艳,上线就崩?
你见过那种让人倒吸一口凉气的 agent 演示吗——自主编码、跨工具协作、几小时不用管。演示结束,全场鼓掌。然后问一句:"能用到生产吗?"全场沉默。
这不是个别现象。2025 年到 2026 年,AI Agent 领域正在经历一场集体幻灭:Demo 效果和生产线效果之间,隔着一道大多数团队还没意识到的鸿沟。
问题不在模型不够强。
一场关于"谁该负责"的认知错位
先问一个看似简单的问题:当一个 AI Agent 给你返回一个错误结果时,是谁的错?
大多数人第一反应是模型不行。Claude 3.7 不够聪明,GPT-4o 推理能力有限,DeepSeek 泛化性差。下一代模型出来就好了。
这个判断在 2024 年之前还算成立。现在,越来越站不住脚了。
Anthropic 去年底发了一篇重磅文章《Demystifying evals for AI agents》,里面有一个反直觉但极其重要的论断:当你评估一个 Agent 的效果时,你评估的不是模型本身,而是 model + harness 的组合。
Harness,这个词翻译过来是"挽具"——骑马时套在马身上的那套控制系统。它不是模型的一部分,但它决定了模型的力量能不能被正确地传导到目标上。
这个区分,才是理解当下 Agent 失败模式的钥匙。
Demo 为什么看起来那么美
让我们拆解一下一个惊艳 Demo 的诞生过程:
工程师精挑细选一个最适合模型能力的任务。任务足够独立,边界足够清晰,验证足够简单。给模型喂饱了上下文——项目的完整背景、代码结构、依赖关系,全部塞进去。靠人盯着,随时介入纠正偏差。任务中途遇到困难?手动重启,换个方式。
换句话说,Demo 的成功,靠的是一个人肉 harness 在背后撑着。
生产线上的 Agent 呢?没有人在旁边盯着。任务可能横跨几天。上下文窗口不够用,模型中途失忆。工具返回了错误,模型假装没看见。做到了 70% 宣布"已完成"然后停下来。
这不是模型变弱了,而是环境变真实了。真实环境里没有人在 loop 里给它兜底。
Agent 的五个结构性脆弱点
从 2025 年到现在的行业观察,Agent 在生产环境中暴露出的问题,有五个是结构性的——不是靠调参能解决的。
第一,上下文续航问题。
Context window 再长,也是有限的。一个需要工作三天的开发任务,模型在第二天中午就会"失忆"——它不再记得第一天做了什么决定、为什么选了这条路、哪些设计决策是被明确拒绝过的。
这不是压缩上下文能解决的。摘要压缩会丢失细节,更糟糕的是,压缩后的上下文会让模型产生虚假的自信——它以为自己看过了全貌,实际上关键决策链条已经被抹掉了。
真正的解法是把状态外化:每一步决策写入文件,每个里程碑记入结构化日志,模型下次启动时从这些持久化工件里恢复,而不是从压缩后的对话历史里猜。
第二,行动可验证性问题。
你让 Agent 写了一段代码,怎么知道写得对?
最常见的做法:让模型自己检查自己。Anthropic 的工程师在实践中发现了一个令人尴尬的事实——当被要求评价自己的作品时,Agent 的自我评分系统性地偏高,即使在人类看来质量明显平庸。
这是模型的结构性缺陷,不是 bug。你永远不能把验证工作完全交给执行者自己。
正确的做法是:验证门必须独立于生成器运行。代码写完了,测试必须跑。不是让模型说"我觉得写对了",而是让测试套件说"这个用例通过了"。
第三,目标漂移问题。
长任务做到一半,Agent 突然宣布"已完成"。你一看,还差 60%。
这不是模型在撒谎——至少不是有意的。模型对"完成"的理解,是在给定上下文里最合理的估计。但当上下文在变化、目标在中途被部分满足时,模型会误以为整个任务都完成了。
解法是把"完成"外部化。不是模型自己判断完成了没有,而是有一份结构化的检查清单,模型每完成一项就标记一项。完成不完成,看清单,不看感觉。