Manus演示惊艳全网，MiniMax却悄悄拆掉了整个看图找按钮的架构。为什么Browser Agent总是倒在生产环境？不是模型不够强，是工程那层从一开始就没存在过。

你的 AI 还在"看图说话"？Browser Agent 正在爬出_demo地狱_

Manus 在社交媒体上炸场，只用了一个演示视频。

视频里，AI 打开浏览器，筛选简历，生成排名表格，全程自主完成。评论区涌入惊叹："Deep Research 凉了"、"通用 Agent 时代来了"。

同一天，另一条动态安静地滑过：MiniMax 披露了他们的 Computer Use 方案——把"看图找按钮"这套做法彻底拆解，窗口管理走 API，浏览器元素走 DOM 选择器，模型只负责决策。

两条路线，同一个目标。但只有一条在认真解决真实问题。

演示视频是一场精心策划的骗局

不是说作弊。是说演示本质上是在展示"这件事能成功"，不是"这件事能稳定地做成"。

Browser Agent 的演示逻辑是这样的：

挑一个 AI 擅长录屏的简单任务
调试到零失误
录屏，剪掉中间卡顿的片段
发布，欢呼

你见过 AI Agent 演示订餐、填表、筛选简历。

你没见过的场景：弹窗突然出现挡住目标按钮。页面加载慢了 2 秒，AI 已经点了错误的元素。网页更新了 UI，AI 在找一个已经不存在的下拉菜单。

这是可靠性工程里最常见的陷阱：演示成功 ≠ 生产成功。

一条消息的失误率可能是 5%。十个步骤串联起来，0.95^10 ≈ 60%。一百步？0.95^100 ≈ 0.6%。

演示通常在 5-10 步以内完成。真实自动化任务往往 50 步起步。

"看图说话"是 Browser Agent 的原罪

当前大多数 Browser Agent 的实现逻辑：

模型截图 → 识别"下一步该点哪" → 输出像素坐标 → 点击

这套方案的致命缺陷藏在第三步：像素坐标是环境相关的脆弱常量。

显示器分辨率变化，坐标就错。页面 UI 改版，按钮消失。弹窗突然弹出，AI 对着空区域猛点。

MiniMax 把这个问题拆得更干净：不同操作类型，用不同工具，不让模型数像素。

操作类型	错误来源	MiniMax 方案
窗口管理	截图识别慢	直接调窗口 API
浏览器元素定位	像素偏差	DOM 选择器
剪贴板读写	格式误读	系统剪贴板直读直写
截图验证	分辨率差异	相对坐标 + 自适应缩放

模型只做它唯一擅长的事：推理和决策。所有确定性操作旁路模型。

这是正确的分工。但大多数 Browser Agent 做不到，因为它们从第一天就把"截屏识别"当成了核心能力而不是过渡方案。

为什么 Browser Agent 的错误不主动暴露

比失败更危险的事：Agent 不知道自己失败了，然后继续往下跑。

你让 AI 帮你订一张机票。它打开了错误的航空公司页面，选了贵三倍的价格，填完了所有乘客信息，提交了订单——全程没有报错，因为它不知道错了。

这不是模型问题。这是状态追踪层的缺失。

PlugMem 的研究揭示了一个反直觉的结论：给 Agent 更多记忆上下文，它反而变得更差。原因不是记忆不够，是记忆的组织方式错了——事件流≠知识结构，当 Agent 需要从历史里提取"现在该怎么做"，它面对的是噪音而不是信号。

上下文空间是稀缺资源，不是无限资产。越接近决策点的信息越近，历史过程只保留提炼后的结论。

Manus 们的真正局限不在能力，在边界

Browser Agent 真正适合的场景：

结构化网站（航空公司、招聘平台、电商后台）
操作流程固定（表单填写、数据查询、报表生成）
错误可容忍（不需要 100% 成功，人工可介入修正）

Browser Agent 真正不适合的场景：

依赖精确鼠标操作的老旧 Web 应用
需要理解多模态上下文的复杂判断
对成功率要求极高的财务/医疗操作
需要联网查资料再操作的混合任务（这个Manus尝试解决了）

Manus 的方向是对的——通用 Browser Agent 作为入口，承接多种操作场景。但 Demo 里的惊艳和 Demo 背后的工程债务，是两件完全不同的事。

通用 Agent 的边界不是能力不够，是架构不对。

2025 年 Browser Agent 的真实进化方向

不是让模型更会"看图"。

是让确定性操作彻底脱离模型，让模型只做决策。

具体来说有三个工程节点：

1. 工具接口分层 模型输出高阶指令（"滚动到联系区域"），API 执行物理操作（scrollIntoView）。模型不输出像素坐标。

2. 每步验证机制 操作后自动截图或 DOM 比对，确认执行结果符合预期。不符合就触发诊断流程，而不是盲目继续。

3. 错误边界的主动暴露 Agent 不知道下一步怎么走时，主动停住告诉用户"这里卡了"，而不是随便选一个方向跑下去。宁可承认失败，不可用错误结果冒充成功。

最后

Browser Agent 不是一个新鲜概念。它在 2023 年的 AutoGPT 时代就被包装过一遍，2024 年随着 Claude Computer Use 又火了一次，2025 年借着 Manus 再来一轮。

每一轮都在"Demo 惊艳"和"生产哑火"之间重复同一个故事。

真正改变局面的不会是最炫酷的演示视频，而是把 Computer Use 当成系统工程而不是模型能力来做的团队。

看 MiniMax 的路线，比看 Manus 的演示，更让人兴奋。

不是因为它更酷。是因为它在解决真正的问题。

你用过 Browser Agent 吗？踩过什么坑？欢迎评论区交流。