Manus演示惊艳全网，MiniMax却悄悄拆掉了整个看图找按钮的架构。为什么Browser Agent总是倒在生产环境？不是模型不够强，是工程那层从一开始就没存在过。

你的 AI 还在"看图说话"？Browser Agent 正在爬出_demo地狱_

Manus 在社交媒体上炸场，只用了一个演示视频。

视频里，AI 打开浏览器，筛选简历，生成排名表格，全程自主完成。评论区涌入惊叹："Deep Research 凉了"、"通用 Agent 时代来了"。

同一天，另一条动态安静地滑过：MiniMax 披露了他们的 Computer Use 方案——把"看图找按钮"这套做法彻底拆解，窗口管理走 API，浏览器元素走 DOM 选择器，模型只负责决策。

两条路线，同一个目标。但只有一条在认真解决真实问题。

演示视频是一场精心策划的骗局

不是说作弊。是说演示本质上是在展示"这件事能成功"，不是"这件事能稳定地做成"。

Browser Agent 的演示逻辑是这样的：

你见过 AI Agent 演示订餐、填表、筛选简历。

你没见过的场景：弹窗突然出现挡住目标按钮。页面加载慢了 2 秒，AI 已经点了错误的元素。网页更新了 UI，AI 在找一个已经不存在的下拉菜单。

这是可靠性工程里最常见的陷阱：演示成功 ≠ 生产成功。

一条消息的失误率可能是 5%。十个步骤串联起来，0.95^10 ≈ 60%。一百步？0.95^100 ≈ 0.6%。

演示通常在 5-10 步以内完成。真实自动化任务往往 50 步起步。

当前大多数 Browser Agent 的实现逻辑：

模型截图 → 识别"下一步该点哪" → 输出像素坐标 → 点击

这套方案的致命缺陷藏在第三步：像素坐标是环境相关的脆弱常量。

显示器分辨率变化，坐标就错。页面 UI 改版，按钮消失。弹窗突然弹出，AI 对着空区域猛点。

MiniMax 把这个问题拆得更干净：不同操作类型，用不同工具，不让模型数像素。

模型只做它唯一擅长的事：推理和决策。所有确定性操作旁路模型。

这是正确的分工。但大多数 Browser Agent 做不到，因为它们从第一天就把"截屏识别"当成了核心能力而不是过渡方案。

比失败更危险的事：Agent 不知道自己失败了，然后继续往下跑。

你让 AI 帮你订一张机票。它打开了错误的航空公司页面，选了贵三倍的价格，填完了所有乘客信息，提交了订单——全程没有报错，因为它不知道错了。