Anthropic收购Vercept、MiniMax发布桌面Agent、OpenAI推出Operator——大厂们最近的动作出奇一致：把AI Agent从聊天的牢笼里放出来，让它能看屏幕、能点鼠标、能操作真实设备。这不只是功能叠加，这是一次范式转移。

AI Agent走向物理世界：从屏幕里的工具到真实世界的参与者

2011年，iPhone 4S上线Siri。科技圈兴奋了几天，然后就没有然后了——那一年Siri被评为"最鸡肋iPhone功能"。没人觉得语音助手会改变世界，它只是一个会说话的玩具。

十五年后，同样的故事正在AI Agent领域重演。只不过这一次，被低估的不是语音助手，而是"让AI操作电脑"这件事本身。

Anthropic收购Vercept，MiniMax发布支持Computer Use的桌面端Agent，OpenAI的Operator横空出世——大厂们最近的动作出奇一致：把AI Agent从聊天的牢笼里放出来，让它能看屏幕、能点鼠标、能操作真实设备。

这不只是功能叠加。这是一次范式转移。

从"答问题"到"做任务"

过去三年，AI Agent的核心叙事是"超级助手"——你问它问题，它给你答案；你让它写代码，它给你代码；你让它生成图片，它给你图片。所有的交互都发生在对话窗口内部，AI的输出就是你的终点。

Computer Use打破了这堵墙。

当Anthropic让Claude能直接操控用户的电脑桌面时，评价两极分化：有人觉得这是自找麻烦——一个能自主点鼠标的AI，万一手滑删了重要文件怎么办？但真正值得关注的是另一群人：他们看到的是"任务闭环"的可能性。

一个真正有用的Agent，不应该只返回一段文字。它应该能帮你把事情从开头做到结尾——找到文件、处理数据、写入系统、发送消息、确认完成。每一个环节都在AI的掌控之中，用户只需要最后看一眼结果。

这才是AI Agent本该有的样子。

MiniMax前两周发布的一组Agent桌面端更新，把这个趋势讲得很具体。

他们没有用一个统一的"万能computer工具"处理所有操作，而是把桌面拆成了四个独立工具域：Desktop Control负责鼠标和键盘，Window Manager负责窗口调度，Browser Engine负责网页操作，Clipboard负责跨应用数据传递。

这背后的逻辑很朴素：不同任务有不同的最优路径。让AI用像素坐标去"猜"最小化按钮在哪，精度远不如直接调用系统API；让AI截图识别网页内容，远不如直接用DOM选择器定位元素。每种工具各司其职，Agent按需组合。

最终这套系统堆到了60+个工具。Agent执行任务时，会自己判断该用哪套工具链——该调用API的调用API，该操作界面的操作界面。

这个思路的潜台词是：真实世界的任务从来不是单一步骤，而是跨越多个系统、多层界面的连续动作。传统API对接只能覆盖"有接口"的部分，而Computer Use覆盖的是"所有有界面的"部分——哪怕是一个藏在系统设置深处、没有公开API的开关。

让AI操作电脑这件事，走到今天主要跨越了两道门槛。

第一道是精度。

早期Computer Use的典型问题是"看起来能跑，但一用就崩"——模型在Demo里演示得天衣无缝，用户一上手就开始点错按钮。高分辨率屏幕信息过载，低分辨率屏幕画面模糊，模型输出的像素坐标在真实设备上根本对不准。

解决思路很直接：让模型输出相对坐标而非绝对坐标，由系统根据当前屏幕分辨率换算成真实像素。同时对截图做自适应缩放——无论用户用的是MacBook Retina还是外接4K显示器，模型看到的都是经过适配的最优尺寸。

第二道是信任。

一个能自主操作的AI，用户凭什么敢把电脑交给它？

答案不是"保证不出错"，而是"让用户全程看见"。MiniMax的设计里，Agent每执行一步操作都会截图回传——用户在IM对话里就能看到AI正在做什么、在哪一步、结果是什么。透明度比可靠性更重要：用户不需要一个100%不会错的AI，但他们需要一个每一步都可追溯的AI。

科技圈对"让AI操作电脑"的反应，某种程度上映射了2011年Siri上线时的场景：功能看起来有点意思，但很难想象它会改变什么。