MiniMax重新设计操作电脑——IM+Pocket+Computer Use
Site Owner
发布于 2026-04-18
MiniMax Agent桌面端通过Pocket和Computer Use重新设计Agent操作电脑的入口。IM作为统一指令入口,Pocket随身携带能力,Computer Use接管图形界面。四个工程坑的解决方案让真实任务可靠性大幅提升。
MiniMax重新设计操作电脑——IM+Pocket+Computer Use
你坐在地铁上,突然想起桌面上可能有一份重要文件。以前得等到公司才能打开电脑看。
现在,你给电脑发一条飞书消息:"帮我看下桌面上有没有 2025 report 的 PDF,找到并发给我。"
Agent 在你的电脑上翻出文件,回传给你。任务完成。
这就是 MiniMax Agent 桌面端这次更新的核心场景。(来源:MiniMax Agent 更新《这次我们重新设计了 Agent 操作电脑的方式》)
三个让 Agent 替你干活的具体场景
远程找文件。 你在地铁上,会议中,出差途中。给 Agent 发一条 IM,桌面上那个文件就到手了。不需要打开电脑,不需要远程桌面。
筛选简历并发飞书文档。 "读取桌面 Resume 文件夹里的所有简历,根据设计经验年限、量化成果和技能匹配度,挑选 Top 3 候选人并出面试题。整理成飞书文档。"
Computer Use 负责在你电脑上读本地文件,理解简历内容;飞书 CLI 负责把结果写入飞书文档。Agent 完成后把文档链接回传你。
操作本地应用和系统设置。 "打开系统设置,找到锁定屏幕,把屏幕保护程序设为永不。然后打开 Pocket 客户端执行每日定时任务,完成后给我截图。"
这些任务——改系统设置,操作本地客户端——没有公开的命令行接口,以前只能手动做。现在 Agent 全部搞定,每一步都在 IM 里展示给你看。
为什么 Computer Use 一直做不好
从 Agent 能操作电脑,到 Agent 能稳定、准确、安全地完成你交付的任务,中间是大量的工程工作。
工具设计的问题。
常见的 Computer Use 实现方式是提供一个万能的 computer 工具——所有操作都通过像素坐标完成。切换窗口、点击按钮、操作网页,全靠模型数像素点。精度和可靠性都很难保证。
MiniMax 把桌面操作拆成四个独立的工具域:Desktop Control(截图、鼠标、键盘、滚动、拖拽)、Window Manager(窗口列表、聚焦、最小化/最大化、关闭、移动缩放)、Browser Engine(DOM 操作、CSS 选择器、JS 执行、结构化导航)、Clipboard(系统剪贴板读写)。
不同任务的最优执行路径不一样。窗口管理直接调用系统 API,不需要让模型先截图再识别"最小化按钮在哪"。浏览器元素通过 DOM 选择器定位,比数像素精准得多。四套工具域叠加 lark-cli、wecom-cli、mmx 三套平台 CLI,加上 Bash 和文件系统工具,一共 60+ 个工具。Agent 根据任务类型自己选最合适的工具路径。
屏幕适配的问题。
Computer Use 的第一步是让模型看到屏幕。但用户的显示器千差万别——MacBook Retina,外接 4K、1080p、720p,物理分辨率能差一个数量级。
同一张截图在不同设备上呈现给模型的细节密度完全不同。高分辨率屏幕信息过载,低分辨率屏幕模糊点错。
MiniMax 在两个层面解决。坐标系统统一:模型不直接输出像素坐标,输出 0 到 1 之间的相对位置,由系统根据当前屏幕分辨率换算为真实坐标。截图自适应处理:先以物理像素级精度截取屏幕,再根据模型的视觉输入上限动态缩放。无论用户用的是 MacBook Retina 还是外接 4K,模型收到的都是经过适配的最优尺寸。
多步任务怎么保证可靠。
真实任务往往需要十几步甚至上百步操作。任何一步的错误——坐标识别偏差、窗口未及时聚焦、意外弹窗遮挡——都可能导致后续全部失败。
MiniMax 的方案是让每一步操作后都自动截图验证:模型确认"刚才那一步真的做到了吗"。如果符合预期就推进下一步;如果没有,进入诊断流程,识别失败原因,尝试替代方案(比如鼠标点不到就换成键盘快捷键)。重试次数耗尽后,Agent 主动告诉用户卡在哪一步,而不是继续盲目尝试。多步任务里偶发的小问题被就地处理,不会累积成最后的全盘失败。
远程权限怎么管。
当你不在电脑前,通过 IM 远程发指令时,权限边界必须清晰。删文件、改系统设置——如果没有确认就直接执行,远程操控的便利就变成了风险。
MiniMax 把权限管理也放到 IM 里。Agent 准备执行高风险操作时,会暂停,把这一步的具体内容以交互卡片推送到飞书或 Slack,用户点一下授权或拒绝;微信等不支持交互组件的平台通过文本指令完成授权。执行过程中用户也可以随时发送指令中止 Agent。每一个关键动作,都经过用户本人的确认。
IM 是入口,不是功能
MiniMax 这次更新的本质,不是发布了一个新功能,而是重新设计了 Agent 操作电脑的入口。
命令行覆盖可被 API 化的部分,Computer Use 接管需要依赖图形界面的部分,IM 作为统一的指令入口随时唤起两者。Pocket 把这个能力随身携带——你在飞书里、Slack 里、微信里,都能唤起你电脑上那个 Agent。
Agent 能触达的工作范围,从此扩展到用户真实的电脑桌面。
但 MiniMax 自己也承认,Pocket 和 Computer Use 作为能力而言,仍处于早期。复杂界面下的识别精度、长任务中的稳定性、对新软件的泛化能力,都有大量工程工作要做。
这条路刚刚开始。
素材来源:
- MiniMax Agent 更新《这次我们重新设计了 Agent 操作电脑的方式》:https://mp.weixin.qq.com/s?__biz=MzE5MTA3NzcxMQ==&mid=2247488360&idx=1&sn=9358b0c0a0750975e8f4c001b8f1e724