机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一
Site Owner
发布于 2026-07-01
机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一 RoboCasa GR1 TableTop 榜单,全球第一。 75.2% 平均任务成功率,把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候,无界动力这家公司才成立刚满一年。 更让人意外的是另一组数字——榜单公布前,他们已经签下近 1 亿美元全球订单,其中仅与远景科技一家就签了超 5 亿元人民币,这是国内...
机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一
RoboCasa GR1 TableTop 榜单,全球第一。
75.2% 平均任务成功率,把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候,无界动力这家公司才成立刚满一年。
更让人意外的是另一组数字——榜单公布前,他们已经签下近 1 亿美元全球订单,其中仅与远景科技一家就签了超 5 亿元人民币,这是国内具身操作智能赛道的第一个亿元级海外大单(来源:量子位 https://www.qbitai.com/2026/06/439891.html)。

一年时间从 0 到全球第一、再到亿元订单。如果不是 RoboCasa 这种斯坦福系榜单有公认含金量,我会以为又是 PPT 造公司。但仔细拆开他们的技术方案,我发现了一件更有意思的事——整个具身智能圈子里,几乎没人跟他们走同一条路。
像素级预测,正在把机器人搞废
先问你一个问题:机器人端一杯水,到底该不该算水的折射?
大多数世界模型的做法是——算。逐帧预测像素,每毫秒更新环境状态,把光影、纹理、深度全都算一遍。听起来很严谨,落地就是灾难。10 秒钟的连续动作里,单步预测的微小误差会被时序放大成滚雪球,最后水洒了、杯子掉了、机器人的手在空气里乱抓。
像素级预测本身,就是把机器人往沟里带的设计。
无界动力的解法是不逐帧推断。MWA™ 一次性输出 Chunk 级动作组,把连续 10 秒以上的视觉序列当成一段整体来推演,让误差放大没机会发生。
但真正让 MWA™ 和同行拉开距离的,是另外三个字——
潜动作。

潜动作,是机器人的肌肉记忆
你端水的时候,脑子里会算杯子倾斜角速度与液面波动的关系吗?不会。你的大脑在潜动作空间里完成这件事——一种比“思考”低一层、比“反射”高一层的因果归纳。你知道“这么端不会洒”,是因为神经系统基于大量试错,在动作变化层面建立了一套不依赖像素标注的因果模型。
MWA™ 走的就是这条路。它不逐帧标注像素,直接在“动作变化”层面做物理因果归纳。机器人推一个杯子,它不去预测每一毫秒杯子边缘的 RGB 值怎么变,而是在潜空间预判:这个推力向量作用在杯子重心那个位置,会导致倾倒还是滑动。
这个区别有多大?举一个量化场景——高精密插接任务。同样在含噪声数据下,传统视觉模型几乎报废,因为灰尘、反光、遮挡会让花三个月标注的像素特征瞬间失效。MWA™ 在这种数据上,任务成功率最高提升 5 倍(来源:量子位)。
5 倍提升不是优化,是换了一条技术路线。
更关键的是,这套机制还盘活了一座金山。互联网上的视频几乎都没有人类标注过动作,传统路线根本没法用。MWA™ 借助潜动作,能直接把数十亿原始视频当训练数据,让数据利用效率跨进一个量级。
你缺的不是数据,是错题集
聊到数据,无界动力还做了一件反常识的事。
整个行业都在卷正样本——抓取成功 1000 次,模型就“学会了”什么叫成功的抓取。但失败瞬间里藏着更值钱的信息:力度差 1 牛顿会滑落、角度偏 2 度会卡死。这些临界数据,正样本堆里几乎找不到。
无界动力整了一套叫 AnyPhys 的负样本数据体系。说白了,就是给机器人做一份错题集。几万条失败、失稳和临界边界样本被系统性沉淀下来,这堆东西不是数据,是物理世界的黑暗知识。
这套错题集怎么起作用?这就引出 MWA™ 第二个核心机制——双向因果链。

正动力学负责“我先推,看杯子怎么动”,相当于演员在脑子里预演这场戏的后果。逆动力学负责“杯子倒了,反推刚才哪一步的力向量出了问题”,相当于导演看完回放给你扣分。MWA™ 内部这两条链路同时跑,每一步动作既被预演也被复盘,等于机器人在触碰物理世界之前,已经在内部做完了沙盘推演和自我审计。
这就是无界动力敢直接把 MWA™ 部署到自研 1200 TOPS(INT8)大小脑一体计算平台、并标配量产的底气——他们赌端侧推理已经足够扛起落地这件事。
CEO 张玉峰,前地平线智驾一号位,主导过与大众集团 24 亿欧元的合作。他比多数人都清楚:不能在端侧跑通的世界模型,就是实验室里的花瓶。
物理 AI 这场仗,最终拼的不是榜单排名
Momenta 两个月前冲刺 IPO,物理 AI 第一股。他们的逻辑是:先在高价值场景(自动驾驶)把世界模型能力打磨到极致,再横向迁移到机器人。无界动力走的是另一条路——直扑操作场景,从 0 到 1 自研隐空间因果模型。
两条路线最后会不会汇合?我不确定。但有一件事可以下注:谁先把物理因果从“统计相关性”变成可干预的执行确定性,谁就拿到了物理 AI 的真正门票。
当前所有大语言模型本质上都在“预测下一个 token”,Yann LeCun 骂得没错——那是统计学的模式匹配器,不是对物理世界的理解。MWA™ 在“杯子倒了”这个命题上,给出的不是“看起来像倒了”的视频生成,而是“力向量偏离质心 X 毫米时,0.3 秒后会倒”的因果推断。
这个差距在咖啡店里擦桌子时无所谓。在工业产线精密装配时,就是能用和不能用的区别。
所以无界动力一年拿下的近 1 亿美元订单,不是靠榜单名次换来的。远景科技这种客户,不会因为你在榜单上超了英伟达 2.4% 就给你五亿人民币。他们看到的是产线上某些高价值环节,传统自动化搞不定,具身智能终于能搞定了——而 MWA™ 正好把那个最卡人的问题解了。
Demo 结束了,下一题是真干活、真交付
具身智能的淘汰赛已经开打。Demo 阶段的聚光灯开始熄灭,行业开始问一个更硬的问题:你的机器人,能不能在没见过的真实环境里,稳定交付连续 10 分钟不出错?
无界动力给出的解法很朴素——让机器人真的开始理解物理世界,而不是堆更大的模型、堆更多 GPU。理解重力、碰撞、摩擦这些物理常识之后,它不再需要逐个场景去训练——它会自己学。
这可能是通往通用具身智能最难的一条路,但也是最根本的一条。
数据来源:量子位《全球首个:隐空间世界模型,打通长时序双向物理因果链了!》(2026-06-29)