机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一
Site Owner
Published on 2026-07-01
机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一 RoboCasa GR1 TableTop 榜单,全球第一。 75.2% 平均任务成功率,把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候,无界动力这家公司才成立刚满一年。 更让人意外的是另一组数字——榜单公布前,他们已经签下近 1 亿美元全球订单,其中仅与远景科技一家就签了超 5 亿元人民币,这是国内...
机器人怎么“看懂”一杯水会不会洒?无界动力用一份错题集干到了全球第一
RoboCasa GR1 TableTop 榜单,全球第一。
75.2% 平均任务成功率,把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候,无界动力这家公司才成立刚满一年。
更让人意外的是另一组数字——榜单公布前,他们已经签下近 1 亿美元全球订单,其中仅与远景科技一家就签了超 5 亿元人民币,这是国内具身操作智能赛道的第一个亿元级海外大单(来源:量子位 https://www.qbitai.com/2026/06/439891.html)。

一年时间从 0 到全球第一、再到亿元订单。如果不是 RoboCasa 这种斯坦福系榜单有公认含金量,我会以为又是 PPT 造公司。但仔细拆开他们的技术方案,我发现了一件更有意思的事——整个具身智能圈子里,几乎没人跟他们走同一条路。
像素级预测,正在把机器人搞废
先问你一个问题:机器人端一杯水,到底该不该算水的折射?
大多数世界模型的做法是——算。逐帧预测像素,每毫秒更新环境状态,把光影、纹理、深度全都算一遍。听起来很严谨,落地就是灾难。10 秒钟的连续动作里,单步预测的微小误差会被时序放大成滚雪球,最后水洒了、杯子掉了、机器人的手在空气里乱抓。
像素级预测本身,就是把机器人往沟里带的设计。
无界动力的解法是不逐帧推断。MWA™ 一次性输出 Chunk 级动作组,把连续 10 秒以上的视觉序列当成一段整体来推演,让误差放大没机会发生。
但真正让 MWA™ 和同行拉开距离的,是另外三个字——
潜动作。

潜动作,是机器人的肌肉记忆
你端水的时候,脑子里会算杯子倾斜角速度与液面波动的关系吗?不会。你的大脑在潜动作空间里完成这件事——一种比“思考”低一层、比“反射”高一层的因果归纳。你知道“这么端不会洒”,是因为神经系统基于大量试错,在动作变化层面建立了一套不依赖像素标注的因果模型。
MWA™ 走的就是这条路。它不逐帧标注像素,直接在“动作变化”层面做物理因果归纳。机器人推一个杯子,它不去预测每一毫秒杯子边缘的 RGB 值怎么变,而是在潜空间预判:这个推力向量作用在杯子重心那个位置,会导致倾倒还是滑动。
这个区别有多大?举一个量化场景——高精密插接任务。同样在含噪声数据下,传统视觉模型几乎报废,因为灰尘、反光、遮挡会让花三个月标注的像素特征瞬间失效。MWA™ 在这种数据上,任务成功率最高提升 5 倍(来源:量子位)。
5 倍提升不是优化,是换了一条技术路线。
更关键的是,这套机制还盘活了一座金山。互联网上的视频几乎都没有人类标注过动作,传统路线根本没法用。MWA™ 借助潜动作,能直接把数十亿原始视频当训练数据,让数据利用效率跨进一个量级。
你缺的不是数据,是错题集
聊到数据,无界动力还做了一件反常识的事。
整个行业都在卷正样本——抓取成功 1000 次,模型就“学会了”什么叫成功的抓取。但失败瞬间里藏着更值钱的信息:力度差 1 牛顿会滑落、角度偏 2 度会卡死。这些临界数据,正样本堆里几乎找不到。
无界动力整了一套叫 AnyPhys 的负样本数据体系。说白了,就是给机器人做一份错题集。几万条失败、失稳和临界边界样本被系统性沉淀下来,这堆东西不是数据,是物理世界的黑暗知识。
