机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一 RoboCasa GR1 TableTop 榜单，全球第一。 75.2% 平均任务成功率，把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候，无界动力这家公司才成立刚满一年。更让人意外的是另一组数字——榜单公布前，他们已经签下近 1 亿美元全球订单，其中仅与远景科技一家就签了超 5 亿元人民币，这是国内...

机器人怎么“看懂”一杯水会不会洒？无界动力用一份错题集干到了全球第一

RoboCasa GR1 TableTop 榜单，全球第一。

75.2% 平均任务成功率，把英伟达 GR00T-N1.6 甩在身后 2.4 个百分点。成绩出来的时候，无界动力这家公司才成立刚满一年。

更让人意外的是另一组数字——榜单公布前，他们已经签下近 1 亿美元全球订单，其中仅与远景科技一家就签了超 5 亿元人民币，这是国内具身操作智能赛道的第一个亿元级海外大单（来源：量子位 https://www.qbitai.com/2026/06/439891.html）。

RoboCasa GR1 TableTop 榜单任务成功率对比（无界动力 MWA-WALA 75.2% vs 第二名 72.8% vs 英伟达 GR00T-N1.6 70.5%）

一年时间从 0 到全球第一、再到亿元订单。如果不是 RoboCasa 这种斯坦福系榜单有公认含金量，我会以为又是 PPT 造公司。但仔细拆开他们的技术方案，我发现了一件更有意思的事——整个具身智能圈子里，几乎没人跟他们走同一条路。

像素级预测，正在把机器人搞废

先问你一个问题：机器人端一杯水，到底该不该算水的折射？

大多数世界模型的做法是——算。逐帧预测像素，每毫秒更新环境状态，把光影、纹理、深度全都算一遍。听起来很严谨，落地就是灾难。10 秒钟的连续动作里，单步预测的微小误差会被时序放大成滚雪球，最后水洒了、杯子掉了、机器人的手在空气里乱抓。

像素级预测本身，就是把机器人往沟里带的设计。

无界动力的解法是不逐帧推断。MWA™ 一次性输出 Chunk 级动作组，把连续 10 秒以上的视觉序列当成一段整体来推演，让误差放大没机会发生。

但真正让 MWA™ 和同行拉开距离的，是另外三个字——

潜动作。

MWA™ 隐空间世界模型架构图：从像素观测到潜动作抽取，再到双向因果互审，最后输出 Chunk 级长时序动作

潜动作，是机器人的肌肉记忆

你端水的时候，脑子里会算杯子倾斜角速度与液面波动的关系吗？不会。你的大脑在潜动作空间里完成这件事——一种比“思考”低一层、比“反射”高一层的因果归纳。你知道“这么端不会洒”，是因为神经系统基于大量试错，在动作变化层面建立了一套不依赖像素标注的因果模型。

MWA™ 走的就是这条路。它不逐帧标注像素，直接在“动作变化”层面做物理因果归纳。机器人推一个杯子，它不去预测每一毫秒杯子边缘的 RGB 值怎么变，而是在潜空间预判：这个推力向量作用在杯子重心那个位置，会导致倾倒还是滑动。

这个区别有多大？举一个量化场景——高精密插接任务。同样在含噪声数据下，传统视觉模型几乎报废，因为灰尘、反光、遮挡会让花三个月标注的像素特征瞬间失效。MWA™ 在这种数据上，任务成功率最高提升 5 倍（来源：量子位）。

5 倍提升不是优化，是换了一条技术路线。

更关键的是，这套机制还盘活了一座金山。互联网上的视频几乎都没有人类标注过动作，传统路线根本没法用。MWA™ 借助潜动作，能直接把数十亿原始视频当训练数据，让数据利用效率跨进一个量级。

你缺的不是数据，是错题集

聊到数据，无界动力还做了一件反常识的事。

整个行业都在卷正样本——抓取成功 1000 次，模型就“学会了”什么叫成功的抓取。但失败瞬间里藏着更值钱的信息：力度差 1 牛顿会滑落、角度偏 2 度会卡死。这些临界数据，正样本堆里几乎找不到。

无界动力整了一套叫 AnyPhys 的负样本数据体系。说白了，就是给机器人做一份错题集。几万条失败、失稳和临界边界样本被系统性沉淀下来，这堆东西不是数据，是物理世界的黑暗知识。

这套错题集怎么起作用？这就引出 MWA™ 第二个核心机制——双向因果链。

双向因果链沙盘推演示意图：Policy Head 出动作、FDM 推演后果、IDM 反向追溯、策略对齐

正动力学负责“我先推，看杯子怎么动”，相当于演员在脑子里预演这场戏的后果。逆动力学负责“杯子倒了，反推刚才哪一步的力向量出了问题”，相当于导演看完回放给你扣分。MWA™ 内部这两条链路同时跑，每一步动作既被预演也被复盘，等于机器人在触碰物理世界之前，已经在内部做完了沙盘推演和自我审计。

这就是无界动力敢直接把 MWA™ 部署到自研 1200 TOPS（INT8）大小脑一体计算平台、并标配量产的底气——他们赌端侧推理已经足够扛起落地这件事。

CEO 张玉峰，前地平线智驾一号位，主导过与大众集团 24 亿欧元的合作。他比多数人都清楚：不能在端侧跑通的世界模型，就是实验室里的花瓶。

物理 AI 这场仗，最终拼的不是榜单排名

Momenta 两个月前冲刺 IPO，物理 AI 第一股。他们的逻辑是：先在高价值场景（自动驾驶）把世界模型能力打磨到极致，再横向迁移到机器人。无界动力走的是另一条路——直扑操作场景，从 0 到 1 自研隐空间因果模型。

两条路线最后会不会汇合？我不确定。但有一件事可以下注：谁先把物理因果从“统计相关性”变成可干预的执行确定性，谁就拿到了物理 AI 的真正门票。

当前所有大语言模型本质上都在“预测下一个 token”，Yann LeCun 骂得没错——那是统计学的模式匹配器，不是对物理世界的理解。MWA™ 在“杯子倒了”这个命题上，给出的不是“看起来像倒了”的视频生成，而是“力向量偏离质心 X 毫米时，0.3 秒后会倒”的因果推断。

这个差距在咖啡店里擦桌子时无所谓。在工业产线精密装配时，就是能用和不能用的区别。

所以无界动力一年拿下的近 1 亿美元订单，不是靠榜单名次换来的。远景科技这种客户，不会因为你在榜单上超了英伟达 2.4% 就给你五亿人民币。他们看到的是产线上某些高价值环节，传统自动化搞不定，具身智能终于能搞定了——而 MWA™ 正好把那个最卡人的问题解了。

Demo 结束了，下一题是真干活、真交付

具身智能的淘汰赛已经开打。Demo 阶段的聚光灯开始熄灭，行业开始问一个更硬的问题：你的机器人，能不能在没见过的真实环境里，稳定交付连续 10 分钟不出错？

无界动力给出的解法很朴素——让机器人真的开始理解物理世界，而不是堆更大的模型、堆更多 GPU。理解重力、碰撞、摩擦这些物理常识之后，它不再需要逐个场景去训练——它会自己学。

这可能是通往通用具身智能最难的一条路，但也是最根本的一条。

数据来源：量子位《全球首个：隐空间世界模型，打通长时序双向物理因果链了！》（2026-06-29）