> 数据图表

如何了解RoboWM-Bench 视频世界模型概览

2026-4-0
如何了解RoboWM-Bench 视频世界模型概览
RoboWM-Bench 的核心流程是将生成视频转化为动作,再在物理仿真中执行验证。对于机器人操作视频,框架通过逆动力学模型恢复动作序列对于人手操作视频,则通过姿态跟踪和重定向转换为机器人动作。随后,基于 real-to-sim 流程重建真实场景和交互动力学,并在仿真环境中执行这些动作。评测指标包括步骤级可执行性检查和最终任务成功率,从而同时提供细粒度故障诊断和整体任务完成结果。 论文构建的任务覆盖刚体操作、可变形物体、长时程组合任务和双臂交互等场景,包括丢垃圾、倒水、叠杯、折叠毛巾、制作汉堡等不同复杂度任务。研究团队使用 RoboWM-Bench 评估多种视频世界模型,结果显示当前模型在具身执行层面仍面临明显挑战。常见失败模式包括空间推理错误、接触预测不稳定和非物理形变,即便生成视频在感知指标上看似合理,执行时仍可能产生动力学不可行的动作。 论文还比较了 RoboWM-Bench 与 PAI-Bench 等感知导向评测的差异。实验显示,某些预测视频在感知评测中得分接近饱和,但 RoboWM-Bench 揭示其转化为执行动作后的成功率有限。研究团队进一步指出,针对操作数据微调世界模型能够改善可执行性,但物理不一致问题仍然存在,尤其在长时程交互和可变形物体操作中更明显。 这项工作将世界模型评估从“看起来像不像真实视频”推进到“能不能被机器人执行”。对机器人策略学习而言,这一转变具有基础设施意义:若未来要把视频世界模型作为数据引擎或规划器,其输出必须经受物理执行验证。RoboWM-Benc h以可复现仿真闭环降低了真实机器人评测成本,也为更物理一致、更具身感知的视频世界模型提供了可量化目标。