如何了解RoboWM-Bench 视频世界模型概览

> 数据图表

如何了解RoboWM-Bench 视频世界模型概览

2026-4-0

RoboWM-Bench 的核心流程是将生成视频转化为动作，再在物理仿真中执行验证。对于机器人操作视频，框架通过逆动力学模型恢复动作序列对于人手操作视频，则通过姿态跟踪和重定向转换为机器人动作。随后，基于 real-to-sim 流程重建真实场景和交互动力学，并在仿真环境中执行这些动作。评测指标包括步骤级可执行性检查和最终任务成功率，从而同时提供细粒度故障诊断和整体任务完成结果。论文构建的任务覆盖刚体操作、可变形物体、长时程组合任务和双臂交互等场景，包括丢垃圾、倒水、叠杯、折叠毛巾、制作汉堡等不同复杂度任务。研究团队使用 RoboWM-Bench 评估多种视频世界模型，结果显示当前模型在具身执行层面仍面临明显挑战。常见失败模式包括空间推理错误、接触预测不稳定和非物理形变，即便生成视频在感知指标上看似合理，执行时仍可能产生动力学不可行的动作。论文还比较了 RoboWM-Bench 与 PAI-Bench 等感知导向评测的差异。实验显示，某些预测视频在感知评测中得分接近饱和，但 RoboWM-Bench 揭示其转化为执行动作后的成功率有限。研究团队进一步指出，针对操作数据微调世界模型能够改善可执行性，但物理不一致问题仍然存在，尤其在长时程交互和可变形物体操作中更明显。这项工作将世界模型评估从“看起来像不像真实视频”推进到“能不能被机器人执行”。对机器人策略学习而言，这一转变具有基础设施意义：若未来要把视频世界模型作为数据引擎或规划器，其输出必须经受物理执行验证。RoboWM-Benc h以可复现仿真闭环降低了真实机器人评测成本，也为更物理一致、更具身感知的视频世界模型提供了可量化目标。

国泰海通科技传媒