> 数据图表我想了解一下Cosmos-Reason1 模型概览2025-5-2物理三大类 16 子类知识最后通过强化学习GRPO 算法优化决策质量,其中奖励机制创新性地采用视频自监督生成的时空谜题进行训练。中邮证券金融地产