> 数据图表你知道1.1 从“模仿人类”到“超越人类”
2025-5-01.1 从“模仿人类”到“超越人类”➢ 业界头部玩家的探索——理想汽车• 2025年5月7日,李想在AI Talk第二季上分享道:“强化学习分成两个部分:✓ 第一部分先做RLHF,带有人类反馈的。当人类会接管时,包括人类的一些习惯,来做带有人类反馈的强化训练。安全对齐都在这个环节完成,除了遵守交通规则,还要遵守中国的驾驶习惯,开车习惯要融入社会。✓ 第二部分是纯粹的RL,用世界模型生成的数据来做训练。目的是开得比人类更好,中间不给人类反馈,只给一个结果:从A点到B点开过去。有三类训练要求:1)通过G值(加速度数值)判断舒适性,给舒适性反馈;2)做碰撞反馈,如果碰撞强化就没完成;3)交通规则反馈,如果违反交通规则就没完成。通过舒适、交通规则和碰撞事故三个维度来做强化训练。”图表:理想VLA司机大模型训练与推理过程图表:第三阶段辅助驾驶强化学习资料来源:理想汽车AI Talk第二季、六合商业研选,国盛证券研究所14