你知道1.1 从“模仿人类”到“超越人类”

> 数据图表

你知道1.1 从“模仿人类”到“超越人类”

2025-5-0

1.1 从“模仿人类”到“超越人类”➢ 业界头部玩家的探索——理想汽车• 2025年5月7日，李想在AI Talk第二季上分享道：“强化学习分成两个部分：✓ 第一部分先做RLHF，带有人类反馈的。当人类会接管时，包括人类的一些习惯，来做带有人类反馈的强化训练。安全对齐都在这个环节完成，除了遵守交通规则，还要遵守中国的驾驶习惯，开车习惯要融入社会。✓ 第二部分是纯粹的RL，用世界模型生成的数据来做训练。目的是开得比人类更好，中间不给人类反馈，只给一个结果：从A点到B点开过去。有三类训练要求：1）通过G值（加速度数值）判断舒适性，给舒适性反馈；2）做碰撞反馈，如果碰撞强化就没完成；3）交通规则反馈，如果违反交通规则就没完成。通过舒适、交通规则和碰撞事故三个维度来做强化训练。”图表：理想VLA司机大模型训练与推理过程图表：第三阶段辅助驾驶强化学习资料来源：理想汽车AI Talk第二季、六合商业研选，国盛证券研究所14

国盛证券科技传媒