你知道VLA Step 3：辅助驾驶强化学习

> 数据图表

你知道VLA Step 3：辅助驾驶强化学习

2025-6-1

VLA Step 3：辅助驾驶强化学习◼ VLA训练与推理过程第三阶段：辅助驾驶强化学习。类似人到社会开车，分为两部分。➢ RLHF：第一部分先做人类反馈强化学习，加入人类数据，带有人类反馈（接管/习惯等）。➢ RL：第二部分做纯粹的强化学习，目的是比人类开的更好。拿RL模型放到世界模型做训练，过程中不会加入人类反馈，只会给出一个结果。会采用三大指标提出训练要求：1）G值（加速度数值）判断舒适性；2）碰撞反馈；3）交通规则反馈。◼ 强化学习完成后，VLA即能在车端实现。图：理想VLA第三步——辅助驾驶强化学习数据来源：理想AI Talk第二季，东吴证券研究所63

东吴证券综合其他