> 数据图表

你知道VLA Step 3:辅助驾驶强化学习

2025-6-1
你知道VLA Step 3:辅助驾驶强化学习
VLA Step 3:辅助驾驶强化学习◼ VLA训练与推理过程第三阶段:辅助驾驶强化学习。类似人到社会开车,分为两部分。➢ RLHF:第一部分先做人类反馈强化学习,加入人类数据,带有人类反馈(接管/习惯等)。➢ RL:第二部分做纯粹的强化学习,目的是比人类开的更好。拿RL模型放到世界模型做训练,过程中不会加入人类反馈,只会给出一个结果。会采用三大指标提出训练要求:1)G值(加速度数值)判断舒适性;2)碰撞反馈;3)交通规则反馈。◼ 强化学习完成后,VLA即能在车端实现。图:理想VLA第三步——辅助驾驶强化学习数据来源:理想AI Talk第二季,东吴证券研究所63