> 数据图表我想了解一下智能驾驶算法:从模仿学习转型强化学习2025-4-2智能驾驶算法:从模仿学习转型强化学习◼ 从模仿学习转型强化学习。CTO楼天城认为模仿学习难以做到L4级别自动驾驶(即模仿学习的上限就是人类司机),2020年全面切换为强化学习(通过在一个虚拟环境(小马智行叫做世界模型)中进行自我训练,通过RL的奖励机制自我演进),从“知其然”转化为“知其所以然”。事实证明,测试所得2021年小马智行平均碰撞里程(MPC)为25万公里,特斯拉FSD V12的平均接管里程(MPI)为333公里。◼ 人才密度是小马能力的关键,打造了一套底层复用率超80%的技术体系。2021年到现在,公司研发费用支出超过5亿美元,过半的研发资源用于世界模型的搭建(即用于高质量人才的工资);而与之相对应的,车企/L2+供应商要实现城市NOA所需的云端算力租赁费用约为10亿人民币量级。图:模仿学习和强化学习对比图:各公司智驾研发人员(估计)即2023年研发费用(亿元)车企L2+公司L4公司3530252015105017代表企业 底层驱动 算力需求 理论上限模仿学习 特斯拉数据大较低强化学习 小马智行,算法较小Waymo模仿+强化地平线、理想数据+算法大高高800070006000500040003000200010000数据来源:焉知汽车,各公司年报,California DMV disengagement reports and collision reports,AMCI,东吴证券研究所智驾研发人员23年研发费用(右轴)东吴证券综合其他