我想了解一下智能驾驶算法：从模仿学习转型强化学习

> 数据图表

我想了解一下智能驾驶算法：从模仿学习转型强化学习

2025-4-2

智能驾驶算法：从模仿学习转型强化学习◼ 从模仿学习转型强化学习。CTO楼天城认为模仿学习难以做到L4级别自动驾驶（即模仿学习的上限就是人类司机），2020年全面切换为强化学习（通过在一个虚拟环境（小马智行叫做世界模型）中进行自我训练，通过RL的奖励机制自我演进），从“知其然”转化为“知其所以然”。事实证明，测试所得2021年小马智行平均碰撞里程（MPC）为25万公里，特斯拉FSD V12的平均接管里程（MPI）为333公里。◼ 人才密度是小马能力的关键，打造了一套底层复用率超80%的技术体系。2021年到现在，公司研发费用支出超过5亿美元，过半的研发资源用于世界模型的搭建（即用于高质量人才的工资）；而与之相对应的，车企/L2+供应商要实现城市NOA所需的云端算力租赁费用约为10亿人民币量级。图：模仿学习和强化学习对比图：各公司智驾研发人员（估计）即2023年研发费用（亿元）车企L2+公司L4公司3530252015105017代表企业底层驱动算力需求理论上限模仿学习特斯拉数据大较低强化学习小马智行，算法较小Waymo模仿+强化地平线、理想数据+算法大高高800070006000500040003000200010000数据来源：焉知汽车，各公司年报，California DMV disengagement reports and collision reports，AMCI，东吴证券研究所智驾研发人员23年研发费用（右轴）

东吴证券综合其他