> 数据图表咨询大家BEVTransformerOCC 占用网络架构将智驾带入真正的 3D 感知,提高系统感知的泛化能力
2025-8-2“BEVTransformerOCC 占用网络”架构将智驾带入真正的 3D 感知,提高系统感知的泛化能力。“占用网络 OCC”将世界划分为多个大小一致的立方体,每个立方体也被称为体素(voxel),通过预测每个体素是否被占用,实现细粒度的 3D场景建模。此外,OCC 还利用光流法识别车周物体的动态信息,假设构成物体的像素亮度恒定且时间连续,通过对比连续两帧图像中的像素位置变化估计出物体或场景的运动。OCC 具有如下优势:(1)通过体素化网格预测占用概率,可精准描述不规则物体(如土堆、树枝)的几何形状,提高识别精度(2)OCC 不以是否认识物体或识别分类为目标,而是以空间是否被占用为检测目标,因此可大幅提 高 对 异 形 障 碍 物 的 通 用 化 识 别 , 降 低 对 标 注 数 据 的 依 赖 。BEVTransformerOCC 占用网络在原有 BEVTransformer 架构的基础上增加了去卷积层(Deconvolution),从较低维度的特征中恢复更高分辨率的空间信息,进而解码出 3D 体素占用网络。将 OCC 应用于 BEVTransformer 架构,实现了感知层面真正的全场景 3D 建模以及动态预测。