4.3 三星NPU迭代:算法优化+更多MAC集成➢ 第3代:• 设计思路转变,更通用:从权重稀疏性感知零跳跃转向 FM 稀疏性感知零跳跃。因权重稀疏性感知零跳跃非行业标准,在基准测试中权重剪枝难以实施,且当时多数深度学习框架不支持,客户应用不便。而 FM 因 ReLU (Rectified Linear Unit)激活函数常含大量零值,可利用其稀疏性提升性能,但需专用硬件确定零值位置,且在非 ReLU 激活函数网络中性能提升受限。• 架构改进:采用基于加法树的点积和新架构。加法树结构在面积和能效上优于基于累加器的点积;在选取非零 FM 时,硬件向量可广播和复用,降低了多路复用器的有效开销;将最小处理单元设为 1×1×32,可适应不同卷积核,保持高利用率。图表:MAC-based(a)和adder-tree-based(b)架构及能效对比(右表)来源: A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,Sparsity-Aware and Re-configurable NPU Architecture for Samsung Flagship Mobile SoC,中泰证券研究所41