> 数据图表

怎样理解4.3 三星NPU迭代:算法优化+更多MAC集成

2025-4-1
怎样理解4.3 三星NPU迭代:算法优化+更多MAC集成
4.3 三星NPU迭代:算法优化+更多MAC集成➢ 以三星为例,第1代&第2代:• 性能提升关键在于“权重剪枝”,NPU中典型权重张量的稀疏度可超 50%,NPU 会利用这种权重稀疏性进行零跳跃操作(预先识别哪些权重为0,跳过其对应输入特征图(Feature Map)的计算过程),提高计算效率。• MAC结构:为基于累加器的点积形式,在输入通道方向4 路并行,但每个输入通道单独计算,最终结果合并前各自独立,缺乏加法树,无归约操作,需大量寄存器存储部分和(PSUM)值。• 数据处理和传输:整体 FM 可在空间方向预先分区为基本数据交易单元 Cell,随着输入和输出通道方向并行度的增加,用于选取和组合 FM 单元的多路复用器开销会不断增大;并且在网络中存在许多宽度和高度较小的层时,利用大规模空间并行性可能会导致计算利用率低下。图表:第一代NPU利用权重稀疏性进行零跳跃传统卷积计算要16个周期利用权重稀疏性的卷积计算只要4个周期来源: A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,中泰证券研究所40