> 数据图表

一起讨论下1.2、NPU是专用加速芯片,适用于乘法累加运算

2025-4-1
一起讨论下1.2、NPU是专用加速芯片,适用于乘法累加运算
1.2、NPU是专用加速芯片,适用于乘法累加运算◼ NPU泛指专门用于加速神经网络计算的处理器,主要用于推理场景,以高通NPU举例,主要架构资源包括:1)处理器执行的三种指令集( Scalar 、 Vector 、 Tensor )、2)紧密耦合内存(TCM) 、3) DMA/BUS 和 L2 缓存:➢ 标量指令集(Scalar):用于控制流和通用计算;32 位标量单元,每线程上下文 32 个寄存器,功能强大,能够独立处理轻量级DSP任务➢ 向量指令集(Vector):用于通用数据并行计算,应用于DNN工作负载;有 32 个 1024 位向量寄存器和对应执行管道,线程需请求访问,减少寄存器文件需求和功耗➢ 张量指令集(Tensor):用于矩阵乘法和卷积层计算,为优化机器学习矩阵乘法,加入张量协处理器,每秒可完成 16K 乘累加(MAC)操作,通过优化数据局部性提升计算效率,如输出固定、卷积激活重用等,软件负责组织数据。➢ 紧密耦合内存(TCM):位于多线程区域和张量计算区域之间,用于数据快速交互,带宽高、可避免 DDR 延迟。➢ DMA/BUS 和 L2 缓存:位于左侧,用于数据的传输和存储。图表: Hexagon NPU 经典架构来源:高通官网, chipsandcheese,中泰证券研究所9