> 数据图表如何了解昇腾 AI 芯片快速迭代 SIMD 微架构处理流程2025-9-01. 单卡性能迭代升级,支持 FP8、FP4 等数据格式 硬件性能持续升级,显存与互联带宽显著提高。迭代规划:根据华为全链接大会 2025,2026-2028 年昇腾芯片基本保持每年迭代一代的速度,2026Q1推出昇腾 950PR,2026Q4 推出昇腾 950DT,2027Q4 推出昇腾 960,2027Q4推出昇腾 970。显存带宽:伴随芯片持续迭代,950PR 显存带宽由 910C 的0.8TBs 升级至 1.6 TBs,并且支持华为自研 HBM,未来推出的 970 系列显存带宽预计达到 14.4TBs,预计将显著提高芯片推理性能。互联带宽:由910C 的 784 GBs 增长至 970 系列的 4000GBs,显著缓解通信带宽瓶颈,预计将加速国产卡向训练场景拓展。 芯片架构向 SIMT 转变,编程方式更灵活。芯片微架构:根据智东西,与910C 相比,昇腾 950 及以后系列不仅支持 SIMD 架构,同时也支持 SIMT微架构。SIMD 架构:允许单一指令对多个数据值进行操作,本质仍只有一个进程在运行,处理性能提高需依赖硬件处理单元增长,并且要求数据在类型、格式和大小方面严格对齐SIMT 架构:单指令多线程操作,具备多个计算核心系统,每个核心具备独立的寄存器、计算单元,在不同数据上进行相同计算操作,编程模式较 SIMD 更灵活,对开发者更加友好。 支持 FP8FP4 等多种数据格式:根据智东西,昇腾 950 系列芯片将支持FP8MXFP8HiF8MXFP4 等数据格式,960 及 970 系列将新增支持 HiF4 格式。FP8 与 FP4 均是浮点数表示法,与 FP16 相比,使用 FP8 可(1)减少显存占用,降低通信带宽要求(2)促使模型在训练和推理过程中进行量化,便于模型优化与压缩。MXFP 是由英伟达提出的块缩放策略,与 FP8 相比,MXFP8 将大的张量分割成若干小的数据块,每个数据块内所有元素共用 1个 8 位缩放因子。与 FP8 相比,MXFP8 可(1)扩展动态范围,将数据块内数值乘上缩放因子,表示 FP8 范围外的大数(2)提高数值精度,FP8 精度由尾数位决定,MXFP8 可通过动态调整将数值精细地分布在可表示范围内,提高有效精度,使模型在训练时可更稳定地收敛。国泰海通综合其他