谁能回答1.3、NPU显著提升AI模型运行效率

> 数据图表

谁能回答1.3、NPU显著提升AI模型运行效率

2025-4-1

1.3、NPU显著提升AI模型运行效率◼ 对于精度影响较大的模型，采用分区运行方案，仍能控制精度且减少处理时间：将NPU运行精度较差的YOLO模型拆解至各层，NPU在其中很多层上的运行仍具备较高性价比（时间大幅减少的同时精度影响很小）。采用MLMP（Machine Learning based Model Partition）算法将不同层分区在CPU和NPU上分别运行，无论是对精度要求较高的应用（ Max-Accuracy，如安全识别类应用），还是对处理时间敏感的应用（ Min-Time，如实时视频处理），都能提供较好的支持。➢ Min-Time场景：算法从所有层均从CPU上运行开始，逐渐将处理时间长的层移到 NPU 上以减少整体处理时间，NPU 承担的负载会逐渐增加，直到达到精度要求的边界；➢ Max-Accuracy场景：算法从所有层在 NPU 上运行开始，随着时间约束的变化，将部分对精度影响较大且在 NPU 上运行精度损失不可接受的层移到 CPU 上。图表：NPU在YOLO模型各层上运行的表现图表：利用MLMP算法分区运行YOLO模型可兼容效率与精度Min-TimeMax-Accuracy来源： Efficient Execution of Deep Neural Networks on Mobile Devices with NPU，中泰证券研究所15

中泰证券工业制造