> 数据图表

如何了解MTIA自研芯片:针对推荐系统定制优化,助力进一步降本增效

2025-5-5
如何了解MTIA自研芯片:针对推荐系统定制优化,助力进一步降本增效
MTIA自研芯片:针对推荐系统定制优化,助力进一步降本增效Ø Meta自研MTIA芯片用于社交网络推荐排名系统负载,面向专用领域定制化设计,实现降本增效。2023年5月,Meta首款自研ASIC AI芯片MTIA V1问世,用于AI推荐系统推理负载,在中低复杂度负载中效率高于GPU和神经网络加速器。2024年4月,MTIA V2推出,专注于广告排名和社交网络推荐模型的推理负载,据我们测算,芯片实现了与商用GPU相比更高的能效比和性价比(H100的1.4x和1.5x-2.2x)。MTIA v2 正处于投产爬坡阶段,未来有望于公司数据中心大规模部署。Ø 内存架构设计的优化为MTIA实现高性价比的关键。MTIA V2芯片集成2.7 TB/s带宽、256MB容量的SRAM片上内存和204.8 GB/s带宽、128 GB容量的LPDDR5片外内存,相对于典型GPU配备的昂贵HBM内容,MTIA v2提供了超大的SRAM容量,能够在batch size有限时提高内存利用率,并支撑高并发负载,进而能够使用成本和功耗较低的LPDDR5片外内存取代HBM,降低芯片制造成本。Ø Meta多年Pytorch开发经验沉淀深厚软件开发基础,能够通过高效GPU编程驱动ASIC芯片,帮助MTIA芯片大规模应用。Meta 具备较强的软件开发禀赋,Pytorch 的日渐成熟并成为主流框架即体现了 Meta 对于 AI 软件层面的深刻理解。MTIA v2采用开源的Triton编程语言,结合Triton-MTIA编译器进一步优化软件堆栈,旨在简化GPU编程,实现无 CUDA 条件下较高的硬件效率。MTIA V2单位算力内存成本较H100低92%MTIA V2实现了相较于H100 1.4x能效比和1.5x-2.2x性能比提升80GB价格/INT8算力(美元/TFlops)HBM 3LPDDR 5SRAM减少92%2.521.510.50公司发布时间制程存储INT8(TFlops)FP16/BF16(TFlops)TDPMTIA V2Meta2024TSMC 5nmLPDDR5 128GBSRAM 256MB354(密集计算)708(稀疏计算)177(密集计算)354(稀疏计算)90W单位功耗算力-INT8(TFLOPS/W)7.9(1.4x vs H100)预计价格(美元/片)2000-3000H100MTIA V2单位价格算力-INT8(FLOPS/美元) 0.24-0.35(1.5x-2.2x vs H100)H100Nvidia2022TSMC 4nmHBM3 80GB3958(稀疏计算)1979 (稀疏计算)700W5.7250000.16资料来源:Meta、Nvidia、wccftech、nasdaq、The Next Platform、moomoo、future electronics、国海证券研究所请务必阅读报告附注中的风险提示和免责声明 25