> 数据图表咨询大家3.1 Scale Up可加速推理,且增益随推理负载提升而扩大2025-8-23.1 Scale Up可加速推理,且增益随推理负载提升而扩大• 在单用户TPS为10 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的3倍,考虑FP4精度优化带来的约1倍提升后,Scale Up+Grace CPU带来约50%的性能提升;• 在单用户TPS为20 Tokens/s时,GB200 NVL72的单卡实际性能约为B200 NVL8的7倍,考虑FP4精度优化带来的约1倍提升后,Scale Up+Grace CPU带来约250%的性能提升;• 我们认为随着单用户TPS增加,Scale Up带来的单卡利用率增益会越来越大。(由于篇幅有限本文未就技术原理做详细阐述,具体细节欢迎进一步交流)不同方案推理性能对比单卡性能~3×单卡性能~7×资料来源:英伟达,东吴证券研究所17东吴证券综合其他