> 数据图表我想了解一下3.1 Scale Up可加速推理,且增益随推理负载提升而扩大2025-8-23.1 Scale Up可加速推理,且增益随推理负载提升而扩大• 我们认为Scale Up规模越大,集群算力有效利用率往往越高,且随着单用户推理负载增加,增益会越来越大,这里以GB200 NVL72、B200 NVL8的对比为例(可见下一页图片)• 测试配置:各类方案都是基于33000张GPU的Scale Out集群进行测试,GB200 NVL72采用了NVL72 Scale Up超节点、Grace CPU、FP4精度,B200 NVL8采用了NVL8 Scale Up超节点、IntelXeon CPU、FP8精度,因此精度优化可为GB200 NVL72直接带来1倍单卡性能提升;• 模型:GPT MoE 1.8T模型,采用混合并行推理(最多64维并行),FTL=5s,TTL=50ms,input/output长度分别为32768 /1024;• 坐标轴含义:横轴代表单用户每秒收到的Token数(Tokens Per Second,TPS),亦即用户体验或模型推理的实际输出能力;纵轴代表集群内每张GPU每秒输出的Token数,亦即推理时单张卡的实际性能或有效利用程度;• 每条曲线每点对应各单用户TPS下,所有混合并行方案及Chunk Size组合中单卡性能最大值• 可以初步观测到横纵坐标成反比,主要原因为单用户TPS提升后需要在单位时间内用更多GPU输出更多Token,通信阻塞变大,GPU等待数据传输的时间增加,利用率下降。资料来源:英伟达,东吴证券研究所16东吴证券综合其他