> 数据图表

如何了解3.2 NVL72、144不是推理Scale Up的上限

2025-8-2
如何了解3.2 NVL72、144不是推理Scale Up的上限
3.2 NVL72、144不是推理Scale Up的上限• 我们认为机柜对应的NVL72、NVL144等方案并不是Scale Up超节点的上限,机柜会像积木一样进一步拼出更大的超节点,这主要来自硬件TCO、用户体验、模型能力拓展三层因素;• 当单用户TPS沿横轴提高到50 Tokens/s时,B200 NVL8、H200 NVL8的单卡真实性能已经没有实际意义,GB200 NVL72仍有70 Tokens/s的单卡TPS,但已相较最大性能缩减50%;• 要继续提高纵轴单卡性能,我们认为除了在软件层面引入新的推理引擎,如英伟达Dynamo外,还需提升Scale Up规模,以及增加混合并行线路数(图中限制为64路并行)。GB200 NVL72单卡性能逐渐衰减单卡性能缩减~50%资料来源:英伟达,东吴证券研究所18