> 数据图表

我想了解一下4.2 连接方式:潜在技术路线适用于Scale Up吗?

2025-8-2
我想了解一下4.2 连接方式:潜在技术路线适用于Scale Up吗?
4.2 连接方式:潜在技术路线适用于Scale Up吗?• 我们认为CPO、OCS等潜在的新技术在Scale Up中的应用会比Scale Out更难,这些新技术在Scale Out中规模化应用后,对它们在Scale Up中应用可能性的讨论才有实际意义;•2.3节中我们说过Scale Up网络用来满足张量并行、专家并行等计算的通信需求,其单位时间内需要传输数据的频次与大小都是Scale Out网络的几十倍甚至上百倍,这意味着应用新技术路线的难度与故障率都会相应增加。推理中张量并行(TP)的通信次数与规模均比流水线并行(PP)高出数量级各类并行通信方式对比训练中张量并行需要传输的数据量多出一到两个数量级(GPT-3B模型基于32个GPU训练数据)切分方式张量并行(TP)专家并行(EP)流水并行(PP)数据并行(PP)通信操作AllReduce 百GB级别百GB级别All-to-AllSend/Recv MB级别GB级别AllReduce每次迭代单卡通信量 对网络的需求(超)节点内高速互联(超)节点内高速互联节点间高速互联节点间高速互联资料来源:《Understanding Communication Characteristics of Distributed Training》,《Characterizing Communication Patterns in Distributed Large Language Model Inference》,新华三,东吴证券研究所27