> 数据图表

想关注一下XPUTimer 可减少 90%内存开销 Ling 模型的 MoE 效率对比密集模型明显提高 使用不同 GPU 训练 Ling 模型的成本

2025-3-1
想关注一下XPUTimer 可减少 90%内存开销 Ling 模型的 MoE 效率对比密集模型明显提高 使用不同 GPU 训练 Ling 模型的成本
3、存储优化:通过用户空间文件系统(FUSE)、元数据缓存和智能节点选择策略,实现单客户端 3-4GBs 的写入速度和集群级 TBs 级吞吐,减少数据加载和检查点保存时间。跨集群同步机制Babel 支持 PB 级数据集的高效同步,通过并行元数据预取和内容采样 CRC 验证技术,将 190 亿文件元数据同步时间从 6 小时缩短至 10 分钟。基于算法侧的优化,Ling-Plus 在五种不同的硬件配置对 9 万亿个 token 进行了预训练,使用高性能硬件配置 D 训练 1 万亿个 token 估计需要花费约 635 万人民币相比之下,使用较低性能的硬件系统可将成本降至约 508 万人民币,节省了近 20% 的成本。