> 数据图表各位网友请教一下Kimi K2 实现百万亿参数模型高效训练2025-7-2在有限预训练数据集与固定模型配置约束下,Token 的优化器对提升大语言模型(LLM)训练至关重要。此前,Moonlight 已验证,Muon优化器的性能显著优于传统的 Adam W,成为更高效的训练工具。爱建证券综合其他