如何解释Kimi K2 实现百万亿参数模型高效训练

> 数据图表

2025-7-2

在有限预训练数据集与固定模型配置约束下，Token 的优化器对提升大语言模型（LLM）训练至关重要。此前，Moonlight 已验证，Muon优化器的性能显著优于传统的 Adam W，成为更高效的训练工具。