咨询下各位大模型训练数据量从 15T tokens 提升到 30T 以上

> 数据图表

咨询下各位大模型训练数据量从 15T tokens 提升到 30T 以上

2025-12-5

Scaling Law 要求数据和参数量同比例增长，头部厂商通过新增标注和合成数据等方法持续扩容训练数据。2022 年 3 月，DeepMind 提出 Chinchilla Scaling Laws，指出为了使模型达到最佳性能，模型参数量应与训练集的大小成等比例扩张，并给出算力、模型和训练Token 间的比例关系。我们观察到新近模型的训练 tokens 继续上行：例如阿里 Qwen 系列由 18 万亿提升至 36 万亿，Meta 在训练 Llama 4 Scout 时引入部分社交数据，使总体训练数据约达 40 万亿。我们认为，随“垂类”数据与新标注数据的不断累积，训练 tokens 仍将增加，且从模型泛化性和性能表现来看，OpenAI、Google 等头部模型的训练规模或高于公开口径。

华泰证券综合其他