> 数据图表如何看待Google 参考大脑记忆模式推出嵌套学习2025-12-5从算法上看,各家大厂通过算法优化提升模型性能,推动 Scaling Law 继续有效。部分算法的改进路线在于 Scaling Law 本身,阿里的千问团队在 Scaling Law 的基础上拓展了数据并行维度,在不显著增加显存和推理时间的情况下增加计算量,提升效果。Meta 团队推出2-单纯形注意力,在标准 Transformer 的基础上,增加了新的键矩阵和值矩阵,将二维关系拓展到三维关系,对 Scaling Law 的指数项进行优化部分算法的改进路线为 LLM 组件的优化,例如 Kimi 使用 Muon 替代一般的 AdamW 优化器,提升优化速率部分算法尝试解决 LLM 的遗忘问题,例如 Google 参考大脑记忆过程提出嵌套学习方案,将模型结构设计和模型参数训练用嵌套学习的语言统一化,尝试缓解 LLM 的顺行性遗忘,而 DeepSeek 则用视觉方案的模糊去平滑 LLM 的遗忘过程,提出 DeepSeek-OCR 模型。算法的改进也是Scaling Law 继续有效的重要原因。华泰证券综合其他