想关注一下MMLU 表现与模型大小的关系

> 数据图表

2025-5-2

了谷歌 DeepMind 开发的 Per-Layer Embeddings（PLE）技术，显著降低了模型的内存需求。尽管其参数量分别为 5B 和 8B，但内存占用仅相当于 2B 和 4B 模