> 数据图表

各位网友请教一下MMLU 表现与模型大小的关系

2025-5-2
各位网友请教一下MMLU 表现与模型大小的关系
了谷歌 DeepMind 开发的 Per-Layer Embeddings(PLE)技术,显著降低了模型的内存需求。尽管其参数量分别为 5B 和 8B,但内存占用仅相当于 2B 和 4B 模