各位网友请教一下1.1.4、Transformer核心点1——多头注意力机制：运行多个自注意力层，提升模型表达能力

> 数据图表

各位网友请教一下1.1.4、Transformer核心点1——多头注意力机制：运行多个自注意力层，提升模型表达能力

2025-4-1

1.1.4、Transformer核心点1——多头注意力机制：运行多个自注意力层，提升模型表达能力Multi-headed attention （多头注意力机制）增强了自注意能力，扩展关注位置，同时为注意力层提供多个“表示子空间”。假设模型若用了8个注意头，就会有8组不同的Q/K/V矩阵，每个输入的词向量都被投影到8个表示子空间中进行计算。图：多头注意力的运行机制图与自注意力机制的区别：将线性变换后的查询、键和值矩阵分割成多个头。每个头都有自己的查询、键和值矩阵。然后，在每个头中独立地计算注意力分数。资料来源：NineData公众号、国海证券研究所请务必阅读报告附注中的风险提示和免责声明 11

国海证券综合其他