我想了解一下TransFormer 网络结构

> 数据图表

2025-4-3

此外，尽管 LSTM 和 GRU 通过门控机制缓解了梯度消失问题，但在超长序列中，这两个模型仍可能丢失早期信息而 Transformer 的自注意力机制则直接建模模型中任意位置间的关联，无需依赖递归路径，因此相较于 LSTM 与 GRU，更擅长捕捉跨周期的时序规律。