一句话定义

Transformer 是一种基于自注意力(Self-Attention)的序列建模架构,用并行计算替代了 RNN 的串行递推。

为什么需要它

RNN/LSTM 的主要问题:

  1. 长距离依赖难建模
  2. 训练串行,难以高效并行

Transformer 通过 Attention 让任意位置直接交互,并显著提升训练效率。

核心结构

一个标准 Transformer Block 通常包含:

  1. Multi-Head Self-Attention
  2. Feed-Forward Network (FFN)
  3. Residual Connection
  4. LayerNorm

Self-Attention 直观解释

对每个 token:

  • 用 $Q$ 提问
  • 用其他 token 的 $K$ 匹配相关性
  • 按权重加权 $V$ 聚合信息

公式:

它解决了什么问题

  • 建模远距离依赖更直接
  • 训练可并行,吞吐更高
  • 扩展到大模型更自然(参数规模、数据规模、算力规模)

它的代价

  • 注意力复杂度对序列长度近似为 $O(n^2)$
  • 长上下文推理会带来显存与时延压力

与 RNN 的对比

维度 RNN/LSTM Transformer
计算方式 串行 并行
长依赖 较弱 较强
训练效率 较低 较高
长文本成本 高(注意力二次复杂度)

总结

Transformer 是现代 LLM 的基础骨架。

后续可继续拆分为:

  • Tokenizer
  • Positional Encoding / RoPE
  • KV Cache
  • SFT / RLHF / DPO