LLM Basics - Transformer 是什么
一句话定义
Transformer 是一种基于自注意力(Self-Attention)的序列建模架构,用并行计算替代了 RNN 的串行递推。
为什么需要它
RNN/LSTM 的主要问题:
- 长距离依赖难建模
- 训练串行,难以高效并行
Transformer 通过 Attention 让任意位置直接交互,并显著提升训练效率。
核心结构
一个标准 Transformer Block 通常包含:
- Multi-Head Self-Attention
- Feed-Forward Network (FFN)
- Residual Connection
- LayerNorm
Self-Attention 直观解释
对每个 token:
- 用 $Q$ 提问
- 用其他 token 的 $K$ 匹配相关性
- 按权重加权 $V$ 聚合信息
公式:
它解决了什么问题
- 建模远距离依赖更直接
- 训练可并行,吞吐更高
- 扩展到大模型更自然(参数规模、数据规模、算力规模)
它的代价
- 注意力复杂度对序列长度近似为 $O(n^2)$
- 长上下文推理会带来显存与时延压力
与 RNN 的对比
| 维度 | RNN/LSTM | Transformer |
|---|---|---|
| 计算方式 | 串行 | 并行 |
| 长依赖 | 较弱 | 较强 |
| 训练效率 | 较低 | 较高 |
| 长文本成本 | 中 | 高(注意力二次复杂度) |
总结
Transformer 是现代 LLM 的基础骨架。
后续可继续拆分为:
- Tokenizer
- Positional Encoding / RoPE
- KV Cache
- SFT / RLHF / DPO
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.