LLM Basics - Transformer 是什么

Created2026-03-13|Updated2026-03-13|AI

|Post Views:

一句话定义

Transformer 是一种基于自注意力（Self-Attention）的序列建模架构，用并行计算替代了 RNN 的串行递推。

为什么需要它

RNN/LSTM 的主要问题：

长距离依赖难建模
训练串行，难以高效并行

Transformer 通过 Attention 让任意位置直接交互，并显著提升训练效率。

核心结构

一个标准 Transformer Block 通常包含：

Multi-Head Self-Attention
Feed-Forward Network (FFN)
Residual Connection
LayerNorm

Self-Attention 直观解释

对每个 token：

用 $Q$ 提问
用其他 token 的 $K$ 匹配相关性
按权重加权 $V$ 聚合信息

公式：

$\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

它解决了什么问题

建模远距离依赖更直接
训练可并行，吞吐更高
扩展到大模型更自然（参数规模、数据规模、算力规模）

它的代价

注意力复杂度对序列长度近似为 $O(n^2)$
长上下文推理会带来显存与时延压力

与 RNN 的对比

维度	RNN/LSTM	Transformer
计算方式	串行	并行
长依赖	较弱	较强
训练效率	较低	较高
长文本成本	中	高（注意力二次复杂度）

总结

Transformer 是现代 LLM 的基础骨架。

后续可继续拆分为：

Tokenizer
Positional Encoding / RoPE
KV Cache
SFT / RLHF / DPO

Author: Ziqi Huang

Link: https://wardell-h.github.io/ai/llm/01-transformer-what-is-it/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

LLM Transformer Attention