# Transformer 架构详解

Transformer 是当前 LLM/MLLM 的核心骨干架构。它的关键特点是：用**注意力（Attention）**替代循环结构，使得序列建模更易并行、可扩展，并且在大规模训练中表现出稳定的 scaling 特性。

本章目标：

- 给出 Transformer 的**最小可用数学定义**（你能看懂论文与实现）
- 解释关键模块背后的**设计动机与工程权衡**
- 为后续“KV Cache / RoPE / 分布式训练与推理优化”建立共同语言

---

## Transformer 的最小结构图

以 Decoder-only（GPT 系）为例，每层（block）可以抽象为：

\[
h \leftarrow h + \mathrm{Attn}(\mathrm{LN}(h))
\]
\[
h \leftarrow h + \mathrm{MLP}(\mathrm{LN}(h))
\]

其中：

- \(h \in \mathbb{R}^{T \times d}\) 是长度为 \(T\) 的 token 表示（hidden states）
- LN 是 LayerNorm（通常是 Pre-LN 结构）
- Attn 是（带 causal mask 的）自注意力
- MLP 是前馈网络（FFN/MLP）

你会发现：**残差连接 + 归一化 + 两个子模块（Attention/MLP）**构成了几乎所有现代 LLM 的“层级骨架”。

---

## 为什么 Attention 有效：一句话直觉

Attention 可以看成“内容相关的动态加权聚合”：每个 token 根据自身 query 与其他 token key 的匹配程度，对 value 做加权求和，从而把“与当前生成最相关的信息”搬运到当前位置。

---

## 工程视角：Transformer 的关键瓶颈

- **训练**：显存（激活 + 优化器状态）、通信（并行策略）、数值稳定（混合精度）
- **推理**：prefill 的 \(O(T^2)\) attention、decode 阶段的 KV cache 带宽、batching/并发与延迟

这也是为什么后面章节会重点讲：KV Cache、位置编码（RoPE/ALiBi）、并行训练与推理加速。

---

## 📖 详细章节

```{toctree}
:maxdepth: 2

transformer/attention
transformer/self_attention
transformer/multi_head_attention
transformer/ffn
transformer/layernorm_residual
transformer/position_encoding
transformer/rope_alibi
transformer/kv_cache
```