Transformer 架构详解

Transformer 是当前 LLM/MLLM 的核心骨干架构。它的关键特点是：用**注意力（Attention）**替代循环结构，使得序列建模更易并行、可扩展，并且在大规模训练中表现出稳定的 scaling 特性。

本章目标：

给出 Transformer 的最小可用数学定义（你能看懂论文与实现）
解释关键模块背后的设计动机与工程权衡
为后续“KV Cache / RoPE / 分布式训练与推理优化”建立共同语言

Transformer 的最小结构图

以 Decoder-only（GPT 系）为例，每层（block）可以抽象为：

[ h \leftarrow h + \mathrm{Attn}(\mathrm{LN}(h)) ] [ h \leftarrow h + \mathrm{MLP}(\mathrm{LN}(h)) ]

其中：

(h \in \mathbb{R}^{T \times d}) 是长度为 (T) 的 token 表示（hidden states）
LN 是 LayerNorm（通常是 Pre-LN 结构）
Attn 是（带 causal mask 的）自注意力
MLP 是前馈网络（FFN/MLP）

你会发现：**残差连接 + 归一化 + 两个子模块（Attention/MLP）**构成了几乎所有现代 LLM 的“层级骨架”。

为什么 Attention 有效：一句话直觉

Attention 可以看成“内容相关的动态加权聚合”：每个 token 根据自身 query 与其他 token key 的匹配程度，对 value 做加权求和，从而把“与当前生成最相关的信息”搬运到当前位置。

工程视角：Transformer 的关键瓶颈

训练：显存（激活 + 优化器状态）、通信（并行策略）、数值稳定（混合精度）
推理：prefill 的 (O(T^2)) attention、decode 阶段的 KV cache 带宽、batching/并发与延迟

这也是为什么后面章节会重点讲：KV Cache、位置编码（RoPE/ALiBi）、并行训练与推理加速。

📖 详细章节