# 大模型架构设计 本章讨论“LLM 作为一个工程系统”的架构设计:为什么主流是 Decoder-only?参数量与训练/推理成本如何估算?稀疏化与量化各自解决什么问题?tokenization 为什么会影响成本与上限? ## Decoder-only、Encoder-only、Encoder-Decoder 架构 把 Transformer 用在 NLP 上,大体有三类范式: ### Encoder-only(BERT 系):理解为主 训练目标常见是 MLM(masked language modeling)。特点: - 强理解、强表征 - 生成能力弱(不天然支持自回归生成) - 适合分类/检索/表示学习 ### Encoder-Decoder(T5 系):条件生成 Encoder 编码输入,Decoder 生成输出: - 适合“输入到输出”的条件生成(翻译、摘要、问答) - 结构更通用,但推理时通常更重(两套堆叠) ### Decoder-only(GPT 系):统一的生成接口 以自回归建模: \[ p(x_{1:T})=\prod_{t=1}^{T} p(x_t \mid x_{`)或视觉 token,这要求词表与系统协议一致 --- ## 本章小结 - Decoder-only 之所以成为主流,是因为“统一条件生成接口 + 工程系统简化 + 生态成熟”。 - 规模估算的最低要求:能大致判断参数量、训练成本、推理 KV cache 成本。 - 高效推理的主线通常是:量化 + KV cache 优化 + 算子融合;稀疏化(MoE)更像“高投入高回报”的系统工程。