# 大模型架构设计本章讨论“LLM 作为一个工程系统”的架构设计：为什么主流是 Decoder-only？参数量与训练/推理成本如何估算？稀疏化与量化各自解决什么问题？tokenization 为什么会影响成本与上限？ ## Decoder-only、Encoder-only、Encoder-Decoder 架构把 Transformer 用在 NLP 上，大体有三类范式： ### Encoder-only（BERT 系）：理解为主训练目标常见是 MLM（masked language modeling）。特点： - 强理解、强表征 - 生成能力弱（不天然支持自回归生成） - 适合分类/检索/表示学习 ### Encoder-Decoder（T5 系）：条件生成 Encoder 编码输入，Decoder 生成输出： - 适合“输入到输出”的条件生成（翻译、摘要、问答） - 结构更通用，但推理时通常更重（两套堆叠） ### Decoder-only（GPT 系）：统一的生成接口以自回归建模： \[ p(x_{1:T})=\prod_{t=1}^{T} p(x_t \mid x_{`）或视觉 token，这要求词表与系统协议一致 --- ## 本章小结 - Decoder-only 之所以成为主流，是因为“统一条件生成接口 + 工程系统简化 + 生态成熟”。 - 规模估算的最低要求：能大致判断参数量、训练成本、推理 KV cache 成本。 - 高效推理的主线通常是：量化 + KV cache 优化 + 算子融合；稀疏化（MoE）更像“高投入高回报”的系统工程。