多头注意力（Multi-Head Attention）

单头注意力用一组 (Q,K,V) 做一次检索与聚合。多头注意力的动机是：让模型在不同子空间并行地学习不同的对齐关系（例如语法依赖、实体指代、局部模式等）。

标准形式：

[ \mathrm{MHA}(X)=\mathrm{Concat}(\mathrm{head}_1,\ldots,\mathrm{head}_H)W_O ]

其中每个 head：

[ \mathrm{head}_h=\mathrm{Attention}(XW_Q^{(h)}, XW_K^{(h)}, XW_V^{(h)}) ]

通常取 (d_k=d_v=d/H)，使得拼接后维度回到 (d)。

为什么多头有效：一个工程直觉

如果只有一头，注意力权重矩阵（(T\times T)）只有一张“关系图”。多头相当于有 (H) 张关系图并行学习，然后再线性组合回主干表示。这让模型既能捕获：

工程实现常见做法：

这样做的理由是：减少 kernel launch、便于算子融合、提升吞吐。

在固定 (d) 下增大头数会让每头维度 (d/H) 变小，可能造成表达瓶颈；另一方面头数也会影响 KV cache 带宽与推理性能。实践里常见的选择由模型规模与硬件决定（例如 7B/13B/70B 的头数通常不同）。

这是推理优化中的高频改动，核心是：减少 K/V 的头数以降低 KV cache 的显存与带宽开销。

代价是表达能力可能下降，但对长上下文推理的性价比很高（尤其在吞吐受 KV 带宽限制时）。