Attention 机制

Attention 的标准（scaled dot-product）形式可以写成：

[ \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}} + M\right)V ]

其中：

直觉：在做什么？

对每个 query（例如“当前 token”），我们计算它与所有 key 的相似度，得到权重，再对 value 做加权求和。你可以把它看成：

如果 (Q) 和 (K) 的每个维度近似零均值、方差为 1，则点积 (q \cdot k) 的方差随 (d_k) 增大而增大，softmax 会更容易进入“极端尖峰”区间，导致梯度不稳定。缩放后可以让 logits 的尺度更可控。

在语言模型的自回归生成里，token (t) 不能看见未来 token，因此使用 causal mask：

这样 softmax 后未来位置权重为 0。

对于长度 (T) 的序列（(T_q=T_k=T)），注意力矩阵 (QK^\top) 是 (T \times T)，因此：

这推动了后续的优化方向：FlashAttention、长上下文稀疏注意力、以及推理阶段的 KV Cache（把 (K,V) 缓存起来把 decode 复杂度从 (O(T^2)) 变成每步 (O(T))）。