# 自注意力(Self-Attention) 自注意力是 Attention 的一个特例:\(Q,K,V\) 都来自同一个序列的表示 \(X \in \mathbb{R}^{T \times d}\)。 典型实现是三组线性投影: \[ Q = XW_Q,\quad K = XW_K,\quad V = XW_V \] 其中 \(W_Q,W_K \in \mathbb{R}^{d \times d_k}\),\(W_V \in \mathbb{R}^{d \times d_v}\)。 然后: \[ \mathrm{SA}(X)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}+M\right)V \] ## Self-Attention 与“信息混合” 你可以把 Self-Attention 看成一种“全局可学习的混合算子”:每个位置都能从任意位置拉取信息。与之对比: - 卷积:局部感受野(需要堆叠多层扩大范围) - RNN:顺序传递(难并行,长依赖更难) ## Causal Self-Attention(Decoder-only 的核心) 对 GPT 类模型,必须使用 causal mask,保证生成第 \(t\) 个 token 时只使用 \(x_{