前馈网络（FFN / MLP）

Transformer 中的 MLP（也常叫 FFN）负责“逐 token 的非线性变换”，与 Attention 的“跨 token 信息混合”互补。

经典的两层 FFN：

[ \mathrm{FFN}(x)=W_2 , \sigma(W_1 x + b_1) + b_2 ]

对序列 (X \in \mathbb{R}^{T\times d}) 是逐行独立地应用。

现代 LLM 常用的变体：SwiGLU / GeGLU

很多 LLM 使用门控 MLP（GLU family）提升效果与稳定性，例如 SwiGLU：

[ \mathrm{SwiGLU}(x) = (W_a x)\odot \mathrm{SiLU}(W_b x) ] [ \mathrm{MLP}(x)=W_o ,\mathrm{SwiGLU}(x) ]

其中 (\odot) 是逐元素乘。

工程直觉：

FFN 的中间维度常取 (d_\text{ff}\approx 4d)（不同模型略有差异）。原因是：