KV Cache 原理

KV Cache 是自回归解码（decode）阶段最重要的加速手段之一：缓存历史 token 的 Key/Value，避免每一步重复计算与重复读取。

为什么会慢：从“每步重算”说起

在第 (t) 步解码时，模型输入长度是 (t)。如果你每一步都对整个长度重新计算 attention，那么总成本大致是：

[ \sum_{t=1}^{T} O(t^2) = O(T^3) ]

这在长输出时不可接受（实际实现会有细节差异，但“重复计算随步数累积爆炸”的趋势是一样的）。

对每一层注意力，把历史 token 的 (K,V) 缓存起来：

在第 (t) 步：

于是每步 attention 成本从“重算全部”变成：

[ O(t) \quad (\text{与序列长度线性相关}) ]

总成本约为：

[ \sum_{t=1}^T O(t) = O(T^2) ]

这就是 KV Cache 在推理中必不可少的原因。

KV cache 的显存大致与以下因素成正比：

很多推理系统的瓶颈不是算力而是 KV cache 带宽（读写 cache 的开销）。

在服务端推理中，KV cache 直接决定：

因此你会看到：推理系统的很多工程设计（batching、调度、memory manager）都围绕 KV cache 展开。