# 视频摘要系统

本章目标：实现一个可落地的视频摘要系统，把“长视频理解”变成可交付产品形态：时间轴分段、每段摘要、关键帧与关键事件点。

---

## 1. 任务定义

- **输入**：视频 \(V\)（可选包含音频/字幕）
- **输出**：
  - 分段 \(S=\{(t_\text{start}, t_\text{end}, title)\}\)
  - 段摘要 \(summary_i\)
  - 关键帧/关键片段（用于可视化与可追溯）

---

## 2. 系统设计（推荐三阶段）

1. **特征提取**
   - 视觉：抽帧/clip 特征（节省成本）
   - 音频：ASR 转写（字幕往往是最强信号）
2. **结构化理解**
   - 事件切分（shot/scene boundary）
   - 关键片段筛选（高信息量片段）
3. **摘要生成**
   - 先生成结构化提纲（段标题/要点）
   - 再生成自然语言摘要（并引用时间段/关键帧）

工程建议：不要直接“整段喂给模型生成摘要”，那样成本高且可控性差。先把视频压缩成结构化证据（字幕+关键帧+时间段）再生成，效果与成本都会更稳定。

---

## 3. 评测指标

- **覆盖率**：关键事件是否被覆盖（人工标注或弱监督）
- **时间一致性**：摘要是否能回溯到对应时间段
- **信息密度**：摘要长度下的信息量（人评/打分模型）
- **成本与延迟**：每分钟视频处理成本、P95 处理时间

---

## 4. 常见坑位

- 长视频成本爆炸（必须做抽帧、分段与缓存）
- 只靠视觉会漏语义（字幕/ASR 通常决定上限）
- 幻觉（摘要出现视频里没有的事件）→ 必须引入“证据化输出”（时间段/关键帧引用）

---

## 5. 最小可复现 Demo（建议）

- 数据：50–100 个公开视频（带字幕更好）
- 输出：分段 + 每段 3–5 条要点 + 关键帧
- 验收：抽样回放验证“摘要—时间段”一致性