视频摘要系统

本章目标：实现一个可落地的视频摘要系统，把“长视频理解”变成可交付产品形态：时间轴分段、每段摘要、关键帧与关键事件点。

1. 任务定义

输入：视频 (V)（可选包含音频/字幕）
输出：
- 分段 (S={(t_\text{start}, t_\text{end}, title)})
- 段摘要 (summary_i)
- 关键帧/关键片段（用于可视化与可追溯）

2. 系统设计（推荐三阶段）

特征提取
- 视觉：抽帧/clip 特征（节省成本）
- 音频：ASR 转写（字幕往往是最强信号）
结构化理解
- 事件切分（shot/scene boundary）
- 关键片段筛选（高信息量片段）
摘要生成
- 先生成结构化提纲（段标题/要点）
- 再生成自然语言摘要（并引用时间段/关键帧）

工程建议：不要直接“整段喂给模型生成摘要”，那样成本高且可控性差。先把视频压缩成结构化证据（字幕+关键帧+时间段）再生成，效果与成本都会更稳定。

3. 评测指标

覆盖率：关键事件是否被覆盖（人工标注或弱监督）
时间一致性：摘要是否能回溯到对应时间段
信息密度：摘要长度下的信息量（人评/打分模型）
成本与延迟：每分钟视频处理成本、P95 处理时间

4. 常见坑位

长视频成本爆炸（必须做抽帧、分段与缓存）
只靠视觉会漏语义（字幕/ASR 通常决定上限）
幻觉（摘要出现视频里没有的事件）→ 必须引入“证据化输出”（时间段/关键帧引用）

5. 最小可复现 Demo（建议）

数据：50–100 个公开视频（带字幕更好）
输出：分段 + 每段 3–5 条要点 + 关键帧
验收：抽样回放验证“摘要—时间段”一致性