# 视频摘要系统 本章目标:实现一个可落地的视频摘要系统,把“长视频理解”变成可交付产品形态:时间轴分段、每段摘要、关键帧与关键事件点。 --- ## 1. 任务定义 - **输入**:视频 \(V\)(可选包含音频/字幕) - **输出**: - 分段 \(S=\{(t_\text{start}, t_\text{end}, title)\}\) - 段摘要 \(summary_i\) - 关键帧/关键片段(用于可视化与可追溯) --- ## 2. 系统设计(推荐三阶段) 1. **特征提取** - 视觉:抽帧/clip 特征(节省成本) - 音频:ASR 转写(字幕往往是最强信号) 2. **结构化理解** - 事件切分(shot/scene boundary) - 关键片段筛选(高信息量片段) 3. **摘要生成** - 先生成结构化提纲(段标题/要点) - 再生成自然语言摘要(并引用时间段/关键帧) 工程建议:不要直接“整段喂给模型生成摘要”,那样成本高且可控性差。先把视频压缩成结构化证据(字幕+关键帧+时间段)再生成,效果与成本都会更稳定。 --- ## 3. 评测指标 - **覆盖率**:关键事件是否被覆盖(人工标注或弱监督) - **时间一致性**:摘要是否能回溯到对应时间段 - **信息密度**:摘要长度下的信息量(人评/打分模型) - **成本与延迟**:每分钟视频处理成本、P95 处理时间 --- ## 4. 常见坑位 - 长视频成本爆炸(必须做抽帧、分段与缓存) - 只靠视觉会漏语义(字幕/ASR 通常决定上限) - 幻觉(摘要出现视频里没有的事件)→ 必须引入“证据化输出”(时间段/关键帧引用) --- ## 5. 最小可复现 Demo(建议) - 数据:50–100 个公开视频(带字幕更好) - 输出:分段 + 每段 3–5 条要点 + 关键帧 - 验收:抽样回放验证“摘要—时间段”一致性