视频摘要系统
本章目标:实现一个可落地的视频摘要系统,把“长视频理解”变成可交付产品形态:时间轴分段、每段摘要、关键帧与关键事件点。
1. 任务定义
输入:视频 (V)(可选包含音频/字幕)
输出:
分段 (S={(t_\text{start}, t_\text{end}, title)})
段摘要 (summary_i)
关键帧/关键片段(用于可视化与可追溯)
2. 系统设计(推荐三阶段)
特征提取
视觉:抽帧/clip 特征(节省成本)
音频:ASR 转写(字幕往往是最强信号)
结构化理解
事件切分(shot/scene boundary)
关键片段筛选(高信息量片段)
摘要生成
先生成结构化提纲(段标题/要点)
再生成自然语言摘要(并引用时间段/关键帧)
工程建议:不要直接“整段喂给模型生成摘要”,那样成本高且可控性差。先把视频压缩成结构化证据(字幕+关键帧+时间段)再生成,效果与成本都会更稳定。
3. 评测指标
覆盖率:关键事件是否被覆盖(人工标注或弱监督)
时间一致性:摘要是否能回溯到对应时间段
信息密度:摘要长度下的信息量(人评/打分模型)
成本与延迟:每分钟视频处理成本、P95 处理时间
4. 常见坑位
长视频成本爆炸(必须做抽帧、分段与缓存)
只靠视觉会漏语义(字幕/ASR 通常决定上限)
幻觉(摘要出现视频里没有的事件)→ 必须引入“证据化输出”(时间段/关键帧引用)
5. 最小可复现 Demo(建议)
数据:50–100 个公开视频(带字幕更好)
输出:分段 + 每段 3–5 条要点 + 关键帧
验收:抽样回放验证“摘要—时间段”一致性