证据化多模态 RAG
本章目标:搭建一个“可追溯、可审计”的多模态问答系统。它能够对论文/报告 PDF(包含图表、公式、截图、表格)进行问答,并在输出中给出可回溯的证据(页码/段落/图表编号/截图区域)。
1. 任务定义
输入:PDF(或截图集合) + 用户问题 (q)
输出:答案 (a) + 证据集合 (E={(source, page, span/region)})
硬约束:无证据不下结论(或降级为“无法确定”)
为什么要“证据化”?因为在研究/企业场景,最常见的失败不是“答得不流畅”,而是:
事实不可追溯(无法审计)
看图胡说(多模态幻觉)
引用错误(把别的段落当证据)
2. 系统设计(推荐架构)
推荐两阶段(理解→生成):
检索与证据抽取(Retrieval + Evidence)
PDF → 页级切分
页内:文本块/表格/图片区域分割
建索引:文本 embedding +(可选)图片 embedding
基于问题检索候选证据块
证据约束生成(Grounded Generation)
输入:问题 + 候选证据块(带页码/区域)
输出:答案 + 引用(明确标注引用来源)
3. 数据与预处理
PDF 解析
文本:直接抽取段落(保留页码与坐标)
图片/图表:提取位图 + 坐标(可选 OCR)
表格:结构化提取(或先当图片处理)
索引粒度建议
文本:段落级(避免太碎导致上下文不足)
图片:图表级/区域级(避免整页图片过大)
4. 模型与模块选型
文本检索:向量检索(embedding)+ 关键词 BM25 作为补充
图片理解:OCR(如有文字)+ 视觉 encoder(可选)
生成:LLM/MLLM(输出必须包含引用)
工程建议:优先让系统“可验证”,再追求端到端能力。多模态 RAG 的收益往往来自检索与证据治理,而不是换一个更大的模型。
5. 评测指标(强烈建议)
引用覆盖率:输出中有多少关键结论带引用
引用正确率:引用是否真的支持结论(抽样人工/LLM-judge + 规则)
幻觉率:无证据断言比例
可审计率:证据是否能定位到具体页码/区域
6. 常见失败模式与修复
检索偏差:只检索到相似词但不相关证据 → 增加关键词检索、重排、提高 chunk 质量
引用错配:模型引用了“看起来像”的段落 → 让引用从结构化证据 ID 中选择,而不是自由生成页码
图表理解弱:OCR 失败/图像编码不足 → 增加图表 caption、表格结构化、区域级 OCR
7. 最小可复现 Demo(建议)
输入:10 篇 PDF(任意公开论文)
问题集:每篇 10 个问题(含“必须引用图表/公式/结论段落”的问题)
输出:答案 + 引用(页码/段落)