# 证据化多模态 RAG 本章目标:搭建一个“**可追溯、可审计**”的多模态问答系统。它能够对论文/报告 PDF(包含图表、公式、截图、表格)进行问答,并在输出中给出**可回溯的证据**(页码/段落/图表编号/截图区域)。 --- ## 1. 任务定义 - **输入**:PDF(或截图集合) + 用户问题 \(q\) - **输出**:答案 \(a\) + 证据集合 \(E=\{(source, page, span/region)\}\) - **硬约束**:无证据不下结论(或降级为“无法确定”) 为什么要“证据化”?因为在研究/企业场景,最常见的失败不是“答得不流畅”,而是: - 事实不可追溯(无法审计) - 看图胡说(多模态幻觉) - 引用错误(把别的段落当证据) --- ## 2. 系统设计(推荐架构) 推荐两阶段(理解→生成): 1. **检索与证据抽取(Retrieval + Evidence)** - PDF → 页级切分 - 页内:文本块/表格/图片区域分割 - 建索引:文本 embedding +(可选)图片 embedding - 基于问题检索候选证据块 2. **证据约束生成(Grounded Generation)** - 输入:问题 + 候选证据块(带页码/区域) - 输出:答案 + 引用(明确标注引用来源) --- ## 3. 数据与预处理 ### PDF 解析 - 文本:直接抽取段落(保留页码与坐标) - 图片/图表:提取位图 + 坐标(可选 OCR) - 表格:结构化提取(或先当图片处理) ### 索引粒度建议 - 文本:段落级(避免太碎导致上下文不足) - 图片:图表级/区域级(避免整页图片过大) --- ## 4. 模型与模块选型 - **文本检索**:向量检索(embedding)+ 关键词 BM25 作为补充 - **图片理解**:OCR(如有文字)+ 视觉 encoder(可选) - **生成**:LLM/MLLM(输出必须包含引用) 工程建议:优先让系统“可验证”,再追求端到端能力。多模态 RAG 的收益往往来自检索与证据治理,而不是换一个更大的模型。 --- ## 5. 评测指标(强烈建议) - **引用覆盖率**:输出中有多少关键结论带引用 - **引用正确率**:引用是否真的支持结论(抽样人工/LLM-judge + 规则) - **幻觉率**:无证据断言比例 - **可审计率**:证据是否能定位到具体页码/区域 --- ## 6. 常见失败模式与修复 - **检索偏差**:只检索到相似词但不相关证据 → 增加关键词检索、重排、提高 chunk 质量 - **引用错配**:模型引用了“看起来像”的段落 → 让引用从结构化证据 ID 中选择,而不是自由生成页码 - **图表理解弱**:OCR 失败/图像编码不足 → 增加图表 caption、表格结构化、区域级 OCR --- ## 7. 最小可复现 Demo(建议) - 输入:10 篇 PDF(任意公开论文) - 问题集:每篇 10 个问题(含“必须引用图表/公式/结论段落”的问题) - 输出:答案 + 引用(页码/段落)