证据化多模态 RAG

本章目标：搭建一个“可追溯、可审计”的多模态问答系统。它能够对论文/报告 PDF（包含图表、公式、截图、表格）进行问答，并在输出中给出可回溯的证据（页码/段落/图表编号/截图区域）。

1. 任务定义

输入：PDF（或截图集合） + 用户问题 (q)
输出：答案 (a) + 证据集合 (E={(source, page, span/region)})
硬约束：无证据不下结论（或降级为“无法确定”）

为什么要“证据化”？因为在研究/企业场景，最常见的失败不是“答得不流畅”，而是：

事实不可追溯（无法审计）
看图胡说（多模态幻觉）
引用错误（把别的段落当证据）

2. 系统设计（推荐架构）

推荐两阶段（理解→生成）：

检索与证据抽取（Retrieval + Evidence）
- PDF → 页级切分
- 页内：文本块/表格/图片区域分割
- 建索引：文本 embedding +（可选）图片 embedding
- 基于问题检索候选证据块
证据约束生成（Grounded Generation）
- 输入：问题 + 候选证据块（带页码/区域）
- 输出：答案 + 引用（明确标注引用来源）

3. 数据与预处理

PDF 解析

文本：直接抽取段落（保留页码与坐标）
图片/图表：提取位图 + 坐标（可选 OCR）
表格：结构化提取（或先当图片处理）

索引粒度建议

文本：段落级（避免太碎导致上下文不足）
图片：图表级/区域级（避免整页图片过大）

4. 模型与模块选型

文本检索：向量检索（embedding）+ 关键词 BM25 作为补充
图片理解：OCR（如有文字）+ 视觉 encoder（可选）
生成：LLM/MLLM（输出必须包含引用）

工程建议：优先让系统“可验证”，再追求端到端能力。多模态 RAG 的收益往往来自检索与证据治理，而不是换一个更大的模型。

5. 评测指标（强烈建议）

引用覆盖率：输出中有多少关键结论带引用
引用正确率：引用是否真的支持结论（抽样人工/LLM-judge + 规则）
幻觉率：无证据断言比例
可审计率：证据是否能定位到具体页码/区域

6. 常见失败模式与修复

检索偏差：只检索到相似词但不相关证据 → 增加关键词检索、重排、提高 chunk 质量
引用错配：模型引用了“看起来像”的段落 → 让引用从结构化证据 ID 中选择，而不是自由生成页码
图表理解弱：OCR 失败/图像编码不足 → 增加图表 caption、表格结构化、区域级 OCR

7. 最小可复现 Demo（建议）

输入：10 篇 PDF（任意公开论文）
问题集：每篇 10 个问题（含“必须引用图表/公式/结论段落”的问题）
输出：答案 + 引用（页码/段落）