# 证据化多模态 RAG

本章目标：搭建一个“**可追溯、可审计**”的多模态问答系统。它能够对论文/报告 PDF（包含图表、公式、截图、表格）进行问答，并在输出中给出**可回溯的证据**（页码/段落/图表编号/截图区域）。

---

## 1. 任务定义

- **输入**：PDF（或截图集合） + 用户问题 \(q\)
- **输出**：答案 \(a\) + 证据集合 \(E=\{(source, page, span/region)\}\)
- **硬约束**：无证据不下结论（或降级为“无法确定”）

为什么要“证据化”？因为在研究/企业场景，最常见的失败不是“答得不流畅”，而是：

- 事实不可追溯（无法审计）
- 看图胡说（多模态幻觉）
- 引用错误（把别的段落当证据）

---

## 2. 系统设计（推荐架构）

推荐两阶段（理解→生成）：

1. **检索与证据抽取（Retrieval + Evidence）**
   - PDF → 页级切分
   - 页内：文本块/表格/图片区域分割
   - 建索引：文本 embedding +（可选）图片 embedding
   - 基于问题检索候选证据块
2. **证据约束生成（Grounded Generation）**
   - 输入：问题 + 候选证据块（带页码/区域）
   - 输出：答案 + 引用（明确标注引用来源）

---

## 3. 数据与预处理

### PDF 解析

- 文本：直接抽取段落（保留页码与坐标）
- 图片/图表：提取位图 + 坐标（可选 OCR）
- 表格：结构化提取（或先当图片处理）

### 索引粒度建议

- 文本：段落级（避免太碎导致上下文不足）
- 图片：图表级/区域级（避免整页图片过大）

---

## 4. 模型与模块选型

- **文本检索**：向量检索（embedding）+ 关键词 BM25 作为补充
- **图片理解**：OCR（如有文字）+ 视觉 encoder（可选）
- **生成**：LLM/MLLM（输出必须包含引用）

工程建议：优先让系统“可验证”，再追求端到端能力。多模态 RAG 的收益往往来自检索与证据治理，而不是换一个更大的模型。

---

## 5. 评测指标（强烈建议）

- **引用覆盖率**：输出中有多少关键结论带引用
- **引用正确率**：引用是否真的支持结论（抽样人工/LLM-judge + 规则）
- **幻觉率**：无证据断言比例
- **可审计率**：证据是否能定位到具体页码/区域

---

## 6. 常见失败模式与修复

- **检索偏差**：只检索到相似词但不相关证据 → 增加关键词检索、重排、提高 chunk 质量
- **引用错配**：模型引用了“看起来像”的段落 → 让引用从结构化证据 ID 中选择，而不是自由生成页码
- **图表理解弱**：OCR 失败/图像编码不足 → 增加图表 caption、表格结构化、区域级 OCR

---

## 7. 最小可复现 Demo（建议）

- 输入：10 篇 PDF（任意公开论文）
- 问题集：每篇 10 个问题（含“必须引用图表/公式/结论段落”的问题）
- 输出：答案 + 引用（页码/段落）