证据化多模态 RAG

本章目标:搭建一个“可追溯、可审计”的多模态问答系统。它能够对论文/报告 PDF(包含图表、公式、截图、表格)进行问答,并在输出中给出可回溯的证据(页码/段落/图表编号/截图区域)。


1. 任务定义

  • 输入:PDF(或截图集合) + 用户问题 (q)

  • 输出:答案 (a) + 证据集合 (E={(source, page, span/region)})

  • 硬约束:无证据不下结论(或降级为“无法确定”)

为什么要“证据化”?因为在研究/企业场景,最常见的失败不是“答得不流畅”,而是:

  • 事实不可追溯(无法审计)

  • 看图胡说(多模态幻觉)

  • 引用错误(把别的段落当证据)


2. 系统设计(推荐架构)

推荐两阶段(理解→生成):

  1. 检索与证据抽取(Retrieval + Evidence)

    • PDF → 页级切分

    • 页内:文本块/表格/图片区域分割

    • 建索引:文本 embedding +(可选)图片 embedding

    • 基于问题检索候选证据块

  2. 证据约束生成(Grounded Generation)

    • 输入:问题 + 候选证据块(带页码/区域)

    • 输出:答案 + 引用(明确标注引用来源)


3. 数据与预处理

PDF 解析

  • 文本:直接抽取段落(保留页码与坐标)

  • 图片/图表:提取位图 + 坐标(可选 OCR)

  • 表格:结构化提取(或先当图片处理)

索引粒度建议

  • 文本:段落级(避免太碎导致上下文不足)

  • 图片:图表级/区域级(避免整页图片过大)


4. 模型与模块选型

  • 文本检索:向量检索(embedding)+ 关键词 BM25 作为补充

  • 图片理解:OCR(如有文字)+ 视觉 encoder(可选)

  • 生成:LLM/MLLM(输出必须包含引用)

工程建议:优先让系统“可验证”,再追求端到端能力。多模态 RAG 的收益往往来自检索与证据治理,而不是换一个更大的模型。


5. 评测指标(强烈建议)

  • 引用覆盖率:输出中有多少关键结论带引用

  • 引用正确率:引用是否真的支持结论(抽样人工/LLM-judge + 规则)

  • 幻觉率:无证据断言比例

  • 可审计率:证据是否能定位到具体页码/区域


6. 常见失败模式与修复

  • 检索偏差:只检索到相似词但不相关证据 → 增加关键词检索、重排、提高 chunk 质量

  • 引用错配:模型引用了“看起来像”的段落 → 让引用从结构化证据 ID 中选择,而不是自由生成页码

  • 图表理解弱:OCR 失败/图像编码不足 → 增加图表 caption、表格结构化、区域级 OCR


7. 最小可复现 Demo(建议)

  • 输入:10 篇 PDF(任意公开论文)

  • 问题集:每篇 10 个问题(含“必须引用图表/公式/结论段落”的问题)

  • 输出:答案 + 引用(页码/段落)