# 图文检索(CLIP) 本章目标:实现一个可复现的图文检索系统,并把它当作多模态应用的“基础能力模块”(可被 RAG、Agent、推荐、内容审核复用)。 --- ## 1. 任务定义 - **输入**:查询 \(q\)(文本或图片) - **输出**:Top-K 结果(图片/文本条目) - **核心目标**:语义相似的跨模态样本在 embedding 空间更近 --- ## 2. 系统架构 1. 离线: - 图片库 → image embeddings - 文本库(可选)→ text embeddings - 建立向量索引(FAISS/ANN) 2. 在线: - 查询编码 → 向量检索 - 重排(可选:cross-encoder/MLLM judge/规则) - 返回结果 + 可解释信息(相似度、标签、来源) --- ## 3. 训练/微调(可选) 如果只做工程实战,可以直接用开源 CLIP;如果要提升某个领域(例如医疗影像/工业缺陷/电商商品图),可以: - 收集领域图文对齐数据(caption、类目、属性) - 用对比学习微调(注意负样本与 batch size) --- ## 4. 评测指标 - Recall@K(检索) - mAP / NDCG(排序质量) - 延迟(P50/P95)与吞吐(QPS) - 索引大小与增量更新成本 --- ## 5. 常见工程坑位 - 图片去重与近重复(否则检索评测会虚高) - 数据分布偏差(线上查询与离线评测不一致) - 向量库版本治理(embedding 版本切换、索引重建、回滚)