数据准备与处理
数据是大模型训练中“最贵、也最容易被低估”的部分:同样的模型与算力,不同的数据分布与质量,最终效果可以差一个数量级。
本章目标:
给出多模态训练数据的采集 → 清洗 → 对齐 → 增强 → 特征化全链路
明确哪些问题应当在数据层解决,哪些应当交给模型/训练策略
提供可落地的工程检查清单(避免“训练跑通了但模型不可用”)
多模态数据集收集
数据源类型
公开数据集:覆盖广但噪声较大
业务数据:贴近目标分布,但标注与合规成本高
合成数据:成本低但易引入偏差(需要评测与约束)
合规与隐私(必须前置)
尤其是医疗、金融等领域,数据治理不是附加项,而是系统设计的一部分:
数据脱敏与访问控制
数据使用授权、可追溯审计
训练数据“可删除”(right to be forgotten)策略(视合规要求)
数据清洗与标注
清洗:先解决“明显坏数据”
常见清洗项:
去重:URL/文本近重复、图像近重复(感知哈希/embedding)
过滤:低分辨率、损坏文件、极端宽高比、OCR 噪声
语言与脚本识别:防止语种分布失控
安全过滤:NSFW、个人隐私、敏感内容
标注:把“任务定义”显式化
多模态标注常见形式:
caption(描述)
QA(问答对)
grounding(框/区域与文本对应)
对话(多轮)
工程建议:
优先标注“可验证”的部分(例如结构化字段、可对齐证据)
对高风险业务,强制保留证据链(例如引用来源、关键字段对齐)
数据增强策略
图像增强
常见增强:
resize/crop、颜色扰动、随机翻转
轻量模糊/压缩噪声(提升鲁棒性)
注意:多模态对齐任务里,增强不能破坏语义对齐。例如:
把文字区域裁掉会让 OCR/图文对齐崩溃
过强颜色扰动可能改变“红灯/绿灯”等语义
文本增强
常见增强:
同义改写、回译(back-translation)
模板化字段扰动(日期/数值/单位)
注意:增强要服务于目标分布,不要把“语言花活”当成质量提升。
对齐数据增强
多模态最关键的增强是“对齐增强”,目标是提升模型学到的对齐信号强度:
硬负样本(hard negatives):给定图像,配一个语义相近但不匹配的文本(或反之)
局部对齐:把图像区域/patch 与关键词做更细粒度对齐(如果你的任务需要)
格式约束:强制输出引用或结构化字段,让监督更可验证
Tokenization 与 Feature Extraction
文本端:tokenization 决定成本上限
tokenization 影响序列长度,直接影响训练与推理成本
对包含大量数字/代码/特殊符号的场景,建议专门评估 token 膨胀率
视觉端:从像素到视觉 token
常见做法:
ViT patch embedding:把图像切成 patch,并映射到 token 序列
视觉 encoder 输出的 token 数(patch 数)会显著影响 cross-attn 的成本
缓存与离线特征
对于双塔/检索类任务,离线缓存 image/text embedding 可以显著降低在线成本;对于单塔生成式 MLLM,是否缓存视觉特征取决于你的服务形态(是否多轮、多图、是否复用同一张图)。
工程检查清单(上线前逐条过)
数据分布:训练/验证/线上是否一致?是否存在明显 domain shift?
重复与泄漏:训练集是否泄漏到评测集(尤其是公开 benchmark)?
噪声占比:caption 错配率、模糊图占比、OCR 噪声占比?
长度与成本:token 平均长度与 P95/P99 是多少?会不会把 attention 成本拉爆?
安全与合规:是否可追溯?是否可删除?是否有敏感过滤?
本章小结
数据决定上限:先把“坏数据/错配/泄漏/分布失控”解决掉,再谈模型结构。
多模态的核心是对齐信号:对齐增强与证据链往往比“更大模型”更直接有效。
把成本指标(token 长度、patch 数、P95/P99)前置,会节省大量无效训练。