数据准备与处理

数据是大模型训练中“最贵、也最容易被低估”的部分：同样的模型与算力，不同的数据分布与质量，最终效果可以差一个数量级。

本章目标：

给出多模态训练数据的采集 → 清洗 → 对齐 → 增强 → 特征化全链路
明确哪些问题应当在数据层解决，哪些应当交给模型/训练策略
提供可落地的工程检查清单（避免“训练跑通了但模型不可用”）

多模态数据集收集

数据源类型

公开数据集：覆盖广但噪声较大
业务数据：贴近目标分布，但标注与合规成本高
合成数据：成本低但易引入偏差（需要评测与约束）

合规与隐私（必须前置）

尤其是医疗、金融等领域，数据治理不是附加项，而是系统设计的一部分：

数据脱敏与访问控制
数据使用授权、可追溯审计
训练数据“可删除”（right to be forgotten）策略（视合规要求）

数据清洗与标注

清洗：先解决“明显坏数据”

常见清洗项：

去重：URL/文本近重复、图像近重复（感知哈希/embedding）
过滤：低分辨率、损坏文件、极端宽高比、OCR 噪声
语言与脚本识别：防止语种分布失控
安全过滤：NSFW、个人隐私、敏感内容

标注：把“任务定义”显式化

多模态标注常见形式：

caption（描述）
QA（问答对）
grounding（框/区域与文本对应）
对话（多轮）

工程建议：

优先标注“可验证”的部分（例如结构化字段、可对齐证据）
对高风险业务，强制保留证据链（例如引用来源、关键字段对齐）

数据增强策略

图像增强

常见增强：

resize/crop、颜色扰动、随机翻转
轻量模糊/压缩噪声（提升鲁棒性）

注意：多模态对齐任务里，增强不能破坏语义对齐。例如：

把文字区域裁掉会让 OCR/图文对齐崩溃
过强颜色扰动可能改变“红灯/绿灯”等语义

文本增强

常见增强：

同义改写、回译（back-translation）
模板化字段扰动（日期/数值/单位）

注意：增强要服务于目标分布，不要把“语言花活”当成质量提升。

对齐数据增强

多模态最关键的增强是“对齐增强”，目标是提升模型学到的对齐信号强度：

硬负样本（hard negatives）：给定图像，配一个语义相近但不匹配的文本（或反之）
局部对齐：把图像区域/patch 与关键词做更细粒度对齐（如果你的任务需要）
格式约束：强制输出引用或结构化字段，让监督更可验证

Tokenization 与 Feature Extraction

文本端：tokenization 决定成本上限

tokenization 影响序列长度，直接影响训练与推理成本
对包含大量数字/代码/特殊符号的场景，建议专门评估 token 膨胀率

视觉端：从像素到视觉 token

常见做法：

ViT patch embedding：把图像切成 patch，并映射到 token 序列
视觉 encoder 输出的 token 数（patch 数）会显著影响 cross-attn 的成本

缓存与离线特征

对于双塔/检索类任务，离线缓存 image/text embedding 可以显著降低在线成本；对于单塔生成式 MLLM，是否缓存视觉特征取决于你的服务形态（是否多轮、多图、是否复用同一张图）。

工程检查清单（上线前逐条过）

数据分布：训练/验证/线上是否一致？是否存在明显 domain shift？
重复与泄漏：训练集是否泄漏到评测集（尤其是公开 benchmark）？
噪声占比：caption 错配率、模糊图占比、OCR 噪声占比？
长度与成本：token 平均长度与 P95/P99 是多少？会不会把 attention 成本拉爆？
安全与合规：是否可追溯？是否可删除？是否有敏感过滤？

本章小结

数据决定上限：先把“坏数据/错配/泄漏/分布失控”解决掉，再谈模型结构。
多模态的核心是对齐信号：对齐增强与证据链往往比“更大模型”更直接有效。
把成本指标（token 长度、patch 数、P95/P99）前置，会节省大量无效训练。