多模态基础

目标：建立一个统一视角：不同模态如何表示、如何对齐、如何融合，以及常见任务如何评测与落地。

什么是多模态数据

“模态（modality）”可以理解为信息的载体形式。多模态数据的特点是：同一语义可由不同模态共同描述，并且模态之间存在互补与冗余。

常见模态：

文本：离散 token 序列，强语义、弱感知细节
图像：二维像素或 patch，强感知细节、弱显式结构
语音：时序信号（波形/频谱），包含内容与说话人/情绪等因素
视频：图像 + 时间维度 + 动作/事件
3D/点云：几何结构与空间关系，常用于机器人与自动驾驶

多模态问题的难点不在于“多一种输入”，而在于：

对齐（alignment）：不同模态在时间/空间/语义层面如何对应？
融合（fusion）：在什么层面把信息合在一起最有效？
监督信号：标注成本高、噪声大、分布偏差严重。

多模态数据表示

核心问题是：如何把不同模态变成统一可计算的表示 (z)。

连续表征：encoder 输出向量/序列

图像：CNN/ViT 把图像变成 patch token 序列 ({v_i})
语音：wav2vec/Conformer 把语音变成帧级 token 序列 ({a_t})
文本：Transformer 把 token 变成隐藏状态 ({h_t})

离散 token 化：把模态变成“可语言化”的符号

一种常见工程思路是把连续信号量化成离散 token（例如 VQ-VAE），从而复用语言模型的建模方式。优点是统一接口，缺点是量化误差与训练复杂度。

表示学习的目标：对齐与可分性

表示是否“好用”往往体现在两点：

对齐：同一语义的跨模态样本距离更近（例如图文对齐）
可分性/可线性读出：下游任务能否用简单头部实现高性能

多模态融合方法

多模态融合可以按发生位置分三类（你可以把它当成工程选型的“总纲”）。

早期融合（Early Fusion）

在较早层就把模态拼在一起（例如把视觉 token 与文本 token 直接拼接进同一个 Transformer）。

优点：交互充分，适合复杂推理与细粒度对齐
缺点：计算开销大，对数据质量敏感

晚期融合（Late Fusion）

先分别编码，再在高层融合（例如双塔 + 相似度/MLP）。

优点：高效、易部署，适合检索与匹配
缺点：交互受限，对“需要逐步推理”的任务不够强

交互式融合（Cross-Attention / Co-Attention）

让一个模态去 attend 另一个模态的表示（例如文本 query 去 attend 图像 key/value），是很多 VLM/MLLM 的核心组件。

优点：表达力强且比全量早期融合更可控
缺点：实现与加速更复杂（KV Cache、跨模态长度差异等）

多模态任务类型

从“输出形态”划分，最常见的任务包括：

分类/检测/分割：输出离散标签或结构化结果（CV 传统任务）
检索（Retrieval）：图搜文、文搜图，核心是对齐表示与相似度学习（CLIP 系）
生成（Generation）：图像描述、视频字幕、语音转写、文本引导图像生成
问答（VQA）：给定图像/视频与问题，生成答案；对推理链与对齐要求更高

从“训练信号”划分，还常见：

对比学习（Contrastive）：强于表征与检索
掩码建模（Masked Modeling）：强于理解与补全
自回归生成（Autoregressive）：强于统一生成接口与对话式应用

工程落地：你需要优先解决的 4 个问题

数据对齐与噪声：图文对是否真的对应？是否存在模板化 caption、脏标签、重复样本？
评测是否反映真实需求：检索指标（Recall@K）不等于“业务可用”；生成指标（BLEU/CIDEr）不等于“事实正确”。
系统延迟与成本：视觉编码器与跨注意力往往是瓶颈；需要 batch、cache、量化与算子融合。
可控性与安全：多模态更容易引入“看图胡说/过度自信”；需要引用证据、拒答与安全策略。

本章小结

多模态的难点集中在：对齐、融合与监督信号质量。
融合策略可按早期/晚期/交互式理解，直接指导架构选型。
真实落地优先关注数据、评测、成本与可控性，而不是只追 SOTA。