# 多模态基础

> 目标：建立一个统一视角：不同模态如何表示、如何对齐、如何融合，以及常见任务如何评测与落地。

## 什么是多模态数据

“模态（modality）”可以理解为信息的载体形式。多模态数据的特点是：同一语义可由不同模态共同描述，并且模态之间存在互补与冗余。

常见模态：

- **文本**：离散 token 序列，强语义、弱感知细节
- **图像**：二维像素或 patch，强感知细节、弱显式结构
- **语音**：时序信号（波形/频谱），包含内容与说话人/情绪等因素
- **视频**：图像 + 时间维度 + 动作/事件
- **3D/点云**：几何结构与空间关系，常用于机器人与自动驾驶

多模态问题的难点不在于“多一种输入”，而在于：

- **对齐（alignment）**：不同模态在时间/空间/语义层面如何对应？
- **融合（fusion）**：在什么层面把信息合在一起最有效？
- **监督信号**：标注成本高、噪声大、分布偏差严重。

## 多模态数据表示

核心问题是：如何把不同模态变成统一可计算的表示 \(z\)。

### 连续表征：encoder 输出向量/序列

- 图像：CNN/ViT 把图像变成 patch token 序列 \(\{v_i\}\)
- 语音：wav2vec/Conformer 把语音变成帧级 token 序列 \(\{a_t\}\)
- 文本：Transformer 把 token 变成隐藏状态 \(\{h_t\}\)

### 离散 token 化：把模态变成“可语言化”的符号

一种常见工程思路是把连续信号量化成离散 token（例如 VQ-VAE），从而复用语言模型的建模方式。优点是统一接口，缺点是量化误差与训练复杂度。

### 表示学习的目标：对齐与可分性

表示是否“好用”往往体现在两点：

- **对齐**：同一语义的跨模态样本距离更近（例如图文对齐）
- **可分性/可线性读出**：下游任务能否用简单头部实现高性能

## 多模态融合方法

多模态融合可以按发生位置分三类（你可以把它当成工程选型的“总纲”）。

### 早期融合（Early Fusion）

在较早层就把模态拼在一起（例如把视觉 token 与文本 token 直接拼接进同一个 Transformer）。

- 优点：交互充分，适合复杂推理与细粒度对齐
- 缺点：计算开销大，对数据质量敏感

### 晚期融合（Late Fusion）

先分别编码，再在高层融合（例如双塔 + 相似度/MLP）。

- 优点：高效、易部署，适合检索与匹配
- 缺点：交互受限，对“需要逐步推理”的任务不够强

### 交互式融合（Cross-Attention / Co-Attention）

让一个模态去 attend 另一个模态的表示（例如文本 query 去 attend 图像 key/value），是很多 VLM/MLLM 的核心组件。

- 优点：表达力强且比全量早期融合更可控
- 缺点：实现与加速更复杂（KV Cache、跨模态长度差异等）

## 多模态任务类型

从“输出形态”划分，最常见的任务包括：

- **分类/检测/分割**：输出离散标签或结构化结果（CV 传统任务）
- **检索（Retrieval）**：图搜文、文搜图，核心是对齐表示与相似度学习（CLIP 系）
- **生成（Generation）**：图像描述、视频字幕、语音转写、文本引导图像生成
- **问答（VQA）**：给定图像/视频与问题，生成答案；对推理链与对齐要求更高

从“训练信号”划分，还常见：

- **对比学习（Contrastive）**：强于表征与检索
- **掩码建模（Masked Modeling）**：强于理解与补全
- **自回归生成（Autoregressive）**：强于统一生成接口与对话式应用

---

## 工程落地：你需要优先解决的 4 个问题

1. **数据对齐与噪声**：图文对是否真的对应？是否存在模板化 caption、脏标签、重复样本？
2. **评测是否反映真实需求**：检索指标（Recall@K）不等于“业务可用”；生成指标（BLEU/CIDEr）不等于“事实正确”。
3. **系统延迟与成本**：视觉编码器与跨注意力往往是瓶颈；需要 batch、cache、量化与算子融合。
4. **可控性与安全**：多模态更容易引入“看图胡说/过度自信”；需要引用证据、拒答与安全策略。

---

## 本章小结

- 多模态的难点集中在：对齐、融合与监督信号质量。
- 融合策略可按早期/晚期/交互式理解，直接指导架构选型。
- 真实落地优先关注数据、评测、成本与可控性，而不是只追 SOTA。