# 端到端模型是否适合医疗医嘱生成

> 本文是我的随想/阅读笔记：聚焦一个常见但危险的误区——把“医疗决策”当成一个端到端映射问题。

**结论：端到端模型（患者历史 → 直接生成医嘱）在医疗场景中本质上不可行，其问题不在于模型能力，而在于问题定义本身不成立。**

端到端模型可以理解为：

$$ \text{Patient History} ;\longrightarrow; \text{LLM} ;\longrightarrow; \text{Medical Order} $$

形式上就是：

- 输入：患者所有历史（影像 + 检验 + 文本）
- 输出：一句话或一组医嘱
- Loss：和“真实医嘱”对齐

这是一个**典型的 supervised / RL end-to-end mapping**。

但是问题在于：

1. 医嘱天然是多解问题：同一患者状态下往往存在多种合理医嘱，端到端模型只能学习“最常见选择”，而非风险感知下的最优决策。
2. 历史医嘱 ≠ 最优医嘱：真实数据仅反映医生过去的行为，端到端训练本质是模仿，易受混杂因素影响并放大历史偏差。
3. 缺乏可定义的端到端 reward：医嘱效果通常延迟出现且受多因素影响，语言或一致性指标与真实临床获益弱相关。
4. 医疗必须满足硬约束：禁忌症、剂量上限和药物相互作用无法仅通过学习保证，任何小概率违规在医疗中都不可接受。
5. 分布外场景是常态：新药、新设备、新指南持续引入 OOD 情况，端到端模型易高置信输出，缺乏显式风险控制。

## 第一个致命问题：医嘱不是一个“函数值”

这是最根本的一点。

### 医嘱不是唯一解

在同一个患者状态 \(s\) 下：

- 医生 A：保守治疗
- 医生 B：激进治疗
- 医生 C：先观察

**全部是“合理的医学决策”**。

但在端到端训练里：

$$(s) \rightarrow a^*$$

你却被迫假设：

> **存在一个“正确医嘱” \(a^*\)**

这是**建模假设错误**，不是模型能力问题。

### 医学决策是一个“多解、偏好、风险权衡问题”

更真实的形式是：

$$
\pi(a \mid s, \text{risk preference}, \text{guideline}, \text{context})
$$

而端到端模型学的是：

$$
\hat{a} = \arg\max_a p(a \mid s)
$$

这会发生什么？

- 学到的是 **“最常见医嘱”**
- 而不是 **“在当前风险下最合理的医嘱”**

这在医学上是**非常危险的平均化偏差**。

## 第二个致命问题：医嘱的因果方向是反的

这是一个很多 AI 医疗论文忽略，但必须理解的点。

### 数据中的医嘱 ≠ 最优医嘱

真实世界数据是：

```
患者状态 s
   ↓
医生决策 a
   ↓
患者结局 y
```

你拿到的数据是：

$$
(s, a)
$$

但你不知道：

- 医生当时有哪些备选？
- 为什么选了 \(a\)？
- 如果选了 \(a'\) 会发生什么？

### 端到端模型在学什么？

它在学：

> **“历史医生在这个状态下通常怎么做”**

而不是：

> **“什么做法更好”**

这是**模仿（imitation）**，不是决策优化。

### 更糟糕的：confounding（混杂）

举个简单但致命的例子：

- 病情重 → 用强药 → 死亡率高

端到端模型可能学到：

> **“强药 → 不好结果 → 不要用强药”**

但真实因果是反的。

这在医疗里是**教科书级别的灾难**。

## 第三个致命问题：Reward 无法端到端定义

### 医疗没有“即时 reward”

强化学习假设：

$$
(s_t, a_t) \rightarrow r_t
$$

但在医疗中：

- 医嘱效果可能 **几天 / 几周 / 几个月后** 才体现
- 中间还有无数不可控因素

你很难定义一个**干净的 reward 信号**。

### 端到端 LLM 的隐性 reward 是什么？

通常会退化为：

- 语言相似度
- 专家一致性
- 文本合理性

但这些和“患者是否受益”往往是弱相关的，因此你得到的是：

> **“看起来像医生，但并不真的在做医学决策的模型”**

## 第四个致命问题：端到端模型天然不可控

### 无法插入“硬约束”

医疗里有大量 must-not-violate：

- 禁忌症
- 剂量上限
- 药物相互作用

端到端模型里这些只能“希望它学会”，但**无法强制保证**。哪怕 99.9% 正确，0.1% 的错误在医疗里也是不可接受的。

### 无法审计、无法追责

如果模型输出了错误医嘱：

- 为什么？
- 是哪个历史信息导致的？
- 违反了哪条指南？

端到端模型很难给出可审计的“证据链”。

## 第五个致命问题：分布外（OOD）是常态，而不是例外

在医疗里：

- 新设备
- 新药
- 新指南
- 新病种组合

OOD 是日常状态。端到端模型的典型风险是：在 OOD 情况下仍然高置信输出，而不是显式表达不确定性并请求医生介入。

## 为什么“分层 / 非端到端”反而是正解？

这条路线本质上是：把“不可学习/必须硬约束”的部分从模型里剥离出去，只让模型学习它真正擅长的部分。

| 问题 | 端到端 | 分层建模 |
|---|---|---|
| 多解决策 | ❌ 强行单解 | ✅ 候选集 + 排序 |
| 因果混杂 | ❌ 学历史偏见 | ✅ 可插 causal module |
| 禁忌规则 | ❌ 指望学出来 | ✅ 硬约束 |
| OOD | ❌ 自信胡说 | ✅ 显式不确定 |
| 审计 | ❌ 黑盒 | ✅ 可追溯 |

## 一个反直觉但重要的观点

端到端模型的前提是：问题本身是“端到端可定义的”。例如语音→文本、图像→分类、翻译。

但医疗决策更像：

$$
\text{State} \rightarrow \text{Feasible Set} \rightarrow \text{Preference-aware Choice}
$$

而不是：

$$
\text{State} \rightarrow \text{Sentence}
$$

## 怎么做（工程落地原则）

这套架构遵循 5 条硬原则，你可以把它当成“医疗 AI 的宪法”：

1. 医嘱不是预测目标，而是决策变量
2. 患者状态必须显式建模
3. 医学约束必须硬编码，而不是靠模型学
4. 模型输出必须是“候选 + 排序”，不是单一答案
5. LLM 只能做解释和交互，不能做决定

只要你不违反这 5 条，方向就是对的。