端到端模型是否适合医疗医嘱生成

本文是我的随想/阅读笔记:聚焦一个常见但危险的误区——把“医疗决策”当成一个端到端映射问题。

结论:端到端模型(患者历史 → 直接生成医嘱)在医疗场景中本质上不可行,其问题不在于模型能力,而在于问题定义本身不成立。

端到端模型可以理解为:

\[ \text{Patient History} ;\longrightarrow; \text{LLM} ;\longrightarrow; \text{Medical Order} \]

形式上就是:

  • 输入:患者所有历史(影像 + 检验 + 文本)

  • 输出:一句话或一组医嘱

  • Loss:和“真实医嘱”对齐

这是一个典型的 supervised / RL end-to-end mapping

但是问题在于:

  1. 医嘱天然是多解问题:同一患者状态下往往存在多种合理医嘱,端到端模型只能学习“最常见选择”,而非风险感知下的最优决策。

  2. 历史医嘱 ≠ 最优医嘱:真实数据仅反映医生过去的行为,端到端训练本质是模仿,易受混杂因素影响并放大历史偏差。

  3. 缺乏可定义的端到端 reward:医嘱效果通常延迟出现且受多因素影响,语言或一致性指标与真实临床获益弱相关。

  4. 医疗必须满足硬约束:禁忌症、剂量上限和药物相互作用无法仅通过学习保证,任何小概率违规在医疗中都不可接受。

  5. 分布外场景是常态:新药、新设备、新指南持续引入 OOD 情况,端到端模型易高置信输出,缺乏显式风险控制。

第一个致命问题:医嘱不是一个“函数值”

这是最根本的一点。

医嘱不是唯一解

在同一个患者状态 (s) 下:

  • 医生 A:保守治疗

  • 医生 B:激进治疗

  • 医生 C:先观察

全部是“合理的医学决策”

但在端到端训练里:

\[(s) \rightarrow a^*\]

你却被迫假设:

存在一个“正确医嘱” (a^*)

这是建模假设错误,不是模型能力问题。

医学决策是一个“多解、偏好、风险权衡问题”

更真实的形式是:

\[ \pi(a \mid s, \text{risk preference}, \text{guideline}, \text{context}) \]

而端到端模型学的是:

\[ \hat{a} = \arg\max_a p(a \mid s) \]

这会发生什么?

  • 学到的是 “最常见医嘱”

  • 而不是 “在当前风险下最合理的医嘱”

这在医学上是非常危险的平均化偏差

第二个致命问题:医嘱的因果方向是反的

这是一个很多 AI 医疗论文忽略,但必须理解的点。

数据中的医嘱 ≠ 最优医嘱

真实世界数据是:

患者状态 s
   ↓
医生决策 a
   ↓
患者结局 y

你拿到的数据是:

\[ (s, a) \]

但你不知道:

  • 医生当时有哪些备选?

  • 为什么选了 (a)?

  • 如果选了 (a’) 会发生什么?

端到端模型在学什么?

它在学:

“历史医生在这个状态下通常怎么做”

而不是:

“什么做法更好”

这是模仿(imitation),不是决策优化。

更糟糕的:confounding(混杂)

举个简单但致命的例子:

  • 病情重 → 用强药 → 死亡率高

端到端模型可能学到:

“强药 → 不好结果 → 不要用强药”

但真实因果是反的。

这在医疗里是教科书级别的灾难

第三个致命问题:Reward 无法端到端定义

医疗没有“即时 reward”

强化学习假设:

\[ (s_t, a_t) \rightarrow r_t \]

但在医疗中:

  • 医嘱效果可能 几天 / 几周 / 几个月后 才体现

  • 中间还有无数不可控因素

你很难定义一个干净的 reward 信号

端到端 LLM 的隐性 reward 是什么?

通常会退化为:

  • 语言相似度

  • 专家一致性

  • 文本合理性

但这些和“患者是否受益”往往是弱相关的,因此你得到的是:

“看起来像医生,但并不真的在做医学决策的模型”

第四个致命问题:端到端模型天然不可控

无法插入“硬约束”

医疗里有大量 must-not-violate:

  • 禁忌症

  • 剂量上限

  • 药物相互作用

端到端模型里这些只能“希望它学会”,但无法强制保证。哪怕 99.9% 正确,0.1% 的错误在医疗里也是不可接受的。

无法审计、无法追责

如果模型输出了错误医嘱:

  • 为什么?

  • 是哪个历史信息导致的?

  • 违反了哪条指南?

端到端模型很难给出可审计的“证据链”。

第五个致命问题:分布外(OOD)是常态,而不是例外

在医疗里:

  • 新设备

  • 新药

  • 新指南

  • 新病种组合

OOD 是日常状态。端到端模型的典型风险是:在 OOD 情况下仍然高置信输出,而不是显式表达不确定性并请求医生介入。

为什么“分层 / 非端到端”反而是正解?

这条路线本质上是:把“不可学习/必须硬约束”的部分从模型里剥离出去,只让模型学习它真正擅长的部分。

问题

端到端

分层建模

多解决策

❌ 强行单解

✅ 候选集 + 排序

因果混杂

❌ 学历史偏见

✅ 可插 causal module

禁忌规则

❌ 指望学出来

✅ 硬约束

OOD

❌ 自信胡说

✅ 显式不确定

审计

❌ 黑盒

✅ 可追溯

一个反直觉但重要的观点

端到端模型的前提是:问题本身是“端到端可定义的”。例如语音→文本、图像→分类、翻译。

但医疗决策更像:

\[ \text{State} \rightarrow \text{Feasible Set} \rightarrow \text{Preference-aware Choice} \]

而不是:

\[ \text{State} \rightarrow \text{Sentence} \]

怎么做(工程落地原则)

这套架构遵循 5 条硬原则,你可以把它当成“医疗 AI 的宪法”:

  1. 医嘱不是预测目标,而是决策变量

  2. 患者状态必须显式建模

  3. 医学约束必须硬编码,而不是靠模型学

  4. 模型输出必须是“候选 + 排序”,不是单一答案

  5. LLM 只能做解释和交互,不能做决定

只要你不违反这 5 条,方向就是对的。