# 指令式图像编辑

你选择的“生成类应用”是 **指令式图像编辑**。它相比“从零生成图像”更可控、更容易在真实业务里落地：输入一张原图与编辑指令，输出编辑后的图，并尽量保证 **mask 外区域不变、主体身份一致、编辑区域符合指令**。

---

## 1. 任务定义

- **输入**：
  - 原图 \(I\)
  - 文本指令 \(t\)（例如“把背景换成夜景”，“把衣服改成蓝色”）
  - mask \(M\)（需要编辑的区域；可由用户给定或由检测模型自动生成）
- **输出**：编辑后图像 \(I'\)

---

## 2. 系统架构（推荐）

1. **交互层**：用户画 mask / 选择编辑区域 / 选择模板指令
2. **生成层**：inpainting/edit 模型生成 \(I'\)
3. **验收层（关键）**：
   - mask 外一致性检查（应几乎不变）
   - 内容安全与合规检查（NSFW/敏感）
   - 质量评估（清晰度、伪影、边缘融合）
4. **失败策略**：自动重试（换 seed / 调参）或回退到人工

---

## 3. 模型选择（工程可落地）

按投入与可控性：

- **开源 inpainting 模型直接用**：最快落地
- **指令编辑模型（instruct-based editing）**：文本指令更自然
- **结合检测/分割模型**：自动生成 mask（更适合批处理）

实践中，mask 与验收策略往往比“换一个更大的生成模型”更影响最终可用性。

---

## 4. 评测指标（必须可验证）

- **mask 外一致性**：\( \Delta(I \odot (1-M), I' \odot (1-M)) \) 的像素/感知差异
- **编辑成功率**：编辑区域是否满足指令（可用属性分类器/LLM-judge 辅助）
- **伪影率**：边缘破碎、融合失败、纹理塌陷等比例
- **人工偏好胜率**：与 baseline（规则编辑/传统修图）的对比

---

## 5. 常见失败模式

- mask 边界融合失败（“贴纸感”）
- 指令歧义导致改错对象（需要交互确认与局部约束）
- 身份一致性丢失（人像/商品场景最常见）
- 生成合规风险（需要安全过滤与拒绝策略）

---

## 6. 最小可复现 Demo（建议）

- 数据：100 张图片（人像/商品/室内场景各一部分）
- 指令集：背景替换、颜色修改、去除物体、添加小物体
- 指标：mask 外一致性 + 编辑成功率 + 人工偏好