指令式图像编辑

你选择的“生成类应用”是 指令式图像编辑。它相比“从零生成图像”更可控、更容易在真实业务里落地：输入一张原图与编辑指令，输出编辑后的图，并尽量保证 mask 外区域不变、主体身份一致、编辑区域符合指令。

1. 任务定义

输入：
- 原图 (I)
- 文本指令 (t)（例如“把背景换成夜景”，“把衣服改成蓝色”）
- mask (M)（需要编辑的区域；可由用户给定或由检测模型自动生成）
输出：编辑后图像 (I’)

2. 系统架构（推荐）

交互层：用户画 mask / 选择编辑区域 / 选择模板指令
生成层：inpainting/edit 模型生成 (I’)
验收层（关键）：
- mask 外一致性检查（应几乎不变）
- 内容安全与合规检查（NSFW/敏感）
- 质量评估（清晰度、伪影、边缘融合）
失败策略：自动重试（换 seed / 调参）或回退到人工

3. 模型选择（工程可落地）

按投入与可控性：

开源 inpainting 模型直接用：最快落地
指令编辑模型（instruct-based editing）：文本指令更自然
结合检测/分割模型：自动生成 mask（更适合批处理）

实践中，mask 与验收策略往往比“换一个更大的生成模型”更影响最终可用性。

4. 评测指标（必须可验证）

mask 外一致性：( \Delta(I \odot (1-M), I’ \odot (1-M)) ) 的像素/感知差异
编辑成功率：编辑区域是否满足指令（可用属性分类器/LLM-judge 辅助）
伪影率：边缘破碎、融合失败、纹理塌陷等比例
人工偏好胜率：与 baseline（规则编辑/传统修图）的对比

5. 常见失败模式

mask 边界融合失败（“贴纸感”）
指令歧义导致改错对象（需要交互确认与局部约束）
身份一致性丢失（人像/商品场景最常见）
生成合规风险（需要安全过滤与拒绝策略）

6. 最小可复现 Demo（建议）

数据：100 张图片（人像/商品/室内场景各一部分）
指令集：背景替换、颜色修改、去除物体、添加小物体
指标：mask 外一致性 + 编辑成功率 + 人工偏好