指令式图像编辑

你选择的“生成类应用”是 指令式图像编辑。它相比“从零生成图像”更可控、更容易在真实业务里落地:输入一张原图与编辑指令,输出编辑后的图,并尽量保证 mask 外区域不变、主体身份一致、编辑区域符合指令


1. 任务定义

  • 输入

    • 原图 (I)

    • 文本指令 (t)(例如“把背景换成夜景”,“把衣服改成蓝色”)

    • mask (M)(需要编辑的区域;可由用户给定或由检测模型自动生成)

  • 输出:编辑后图像 (I’)


2. 系统架构(推荐)

  1. 交互层:用户画 mask / 选择编辑区域 / 选择模板指令

  2. 生成层:inpainting/edit 模型生成 (I’)

  3. 验收层(关键)

    • mask 外一致性检查(应几乎不变)

    • 内容安全与合规检查(NSFW/敏感)

    • 质量评估(清晰度、伪影、边缘融合)

  4. 失败策略:自动重试(换 seed / 调参)或回退到人工


3. 模型选择(工程可落地)

按投入与可控性:

  • 开源 inpainting 模型直接用:最快落地

  • 指令编辑模型(instruct-based editing):文本指令更自然

  • 结合检测/分割模型:自动生成 mask(更适合批处理)

实践中,mask 与验收策略往往比“换一个更大的生成模型”更影响最终可用性。


4. 评测指标(必须可验证)

  • mask 外一致性:( \Delta(I \odot (1-M), I’ \odot (1-M)) ) 的像素/感知差异

  • 编辑成功率:编辑区域是否满足指令(可用属性分类器/LLM-judge 辅助)

  • 伪影率:边缘破碎、融合失败、纹理塌陷等比例

  • 人工偏好胜率:与 baseline(规则编辑/传统修图)的对比


5. 常见失败模式

  • mask 边界融合失败(“贴纸感”)

  • 指令歧义导致改错对象(需要交互确认与局部约束)

  • 身份一致性丢失(人像/商品场景最常见)

  • 生成合规风险(需要安全过滤与拒绝策略)


6. 最小可复现 Demo(建议)

  • 数据:100 张图片(人像/商品/室内场景各一部分)

  • 指令集:背景替换、颜色修改、去除物体、添加小物体

  • 指标:mask 外一致性 + 编辑成功率 + 人工偏好