指令式图像编辑
你选择的“生成类应用”是 指令式图像编辑。它相比“从零生成图像”更可控、更容易在真实业务里落地:输入一张原图与编辑指令,输出编辑后的图,并尽量保证 mask 外区域不变、主体身份一致、编辑区域符合指令。
1. 任务定义
输入:
原图 (I)
文本指令 (t)(例如“把背景换成夜景”,“把衣服改成蓝色”)
mask (M)(需要编辑的区域;可由用户给定或由检测模型自动生成)
输出:编辑后图像 (I’)
2. 系统架构(推荐)
交互层:用户画 mask / 选择编辑区域 / 选择模板指令
生成层:inpainting/edit 模型生成 (I’)
验收层(关键):
mask 外一致性检查(应几乎不变)
内容安全与合规检查(NSFW/敏感)
质量评估(清晰度、伪影、边缘融合)
失败策略:自动重试(换 seed / 调参)或回退到人工
3. 模型选择(工程可落地)
按投入与可控性:
开源 inpainting 模型直接用:最快落地
指令编辑模型(instruct-based editing):文本指令更自然
结合检测/分割模型:自动生成 mask(更适合批处理)
实践中,mask 与验收策略往往比“换一个更大的生成模型”更影响最终可用性。
4. 评测指标(必须可验证)
mask 外一致性:( \Delta(I \odot (1-M), I’ \odot (1-M)) ) 的像素/感知差异
编辑成功率:编辑区域是否满足指令(可用属性分类器/LLM-judge 辅助)
伪影率:边缘破碎、融合失败、纹理塌陷等比例
人工偏好胜率:与 baseline(规则编辑/传统修图)的对比
5. 常见失败模式
mask 边界融合失败(“贴纸感”)
指令歧义导致改错对象(需要交互确认与局部约束)
身份一致性丢失(人像/商品场景最常见)
生成合规风险(需要安全过滤与拒绝策略)
6. 最小可复现 Demo(建议)
数据:100 张图片(人像/商品/室内场景各一部分)
指令集:背景替换、颜色修改、去除物体、添加小物体
指标:mask 外一致性 + 编辑成功率 + 人工偏好