# 指令式图像编辑 你选择的“生成类应用”是 **指令式图像编辑**。它相比“从零生成图像”更可控、更容易在真实业务里落地:输入一张原图与编辑指令,输出编辑后的图,并尽量保证 **mask 外区域不变、主体身份一致、编辑区域符合指令**。 --- ## 1. 任务定义 - **输入**: - 原图 \(I\) - 文本指令 \(t\)(例如“把背景换成夜景”,“把衣服改成蓝色”) - mask \(M\)(需要编辑的区域;可由用户给定或由检测模型自动生成) - **输出**:编辑后图像 \(I'\) --- ## 2. 系统架构(推荐) 1. **交互层**:用户画 mask / 选择编辑区域 / 选择模板指令 2. **生成层**:inpainting/edit 模型生成 \(I'\) 3. **验收层(关键)**: - mask 外一致性检查(应几乎不变) - 内容安全与合规检查(NSFW/敏感) - 质量评估(清晰度、伪影、边缘融合) 4. **失败策略**:自动重试(换 seed / 调参)或回退到人工 --- ## 3. 模型选择(工程可落地) 按投入与可控性: - **开源 inpainting 模型直接用**:最快落地 - **指令编辑模型(instruct-based editing)**:文本指令更自然 - **结合检测/分割模型**:自动生成 mask(更适合批处理) 实践中,mask 与验收策略往往比“换一个更大的生成模型”更影响最终可用性。 --- ## 4. 评测指标(必须可验证) - **mask 外一致性**:\( \Delta(I \odot (1-M), I' \odot (1-M)) \) 的像素/感知差异 - **编辑成功率**:编辑区域是否满足指令(可用属性分类器/LLM-judge 辅助) - **伪影率**:边缘破碎、融合失败、纹理塌陷等比例 - **人工偏好胜率**:与 baseline(规则编辑/传统修图)的对比 --- ## 5. 常见失败模式 - mask 边界融合失败(“贴纸感”) - 指令歧义导致改错对象(需要交互确认与局部约束) - 身份一致性丢失(人像/商品场景最常见) - 生成合规风险(需要安全过滤与拒绝策略) --- ## 6. 最小可复现 Demo(建议) - 数据:100 张图片(人像/商品/室内场景各一部分) - 指令集:背景替换、颜色修改、去除物体、添加小物体 - 指标:mask 外一致性 + 编辑成功率 + 人工偏好