Seedream 4.0 使用指南：文生图、图像编辑与多图参考融合

Seedream 4.0 是豆包体系下的图像创作模型，核心定位是用自然语言完成图片生成和图片修改。它不只做传统的文生图，还把图像编辑、参考图生成、多图融合、组图输出放进同一个模型里。

在 AIGC（人工智能生成内容）创作里，一个需求经常不是“生成一张图”这么简单，而是包含多个动作：

根据一句描述生成视觉草图；
在已有图片上删除、替换、添加元素；
保留人物五官、品牌标识、空间布局等关键特征；
参考多张图片，把主体、风格、材质或构图组合起来；
一次生成一组风格统一的海报、图标、分镜或品牌物料。

Seedream 4.0 适合处理的正是这类复合型图像任务。它在 LiblibAI 上的模型页面为：

https://www.liblib.art/modelinfo/12f2958836864b9c9e8ef18d560ce04c

Seedream 4.0 的任务结构

Seedream 4.0 可以把不同输入统一成一个图像创作流程。输入可以是纯文字，也可以是一张或多张参考图；输出可以是一张修改后的图片，也可以是一组成套图片。

flowchart TD
    A[创作需求] --> B{输入内容}

    B -->|只有文字| C[文生图]
    B -->|一张参考图 + 指令| D[图像编辑]
    B -->|多张参考图 + 指令| E[多图参考融合]
    B -->|文字或参考图 + 成组要求| F[组图生成]

    C --> G[生成单张图片]
    D --> H[删除 / 添加 / 替换 / 修复 / 调光]
    E --> I[主体融合 / 风格迁移 / 元素替换]
    F --> J[海报系列 / 图标套组 / 分镜 / 品牌物料]

这种统一模型的好处是减少“换模型”的成本。比如做一个品牌视觉方案时，可以先用文字生成主视觉，再参考 LOGO 扩展包装和周边，之后继续让模型调整材质、灯光、比例和构图，整个过程都可以通过自然语言推进。

核心能力拆解

能力	解决的问题	典型任务
精准指令编辑	用自然语言控制局部修改，避免整张图被大幅重绘	删除脸上的遮挡物、给人物加首饰、替换宠物品种
特征保持	多轮修改时保留人物、场景、品牌元素的稳定性	人物风格迁移、品牌 VI 延展、同一角色分镜
深度意图理解	不只匹配关键词，还要理解目标、上下文和约束	“打开灯但窗外仍是夜晚”这类复合要求
多图输入	同时参考多张图片，把不同主体、风格或元素组合起来	主体替换、服装参考、材质迁移、场景合成
多图输出	一次得到一组有关联的结果	图标套组、广告系列、创意脑暴、分镜草图
高清快速生成	适合快速迭代，并给后期编辑留出分辨率空间	2K 草图、4K 主视觉、海报延展

其中比较关键的是“指令”和“保持”这两个能力。图像编辑模型如果只会重画，很容易把不该变的部分一起改掉；如果只会局部修补，又很难理解复杂需求。Seedream 4.0 的使用重点，就是把“要改什么”和“不要改什么”同时写清楚。

提示词应该怎么写

Seedream 4.0 能理解中文自然语言，但提示词越结构化，结果越稳定。一个好用的提示词可以拆成五部分：

任务：说明要做什么
对象：说明要修改或生成的主体
参考：说明参考图分别提供什么信息
保留：说明哪些内容不能变
约束：说明风格、光照、构图、文字、尺寸等要求

例如图片编辑可以这样写：

任务：把客厅里的灯打开，让室内变亮。
对象：客厅整体环境和灯光。
保留：家具位置、窗外夜景、房间原有布局不要改变。
约束：室内是暖色灯光，窗外仍然能看出是夜晚，不要改成白天。

多图融合时，最好给每张图明确编号：

图一作为人物主体参考，保留人物五官和发型。
图二作为服装参考，使用白色礼服和银色配饰。
图三作为场景参考，背景为沙漠和未来感交通工具。
生成一张写实广告大片，人物站在画面中央，整体为银白色高级时尚风格。

常见任务可以按这个表来组织指令：

任务类型	提示词重点	容易出问题的地方
元素删除	写清删除对象，以及背景如何补齐	删除后留下痕迹，人物皮肤或衣服被改动
局部替换	写清替换对象、替换后的类别、原图哪些部分不变	新对象比例不对，光影和原图不一致
元素添加	写清新增物体的位置、材质、颜色和风格	新元素像贴上去的，透视和光照不匹配
老照片修复	同时说明修复划痕、上色、保留年代感	过度磨皮，人物特征丢失
风格迁移	明确“风格变、人物不变”	五官、年龄、服装被模型一起改掉
品牌延展	明确 LOGO、主色、物料类型和视觉风格	品牌名拼写不稳定，物料之间风格不统一
组图生成	说明数量、统一风格、每张图的差异点	每张图像像独立生成，缺少系列感

典型用法一：局部元素抹除

局部抹除适合处理图片中的遮挡物、杂物、瑕疵或不需要的装饰。关键不是简单“删除”，而是删除之后要合理补全被遮挡区域。

示例指令：

移除男生脸上的蝴蝶。

这个任务考察的是模型的局部重建能力。蝴蝶被移除后，脸部皮肤、五官边缘、光影关系都需要自然补齐，同时人物整体姿态、表情和背景不应发生明显变化。实际使用时，如果发现模型改动了太多区域，可以补充一句：

只修改蝴蝶遮挡的区域，人物五官、发型、衣服和背景保持不变。

典型用法二：老照片修复与上色

老照片处理通常包含两个动作：修复损坏区域，以及为黑白或褪色照片重新上色。相比普通滤镜，这类任务更依赖模型对人物、服装、年代感和画面纹理的理解。

示例指令：

把这张照片变成彩色的，并修复照片上的划痕。

修复类任务要避免“过度现代化”。如果希望保留旧照片质感，可以加入约束：

保留老照片的胶片颗粒和年代感，不要把人物处理成现代写真风格。

如果照片里有人物，最好再强调：

保留人物面部特征、年龄感和原始服装轮廓。

典型用法三：人物一致性的风格迁移

风格迁移不是简单套滤镜。一个更实用的目标是：同一个人物，在不同视觉风格里保持身份一致。

示例指令：

参考这张图，将它修改为写实插画风格、水彩风格、日式动画风格、扁平几何风格。

这类任务最重要的约束是“人物不变，风格变化”。提示词可以写得更明确：

保留人物的脸型、五官比例、发型、表情和服装主体结构，只改变绘画风格。
分别生成写实插画、水彩、日式动画、扁平几何四种风格。

如果用于角色设定、头像套组或分镜设计，还可以继续加上：

所有结果都要看起来像同一个角色。

典型用法四：多图参考融合

多图输入适合把不同素材里的信息组合到一张图中。常见用法包括主体替换、服装迁移、材质参考、场景合成、产品搭配等。

示例指令：

将图一的主体替换为图二的主体。

多图融合时，最容易出错的是参考关系混乱。比起“参考这几张图生成一张图”，更稳定的写法是为每张图分配职责：

图一提供原始场景和构图，保持背景、光照和镜头角度不变。
图二提供新的主体，使用图二主体替换图一主体。
替换后主体要符合图一的透视、比例和光影。

如果有三张以上参考图，可以继续细分：

图一：场景和构图。
图二：人物主体。
图三：服装款式。
图四：整体色调和海报风格。

典型用法五：品牌 VI 延展

VI（Visual Identity，视觉识别系统）延展要求模型理解品牌的核心元素，例如 LOGO、主色、字体风格、图形语言和应用场景。它不只是生成一张海报，而是把同一套视觉规则扩展到多个物料上。

示例指令：

参考这个 LOGO，做一套户外运动品牌视觉设计，品牌名为 "GREEN"，包括包装袋、帽子、手环、纸盒等。
绿色视觉主色调，简约现代风格。

品牌设计类任务要把“统一”和“差异”同时说明。统一的是颜色、字体、图形语言和品牌调性；差异是物料类型、使用场景和版式布局。

更稳定的写法可以是：

参考输入 LOGO 的形状和品牌名 GREEN。
设计一套户外运动品牌 VI 应用图，包括包装袋、帽子、手环、纸盒。
统一使用绿色作为主色，搭配白色和浅灰色。
整体风格简约、现代、适合户外运动品牌。
所有物料上的品牌名拼写必须为 GREEN。

生成品牌物料时，文字和 LOGO 细节需要人工复核。图像模型可以快速给出视觉方向，但最终商用文件仍然需要设计软件进行排版、矢量化和规范校对。

典型用法六：结构化版式与演示页设计

Seedream 4.0 还可以生成带有信息结构的图片，例如时间轴、课程页、知识卡片、演示页草图等。PPT（PowerPoint 演示文稿）类任务的重点在于层级清楚，而不是只追求画面好看。

示例指令：

画一条从秦汉到清代的时间轴，标注：秦、汉、唐、宋、元、明、清。
顺序清晰，每个朝代配一个小图标，同时用文字写上每个朝代的特点。

这类任务要注意两个问题：一是文字准确性，二是信息层级。模型可以生成版式草图，但涉及中文标题、历史信息、公式、数据时，需要逐项检查。更稳妥的做法是先让模型生成视觉布局，再把正式文字放到 PPT、Figma 或其他设计工具中重新排版。

典型用法七：框选与涂抹区域识别

有些编辑需求很难只靠文字描述位置，例如“把沙发放到左侧墙边”“把电视放到红色标记处”。如果输入图里已经用颜色涂抹或框选了区域，模型可以结合标记和指令来完成局部布局调整。

示例指令：

将房间内红色涂抹位置放入电视，蓝色涂抹位置放入沙发。
不改变其他布局，确保放入物体和整张图的原木风格一致。

这类任务的提示词要明确三件事：

不同颜色分别代表什么；
新增物体要放在哪个标记区域；
除标记区域外，哪些内容不能改变。

可以写成更结构化的版本：

红色涂抹区域：放置一台电视。
蓝色涂抹区域：放置一张沙发。
保留原房间布局、地板、墙面、窗户和整体原木风格。
新增电视和沙发要符合室内透视关系，不要遮挡主要通道。

使用流程

在 LiblibAI 使用 Seedream 4.0 时，可以按任务类型组织素材和指令。

sequenceDiagram
    participant U as 使用者
    participant P as LiblibAI 页面
    participant M as Seedream 4.0
    participant R as 结果图

    U->>P: 打开模型页面
    U->>P: 输入文字指令
    alt 需要参考图
        U->>P: 上传一张或多张参考图
    end
    U->>P: 写明修改目标、保留内容和输出要求
    P->>M: 提交多模态输入
    M-->>R: 返回生成或编辑结果
    U->>P: 根据结果继续补充约束或迭代

模型页面：

https://www.liblib.art/modelinfo/12f2958836864b9c9e8ef18d560ce04c

单张图片编辑可以从短指令开始，但多图融合、品牌设计、组图生成最好一开始就写清楚参考关系。尤其是涉及“图一、图二、图三”的任务，不要只写“参考这些图片”，而要说明每张图提供什么信息。

适合和不适合的场景

场景	适合程度	说明
快速视觉草图	高	可以用文字快速生成方向图，适合创意探索
局部图片编辑	高	删除、替换、添加元素时，用自然语言控制比较方便
人物风格迁移	高	适合头像、角色设定、视觉风格探索
品牌物料延展	中高	可用于方案草图和方向探索，正式商用前需要校对 LOGO 和文字
PPT 版式草图	中高	适合生成布局参考，具体文字建议后期重排
严格工程图纸	低	尺寸、比例、标注要求精确时，不应直接依赖生成结果
法律、医学、财务图表	低	专业信息必须可验证，生成图只能作为视觉草稿
最终印刷文件	中低	需要人工处理出血、色彩模式、字体、矢量文件和版权问题

提示词排错方法

生成结果不稳定时，不要急着完全重写提示词，先判断问题属于哪一类。

问题	调整方式
改动范围太大	增加“只修改……，其他内容保持不变”
主体不像参考图	明确保留五官、发型、服装轮廓、品牌标识等特征
多图参考混乱	给每张图编号，并写清每张图的作用
新增元素不自然	补充透视、光照、材质、比例、阴影要求
组图风格不统一	明确统一色板、线条风格、构图规则和输出数量
文字错误	缩短文字内容，强调固定拼写，并在后期工具中校对
画面太像随机创作	增加具体场景、镜头、主体动作、材质和约束

一个可复用的编辑模板如下：

任务：{删除 / 替换 / 添加 / 修复 / 风格迁移 / 多图融合}

输入参考：
图一：{作用，例如主体 / 场景 / 构图}
图二：{作用，例如服装 / 材质 / 风格}

修改要求：
{具体要改什么}

保留要求：
{人物特征、背景、布局、品牌元素、光照等不变内容}

风格要求：
{写实 / 水彩 / 日式动画 / 扁平几何 / 商业海报 / 简约现代等}

输出要求：
{单张 / 多张 / 横版 / 竖版 / 高清 / 统一系列}

Seedream 4.0 的优势在于把复杂图像任务收敛到自然语言指令里。真正影响结果质量的，不只是模型能力，还有指令是否把目标、参考、保留项和约束写清楚。对于创意探索、图像编辑、品牌草图和组图设计，它可以承担大量前期视觉生成工作；涉及文字准确性、商用规范和专业数据时，仍然需要人工复核和后期制作。

菜单

Seedream 4.0 使用指南：文生图、图像编辑与多图参考融合

Seedream 4.0 的任务结构

核心能力拆解

提示词应该怎么写

典型用法一：局部元素抹除

典型用法二：老照片修复与上色

典型用法三：人物一致性的风格迁移

典型用法四：多图参考融合

典型用法五：品牌 VI 延展

典型用法六：结构化版式与演示页设计

典型用法七：框选与涂抹区域识别

使用流程

适合和不适合的场景

提示词排错方法

评论