芥末
发布于 2025-09-09 / 0 阅读
0
0

Seedream 4.0 使用指南:文生图、图像编辑与多图参考融合

Seedream 4.0 是豆包体系下的图像创作模型,核心定位是用自然语言完成图片生成和图片修改。它不只做传统的文生图,还把图像编辑、参考图生成、多图融合、组图输出放进同一个模型里。

在 AIGC(人工智能生成内容)创作里,一个需求经常不是“生成一张图”这么简单,而是包含多个动作:

  • 根据一句描述生成视觉草图;
  • 在已有图片上删除、替换、添加元素;
  • 保留人物五官、品牌标识、空间布局等关键特征;
  • 参考多张图片,把主体、风格、材质或构图组合起来;
  • 一次生成一组风格统一的海报、图标、分镜或品牌物料。

Seedream 4.0 适合处理的正是这类复合型图像任务。它在 LiblibAI 上的模型页面为:

https://www.liblib.art/modelinfo/12f2958836864b9c9e8ef18d560ce04c

Seedream 4.0 的任务结构

Seedream 4.0 可以把不同输入统一成一个图像创作流程。输入可以是纯文字,也可以是一张或多张参考图;输出可以是一张修改后的图片,也可以是一组成套图片。

flowchart TD
    A[创作需求] --> B{输入内容}

    B -->|只有文字| C[文生图]
    B -->|一张参考图 + 指令| D[图像编辑]
    B -->|多张参考图 + 指令| E[多图参考融合]
    B -->|文字或参考图 + 成组要求| F[组图生成]

    C --> G[生成单张图片]
    D --> H[删除 / 添加 / 替换 / 修复 / 调光]
    E --> I[主体融合 / 风格迁移 / 元素替换]
    F --> J[海报系列 / 图标套组 / 分镜 / 品牌物料]

这种统一模型的好处是减少“换模型”的成本。比如做一个品牌视觉方案时,可以先用文字生成主视觉,再参考 LOGO 扩展包装和周边,之后继续让模型调整材质、灯光、比例和构图,整个过程都可以通过自然语言推进。

核心能力拆解

能力解决的问题典型任务
精准指令编辑用自然语言控制局部修改,避免整张图被大幅重绘删除脸上的遮挡物、给人物加首饰、替换宠物品种
特征保持多轮修改时保留人物、场景、品牌元素的稳定性人物风格迁移、品牌 VI 延展、同一角色分镜
深度意图理解不只匹配关键词,还要理解目标、上下文和约束“打开灯但窗外仍是夜晚”这类复合要求
多图输入同时参考多张图片,把不同主体、风格或元素组合起来主体替换、服装参考、材质迁移、场景合成
多图输出一次得到一组有关联的结果图标套组、广告系列、创意脑暴、分镜草图
高清快速生成适合快速迭代,并给后期编辑留出分辨率空间2K 草图、4K 主视觉、海报延展

其中比较关键的是“指令”和“保持”这两个能力。图像编辑模型如果只会重画,很容易把不该变的部分一起改掉;如果只会局部修补,又很难理解复杂需求。Seedream 4.0 的使用重点,就是把“要改什么”和“不要改什么”同时写清楚。

提示词应该怎么写

Seedream 4.0 能理解中文自然语言,但提示词越结构化,结果越稳定。一个好用的提示词可以拆成五部分:

任务:说明要做什么
对象:说明要修改或生成的主体
参考:说明参考图分别提供什么信息
保留:说明哪些内容不能变
约束:说明风格、光照、构图、文字、尺寸等要求

例如图片编辑可以这样写:

任务:把客厅里的灯打开,让室内变亮。
对象:客厅整体环境和灯光。
保留:家具位置、窗外夜景、房间原有布局不要改变。
约束:室内是暖色灯光,窗外仍然能看出是夜晚,不要改成白天。

多图融合时,最好给每张图明确编号:

图一作为人物主体参考,保留人物五官和发型。
图二作为服装参考,使用白色礼服和银色配饰。
图三作为场景参考,背景为沙漠和未来感交通工具。
生成一张写实广告大片,人物站在画面中央,整体为银白色高级时尚风格。

常见任务可以按这个表来组织指令:

任务类型提示词重点容易出问题的地方
元素删除写清删除对象,以及背景如何补齐删除后留下痕迹,人物皮肤或衣服被改动
局部替换写清替换对象、替换后的类别、原图哪些部分不变新对象比例不对,光影和原图不一致
元素添加写清新增物体的位置、材质、颜色和风格新元素像贴上去的,透视和光照不匹配
老照片修复同时说明修复划痕、上色、保留年代感过度磨皮,人物特征丢失
风格迁移明确“风格变、人物不变”五官、年龄、服装被模型一起改掉
品牌延展明确 LOGO、主色、物料类型和视觉风格品牌名拼写不稳定,物料之间风格不统一
组图生成说明数量、统一风格、每张图的差异点每张图像像独立生成,缺少系列感

典型用法一:局部元素抹除

局部抹除适合处理图片中的遮挡物、杂物、瑕疵或不需要的装饰。关键不是简单“删除”,而是删除之后要合理补全被遮挡区域。

示例指令:

移除男生脸上的蝴蝶。

元素抹除示例

这个任务考察的是模型的局部重建能力。蝴蝶被移除后,脸部皮肤、五官边缘、光影关系都需要自然补齐,同时人物整体姿态、表情和背景不应发生明显变化。实际使用时,如果发现模型改动了太多区域,可以补充一句:

只修改蝴蝶遮挡的区域,人物五官、发型、衣服和背景保持不变。

典型用法二:老照片修复与上色

老照片处理通常包含两个动作:修复损坏区域,以及为黑白或褪色照片重新上色。相比普通滤镜,这类任务更依赖模型对人物、服装、年代感和画面纹理的理解。

示例指令:

把这张照片变成彩色的,并修复照片上的划痕。

老照片修复与上色示例

修复类任务要避免“过度现代化”。如果希望保留旧照片质感,可以加入约束:

保留老照片的胶片颗粒和年代感,不要把人物处理成现代写真风格。

如果照片里有人物,最好再强调:

保留人物面部特征、年龄感和原始服装轮廓。

典型用法三:人物一致性的风格迁移

风格迁移不是简单套滤镜。一个更实用的目标是:同一个人物,在不同视觉风格里保持身份一致。

示例指令:

参考这张图,将它修改为写实插画风格、水彩风格、日式动画风格、扁平几何风格。

人物一致性的风格迁移示例

这类任务最重要的约束是“人物不变,风格变化”。提示词可以写得更明确:

保留人物的脸型、五官比例、发型、表情和服装主体结构,只改变绘画风格。
分别生成写实插画、水彩、日式动画、扁平几何四种风格。

如果用于角色设定、头像套组或分镜设计,还可以继续加上:

所有结果都要看起来像同一个角色。

典型用法四:多图参考融合

多图输入适合把不同素材里的信息组合到一张图中。常见用法包括主体替换、服装迁移、材质参考、场景合成、产品搭配等。

示例指令:

将图一的主体替换为图二的主体。

多图参考融合示例

多图融合时,最容易出错的是参考关系混乱。比起“参考这几张图生成一张图”,更稳定的写法是为每张图分配职责:

图一提供原始场景和构图,保持背景、光照和镜头角度不变。
图二提供新的主体,使用图二主体替换图一主体。
替换后主体要符合图一的透视、比例和光影。

如果有三张以上参考图,可以继续细分:

图一:场景和构图。
图二:人物主体。
图三:服装款式。
图四:整体色调和海报风格。

典型用法五:品牌 VI 延展

VI(Visual Identity,视觉识别系统)延展要求模型理解品牌的核心元素,例如 LOGO、主色、字体风格、图形语言和应用场景。它不只是生成一张海报,而是把同一套视觉规则扩展到多个物料上。

示例指令:

参考这个 LOGO,做一套户外运动品牌视觉设计,品牌名为 "GREEN",包括包装袋、帽子、手环、纸盒等。
绿色视觉主色调,简约现代风格。

品牌 VI 延展示例

品牌设计类任务要把“统一”和“差异”同时说明。统一的是颜色、字体、图形语言和品牌调性;差异是物料类型、使用场景和版式布局。

更稳定的写法可以是:

参考输入 LOGO 的形状和品牌名 GREEN。
设计一套户外运动品牌 VI 应用图,包括包装袋、帽子、手环、纸盒。
统一使用绿色作为主色,搭配白色和浅灰色。
整体风格简约、现代、适合户外运动品牌。
所有物料上的品牌名拼写必须为 GREEN。

生成品牌物料时,文字和 LOGO 细节需要人工复核。图像模型可以快速给出视觉方向,但最终商用文件仍然需要设计软件进行排版、矢量化和规范校对。

典型用法六:结构化版式与演示页设计

Seedream 4.0 还可以生成带有信息结构的图片,例如时间轴、课程页、知识卡片、演示页草图等。PPT(PowerPoint 演示文稿)类任务的重点在于层级清楚,而不是只追求画面好看。

示例指令:

画一条从秦汉到清代的时间轴,标注:秦、汉、唐、宋、元、明、清。
顺序清晰,每个朝代配一个小图标,同时用文字写上每个朝代的特点。

PPT 时间轴排版示例

这类任务要注意两个问题:一是文字准确性,二是信息层级。模型可以生成版式草图,但涉及中文标题、历史信息、公式、数据时,需要逐项检查。更稳妥的做法是先让模型生成视觉布局,再把正式文字放到 PPT、Figma 或其他设计工具中重新排版。

典型用法七:框选与涂抹区域识别

有些编辑需求很难只靠文字描述位置,例如“把沙发放到左侧墙边”“把电视放到红色标记处”。如果输入图里已经用颜色涂抹或框选了区域,模型可以结合标记和指令来完成局部布局调整。

示例指令:

将房间内红色涂抹位置放入电视,蓝色涂抹位置放入沙发。
不改变其他布局,确保放入物体和整张图的原木风格一致。

框选和涂抹指令识别示例

这类任务的提示词要明确三件事:

  1. 不同颜色分别代表什么;
  2. 新增物体要放在哪个标记区域;
  3. 除标记区域外,哪些内容不能改变。

可以写成更结构化的版本:

红色涂抹区域:放置一台电视。
蓝色涂抹区域:放置一张沙发。
保留原房间布局、地板、墙面、窗户和整体原木风格。
新增电视和沙发要符合室内透视关系,不要遮挡主要通道。

使用流程

在 LiblibAI 使用 Seedream 4.0 时,可以按任务类型组织素材和指令。

sequenceDiagram
    participant U as 使用者
    participant P as LiblibAI 页面
    participant M as Seedream 4.0
    participant R as 结果图

    U->>P: 打开模型页面
    U->>P: 输入文字指令
    alt 需要参考图
        U->>P: 上传一张或多张参考图
    end
    U->>P: 写明修改目标、保留内容和输出要求
    P->>M: 提交多模态输入
    M-->>R: 返回生成或编辑结果
    U->>P: 根据结果继续补充约束或迭代

模型页面:

https://www.liblib.art/modelinfo/12f2958836864b9c9e8ef18d560ce04c

单张图片编辑可以从短指令开始,但多图融合、品牌设计、组图生成最好一开始就写清楚参考关系。尤其是涉及“图一、图二、图三”的任务,不要只写“参考这些图片”,而要说明每张图提供什么信息。

适合和不适合的场景

场景适合程度说明
快速视觉草图可以用文字快速生成方向图,适合创意探索
局部图片编辑删除、替换、添加元素时,用自然语言控制比较方便
人物风格迁移适合头像、角色设定、视觉风格探索
品牌物料延展中高可用于方案草图和方向探索,正式商用前需要校对 LOGO 和文字
PPT 版式草图中高适合生成布局参考,具体文字建议后期重排
严格工程图纸尺寸、比例、标注要求精确时,不应直接依赖生成结果
法律、医学、财务图表专业信息必须可验证,生成图只能作为视觉草稿
最终印刷文件中低需要人工处理出血、色彩模式、字体、矢量文件和版权问题

提示词排错方法

生成结果不稳定时,不要急着完全重写提示词,先判断问题属于哪一类。

问题调整方式
改动范围太大增加“只修改……,其他内容保持不变”
主体不像参考图明确保留五官、发型、服装轮廓、品牌标识等特征
多图参考混乱给每张图编号,并写清每张图的作用
新增元素不自然补充透视、光照、材质、比例、阴影要求
组图风格不统一明确统一色板、线条风格、构图规则和输出数量
文字错误缩短文字内容,强调固定拼写,并在后期工具中校对
画面太像随机创作增加具体场景、镜头、主体动作、材质和约束

一个可复用的编辑模板如下:

任务:{删除 / 替换 / 添加 / 修复 / 风格迁移 / 多图融合}

输入参考:
图一:{作用,例如主体 / 场景 / 构图}
图二:{作用,例如服装 / 材质 / 风格}

修改要求:
{具体要改什么}

保留要求:
{人物特征、背景、布局、品牌元素、光照等不变内容}

风格要求:
{写实 / 水彩 / 日式动画 / 扁平几何 / 商业海报 / 简约现代等}

输出要求:
{单张 / 多张 / 横版 / 竖版 / 高清 / 统一系列}

Seedream 4.0 的优势在于把复杂图像任务收敛到自然语言指令里。真正影响结果质量的,不只是模型能力,还有指令是否把目标、参考、保留项和约束写清楚。对于创意探索、图像编辑、品牌草图和组图设计,它可以承担大量前期视觉生成工作;涉及文字准确性、商用规范和专业数据时,仍然需要人工复核和后期制作。


评论