Nano Banana 提示词实用指南：用 Gemini 2.5 Flash Image 做图像编辑

Nano Banana 指的是 Google 推出的 Gemini 2.5 Flash Image，它的核心能力不是单纯“从一句话画图”，而是把参考图和文字指令结合起来，完成图像生成、图像编辑、风格转换和多图融合。

和传统文生图工具相比，它更适合处理这类任务：

上传一张人物照片，把人物变成手办、乐高、人偶或商品展示图；
上传多张参考图，把人物、车辆、配饰、宠物融合到同一场景；
给老照片上色，同时尽量保留人物和年代感；
根据线稿生成真实物体；
根据一张图扩展出电影分镜、商品海报、穿搭效果或拆解图；
根据图中箭头、圆圈等标注，推断并生成另一个视角。

这些效果能不能稳定复现，关键不只在模型能力，还在提示词怎么写。提示词需要告诉模型：参考图里哪些内容要保留，哪些内容要改，最终画面应该长什么样，哪些东西绝对不能改变。

Nano Banana 的基本工作流

使用方式可以很简单：打开 Google AI Studio，选择支持图像能力的 Gemini 模型，上传参考图，再输入编辑指令。复杂任务可以上传多张图，每张图承担不同角色，例如人物参考、服装参考、场景参考、道具参考。

flowchart LR
    A[准备参考图] --> B[说明每张图的用途]
    B --> C[编写编辑目标]
    C --> D[补充风格、构图、材质、光线]
    D --> E[设置保留项和禁止项]
    E --> F[生成结果]
    F --> G{是否符合预期}
    G -- 是 --> H[保存结果]
    G -- 否 --> I[追加修正提示词]
    I --> F

图像编辑类提示词要比普通文生图更强调“引用关系”。如果只写“做成手办”，模型会自由发挥；如果明确“保持人物脸部特征、发型、服装主色不变，把整体转换成收藏级 PVC 手办”，结果会更接近预期。

一条稳定提示词应该包含哪些信息

可以把图像提示词拆成 6 个部分：

组成部分	作用	示例
任务目标	告诉模型要做什么	把照片中的人物转换成角色手办
参考对象	指定哪些元素来自上传图片	保留人物脸型、发型、服装颜色
场景设计	描述最终画面环境	室内桌面展示场景
物体细节	补充道具、材质、位置关系	透明塑料底座、包装盒、建模软件界面
风格要求	控制整体视觉效果	产品摄影、柔和棚拍灯光、高清细节
约束条件	明确不要改什么	不要改变人物身份，不要增加多余角色

一个常见的“照片转手办”提示词可以这样写：

将上传照片中的人物转换成收藏级角色手办。

要求：
1. 保留人物的脸部特征、发型、服装主色和整体姿态。
2. 手办站在圆形透明塑料底座上，材质为精致 PVC，表面有轻微高光。
3. 背后放一个手办包装盒，盒子正面印有该角色的插画。
4. 包装盒旁边放一台电脑，屏幕中显示 Blender 建模界面。
5. 场景为室内桌面产品摄影，柔和灯光，背景干净。
6. 不要改变人物身份，不要加入无关人物，不要生成文字乱码。

这条提示词把“变成手办”拆成了可执行的视觉要求：人物保留、材质变化、底座、包装盒、电脑屏幕、场景、禁止项。模型越容易理解画面结构，越不容易跑偏。

常见场景模板

1. 参考图转手办、人偶、乐高

这类任务的重点是“身份保持”和“材质转换”。如果没有强调身份保持，模型可能会把人物变成另一个相似角色。

根据上传图片中的主体生成一个乐高风格小人。

要求：
- 保留主体的发型、服装颜色和标志性配饰。
- 将身体比例转换为乐高小人比例。
- 材质为塑料积木质感，边缘圆润，有轻微反光。
- 放在干净的白色桌面上，正面产品摄影构图。
- 不要改变主体身份，不要增加其他人物。

如果想做“商品展示感”，可以加入包装、底座、标签、展示柜等元素；如果想做“玩具摄影感”，可以强调微距镜头、浅景深、桌面环境。

2. 多图融合

多图融合的难点是模型需要知道每张图分别提供什么信息。不要只上传几张图再写“融合起来”，最好逐一指定角色。

将多张参考图融合成一张时尚摄影图。

图 1：作为人物姿态和脸部参考。
图 2：作为车辆参考，使用粉色车身。
图 3：作为手提包参考。
图 4：作为宠物参考。

生成要求：
- 人物靠在粉色车旁边，保持图 1 的姿态和人物特征。
- 手上拿着粉色手提包，包上挂一个绿色外星人钥匙扣。
- 肩膀上站着一只粉色鹦鹉。
- 旁边坐一只戴粉色项圈和金色耳机的哈巴狗。
- 背景为浅灰色摄影棚，整体像时尚杂志大片。

多图融合最好使用“图 1、图 2、图 3”这样的编号方式。模型需要清楚每张图的职责，否则会把某张图的颜色、姿态或物体混到不该出现的位置。

3. 食材生成菜肴

把食材图变成成品菜，核心是“使用这些食材”和“移除原始杂物”。

根据上传图片中的食材，生成一份摆盘精致的午餐。

要求：
- 使用图中的主要食材制作一道完整菜品。
- 成品放在一个干净餐盘中，镜头为近距离特写。
- 移除原图中的其他盘子、包装、杂物和未使用食材。
- 食物看起来新鲜、有食欲，光线自然，背景简洁。

这类任务容易出现两个问题：模型保留原图中的杂乱背景，或者把食材变成不相关菜品。提示词里要同时写“使用主要食材”和“移除无关物体”。

4. 老照片上色与修复

老照片处理需要避免过度现代化。目标不是把老照片变成一张全新的现代照片，而是在保留年代感的基础上补全颜色和细节。

为上传的黑白老照片上色并轻度修复。

要求：
- 保留人物五官、表情、服装样式和照片年代感。
- 颜色自然，不要过度鲜艳。
- 轻微修复划痕、噪点和褪色区域，但不要改变原始构图。
- 肤色、布料、背景颜色要符合真实摄影质感。
- 不要把人物改成年轻化或现代化形象。

如果只写“上色”，模型可能会增强过头，导致照片失去老照片质感。加上“轻度修复”“保留年代感”“不要现代化”会更稳。

5. 穿搭生成

穿搭生成适合用人物图加服装参考图。提示词要说明衣服如何穿到人物身上，以及人物姿态是否要保留。

根据参考服装，为上传人物生成一张穿搭效果图。

要求：
- 保留人物脸部、发型、身材比例和站姿。
- 将参考服装自然穿在人物身上，布料贴合身体姿态。
- 鞋子、包、首饰可以根据整体风格搭配，但不要喧宾夺主。
- 背景为简洁街拍场景，自然光，真实摄影质感。
- 不要改变人物身份，不要改变服装主要颜色和版型。

服装类任务经常出错在袖口、领口、手部遮挡和衣服纹理。可以在后续修正时追加：“修正袖口位置”“保持衣服图案完整”“手指不要变形”。

6. 电影分镜生成

分镜任务不是生成单张漂亮图，而是生成一组有镜头语言的连续画面。提示词要包含镜头数量、比例、场景连续性和每格画面内容。

根据上传图片生成一组电影分镜图。

要求：
- 输出 6 格分镜，横向排列。
- 保持同一个主角、同一个场景和统一色调。
- 每格使用不同镜头语言：远景、中景、近景、特写、低角度、背影镜头。
- 画面具有电影感，光影强烈，构图清晰。
- 不要让主角服装和脸部特征在不同分镜中发生明显变化。

如果需要更可控，可以直接写每一格的内容：

第 1 格：远景，主角站在空旷街道中央。
第 2 格：中景，主角转头看向远处。
第 3 格：近景，主角表情紧张。
第 4 格：特写，手握住一个关键道具。
第 5 格：低角度镜头，背景灯光增强压迫感。
第 6 格：背影镜头，主角走向远方。

7. 线稿转真实物体

线稿转实物的关键是保留轮廓和结构，同时补充材质、光照和真实环境。

将上传的线稿转换成真实产品照片。

要求：
- 保留线稿中的整体轮廓、比例和主要结构。
- 将线条解释为真实物体边缘，而不是保留黑色描边。
- 材质为哑光塑料和金属细节，真实光影。
- 放在浅灰色背景中，产品摄影构图。
- 不要添加线稿中不存在的大型结构。

如果是建筑、工业设计、角色设定图，也可以把“材质”和“应用场景”写得更具体，比如玻璃幕墙、铝合金外壳、皮革、陶瓷、木纹等。

8. 标注图扩展视角

有些玩法会在图片上画红圈和箭头，要求模型生成“从箭头方向看到的真实世界视角”。这类任务本质上是根据图像上下文做空间推断。

根据上传图片中的红色圆圈和红色箭头，生成从圆圈位置沿箭头方向看到的真实场景。

要求：
- 红圈表示观察点，箭头表示视线方向。
- 根据原图中的空间结构、物体位置和透视关系推断新视角。
- 新画面要像真实摄影，不要保留红圈和箭头标记。
- 保持原场景的光线、材质和空间逻辑。

这类提示词最好使用带标注的清晰图片。如果原图空间信息不足，模型只能猜测，结果会更不稳定。

开源提示词合集怎么用

GitHub 上有几个 Nano Banana 相关提示词合集，主要价值不是“提供模型代码”，而是收集了大量输入图、输出图和提示词组合。对使用者来说，它们更像一个可检索的案例库。

仓库	适合怎么用
`https://github.com/PicoTrex/Awesome-Nano-Banana-images`	浏览不同图像编辑任务，学习案例提示词写法
`https://github.com/ZHO-ZHO-ZHO/ZHO-nano-banana-Creation`	查找中文社区常见玩法，例如手办、海报、风格化
`https://github.com/JimmyLv/awesome-nano-banana`	收集灵感，整理可复用的提示词模板

可以直接在浏览器中查看，也可以克隆到本地检索：

git clone https://github.com/PicoTrex/Awesome-Nano-Banana-images.git
git clone https://github.com/ZHO-ZHO-ZHO/ZHO-nano-banana-Creation.git
git clone https://github.com/JimmyLv/awesome-nano-banana.git

使用这些合集时，不要机械复制提示词。更有效的方式是拆解案例：

观察点	要回答的问题
输入图类型	是人物、商品、场景、线稿，还是多图组合
输出目标	是改风格、换材质、融合、修复，还是生成分镜
保留内容	哪些元素没有被改变
新增内容	提示词要求模型增加了哪些物体
约束条件	是否写了“不要改变人物身份”“不要加入无关元素”
失败风险	手部、文字、脸部一致性、空间关系是否容易出错

把一个好案例拆成这些部分，再替换成自己的任务对象，通常比直接套用整段提示词更稳定。

适合和不适合的使用场景

场景	是否适合	原因
社交头像、玩具化形象、角色手办	适合	目标明确，视觉风格容易描述
商品概念图、包装效果图	适合	可以通过材质、构图、背景约束结果
老照片上色、轻度修复	适合	参考图提供了足够结构信息
多图创意合成	适合，但需要清楚编号	每张参考图的角色必须写明
电影分镜、漫画分格	适合，但要拆镜头	需要逐格描述画面
精确文字排版	不太适合	图像模型容易生成错字、乱码或变形字体
严格工程制图	不太适合	尺寸、比例、标注精度难以保证
高一致性商业批量图	需要人工质检	多次生成之间可能存在细节漂移

Nano Banana 适合做视觉创意和图像编辑草案，但不应该直接替代需要精确尺寸、精确文字、法律合规审查或品牌终审的流程。

提示词调试技巧

明确“保留”和“改变”

很多失败结果来自指令太模糊。与其写：

把这张图做得更酷。

不如写：

保留人物脸部、发型和服装颜色，将背景改为夜晚赛博朋克街道，加入霓虹灯和雨后地面反光，整体为电影海报风格。

“更酷”没有可执行标准，而“夜晚、赛博朋克、霓虹灯、雨后反光、电影海报”都是模型可以转化成画面元素的描述。

多图任务要编号

多图融合时推荐使用固定格式：

图 1：人物参考，保留脸部和姿态。
图 2：服装参考，使用衣服版型和颜色。
图 3：场景参考，使用背景氛围和光线。

不要让模型自己猜哪张图代表什么。参考图越多，越需要清楚分工。

复杂任务分两轮做

如果一次提示词里既要换衣服、换背景、加道具、改风格、生成海报文字，失败概率会变高。可以分成两轮：

flowchart LR
    A[上传人物图] --> B[保持人物身份并换服装]
    B --> C[得到人物结果]
    C --> D[再换背景和灯光]
    D --> E[得到场景结果]
    E --> F[最后做风格化或海报化]

分轮处理可以降低每次修改的变量数量，也更方便定位是哪一步出了问题。

少依赖模型生成文字

图像模型对文字排版和拼写通常不稳定。包装盒、海报、标牌上如果需要准确文字，更稳的做法是先生成无字版，再用设计工具或图像编辑软件添加文字。

提示词里可以写：

包装盒上预留干净的标题区域，不要生成具体文字。

这样能避免乱码破坏画面。

负面约束要具体

“不要奇怪”这种说法太抽象。负面约束要写成具体错误：

不要改变人物身份。
不要增加额外手指。
不要生成乱码文字。
不要让眼镜、耳环、包带等配饰消失。
不要改变服装主要颜色。

越具体，越容易减少对应错误。

一个可复用的 Nano Banana 提示词框架

日常使用可以直接套这个结构：

任务：
[一句话说明要生成或编辑什么]

参考图说明：
- 图 1：[用途]
- 图 2：[用途]
- 图 3：[用途]

必须保留：
- [人物身份 / 产品结构 / 构图 / 颜色 / 姿态]

需要改变：
- [背景 / 材质 / 风格 / 光线 / 服装 / 道具]

画面要求：
- 构图：[近景 / 中景 / 全身 / 产品摄影 / 分镜]
- 风格：[真实摄影 / 电影感 / 手办 / 乐高 / 杂志大片]
- 光线：[自然光 / 棚拍 / 霓虹 / 柔和光]
- 材质：[PVC / 金属 / 玻璃 / 布料 / 木材]

禁止：
- 不要改变 [关键身份或结构]
- 不要添加 [无关元素]
- 不要生成 [乱码文字 / 多余肢体 / 错误配饰]

它不追求提示词华丽，而是让模型拿到足够明确的视觉指令。图像编辑任务最怕“目标很多但约束很少”，稳定提示词的价值就在于把任务边界说清楚。

菜单