Nano Banana 指的是 Google 推出的 Gemini 2.5 Flash Image,它的核心能力不是单纯“从一句话画图”,而是把参考图和文字指令结合起来,完成图像生成、图像编辑、风格转换和多图融合。
和传统文生图工具相比,它更适合处理这类任务:
- 上传一张人物照片,把人物变成手办、乐高、人偶或商品展示图;
- 上传多张参考图,把人物、车辆、配饰、宠物融合到同一场景;
- 给老照片上色,同时尽量保留人物和年代感;
- 根据线稿生成真实物体;
- 根据一张图扩展出电影分镜、商品海报、穿搭效果或拆解图;
- 根据图中箭头、圆圈等标注,推断并生成另一个视角。
这些效果能不能稳定复现,关键不只在模型能力,还在提示词怎么写。提示词需要告诉模型:参考图里哪些内容要保留,哪些内容要改,最终画面应该长什么样,哪些东西绝对不能改变。
Nano Banana 的基本工作流
使用方式可以很简单:打开 Google AI Studio,选择支持图像能力的 Gemini 模型,上传参考图,再输入编辑指令。复杂任务可以上传多张图,每张图承担不同角色,例如人物参考、服装参考、场景参考、道具参考。
flowchart LR
A[准备参考图] --> B[说明每张图的用途]
B --> C[编写编辑目标]
C --> D[补充风格、构图、材质、光线]
D --> E[设置保留项和禁止项]
E --> F[生成结果]
F --> G{是否符合预期}
G -- 是 --> H[保存结果]
G -- 否 --> I[追加修正提示词]
I --> F
图像编辑类提示词要比普通文生图更强调“引用关系”。如果只写“做成手办”,模型会自由发挥;如果明确“保持人物脸部特征、发型、服装主色不变,把整体转换成收藏级 PVC 手办”,结果会更接近预期。
一条稳定提示词应该包含哪些信息
可以把图像提示词拆成 6 个部分:
| 组成部分 | 作用 | 示例 |
|---|---|---|
| 任务目标 | 告诉模型要做什么 | 把照片中的人物转换成角色手办 |
| 参考对象 | 指定哪些元素来自上传图片 | 保留人物脸型、发型、服装颜色 |
| 场景设计 | 描述最终画面环境 | 室内桌面展示场景 |
| 物体细节 | 补充道具、材质、位置关系 | 透明塑料底座、包装盒、建模软件界面 |
| 风格要求 | 控制整体视觉效果 | 产品摄影、柔和棚拍灯光、高清细节 |
| 约束条件 | 明确不要改什么 | 不要改变人物身份,不要增加多余角色 |
一个常见的“照片转手办”提示词可以这样写:
将上传照片中的人物转换成收藏级角色手办。
要求:
1. 保留人物的脸部特征、发型、服装主色和整体姿态。
2. 手办站在圆形透明塑料底座上,材质为精致 PVC,表面有轻微高光。
3. 背后放一个手办包装盒,盒子正面印有该角色的插画。
4. 包装盒旁边放一台电脑,屏幕中显示 Blender 建模界面。
5. 场景为室内桌面产品摄影,柔和灯光,背景干净。
6. 不要改变人物身份,不要加入无关人物,不要生成文字乱码。
这条提示词把“变成手办”拆成了可执行的视觉要求:人物保留、材质变化、底座、包装盒、电脑屏幕、场景、禁止项。模型越容易理解画面结构,越不容易跑偏。
常见场景模板
1. 参考图转手办、人偶、乐高
这类任务的重点是“身份保持”和“材质转换”。如果没有强调身份保持,模型可能会把人物变成另一个相似角色。
根据上传图片中的主体生成一个乐高风格小人。
要求:
- 保留主体的发型、服装颜色和标志性配饰。
- 将身体比例转换为乐高小人比例。
- 材质为塑料积木质感,边缘圆润,有轻微反光。
- 放在干净的白色桌面上,正面产品摄影构图。
- 不要改变主体身份,不要增加其他人物。
如果想做“商品展示感”,可以加入包装、底座、标签、展示柜等元素;如果想做“玩具摄影感”,可以强调微距镜头、浅景深、桌面环境。
2. 多图融合
多图融合的难点是模型需要知道每张图分别提供什么信息。不要只上传几张图再写“融合起来”,最好逐一指定角色。
将多张参考图融合成一张时尚摄影图。
图 1:作为人物姿态和脸部参考。
图 2:作为车辆参考,使用粉色车身。
图 3:作为手提包参考。
图 4:作为宠物参考。
生成要求:
- 人物靠在粉色车旁边,保持图 1 的姿态和人物特征。
- 手上拿着粉色手提包,包上挂一个绿色外星人钥匙扣。
- 肩膀上站着一只粉色鹦鹉。
- 旁边坐一只戴粉色项圈和金色耳机的哈巴狗。
- 背景为浅灰色摄影棚,整体像时尚杂志大片。
多图融合最好使用“图 1、图 2、图 3”这样的编号方式。模型需要清楚每张图的职责,否则会把某张图的颜色、姿态或物体混到不该出现的位置。
3. 食材生成菜肴
把食材图变成成品菜,核心是“使用这些食材”和“移除原始杂物”。
根据上传图片中的食材,生成一份摆盘精致的午餐。
要求:
- 使用图中的主要食材制作一道完整菜品。
- 成品放在一个干净餐盘中,镜头为近距离特写。
- 移除原图中的其他盘子、包装、杂物和未使用食材。
- 食物看起来新鲜、有食欲,光线自然,背景简洁。
这类任务容易出现两个问题:模型保留原图中的杂乱背景,或者把食材变成不相关菜品。提示词里要同时写“使用主要食材”和“移除无关物体”。
4. 老照片上色与修复
老照片处理需要避免过度现代化。目标不是把老照片变成一张全新的现代照片,而是在保留年代感的基础上补全颜色和细节。
为上传的黑白老照片上色并轻度修复。
要求:
- 保留人物五官、表情、服装样式和照片年代感。
- 颜色自然,不要过度鲜艳。
- 轻微修复划痕、噪点和褪色区域,但不要改变原始构图。
- 肤色、布料、背景颜色要符合真实摄影质感。
- 不要把人物改成年轻化或现代化形象。
如果只写“上色”,模型可能会增强过头,导致照片失去老照片质感。加上“轻度修复”“保留年代感”“不要现代化”会更稳。
5. 穿搭生成
穿搭生成适合用人物图加服装参考图。提示词要说明衣服如何穿到人物身上,以及人物姿态是否要保留。
根据参考服装,为上传人物生成一张穿搭效果图。
要求:
- 保留人物脸部、发型、身材比例和站姿。
- 将参考服装自然穿在人物身上,布料贴合身体姿态。
- 鞋子、包、首饰可以根据整体风格搭配,但不要喧宾夺主。
- 背景为简洁街拍场景,自然光,真实摄影质感。
- 不要改变人物身份,不要改变服装主要颜色和版型。
服装类任务经常出错在袖口、领口、手部遮挡和衣服纹理。可以在后续修正时追加:“修正袖口位置”“保持衣服图案完整”“手指不要变形”。
6. 电影分镜生成
分镜任务不是生成单张漂亮图,而是生成一组有镜头语言的连续画面。提示词要包含镜头数量、比例、场景连续性和每格画面内容。
根据上传图片生成一组电影分镜图。
要求:
- 输出 6 格分镜,横向排列。
- 保持同一个主角、同一个场景和统一色调。
- 每格使用不同镜头语言:远景、中景、近景、特写、低角度、背影镜头。
- 画面具有电影感,光影强烈,构图清晰。
- 不要让主角服装和脸部特征在不同分镜中发生明显变化。
如果需要更可控,可以直接写每一格的内容:
第 1 格:远景,主角站在空旷街道中央。
第 2 格:中景,主角转头看向远处。
第 3 格:近景,主角表情紧张。
第 4 格:特写,手握住一个关键道具。
第 5 格:低角度镜头,背景灯光增强压迫感。
第 6 格:背影镜头,主角走向远方。
7. 线稿转真实物体
线稿转实物的关键是保留轮廓和结构,同时补充材质、光照和真实环境。
将上传的线稿转换成真实产品照片。
要求:
- 保留线稿中的整体轮廓、比例和主要结构。
- 将线条解释为真实物体边缘,而不是保留黑色描边。
- 材质为哑光塑料和金属细节,真实光影。
- 放在浅灰色背景中,产品摄影构图。
- 不要添加线稿中不存在的大型结构。
如果是建筑、工业设计、角色设定图,也可以把“材质”和“应用场景”写得更具体,比如玻璃幕墙、铝合金外壳、皮革、陶瓷、木纹等。
8. 标注图扩展视角
有些玩法会在图片上画红圈和箭头,要求模型生成“从箭头方向看到的真实世界视角”。这类任务本质上是根据图像上下文做空间推断。
根据上传图片中的红色圆圈和红色箭头,生成从圆圈位置沿箭头方向看到的真实场景。
要求:
- 红圈表示观察点,箭头表示视线方向。
- 根据原图中的空间结构、物体位置和透视关系推断新视角。
- 新画面要像真实摄影,不要保留红圈和箭头标记。
- 保持原场景的光线、材质和空间逻辑。
这类提示词最好使用带标注的清晰图片。如果原图空间信息不足,模型只能猜测,结果会更不稳定。
开源提示词合集怎么用
GitHub 上有几个 Nano Banana 相关提示词合集,主要价值不是“提供模型代码”,而是收集了大量输入图、输出图和提示词组合。对使用者来说,它们更像一个可检索的案例库。
| 仓库 | 适合怎么用 |
|---|---|
https://github.com/PicoTrex/Awesome-Nano-Banana-images | 浏览不同图像编辑任务,学习案例提示词写法 |
https://github.com/ZHO-ZHO-ZHO/ZHO-nano-banana-Creation | 查找中文社区常见玩法,例如手办、海报、风格化 |
https://github.com/JimmyLv/awesome-nano-banana | 收集灵感,整理可复用的提示词模板 |
可以直接在浏览器中查看,也可以克隆到本地检索:
git clone https://github.com/PicoTrex/Awesome-Nano-Banana-images.git
git clone https://github.com/ZHO-ZHO-ZHO/ZHO-nano-banana-Creation.git
git clone https://github.com/JimmyLv/awesome-nano-banana.git
使用这些合集时,不要机械复制提示词。更有效的方式是拆解案例:
| 观察点 | 要回答的问题 |
|---|---|
| 输入图类型 | 是人物、商品、场景、线稿,还是多图组合 |
| 输出目标 | 是改风格、换材质、融合、修复,还是生成分镜 |
| 保留内容 | 哪些元素没有被改变 |
| 新增内容 | 提示词要求模型增加了哪些物体 |
| 约束条件 | 是否写了“不要改变人物身份”“不要加入无关元素” |
| 失败风险 | 手部、文字、脸部一致性、空间关系是否容易出错 |
把一个好案例拆成这些部分,再替换成自己的任务对象,通常比直接套用整段提示词更稳定。
适合和不适合的使用场景
| 场景 | 是否适合 | 原因 |
|---|---|---|
| 社交头像、玩具化形象、角色手办 | 适合 | 目标明确,视觉风格容易描述 |
| 商品概念图、包装效果图 | 适合 | 可以通过材质、构图、背景约束结果 |
| 老照片上色、轻度修复 | 适合 | 参考图提供了足够结构信息 |
| 多图创意合成 | 适合,但需要清楚编号 | 每张参考图的角色必须写明 |
| 电影分镜、漫画分格 | 适合,但要拆镜头 | 需要逐格描述画面 |
| 精确文字排版 | 不太适合 | 图像模型容易生成错字、乱码或变形字体 |
| 严格工程制图 | 不太适合 | 尺寸、比例、标注精度难以保证 |
| 高一致性商业批量图 | 需要人工质检 | 多次生成之间可能存在细节漂移 |
Nano Banana 适合做视觉创意和图像编辑草案,但不应该直接替代需要精确尺寸、精确文字、法律合规审查或品牌终审的流程。
提示词调试技巧
明确“保留”和“改变”
很多失败结果来自指令太模糊。与其写:
把这张图做得更酷。
不如写:
保留人物脸部、发型和服装颜色,将背景改为夜晚赛博朋克街道,加入霓虹灯和雨后地面反光,整体为电影海报风格。
“更酷”没有可执行标准,而“夜晚、赛博朋克、霓虹灯、雨后反光、电影海报”都是模型可以转化成画面元素的描述。
多图任务要编号
多图融合时推荐使用固定格式:
图 1:人物参考,保留脸部和姿态。
图 2:服装参考,使用衣服版型和颜色。
图 3:场景参考,使用背景氛围和光线。
不要让模型自己猜哪张图代表什么。参考图越多,越需要清楚分工。
复杂任务分两轮做
如果一次提示词里既要换衣服、换背景、加道具、改风格、生成海报文字,失败概率会变高。可以分成两轮:
flowchart LR
A[上传人物图] --> B[保持人物身份并换服装]
B --> C[得到人物结果]
C --> D[再换背景和灯光]
D --> E[得到场景结果]
E --> F[最后做风格化或海报化]
分轮处理可以降低每次修改的变量数量,也更方便定位是哪一步出了问题。
少依赖模型生成文字
图像模型对文字排版和拼写通常不稳定。包装盒、海报、标牌上如果需要准确文字,更稳的做法是先生成无字版,再用设计工具或图像编辑软件添加文字。
提示词里可以写:
包装盒上预留干净的标题区域,不要生成具体文字。
这样能避免乱码破坏画面。
负面约束要具体
“不要奇怪”这种说法太抽象。负面约束要写成具体错误:
不要改变人物身份。
不要增加额外手指。
不要生成乱码文字。
不要让眼镜、耳环、包带等配饰消失。
不要改变服装主要颜色。
越具体,越容易减少对应错误。
一个可复用的 Nano Banana 提示词框架
日常使用可以直接套这个结构:
任务:
[一句话说明要生成或编辑什么]
参考图说明:
- 图 1:[用途]
- 图 2:[用途]
- 图 3:[用途]
必须保留:
- [人物身份 / 产品结构 / 构图 / 颜色 / 姿态]
需要改变:
- [背景 / 材质 / 风格 / 光线 / 服装 / 道具]
画面要求:
- 构图:[近景 / 中景 / 全身 / 产品摄影 / 分镜]
- 风格:[真实摄影 / 电影感 / 手办 / 乐高 / 杂志大片]
- 光线:[自然光 / 棚拍 / 霓虹 / 柔和光]
- 材质:[PVC / 金属 / 玻璃 / 布料 / 木材]
禁止:
- 不要改变 [关键身份或结构]
- 不要添加 [无关元素]
- 不要生成 [乱码文字 / 多余肢体 / 错误配饰]
它不追求提示词华丽,而是让模型拿到足够明确的视觉指令。图像编辑任务最怕“目标很多但约束很少”,稳定提示词的价值就在于把任务边界说清楚。