Nano Banana 是 Gemini 2.5 Flash Image 的常用昵称,它最出圈的能力是图片编辑:换背景、改局部、保持人物一致性、延续画面风格。很多人因此把它当成“修图模型”,忽略了它在文生图上的能力。
文生图不是简单把几个关键词塞进输入框。Nano Banana 的优势在于理解自然语言,所以更适合用完整的场景描述来驱动生成,而不是用零散标签堆砌画面元素。
一个高可控的提示词通常包含这些信息:
flowchart LR
A[生成目标] --> B[主体]
B --> C[动作或状态]
C --> D[环境]
D --> E[光线与氛围]
E --> F[风格或镜头]
F --> G[关键细节]
G --> H[尺寸与构图约束]
写提示词时,核心原则只有一句:描述一个完整场景,而不是列关键词。
例如:
cat, bench, summer, park, realistic, sunlight
这种写法能给模型一些方向,但画面关系很松散。更好的写法是:
一张照片级的猫咪肖像特写,一只可爱的小猫安静地趴在公园长椅上。
场景发生在炎热的夏日午后,长椅旁有一棵树,小猫躲在树荫下乘凉。
柔和的自然光穿过树叶,在猫咪毛发和木质长椅上形成斑驳光影。
使用富士 XT-5 和中长焦镜头拍摄,强调猫咪毛发纹理、夏日空气感和真实光影。
画面为 16:9 横向构图。
第二种写法明确了主体、动作、环境、光线、设备感、纹理和画幅,模型更容易生成一张统一、可信的图。
六类常用出图任务的提示词模板
Nano Banana 的文生图任务可以拆成六类:真实摄影、插画贴纸、文字设计、产品摄影、极简留白、视觉叙事。每一类需要强调的字段不同。
| 场景 | 适合生成什么 | 提示词重点 |
|---|---|---|
| 照片级真实场景 | 人像、动物、旅行照、生活方式图 | 镜头、光线、环境、纹理 |
| 风格化插图和贴纸 | 表情包、贴纸、徽章、角色图 | 风格、线条、配色、背景 |
| 图中文字渲染 | Logo、海报、标题字、包装文字 | 文本内容、字体风格、排版 |
| 产品模型和商业摄影 | 电商图、宣传图、商品海报 | 材质、布光、角度、焦点 |
| 极简和留白设计 | 网站背景、PPT 背景、营销底图 | 主体位置、负空间、背景色 |
| 漫画和故事板 | 单格漫画、分镜、剧情画面 | 前景角色、背景场景、字幕框 |
1. 照片级真实场景:把摄影参数写进画面
照片级图像最怕“看起来像假照片”。解决方法不是只写“真实”“高清”,而是把真实照片会包含的信息写清楚:拍摄类型、主体状态、环境、光线、镜头、材质细节和画幅。
通用模板
一张照片级的[拍摄类型]的[主体],[动作或表情],设定在[环境]中。
场景被[光照描述]照亮,营造出[氛围]的气氛。
使用[相机/镜头细节]拍摄,强调[关键纹理和细节]。
图像应为[宽高比]格式。
英文模板:
A photorealistic [shot type] of [subject], [action or expression], set in [environment].
The scene is illuminated by [lighting description], creating a [mood] atmosphere.
Captured with a [camera/lens details], emphasizing [key textures and details].
The image should be in a [aspect ratio] format.
示例
一张照片级的肖像特写,主体是一只可爱的小猫,它安静地趴在公园里的长椅上。
场景设定在炎热的夏天午后,长椅旁有一棵树,小猫躲在树荫下乘凉,
营造出夏日午后慵懒但生机勃勃的气氛。
使用富士 XT-5 拍摄,强调猫咪毛发纹理、木质长椅表面、树叶投下的斑驳光影。
图像应为 16:9 横向格式。
字段怎么填
| 字段 | 可选写法 | 作用 |
|---|---|---|
| 拍摄类型 | 肖像特写、广角街景、低机位特写、俯拍静物 | 决定构图和视角 |
| 主体 | 小猫、咖啡师、登山者、复古汽车 | 决定画面核心 |
| 动作或表情 | 安静趴着、微笑、奔跑、凝视镜头 | 让画面有状态 |
| 环境 | 公园长椅、雨夜街道、厨房台面、海边悬崖 | 给主体提供上下文 |
| 光照 | 黄昏逆光、柔和窗光、霓虹灯、阴天漫射光 | 决定真实感和氛围 |
| 镜头细节 | 50mm 定焦、浅景深、中长焦、胶片摄影 | 影响成像质感 |
| 关键纹理 | 毛发、皮革、陶瓷、金属划痕、水汽 | 强化细节可信度 |
只写“超真实”通常不够,因为模型不知道该通过什么细节实现真实感。把光线、材质、镜头写出来,效果会稳定得多。
2. 风格化插图和贴纸:约束线条、阴影和背景
贴纸类图片的关键不是复杂,而是边界清晰、主体突出、风格统一。提示词里要明确插画风格、主体特征、配色、线条、阴影方式,背景最好直接限制为白色,方便后续抠图或排版。
通用模板
一个[风格]样式的[主体]贴纸,具有[关键特征]和[色彩搭配]。
设计应具有[线条风格]和[阴影风格]。
背景必须是白色的。
英文模板:
A [style] sticker of a [subject], featuring [key characteristics] and a [color palette].
The design should have [line style] and [shading style].
The background must be white.
示例
一个可爱风格的贴纸,描绘一只开心的红熊猫,它戴着小竹帽,正在啃一片绿色竹叶。
设计采用粗而干净的轮廓线,简单的赛璐璐阴影,以及明亮活泼的配色。
背景必须是白色的。
英文版:
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat.
It's munching on a green bamboo leaf.
The design features bold, clean outlines, simple cel-shading, and a vibrant color palette.
The background must be white.
常用风格词
| 目标 | 推荐描述 |
|---|---|
| 可爱贴纸 | kawaii-style、rounded shapes、soft colors |
| 扁平插画 | flat vector illustration、minimal details、clean geometry |
| 复古徽章 | vintage badge、limited color palette、screen-printed texture |
| 赛璐璐动画 | cel-shading、bold outlines、anime-inspired |
| 儿童绘本 | storybook illustration、warm colors、hand-drawn texture |
贴纸任务中,“背景必须是白色的”很重要。否则模型可能生成复杂背景,导致主体不够像可直接使用的贴纸素材。
3. 图中文字渲染:把文字内容和字体风格写清楚
AI(人工智能)生图常见问题之一是文字变形:字母错位、漏字、多字、中文乱码。Nano Banana 在文字渲染上更稳定,但提示词必须给出明确约束。
文字设计提示词需要包含四件事:
flowchart TD
A[文字设计提示词] --> B[品牌或概念]
A --> C[准确文本]
A --> D[字体风格]
A --> E[图形元素和配色]
通用模板
为[品牌/概念]创建一个[图像类型],其中包含文本“[需要渲染的文字]”,
文字使用[字体风格]呈现。
设计应具有[风格描述],并采用[色彩方案]。
英文模板:
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style].
The design should be [style description], with a [color scheme].
示例
为一家名为“The Daily Grind”的咖啡店创建一个现代、极简的标志。
文本“The Daily Grind”应使用干净、粗体、无衬线字体。
设计包含一个简单的风格化咖啡豆图标,图标与文字自然结合。
色彩方案为黑白。
英文版:
Create a modern, minimalist logo for a coffee shop called "The Daily Grind".
The text should be in a clean, bold, sans-serif font.
The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text.
The color scheme is black and white.
文字生成的注意点
| 问题 | 更稳的写法 |
|---|---|
| 文字容易拼错 | 用引号包住完整文本 |
| 字体描述太抽象 | 写“粗体无衬线”“手写脚本体”“复古衬线体” |
| 排版混乱 | 指定“居中排版”“文字在图标下方”“横向 Logo” |
| 颜色不统一 | 明确“黑白”“深棕与米白”“单色线稿” |
| 中文较长 | 尽量减少字数,必要时分多次生成 |
如果生成的是商用 Logo 或包装主视觉,出图后仍需要人工校对文字。模型可以生成视觉草案,但不能替代最终排版审核。
4. 产品模型和商业摄影:像写摄影棚布光方案一样写提示词
产品图的重点是“卖点可见”。提示词应该围绕产品材质、摆放表面、灯光目的、相机角度、焦点细节来组织。
通用模板
一张高分辨率的、影棚照明的产品照片,展示一个[产品描述],
放置在[背景表面/背景描述]上。
光线设置是[灯光设置],用于[灯光目的]。
相机角度是[角度类型],用于展示[特定特征]。
超逼真,对[关键细节]有清晰焦点。
[长宽比]。
英文模板:
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description].
The lighting is a [lighting setup] to [lighting purpose].
The camera angle is a [angle type] to showcase [specific feature].
Ultra-realistic, with sharp focus on [key detail].
[Aspect ratio].
示例
一张高分辨率的影棚产品照片,展示一个极简主义陶瓷咖啡杯。
咖啡杯为哑光黑色,放置在抛光混凝土表面上。
光线采用三点式柔光箱设置,用于创造柔和的漫反射高光,并消除刺眼阴影。
相机角度为略微抬高的 45 度视角,用于展示杯身简洁线条。
超逼真,对咖啡表面升起的蒸汽有清晰焦点。
方形图像。
英文版:
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black,
presented on a polished concrete surface.
The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows.
The camera angle is a slightly elevated 45-degree shot to showcase its clean lines.
Ultra-realistic, with sharp focus on the steam rising from the coffee.
Square image.
产品图提示词字段
| 字段 | 示例 | 作用 |
|---|---|---|
| 产品材质 | 哑光黑陶瓷、拉丝金属、透明玻璃 | 决定反光和质感 |
| 背景表面 | 混凝土、木纹桌面、纯色亚克力板 | 影响商业图调性 |
| 灯光设置 | 三点式柔光箱、侧逆光、顶部柔光 | 控制高光和阴影 |
| 相机角度 | 45 度、正面平视、俯拍 | 展示不同卖点 |
| 焦点细节 | 蒸汽、瓶身纹理、按键、包装纸纹 | 突出产品特征 |
产品摄影类提示词不要只写“高级感”。“高级感”需要通过材质、低饱和配色、柔和高光、干净背景、可控阴影等具体元素实现。
5. 极简和留白空间:为后期排版预留位置
极简图常用于网站首屏、演示文稿封面、营销海报背景。它不是“画面内容少”这么简单,而是要让主体和空白区域形成可用的排版关系。
这里的关键概念是负空间,也就是画面中没有主体占据、但可以承载标题、按钮或说明文字的区域。
通用模板
一幅极简主义构图,单一的[主体]位于画面[右下角/左上角等]。
背景是一个广阔、空旷的[颜色]画布,形成显著的负空间。
柔和、微妙的光线。
[宽高比]。
英文模板:
A minimalist composition featuring a single [subject] positioned in the [bottom-right/top-left/etc.] of the frame.
The background is a vast, empty [color] canvas, creating significant negative space.
Soft, subtle lighting.
[Aspect ratio].
示例
一个极简构图,展示一片精致的红枫叶,位于画面的右下角。
背景是广阔、空旷的浅白色画布,为文字创造显著的负空间。
光源来自左上方,柔和且散射。
方形图像。
英文版:
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame.
The background is a vast, empty off-white canvas, creating significant negative space for text.
Soft, diffused lighting from the top left.
Square image.
留白设计的实用约束
| 需求 | 提示词写法 |
|---|---|
| 左侧放标题 | 主体位于右下角,左侧保留大面积空白 |
| 做横幅首屏 | 16:9 横向构图,主体偏右 |
| 做 PPT 封面 | 中心偏下放置主体,上方保留标题空间 |
| 做电商海报 | 产品位于右侧,左侧为干净纯色背景 |
| 避免背景太花 | 背景为纯色或细微渐变,无复杂图案 |
留白图最好明确主体位置。如果只写“极简背景”,模型可能把主体放在正中,后续叠文字会很拥挤。
6. 漫画和故事板:用前景、背景、字幕框组织叙事
视觉叙事类图片适合做漫画单格、分镜草图、剧情概念图。提示词要像导演分镜一样写:前景发生什么,背景提供什么信息,文字框写什么,光线如何制造情绪。
通用模板
一个[艺术风格]风格的单格漫画面板。
前景中,[角色描述和动作]。
背景中,[场景细节]。
面板有一个[对话/标题框],文字为“[文字]”。
光照营造出[氛围]的氛围。
[长宽比]。
英文模板:
A single comic book panel in a [art style] style.
In the foreground, [character description and action].
In the background, [setting details].
The panel has a [dialogue/caption box] with the text "[Text]".
The lighting creates a [mood] mood.
[Aspect ratio].
示例
一个单格漫画面板,采用粗粝的黑色电影艺术风格,使用高对比度黑白墨线。
前景中,一位穿着风衣的侦探站在闪烁的街灯下,雨水浸湿了他的肩膀。
背景中,一家荒凉酒吧的霓虹招牌倒映在水洼里。
画面顶部有一个字幕框,文字为“这座城市很难保守秘密。”
强烈光线制造出戏剧性、阴郁的氛围。
横向布局。
英文版:
A single comic book panel in a gritty, noir art style with high-contrast black and white inks.
In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders.
In the background, the neon sign of a desolate bar reflects in a puddle.
A caption box at the top reads "The city was a tough place to keep secrets."
The lighting is harsh, creating a dramatic, somber mood.
Landscape.
叙事图的结构
flowchart TD
A[单格漫画] --> B[艺术风格]
A --> C[前景角色]
A --> D[背景信息]
A --> E[文字框]
A --> F[光线氛围]
A --> G[画幅]
如果要连续生成多格故事板,需要保持角色描述稳定,例如固定角色的发型、服装、年龄、道具和色彩。否则模型可能在不同画面里生成不同角色。
图片编辑:用年代风格重塑人物照片
Nano Banana 的另一个强项是基于已有图片进行重绘。比如上传一张人物照片,让模型把人物改造成某个年代的拍立得风格照片。
年代重塑模板
重新以[年代]的风格想象这张照片中的人物。
这包括服装、发型、照片质量以及该年代的整体美学。
输出必须是清晰显示人物的逼真图像。
英文模板:
Reimagine the person in this photo in the style of the [decade].
This includes clothing, hairstyle, photo quality, and the overall aesthetic of that decade.
The output must be a photorealistic image showing the person clearly.
示例
重新以 1980 年代的风格想象这张照片中的人物。
这包括复古夹克、蓬松发型、胶片颗粒、闪光灯质感以及 1980 年代拍立得照片的整体美学。
输出必须是清晰显示人物的逼真图像。
这种任务要注意两点:
| 注意点 | 原因 |
|---|---|
| 明确“清晰显示人物” | 避免模型过度风格化,导致人物不可辨认 |
| 同时描述服装、发型和照片质量 | 年代感不只来自衣服,也来自成像风格 |
在哪里使用 Nano Banana
Nano Banana 已经出现在多个入口中,包括 Google 官方工具、云服务、第三方模型聚合平台和创意软件。不同入口的成本、限制和稳定性不一样。
| 平台 | 入口 | 适合人群 | 主要注意点 |
|---|---|---|---|
| Google AI Studio | aistudio.google.com 或 ai.studio/banana | 想直接体验官方模型的人 | 可能存在地区限制 |
| Gemini / API | 通过 Gemini 或 API(应用程序编程接口)调用 | 有开发和部署能力的人 | 需要理解接口、计费和密钥管理 |
| Vertex AI | Google Cloud 平台 | 企业或云端开发者 | 注册流程可能需要银行卡 |
| LMArena | https://lmarena.ai/ | 想快速试模型的人 | 生成可能较慢,也可能卡住 |
| Adobe Firefly | Firefly 模型选择中调用 | Adobe 生态用户、创意工作者 | 可能存在地区限制 |
| OpenRouter | https://openrouter.ai/ | 想用聚合平台调用模型的人 | 出图清晰度可能随使用情况波动 |
| ComfyUI / Flora 等 | 第三方工作流工具 | 熟悉节点式工作流的人 | 需要确认模型是否为正式版本 |
Google AI Studio
Google AI Studio 是官方体验入口。进入后可以直接在首页输入提示词,也可以从左侧菜单进入媒体生成相关页面。它适合测试提示词、对比不同写法,以及快速验证模型对文字和图像编辑指令的理解。
常用入口:
https://aistudio.google.com
https://ai.studio/banana
如果页面无法正常打开或模型不可用,通常与地区限制有关。
API 调用
需要把 Nano Banana 接入业务系统时,可以走 Gemini 相关 API。API 适合这些场景:
- 批量生成商品图;
- 给设计工具增加 AI 图片生成能力;
- 在内部系统中做自动化海报草稿;
- 根据用户输入生成头像、贴纸或营销素材。
使用 API 前要确认三件事:
| 检查项 | 说明 |
|---|---|
| 模型名称 | 模型选择里应能找到 Gemini 2.5 Flash Image / Nano Banana |
| 计费方式 | 确认按 token、图片数量还是调用量计费 |
| 输出限制 | 检查分辨率、格式、批量数量、内容安全策略 |
LMArena
LMArena 原本是用于模型对战和横向比较的平台,也提供常规生成入口。它的好处是上手门槛低,适合快速体验模型能力;不足是生成时间可能比较长,偶尔会出现排队或卡住。
入口:
https://lmarena.ai/
注意域名里的 l 是小写字母 L,不是大写 i。
Adobe Firefly
Firefly 适合已经使用 Adobe Creative Cloud 的设计和创意工作者。登录后可以在模型选项中选择对应模型。它的优势是工作流更贴近设计软件,合规和素材管理也更适合商业创意场景;限制同样可能来自地区和账户权限。
OpenRouter
OpenRouter 是模型聚合平台,可以在一个入口中调用多个模型。Nano Banana 接入后,文字指令遵循、局部编辑和出图风格都比较接近官方体验,适合不想频繁切换平台的用户。
入口:
https://openrouter.ai/
使用时要留意输出稳定性。随着额度、token 或平台负载变化,图片清晰度可能出现波动,因此重要任务最好多生成几张,并保留清晰度最高的版本。
第三方平台选择清单
第三方平台越来越多,名称相似、模型包装相似,质量差异却很大。选择平台时不要只看是否写了“Nano Banana”,要检查模型名称、参数、导出、计费和水印策略。
| 检查项 | 应该确认什么 |
|---|---|
| 注册流程 | 是否必须绑定银行卡,是否有试用额度 |
| 模型名称 | 是否明确提供 Gemini 2.5 Flash Image / Nano Banana |
| 生成参数 | 是否能设置分辨率、风格、负向词、图片数量 |
| 出图速度 | 连续生成 3–5 张,记录平均等待时间 |
| 抽卡比率 | 同一组提示词多次生成,观察可用图比例 |
| 原图导出 | 是否支持下载原始分辨率图片 |
| 元数据 | 是否保留 metadata(元数据),方便追踪提示词和参数 |
| 批量能力 | 是否支持同一提示词多次生成或批量生成 |
| 迭代能力 | 是否能基于上一张图继续局部修改 |
| 计费方式 | 是按图、按时长、按 token,还是按会员额度 |
| 水印策略 | 是否有可见水印或不可见水印,去除是否收费 |
| 隐私策略 | 上传的人像、产品图是否会被用于训练或公开展示 |
可以用这个流程快速筛选平台:
flowchart TD
A[打开第三方平台] --> B{能否选择正式模型名称}
B -- 否 --> X[不适合重要任务]
B -- 是 --> C{是否说明计费和水印}
C -- 否 --> Y[谨慎使用]
C -- 是 --> D[用同一提示词生成 3-5 张]
D --> E{速度和清晰度是否稳定}
E -- 否 --> Z[只适合临时试玩]
E -- 是 --> F[检查原图导出和元数据]
F --> G{是否支持批量或迭代}
G -- 是 --> H[适合正式工作流]
G -- 否 --> I[适合轻量生成]
提示词写作中的常见坑
1. 只写关键词,缺少画面关系
不稳定写法:
red panda, sticker, cute, bamboo, white background
更稳定写法:
一个可爱风格的红熊猫贴纸,红熊猫戴着小竹帽,开心地啃一片绿色竹叶。
画面采用粗而干净的轮廓线、简单赛璐璐阴影和明亮配色。
背景必须是纯白色。
关键词可以提供素材,但完整句子能提供关系。
2. 风格词太多,互相冲突
不稳定写法:
极简、赛博朋克、复古胶片、巴洛克、未来主义、水彩、超写实
这些风格方向互相拉扯,模型很难判断主次。更好的方式是确定一个主风格,再加少量细节:
一张赛博朋克风格的雨夜街头照片,使用霓虹蓝和品红色调。
画面具有真实摄影质感,路面积水反射招牌灯光。
3. 没有指定画幅
不同任务需要不同画幅:
| 用途 | 推荐画幅 |
|---|---|
| 网站首屏 | 16:9 或更宽 |
| 社交头像 | 1:1 |
| 手机壁纸 | 9:16 |
| 商品主图 | 1:1 |
| 漫画分镜 | 16:9 或 4:3 |
| 海报 | 3:4 或 2:3 |
画幅会影响构图。做留白背景、海报和分镜时,最好显式写出来。
4. 文字太长
图中文字越长,出错概率越高。Logo、标题、贴纸文字尽量短。如果必须生成长句,可以把视觉部分和文字排版拆开处理:先生成背景或图标,再用设计软件添加文字。
5. 缺少否定约束
有些平台支持负向词,可以写不希望出现的内容:
负向词:模糊、低清晰度、畸形手指、多余文字、复杂背景、过度锐化、水印
如果平台不支持负向词,也可以在提示词里用正向约束替代:
背景保持纯净,不出现多余文字、标志、水印或复杂图案。
可直接复用的提示词结构
把不同任务抽象成一个统一结构,可以减少反复试错:
[任务类型]:[要生成什么图]
主体:[主体是谁/是什么]
动作或状态:[主体在做什么,表情或状态如何]
环境:[在哪里,周围有什么]
风格:[摄影、插画、漫画、极简、商业摄影等]
光线:[自然光、柔光箱、逆光、霓虹灯、阴天漫射光等]
细节:[材质、纹理、服装、道具、文字、图标等]
构图:[主体位置、镜头角度、留白区域]
输出:[画幅、清晰度、背景要求]
限制:[不要出现什么,文字必须准确,人物必须清晰]
示例:
任务类型:商业产品摄影
主体:一个哑光黑色陶瓷咖啡杯
动作或状态:杯中装有热咖啡,表面升起轻微蒸汽
环境:放置在抛光混凝土台面上,背景简洁
风格:高分辨率影棚产品照片,超逼真
光线:三点式柔光箱,柔和高光,无刺眼阴影
细节:强调杯身哑光陶瓷质感、咖啡蒸汽和干净杯口线条
构图:略微抬高的 45 度视角,主体居中
输出:方形图像
限制:不要出现品牌文字、水印、杂乱背景
适合 Nano Banana 的任务边界
Nano Banana 适合做高质量视觉草案、图像编辑、文字较短的设计图和结构清晰的商业素材。但它并不是所有任务的最终交付工具。
| 适合 | 不太适合 |
|---|---|
| 快速生成视觉概念 | 法律、医疗等高风险准确图示 |
| 产品图草案 | 需要完全真实商品结构的最终电商图 |
| 漫画分镜草图 | 长篇漫画的稳定角色连续性 |
| 贴纸和徽章 | 复杂矢量源文件直接交付 |
| 短文字 Logo 草案 | 大段文字海报精确排版 |
| 人像风格重塑 | 未经授权的人脸商业使用 |
对于商用场景,生成图最好进入二次审核流程:检查文字、结构、人物细节、品牌元素、版权风险和水印策略。Nano Banana 可以缩短创意试错时间,但最终素材是否可用,仍取决于业务要求和人工校对。