用 Nano Banana Pro 生成图片时,很多人会把提示词写成一串标签:
苹果,水珠,木桌,阳光,写实,高级感
这种写法看起来信息不少,但对图像生成模型来说仍然很模糊。模型知道画面里应该有“苹果”“水珠”“木桌”和“阳光”,却不知道它们之间是什么关系:苹果放在哪里?阳光从哪个方向来?桌面是什么颜色?画面是俯拍还是平视?整体是商业摄影、插画,还是手机随手拍?
更稳定的写法是把提示词(Prompt)写成一个完整场景:
一个红得发亮的苹果放在粗糙的深色木桌中央,苹果表面凝结着细小水珠。阳光从画面右侧斜射进来,在桌面上形成柔和高光和浅浅阴影。画面采用近景构图,背景轻微虚化,整体风格接近高端水果广告摄影,质感清晰、色彩干净。
两段提示词都提到了类似元素,但第二段更像是在给一个看不见画面的画师讲需求。它不仅说明“有什么”,还说明“在哪里、怎么摆、光怎么打、看起来像什么”。
关键词为什么容易失控
人工智能(AI)图像生成模型不是简单地按关键词拼贴素材,它会根据提示词推断一整张图。提示词越像孤立标签,模型需要自行补全的内容就越多,结果也越容易偏离预期。
关键词提示词的问题主要有三个:
| 问题 | 表现 | 结果 |
|---|---|---|
| 缺少空间关系 | 只说“苹果、木桌、阳光” | 模型不知道苹果放在桌上、桌边还是背景里 |
| 缺少视觉重点 | 只列一堆物体 | 画面可能没有主次,主体不突出 |
| 缺少风格边界 | 只写“高级感、好看” | 模型会用自己的默认审美补全,结果不稳定 |
生成图片时,真正影响画面质量的往往不是某个神奇关键词,而是提示词有没有把场景讲清楚。
场景描述的核心结构
一条好用的 Nano Banana Pro 提示词,可以拆成七个部分:
flowchart LR
A[主体] --> B[环境]
B --> C[动作或状态]
C --> D[构图]
D --> E[光线]
E --> F[材质与细节]
F --> G[风格与用途]
每个部分解决一个问题:
| 组成部分 | 要回答的问题 | 示例 |
|---|---|---|
| 主体 | 画面主要拍什么 | 一个红色苹果、一位商务女性、一台笔记本电脑 |
| 环境 | 主体在哪里 | 深色木桌、现代办公室、雨后的城市街道 |
| 动作或状态 | 主体正在怎样呈现 | 表面有水珠、正在演示数据、屏幕发出蓝光 |
| 构图 | 镜头怎么安排 | 居中构图、俯拍、近景、留出右侧文字区域 |
| 光线 | 光从哪里来,强弱如何 | 右侧自然光、柔和逆光、冷色屏幕光 |
| 材质与细节 | 画面质感是什么 | 粗糙木纹、玻璃反光、金属边缘高光 |
| 风格与用途 | 最终像什么,用在哪里 | 商业摄影、PPT封面、知识卡片、电脑壁纸 |
不一定每条提示词都要写满七项,但“主体、环境、构图、光线、风格”通常不能缺。少了这些信息,模型就会自动猜。
从关键词到场景:一个完整改写过程
假设目标是生成一张适合演示文稿(PPT)封面的图片,主题是“数字化办公”。
关键词写法可能是:
数字化办公,电脑,数据,蓝色,科技感,PPT封面
这条提示词的问题是:它没有说明画面主体,也没有说明文字区域在哪里。生成结果可能是一堆发光图标、杂乱数据线和不知所云的背景。
可以改成场景描述:
一张适合企业演示文稿封面的横版画面。画面左侧是一台打开的银色笔记本电脑,屏幕上显示抽象的数据仪表盘和蓝色折线图;右侧保留大面积干净留白,用于放置标题文字。背景是现代办公室的模糊玻璃墙,整体使用蓝白色调。光线柔和,屏幕微微发光,风格简洁、专业、科技感强。
这条提示词明确了四件事:
- 用途:PPT 封面,而且是横版。
- 主体:银色笔记本电脑和数据仪表盘。
- 版式:左侧有视觉主体,右侧留白放标题。
- 风格:蓝白色、简洁、专业、科技感。
对于需要放文字的图片,“留白区域”非常重要。如果不写,模型常常会把主体铺满整张图,后期排版会很难。
三类常见视觉任务的提示词模板
1. PPT 封面
PPT 封面最怕画面太满。提示词要主动告诉模型哪里放主体,哪里留给标题。
生成一张 16:9 横版 PPT 封面背景,主题是「人工智能赋能企业管理」。画面左侧是一组抽象的蓝色数据流和半透明几何线框,隐约组成大脑和城市轮廓;右侧保留干净的深蓝渐变留白区域,适合放置白色标题文字。整体风格专业、简洁、偏商务科技,光线柔和,层次清晰,不要出现真实文字。
关键点:
| 要素 | 写法 |
|---|---|
| 比例 | 16:9 横版 |
| 标题区 | 指定左侧或右侧留白 |
| 风格 | 商务、科技、简洁 |
| 文字控制 | 不要生成真实文字,避免乱码 |
2. 知识卡片
知识卡片需要信息清晰,图像不能喧宾夺主。提示词要强调“结构感”和“可读性”。
生成一张竖版知识卡片背景,主题是「时间管理四象限」。画面采用简洁的信息图风格,中间是一个浅色半透明四象限网格,四个区域用柔和的蓝色、绿色、橙色和紫色区分。背景为干净的米白色纸张质感,边缘有轻微阴影。整体适合后期添加中文标题和说明文字,不要生成任何文字内容。
知识卡片常用约束:
| 目标 | 提示词写法 |
|---|---|
| 方便排版 | 留出标题区、说明区 |
| 避免混乱 | 简洁信息图风格 |
| 避免乱码 | 不要生成文字 |
| 保持统一 | 使用少量固定配色 |
3. 电脑壁纸
壁纸更重视氛围和沉浸感,可以把场景、光线和情绪写得更细。
生成一张 16:9 电脑壁纸,画面是夜晚的未来城市天台。远处有高楼和柔和霓虹灯,天空呈深蓝到紫色渐变,空气中有轻微薄雾。前景是一个安静的工作台,桌面上有一台笔记本电脑和一杯热咖啡,屏幕发出微弱蓝光。整体氛围安静、专注、富有未来感,细节精致但不要杂乱。
壁纸可以多写氛围,但仍然要控制画面复杂度。“细节丰富”和“元素很多”不是一回事,前者让画面耐看,后者容易显得乱。
不会写长提示词时,可以让 AI 先扩写
场景描述不是要求手动憋出一大段华丽文字。更实用的做法是先写清楚基础需求,再让 AI 帮忙补全视觉细节。
可以使用这样的扩写指令:
请把下面的关键词改写成适合 Nano Banana Pro 图像生成的中文提示词。
要求:
1. 不要只堆关键词,要写成完整场景;
2. 包含主体、环境、构图、光线、材质、风格和用途;
3. 如果图片要用于 PPT 或知识卡片,请说明留白区域;
4. 不要生成真实文字,避免出现乱码;
5. 输出 3 个不同版本。
关键词:数字化转型、企业管理、科技感、PPT封面
这个流程更适合日常使用:
flowchart TD
A[写出基础需求] --> B[让 AI 扩写成场景提示词]
B --> C[检查主体、构图、光线、用途是否完整]
C --> D[放入 Nano Banana Pro 生成图片]
D --> E{结果是否可用}
E -- 可用 --> F[保存或进入排版]
E -- 不可用 --> G[指出问题并修改提示词]
G --> D
如果生成结果不理想,不要只说“再高级一点”。更有效的反馈是指出具体问题:
| 不清楚的反馈 | 更有效的反馈 |
|---|---|
| 再好看一点 | 画面主体太小,请放大主体并减少背景元素 |
| 更有科技感 | 增加蓝色半透明数据线框和柔和屏幕光 |
| 不够高级 | 降低色彩饱和度,使用黑金配色和更简洁的构图 |
| 太乱了 | 减少装饰元素,保留一个主要视觉焦点 |
写提示词时要避免的几个坑
1. 抽象形容词太多,具体画面太少
高级,震撼,大气,科技,未来感,商业,精致
这种提示词没有告诉模型画什么。可以保留一两个风格词,但必须用具体元素承载它们:
深蓝色背景中悬浮着半透明数据面板和细密光线,中央是一座由蓝色线框组成的未来城市,远处有柔和光晕。画面干净,适合科技企业发布会主视觉。
2. 互相冲突的风格混在一起
写实摄影,扁平插画,水墨风,赛博朋克,极简主义
这些风格同时出现会互相拉扯。除非明确要混搭,否则一次只选择一个主风格,再加少量辅助描述。
3. 忘记说明输出用途
同样是“科技背景”,用于 PPT 封面、手机海报、知识卡片、电脑壁纸时,构图完全不同。用途会影响比例、留白、主体大小和细节密度。
适合 16:9 PPT 封面,右侧留白放标题
这类约束看似简单,却能显著减少返工。
4. 让模型直接生成大量文字
图像模型生成文字时容易出现错字、乱码或奇怪符号。更稳的方式是让它生成干净背景,再用设计工具添加文字。
不要生成任何文字、字母、数字、标识或水印
这句话适合放在知识卡片、封面图和海报背景的提示词末尾。
一个好用的通用公式
日常写 Nano Banana Pro 提示词,可以套用这个结构:
生成一张【比例/用途】图片,主题是【主题】。
画面主体是【主体】,位于【位置/构图】。
主体处在【环境】中,周围有【辅助元素】。
光线来自【方向】,呈现【光线质感】。
材质和细节包括【材质/纹理/颜色】。
整体风格是【风格】,氛围是【情绪】。
如果用于排版,需要【留白要求】。
不要出现【不需要的内容】。
示例:
生成一张 16:9 横版 PPT 封面背景,主题是「高效协作」。画面主体是一个半透明的数字会议桌,位于画面左下方,桌面上方悬浮着多个蓝色任务卡片和连线节点。背景是干净的深蓝渐变空间,远处有轻微光点和虚化网格。光线来自画面左上方,呈现柔和的蓝白色科技光。整体风格简洁、专业、现代,右侧保留大面积留白用于添加标题文字。不要出现真实文字、人物面部、品牌标识和水印。
真正稳定的提示词不是关键词更多,而是画面关系更清楚。把“有什么”扩展成“谁在什么环境里、以什么构图和光线呈现、最终用于什么场景”,Nano Banana Pro 才更容易生成接近预期的图片。