芥末
发布于 2025-12-04 / 0 阅读
0
0

Nano Banana Pro 生态中的 3 个开源项目:提示词库、图文生成和自拍场景迁移

Nano Banana Pro 这类图像生成模型真正落地时,通常不会只停留在“输入一句提示词,拿到一张图片”这个层面。更常见的做法是把模型放进一个完整工作流里:有人负责收集提示词案例,有人把它做成图文生产工具,也有人把它封装成面向普通用户的图片应用。

这 3 个开源项目代表了 Nano Banana Pro 生态里比较典型的三种方向:

项目定位解决的问题适合人群
Awesome Nano Banana Pro提示词和案例资源库快速找到可复用的提示词、效果案例和教程AI 绘画用户、提示词工程师、模型探索者
RedInk小红书 AI 图文生成工具用一句主题生成封面、大纲和多页图文内容自媒体创作者、营销人员、内容运营
SelfieAt自拍场景迁移应用上传自拍并指定地点,生成“人在目标地点”的图片AI 应用开发者、图片玩法产品开发者

从技术形态上看,它们也刚好覆盖了三类常见 AI 应用:

flowchart LR
    A[Nano Banana Pro] --> B[提示词案例库]
    A --> C[内容生产工具]
    A --> D[面向用户的图片应用]

    B --> B1[沉淀 prompt 和效果样例]
    C --> C1[LLM 规划内容]
    C --> C2[图像模型生成页面]
    D --> D1[前端采集图片]
    D --> D2[后端代理调用模型]

Awesome Nano Banana Pro:把提示词和效果沉淀成知识库

Awesome Nano Banana Pro 是一个围绕 Nano Banana Pro 的精选资源列表,项目 Star 数约 2800。它的价值不在于提供一个可运行的应用,而是把大量提示词、生成案例和教程整理到一起,让用户能快速找到可参考的输入方式。

图像模型的调试成本主要在提示词上。即使模型能力很强,如果不知道如何描述风格、对象、构图、材质和场景,生成结果也会不稳定。资源库的作用就是把已经验证过的案例沉淀下来,减少从零试错的时间。

它覆盖的内容比较广,包括:

方向可以解决的问题
写实摄影生成接近真实拍摄质感的人像、产品图、场景图
创意实验测试递归图像、夸张表情、幻想场景等模型边界
电商虚拟摄影为商品生成背景、灯光、摆拍和营销素材
室内设计根据房间、风格和布局描述生成设计参考图
社交媒体素材生成封面、卡片、海报、图文内容配图

资源库里的案例通常包含输入图、生成图和提示词参数。对学习 Nano Banana Pro 来说,最重要的不是照搬某个案例,而是拆解提示词结构。

一个可复用的图像提示词通常可以拆成几层:

主体对象 + 场景环境 + 风格/材质 + 构图要求 + 细节约束 + 输出用途

例如资源库里的几个提示词方向,可以整理成这样的模式:

玩法提示词关注点可复用思路
白板艺术画指定画面媒介,例如玻璃白板、绿色马克笔、轻微褪色通过“绘制材质”控制生成图的质感
添加眼睛和手给对象添加夸张卡通元素和喜剧姿势用少量元素改变原图风格,适合表情包、拟人化物品
年龄变化指定同一个人在不同年龄段的假日照片保持人物身份一致,同时改变年龄特征
递归图片让图片中嵌套同一场景,例如猫拿着 iPad,iPad 里还是同一画面测试模型对递归结构和局部内容的理解
地理坐标图片直接输入经纬度和时间让模型把地理位置、时间、城市景观联系起来
图解词汇漫画给场景中的对象加英文、音标和中文标签适合语言学习类图片、知识卡片和儿童教育内容

开源地址:

https://github.com/ZeroLu/awesome-nanobanana-pro

如果目标是学习 Nano Banana Pro 的提示词写法,Awesome Nano Banana Pro 更像一本案例手册。它不负责自动化生产内容,但可以作为其他 AI 图像应用的提示词来源。

RedInk:一句话生成小红书多页图文

RedInk 是一个面向小红书创作者的 AI 图文生成工具,项目 Star 数约 1900。它的核心能力可以概括为:输入一个主题或一句需求,再提供参考图片,系统生成一套完整的小红书图文内容,包括封面、大纲和正文页面。

它适合这类任务:

  • 根据主题生成多页图文笔记;
  • 参考用户主页、历史图片或品牌风格生成统一视觉;
  • 在生成图片前调整大纲、页面顺序和单页内容;
  • 批量生成最多 25 页的图文素材。

RedInk 的输入阶段主要收集主题、参考图和风格要求。比如用户可以输入“秋季显白美甲”,再上传自己的小红书主页截图,让生成结果尽量贴近已有账号风格。

RedInk 输入主题和参考图

输入页的关键不是复杂参数,而是把创作需求收敛成几个核心字段:主题决定内容方向,参考图决定视觉风格,补充说明负责约束语气、版式或人群。这样可以降低普通创作者使用 AI 的门槛,不需要直接编写很长的图像提示词。

生成任务不会立刻跳到出图。RedInk 会先产出每一页的大纲,让用户在正式生成图片前调整内容结构。

RedInk 生成并编辑多页大纲

这个设计很重要。多页图文如果直接一次性生成,用户发现第 3 页逻辑不对、第 5 页文字太多,就只能重新生成,成本和等待时间都会增加。先生成大纲,再允许用户编辑页面顺序和内容,可以把错误拦在出图之前。

RedInk 的工作流可以理解成两个阶段:先让大语言模型规划内容,再让图像模型生成页面。

sequenceDiagram
    participant U as 用户
    participant FE as Vue 前端
    participant API as Flask 后端
    participant LLM as Gemini 3
    participant IMG as Nano Banana Pro

    U->>FE: 输入主题并上传参考图
    FE->>API: 提交创作请求
    API->>LLM: 生成封面标题和多页大纲
    LLM-->>API: 返回页面结构
    API-->>FE: 返回可编辑大纲
    U->>FE: 调整顺序和单页内容
    FE->>API: 提交最终页面配置
    API->>IMG: 并发生成封面和正文页面
    IMG-->>API: 返回图片结果
    API-->>FE: 展示完整图文

技术栈分为前后端两部分:

层级技术
后端Python 3.11+、Flask
文案生成Google Gemini 3
图片生成Nano Banana Pro
前端Vue 3、TypeScript、Vite
状态管理Pinia
部署支持 Docker

整体架构可以抽象成这样:

flowchart LR
    A[用户输入主题和参考图] --> B[Vue 3 前端]
    B --> C[Flask API]
    C --> D[Gemini 3 生成文案和大纲]
    D --> C
    C --> E[Nano Banana Pro 生成图片]
    E --> C
    C --> F[返回封面和多页正文]
    F --> B

这种架构的好处是职责清晰:前端负责交互和编辑,后端负责模型调用和任务编排,Gemini 负责文字规划,Nano Banana Pro 负责视觉生成。对内容生产工具来说,这种“先规划,再生成”的流程通常比“一步到位”更容易控制质量。

开源地址:

https://github.com/HisMax/RedInk

SelfieAt:上传自拍,把人放进指定地点

SelfieAt 是一个基于 Nano Banana Pro 的自拍场景迁移应用。用户上传一张自拍,或者直接通过摄像头拍摄,再输入世界上的任意地点,系统会生成一张用户自然出现在目标场景中的图片。

它解决的是一个非常具体的图片生成需求:保留人物身份特征,同时替换环境。

SelfieAt 自拍场景迁移界面

这个界面体现了 SelfieAt 的主要交互方式:用户提供自拍作为身份参考,再输入地点作为场景约束,应用负责把这两个输入组合成最终图片。它还支持同时生成多个地点变体,并为结果增加动效展示和水印处理。

从技术上看,SelfieAt 更接近一个完整的 Web AI 应用,而不是单纯的模型调用示例。它包含前端界面、后端代理和模型服务调用。

模块技术
前端框架React 19
开发语言TypeScript
构建工具Vite 7
样式方案Tailwind CSS 4
后端代理Express
模型调用@fal-ai/client
图像能力Nano Banana Pro

调用流程可以这样理解:

sequenceDiagram
    participant U as 用户
    participant Web as React 前端
    participant Server as Express API 代理
    participant Fal as fal.ai Client
    participant Model as Nano Banana Pro

    U->>Web: 上传自拍或使用摄像头拍摄
    U->>Web: 输入目标地点
    Web->>Server: 提交图片和地点提示
    Server->>Fal: 使用服务端密钥调用模型
    Fal->>Model: 发送生成请求
    Model-->>Fal: 返回生成结果
    Fal-->>Server: 返回图片数据
    Server-->>Web: 返回结果图片
    Web-->>U: 展示图片、动效和水印

Express 代理在这里很关键。浏览器端不能直接暴露模型服务密钥,否则任何打开网页的人都可能拿到密钥并滥用接口。把模型调用放在后端代理里,可以把密钥留在服务端,同时由后端统一处理请求参数、错误重试、限流和结果返回。

SelfieAt 适合用来学习两类能力:

  1. 图片应用的前端交互
    包括上传图片、摄像头输入、生成状态展示、多结果预览、动效和水印。

  2. AI 服务的安全调用方式
    模型密钥放在服务端,由 Express 代理转发请求,前端只和自己的 API 通信。

开源地址:

https://github.com/amrrs/selfieat-nanobanana-pro

三个项目分别适合什么场景

这 3 个项目不是同一种工具,选择时要看目标是学习提示词、生产内容,还是开发应用。

需求更适合的项目原因
想学习 Nano Banana Pro 的提示词写法Awesome Nano Banana Pro案例多,能直接对照提示词和生成效果
想快速制作小红书多页图文RedInk已经把选题、大纲、封面、正文页串成完整流程
想开发自拍换场景类 AI 应用SelfieAt前端、后端代理、模型调用链路都比较完整
想研究 LLM + 图像模型协作RedInkGemini 负责内容规划,Nano Banana Pro 负责出图
想研究浏览器端图片上传和服务端安全代理SelfieAtReact 前端配合 Express API 代理,适合参考工程结构
想找电商、设计、社媒素材 promptAwesome Nano Banana Pro资源库覆盖的图片场景更广

也可以把它们组合起来使用:

flowchart LR
    A[Awesome Nano Banana Pro] -->|沉淀提示词模式| B[RedInk]
    A -->|参考场景提示| C[SelfieAt]
    B -->|内容生产工作流| D[社交媒体图文]
    C -->|场景迁移能力| E[个性化图片应用]

Awesome Nano Banana Pro 提供提示词灵感,RedInk 展示了图文内容生产流程,SelfieAt 展示了用户上传图片后如何接入模型生成结果。对开发者来说,它们对应的不是三个孤立项目,而是 AI 图像应用从案例积累到产品化封装的三种层级。

使用这类项目时需要注意的几个问题

1. 先编辑大纲,再生成图片

图像生成通常比文本生成更慢,也更消耗额度。像 RedInk 这种多页图文工具,先生成大纲、允许用户修改,再并发生成页面,是更稳妥的设计。否则一旦文案结构错了,后面的图片也会一起浪费。

2. API 密钥不要放进前端

SelfieAt 使用 Express 作为 API 代理,这个设计很适合参考。只要项目需要调用付费模型服务,就应该把密钥放在服务端,通过后端接口转发请求。前端可以提交图片、提示词和地点,但不应该知道真实的模型服务密钥。

3. 参考图会影响隐私边界

RedInk 支持上传主页截图来保持风格,SelfieAt 支持上传自拍。只要涉及用户图片,就要考虑存储、传输和删除策略。即使是个人部署,也不建议长期保留用户上传的原始图片。

4. 多图并发要控制成本

RedInk 支持最多 25 页并发生成,SelfieAt 支持多个地点变体。并发能减少等待时间,但也会让模型调用量快速增加。实际部署时可以增加队列、限流或单用户生成上限,避免一次请求占满资源。

5. 提示词库不是最终产品,但能显著降低试错成本

Awesome Nano Banana Pro 这类资源库适合放在工作流前面,用来建立提示词模板。真正做产品时,还需要把提示词包装成表单、参数和可控选项,让普通用户不必直接面对复杂 prompt。


评论