用 Sora2 制作制造业企业宣传片的分镜与提示词工作流

企业宣传片不能只靠一句“电影级画面”生成,关键在于分镜拆分、视觉风格统一、旁白声线控制和后期拼接。围绕制造业企业宣传片,拆解一套适合 Sora2 的 1 分钟成片制作流程,并给出可直接改写的提示词模板。

发布于 2025-11-07

多模态大模型驱动的出国点餐助手:从菜单识别到语音下单的产品架构

出国点餐不是简单把菜单翻译成中文,而是要识别菜品、解释口味、规避过敏食材,并生成可直接给服务员看的点单内容。围绕一个 AI 点餐助手,系统拆解多模态识别、结构化菜单、个性化推荐、语音下单和实时对话翻译的产品与工程设计。

发布于 2025-10-04

5 个实用 GitHub 开源工具:视频翻译、视频超分、PDF 处理与 WebRTC 文件传输

5 个 GitHub 开源工具覆盖跨语言视频制作、视频超分辨率、PDF 编辑、点对点文件传输和视频转录摘要等场景。每个工具都从解决的问题、核心功能、适用场景和上手方式讲清楚,方便按需求选型。

发布于 2025-10-02

FireRedTTS-2:面向多说话人对话的 TTS 架构解析

FireRedTTS-2 面向播客、语音助手等多说话人场景,解决逐句生成、说话人稳定、韵律连贯和流式起播问题。内容拆解 12.5Hz 离散语音编码器、文本语音混排建模、双 Transformer 架构和评测指标。

发布于 2025-09-19

用豆包 Seedream 4.0 生成知识卡片:6 种风格模板和提示词写法

知识卡片生成的关键不只是让 AI 画得好看,而是把知识结构、视觉层级、配色、字体和比例写进提示词。这里用 6 种常见风格拆解 Seedream 4.0 生成知识卡片的提示词写法,并给出可直接改写的模板。

发布于 2025-09-18

AI 生成网页为什么总爱用蓝紫渐变

AI 生成网页常把按钮、卡片和背景做成蓝紫渐变,背后通常是训练语料中的高频样式、框架默认值和开源模板共同作用。围绕 Tailwind CSS 的 indigo-500、设计路径依赖和提示词约束,讲清如何把生成结果从默认审美里拉出来。

发布于 2025-09-02

用 Nano Banana 修复老照片的提示词写法与多轮优化流程

Nano Banana 修复老照片时,提示词需要同时约束修复范围、人物真实性和风格边界。这里拆解基础修复、深度去污、复古质感保留、黑白照片上色和多轮优化的提示词写法,并给出可直接复用的模板。

发布于 2025-09-02