归档

2025 年 09 月

VoxCPM 是清华大学与面壁智能开源的 0.5B 文本转语音模型,支持零样本语音克隆和流式输出。这里讲清它的能力、评测指标、模型结构、推理流程,以及如何安装、下载模型并用 Python 生成语音。
Qwen Code 是面向软件工程任务的命令行智能体工具。它通过系统 Prompt 约束模型行为,再结合文件读写、代码搜索、Shell、任务清单、MCP 等工具,让模型能够规划任务、修改代码、运行测试并根据反馈继续迭代。
DeepSeek-R1 展示了一条以强化学习激发大语言模型推理能力的路线:先让模型在可验证任务中试错,再通过多阶段训练改善可读性、通用能力和安全性。围绕 R1-Zero、GRPO、多阶段 pipeline、评测与同行评审,梳理这套方法为什么重要。
Mem0 可以为 AI Agent 提供跨会话的长期记忆能力,Milvus 负责持久化存储和检索语义向量。这里会讲清 Mem0 的记忆机制、它和 RAG 的区别,以及如何结合 DashScope、LangGraph、Milvus 和 Kuzu 构建带长期记忆与图谱记忆的 AI 应用。
豆包 Seedream 4.0 是字节跳动推出的一站式图像生成与编辑模型,支持文生图、图像编辑、多图融合、连续分镜和中文文字重绘。这里从能力边界、典型工作流、提示词写法和 API 接入方式几个角度讲清它适合解决哪些图像创作问题。
Claude Code 没有把预构建代码索引作为核心能力,而是更依赖 glob、grep 等实时搜索工具。围绕这个选择,可以理解无状态设计在可组合性、确定性、隐私和维护成本上的优势,以及它与向量索引、传统 IDE 索引各自适合的场景。
2000 万行并不是 MySQL 单表硬上限,而是基于 InnoDB 16KB 数据页、B+树高度和单行大小推导出来的经验值。理解数据页、聚簇索引和扇出之后,就能判断自己的表什么时候需要拆分或归档。
4 个开源项目覆盖本地 AI PPT 生成、个人知识库、自然语言生成 Next.js 应用和长篇多人语音合成。重点讲清每个工具解决的问题、工作方式、适合场景和上手路径。
系统提示词决定了 AI 助手的角色、边界、工具调用方式和安全约束。围绕公开收集的 ChatGPT、Claude、Gemini、Grok 等系统提示词样本,拆解模块化结构、边界控制、动态工具调用、人格配置和安全机制的设计方法。
用 Lovart 负责版式设计和批量编排,用 Nano Banana 负责生成背景、插画和视觉元素,可以把知识点批量做成统一风格的卡片海报。核心不是反复改图,而是先设计模板、结构化内容,再用稳定提示词生成一组可复用素材。