大模型 Token 与分词器:从切分规则到计费成本

Token 是大模型处理文本的基本单位,但它不等于字、词或字符。这里从分词器、Token 词表、上下文窗口和 API 计费几个角度讲清 Token 的工作方式,以及如何在实际使用中估算和减少 Token 消耗。

发布于 2025-11-28

Agent 开发中 Completion 接口与 Chat Completion 的 KV 缓存取舍

Agent 的多轮推理、工具调用和长上下文会反复提交大量相同前缀,KV Cache 复用直接影响延迟和成本。这里从 token 序列、Chat Template 和 Prefix Caching 的角度,讲清 Completion 与 Chat Completion 在控制权上的差异,以及如何设计更容易命中缓存的 Agent Prompt。

发布于 2025-11-27

Nano Banana Pro 提示词写法:用场景描述替代关键词堆砌

Nano Banana Pro 生成图片时,提示词不能只堆关键词,而要把画面讲成一个具体场景。通过主体、环境、光线、构图、材质、风格和用途约束,可以让人工智能更稳定地生成 PPT 封面、知识卡片和壁纸等视觉内容。

发布于 2025-11-25

用 deepagents 构建长任务 Agent:规划、文件系统、子 Agent 与 Milvus 记忆

deepagents 是 LangChain 面向长周期任务推出的 Agent 框架,核心能力包括任务规划、文件系统访问和子 Agent 委托。通过 CompositeBackend 与 Milvus 结合,可以把临时工作区和跨会话长期记忆分开管理,减少上下文膨胀带来的成本和失控问题。

发布于 2025-11-25

Gemini 3 多模态任务实战:提示词模板、工作流与评估方法

围绕 Gemini 3 的多模态理解、长上下文处理、代码生成和工具调用,整理一套可复用的任务拆解方法、提示词模板和评估清单,帮助把模型能力落到可验证的业务流程里。

发布于 2025-11-20

程序员高频 AI Prompt 模板:把一句“帮我看看”改成可执行需求

程序员使用 AI 编程助手时,常见问题不是不会问,而是问题缺少上下文、目标和约束。这里用调试、代码解释、重构、代码审查、单元测试等场景,讲清楚如何写出能直接产出可用结果的 Prompt。

发布于 2025-11-19

UltraRAG:基于 MCP 和 YAML 配置的 RAG 框架实践

UltraRAG 把检索、生成、评估等 RAG 组件封装成独立的 MCP Server,再用 YAML 配置组织 Pipeline。它适合快速搭建可复现的 RAG 实验流程,尤其适合需要处理 PDF、图表、表格和多格式文档的知识问答场景。

发布于 2025-11-19

LangChain 大模型应用开发框架核心组件详解

LangChain 将提示词、模型调用、输出解析、链式编排、记忆、工具、智能体和检索封装成可组合组件。围绕这些组件讲清大模型应用从简单调用到 RAG 和 Agent 的实现方式、适用场景与常见坑。

发布于 2025-11-19

ReAct 与 Reflexion:让 LLM Agent 会推理、会行动、会复盘

大语言模型在复杂任务中容易遇到幻觉、信息过期、规划不足和错误传播问题。ReAct 通过“推理 + 行动 + 观察”让模型调用外部工具完成多步任务,Reflexion 再加入评估、反思和记忆,让 Agent 能从失败轨迹中改进下一次尝试。

发布于 2025-11-18

AI 工程核心概念:训练、推理、Transformer 与性能优化

围绕 AI 工程中最常见的训练、推理、Transformer 架构和性能优化手段展开,讲清模型从数据到服务的完整链路,以及并行、量化、蒸馏、缓存等方案分别解决什么问题。

发布于 2025-11-13