Token 是大模型处理文本的基本单位,但它不等于字、词或字符。这里从分词器、Token 词表、上下文窗口和 API 计费几个角度讲清 Token 的工作方式,以及如何在实际使用中估算和减少 Token 消耗。
Agent 的多轮推理、工具调用和长上下文会反复提交大量相同前缀,KV Cache 复用直接影响延迟和成本。这里从 token 序列、Chat Template 和 Prefix Caching 的角度,讲清 Completion 与 Chat Completion 在控制权上的差异,以及如何设计更容易命中缓存的 Agent Prompt。
Nano Banana Pro 生成图片时,提示词不能只堆关键词,而要把画面讲成一个具体场景。通过主体、环境、光线、构图、材质、风格和用途约束,可以让人工智能更稳定地生成 PPT 封面、知识卡片和壁纸等视觉内容。
deepagents 是 LangChain 面向长周期任务推出的 Agent 框架,核心能力包括任务规划、文件系统访问和子 Agent 委托。通过 CompositeBackend 与 Milvus 结合,可以把临时工作区和跨会话长期记忆分开管理,减少上下文膨胀带来的成本和失控问题。
LangChain 将提示词、模型调用、输出解析、链式编排、记忆、工具、智能体和检索封装成可组合组件。围绕这些组件讲清大模型应用从简单调用到 RAG 和 Agent 的实现方式、适用场景与常见坑。
大语言模型在复杂任务中容易遇到幻觉、信息过期、规划不足和错误传播问题。ReAct 通过“推理 + 行动 + 观察”让模型调用外部工具完成多步任务,Reflexion 再加入评估、反思和记忆,让 Agent 能从失败轨迹中改进下一次尝试。
围绕 AI 工程中最常见的训练、推理、Transformer 架构和性能优化手段展开,讲清模型从数据到服务的完整链路,以及并行、量化、蒸馏、缓存等方案分别解决什么问题。