解释大语言模型如何把提示词、历史对话和用户问题转成 token 与向量,经过 Transformer、自注意力和位置编码完成上下文建模,再通过概率采样逐 token 生成回答,并给出上下文控制、多 Agent 拆分等工程实践建议。
Claude 的 Agent 能力可以按连接层、认知层和组织层理解:MCP 负责连接外部系统,PTC 用程序批量编排工具调用,Skills 按需注入专业知识,Subagents 把复杂任务拆给多个专门智能体处理。
MCP(模型上下文协议)用于统一 Agent 与外部工具之间的通信。围绕 MCP 的三类角色、SSE 与 JSON-RPC 2.0、初始化握手、工具列表和工具调用流程,使用 Spring Boot WebFlux 实现一个可运行的 MCP Server。
Agent 的多轮推理、工具调用和长上下文会反复提交大量相同前缀,KV Cache 复用直接影响延迟和成本。这里从 token 序列、Chat Template 和 Prefix Caching 的角度,讲清 Completion 与 Chat Completion 在控制权上的差异,以及如何设计更容易命中缓存的 Agent Prompt。
deepagents 是 LangChain 面向长周期任务推出的 Agent 框架,核心能力包括任务规划、文件系统访问和子 Agent 委托。通过 CompositeBackend 与 Milvus 结合,可以把临时工作区和跨会话长期记忆分开管理,减少上下文膨胀带来的成本和失控问题。
LangChain 将提示词、模型调用、输出解析、链式编排、记忆、工具、智能体和检索封装成可组合组件。围绕这些组件讲清大模型应用从简单调用到 RAG 和 Agent 的实现方式、适用场景与常见坑。
大语言模型在复杂任务中容易遇到幻觉、信息过期、规划不足和错误传播问题。ReAct 通过“推理 + 行动 + 观察”让模型调用外部工具完成多步任务,Reflexion 再加入评估、反思和记忆,让 Agent 能从失败轨迹中改进下一次尝试。
opcode 是一个面向 Claude Code 的桌面图形化工具,用来集中管理 AI 编程项目、会话历史、任务型 Agent 和使用成本。它不替代 Claude Code,而是在命令行能力之上提供更直观的项目控制台。
Context Engineering 关注在调用大语言模型前,如何把指令、知识、工具结果和记忆组织进有限上下文窗口。围绕 LLM OS 类比、上下文失败模式、记忆分类和工程实践,系统讲清 LLM 应用为什么不能只靠提示词。