Claude Code 可以通过周边工具扩展出用量监控、多智能体协作和图形化聊天能力。这里拆解 Claude Code Usage Monitor、Claude-Flow 和 claude-code-chat 的功能定位、适用场景、安装方式与使用注意点。
Nano Banana 可以把图像生成和图像编辑能力接入到 Web 工具中。这里讲解 Nano Bananary 和 BananaFace 两个开源项目的功能定位、工作方式、适用场景,以及 BananaFace 的本地运行步骤。
出国点餐不是简单把菜单翻译成中文,而是要识别菜品、解释口味、规避过敏食材,并生成可直接给服务员看的点单内容。围绕一个 AI 点餐助手,系统拆解多模态识别、结构化菜单、个性化推荐、语音下单和实时对话翻译的产品与工程设计。
大模型 Agentic 推理框架把 LLM 组织成能规划、执行、调用工具、反思和协作的智能体系统。围绕单智能体、工具增强智能体、多智能体三层结构,讲清核心机制、典型架构、应用场景、评测方法和落地风险。
GraphRAG 把文档切块后抽取实体、关系和声明,构建知识图并用社区检测生成分层摘要,再通过 Map-Reduce 回答面向整个语料库的问题。内容涵盖简单 RAG 的局限、索引流程、查询流程、评估结果和落地注意事项。
PaddleOCR 3.x 不只是文字识别工具,还覆盖多语种 OCR、复杂文档解析、关键信息抽取和服务化部署。围绕 PP-OCRv5、PP-StructureV3、PP-ChatOCRv4,可以构建从图片、PDF 到 Markdown、结构化字段的完整文档处理链路。
通义体系不只是聊天模型,而是由基础模型、多模态模型、模型服务平台和业务应用组成的一套能力栈。系统拆解 Qwen、DashScope、RAG 和智能体在企业应用中的分工,并给出 API 调用与落地注意事项。
Deep Research 是一种面向开放研究任务的智能体系统,核心能力是自主规划、生成检索问题、探索网页并产出带证据的报告。围绕系统架构、数据构造、奖励设计和强化学习训练流程,梳理从原型实现到可靠性优化的关键技术。
围绕 Claude Code 风格的代码智能体,讲清如何用 LangGraph 从基础 ReAct Agent 扩展出人工确认、检查点恢复、SubAgent、Todo 任务跟踪、上下文压缩和实时中断恢复能力。