RAG 系统跑通 Demo 并不难,难点在于把知识库问答调到生产可用。核心问题集中在文档预处理、检索质量调优和效果评估三层,每一层都会直接影响最终回答质量。
围绕淘宝闪购 AI 工程岗终面常见问题,系统拆解 RAG、Embedding、相似度计算、Prompt 注入防护、Agent 演进、文件上传、权限过滤和 AI Coding 等核心知识点,帮助把 AI 项目讲得完整、可信、可落地。
Claude Code 和 Codex 在代码搜索中都选择了零索引路线:不用 embedding,不建向量库,而是让 LLM 驱动 ripgrep 多轮搜索。围绕工具调用循环、ripgrep 性能、Cursor 对比和 token 成本,讲清这种架构为什么在本地代码库里成立。
RAG 系统的回答质量很大程度取决于检索链路。围绕索引层、查询层、召回层和重排序层,讲清 Parent-Child Chunking、Query 改写、多路召回、RRF 融合和 Rerank 精排的原理、组合方式与取舍。
Hermes Agent 原生记忆容易出现重复、过期和关键词检索失效的问题。MemOS 本地记忆插件通过语义分片、摘要、向量化、智能去重和混合检索,把长期对话整理成可更新、可检索的本地记忆,并提供技能评估、多 Agent 协同和 Web 管理面板。
RAG 系统做文档切割时,固定长度分块容易把完整语义拆散,导致向量检索召回失败。这里系统讲解重叠切割、语义边界切割、句子窗口检索、父子切割、命题化切割和 Contextual Retrieval 的原理、实现方式与选型取舍。
大语言模型本身没有运行时状态,AI Agent 必须在模型外设计记忆系统。围绕 OpenClaw、Claude Code 和 Hermes Agent,拆解文件记忆、上下文工程、情景记忆三种架构路线的机制、适用场景和代价。
RAG 系统中,向量召回只能快速找到话题相近的候选内容,不能保证文档真正回答问题。围绕 Bi-Encoder、Cross-Encoder、级联检索、阈值过滤和领域微调,讲清 Rerank 如何减少噪声上下文和幻觉回答。
OpenViking 是面向 AI Agent 的上下文数据库,用虚拟文件系统统一管理资源、用户记忆、Agent 技能和任务经验。它通过分层上下文加载、目录递归检索和自动记忆提取,降低长任务中的 Token 成本,并让检索链路更可观察。