解释大语言模型如何把提示词、历史对话和用户问题转成 token 与向量,经过 Transformer、自注意力和位置编码完成上下文建模,再通过概率采样逐 token 生成回答,并给出上下文控制、多 Agent 拆分等工程实践建议。
Token 是大模型处理文本的基本单位,但它不等于字、词或字符。这里从分词器、Token 词表、上下文窗口和 API 计费几个角度讲清 Token 的工作方式,以及如何在实际使用中估算和减少 Token 消耗。
围绕 AI 工程中最常见的训练、推理、Transformer 架构和性能优化手段展开,讲清模型从数据到服务的完整链路,以及并行、量化、蒸馏、缓存等方案分别解决什么问题。
RAG 通过“先检索外部知识,再让大语言模型生成回答”的方式缓解幻觉、知识过期和私有数据接入问题。内容覆盖 RAG 的基础架构、常见故障、RAG-Fusion、多路检索、索引优化、安全防护和未来演进方向。
大语言模型默认生成自由文本,难以直接接入业务系统。围绕 Prompt 引导、验证修复、约束解码、监督式微调、强化学习和 API 原生结构化能力,讲清结构化输出的原理、实现方式、评估指标和选型思路。
大模型 Agentic 推理框架把 LLM 组织成能规划、执行、调用工具、反思和协作的智能体系统。围绕单智能体、工具增强智能体、多智能体三层结构,讲清核心机制、典型架构、应用场景、评测方法和落地风险。
Deep Research 是一种面向开放研究任务的智能体系统,核心能力是自主规划、生成检索问题、探索网页并产出带证据的报告。围绕系统架构、数据构造、奖励设计和强化学习训练流程,梳理从原型实现到可靠性优化的关键技术。
DeepSeek-R1 展示了一条以强化学习激发大语言模型推理能力的路线:先让模型在可验证任务中试错,再通过多阶段训练改善可读性、通用能力和安全性。围绕 R1-Zero、GRPO、多阶段 pipeline、评测与同行评审,梳理这套方法为什么重要。
系统提示词决定了 AI 助手的角色、边界、工具调用方式和安全约束。围绕公开收集的 ChatGPT、Claude、Gemini、Grok 等系统提示词样本,拆解模块化结构、边界控制、动态工具调用、人格配置和安全机制的设计方法。