vLLM 是面向大语言模型推理的高吞吐服务框架。围绕一次请求从进入系统到流式输出的完整路径,讲清 Prefill、Decode、KV Cache、PagedAttention、连续批处理和调度器之间的关系。
DeepSeek-V4 把上下文窗口扩展到 1M token,同时通过 mHC 残差连接、CSA/HCA 混合稀疏注意力、Muon 优化器、FP4 量化感知训练和 KV Cache 重构解决长上下文带来的计算、显存和训练稳定性问题。
KV Cache 通过复用已经计算过的 Key 和 Value,避免大模型生成时反复处理历史 token。内容覆盖自注意力计算、prefill 和 decode 两个阶段、复杂度变化、显存开销公式、Hugging Face 使用方法以及常见优化方向。
AI Coding 真正的瓶颈不只是生成代码,而是测试、验证、排障、交付等非编码流程。围绕 Harness Engineering,系统讲清大模型推理限制、上下文治理、工具设计、多智能体协作和端到端闭环交付的方法。
OpenClaw 为长会话 AI Agent 设计了多层上下文管理机制:调用前裁剪、LLM 摘要压缩、溢出后恢复,以及对 Provider Prompt Caching 成本的兼容。适合用来理解 Agent 如何在效果、稳定性和调用成本之间做取舍。
Prompt 重复指把同一个问题在输入中连续放两遍,让非推理大模型在第二遍处理问题时能利用第一遍提供的完整上下文。围绕实验结果、因果语言模型机制、适用场景和使用模板,讲清这种看似简单的技巧为什么可能提升准确率。
Agent 的多轮推理、工具调用和长上下文会反复提交大量相同前缀,KV Cache 复用直接影响延迟和成本。这里从 token 序列、Chat Template 和 Prefix Caching 的角度,讲清 Completion 与 Chat Completion 在控制权上的差异,以及如何设计更容易命中缓存的 Agent Prompt。
围绕 AI 工程中最常见的训练、推理、Transformer 架构和性能优化手段展开,讲清模型从数据到服务的完整链路,以及并行、量化、蒸馏、缓存等方案分别解决什么问题。
Context Engineering 关注在调用大语言模型前,如何把指令、知识、工具结果和记忆组织进有限上下文窗口。围绕 LLM OS 类比、上下文失败模式、记忆分类和工程实践,系统讲清 LLM 应用为什么不能只靠提示词。