Agent 的多轮推理、工具调用和长上下文会反复提交大量相同前缀,KV Cache 复用直接影响延迟和成本。这里从 token 序列、Chat Template 和 Prefix Caching 的角度,讲清 Completion 与 Chat Completion 在控制权上的差异,以及如何设计更容易命中缓存的 Agent Prompt。