KV Cache 通过复用已经计算过的 Key 和 Value,避免大模型生成时反复处理历史 token。内容覆盖自注意力计算、prefill 和 decode 两个阶段、复杂度变化、显存开销公式、Hugging Face 使用方法以及常见优化方向。
Prompt 重复指把同一个问题在输入中连续放两遍,让非推理大模型在第二遍处理问题时能利用第一遍提供的完整上下文。围绕实验结果、因果语言模型机制、适用场景和使用模板,讲清这种看似简单的技巧为什么可能提升准确率。
X 平台开源的新推荐系统把排序核心转向 Transformer 模型,通过 Thunder、Phoenix 两条候选来源生成信息流,再用多行为概率加权打分。梳理候选召回、排序、过滤、多样性和 OON 调分等关键机制。
解释大语言模型如何把提示词、历史对话和用户问题转成 token 与向量,经过 Transformer、自注意力和位置编码完成上下文建模,再通过概率采样逐 token 生成回答,并给出上下文控制、多 Agent 拆分等工程实践建议。
围绕 AI 工程中最常见的训练、推理、Transformer 架构和性能优化手段展开,讲清模型从数据到服务的完整链路,以及并行、量化、蒸馏、缓存等方案分别解决什么问题。
FireRedTTS-2 面向播客、语音助手等多说话人场景,解决逐句生成、说话人稳定、韵律连贯和流式起播问题。内容拆解 12.5Hz 离散语音编码器、文本语音混排建模、双 Transformer 架构和评测指标。