DeepSeek-V4 把上下文窗口扩展到 1M token,同时通过 mHC 残差连接、CSA/HCA 混合稀疏注意力、Muon 优化器、FP4 量化感知训练和 KV Cache 重构解决长上下文带来的计算、显存和训练稳定性问题。
AI 租赁导购需要理解复杂需求、稳定调用商品搜索和知识检索等工具,并把工具结果组织成可信回答。围绕 One-Model + Tool-Use 架构、多阶段强化学习、差异化 GSPO 裁剪以及 MoE 训练推理优化,讲清一套可落地的训练与工程方案。
AI Infra(人工智能基础设施)的优化重点正在从单纯堆硬件,转向模型、系统、网络、编译器和运行时的协同设计。围绕分布式推理、Tile 编程、RL 训推分离、模型系统协同、Agent Infra 和超节点硬件六个方向,梳理大模型训练与推理基础设施的核心机制。