DeepSeek-V4 把上下文窗口扩展到 1M token,同时通过 mHC 残差连接、CSA/HCA 混合稀疏注意力、Muon 优化器、FP4 量化感知训练和 KV Cache 重构解决长上下文带来的计算、显存和训练稳定性问题。
AI Infra(人工智能基础设施)的优化重点正在从单纯堆硬件,转向模型、系统、网络、编译器和运行时的协同设计。围绕分布式推理、Tile 编程、RL 训推分离、模型系统协同、Agent Infra 和超节点硬件六个方向,梳理大模型训练与推理基础设施的核心机制。