News
DeepSeek-V3.2-Exp发布,有哪些新变化?
今天,DeepSeek 突然发布新版本模型 DeepSeek-V3.2-Exp,PPIO 已经首发上线! DeepSeek-V3.2-Exp 是 DeepSeek 新模型的实验版本,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 “DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention)”,旨在探索和验证在长上下文场景下训练和推理效率的优化。 该实验版本代表了 DeepSeek 对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。 1. DeepSeek 稀疏注意力首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。DeepSeek-V3.2-Exp 支持 160K 上下文。 2. 为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。