DeepSeek-V3.2-Exp发布,有哪些新变化?

DeepSeek-V3.2-Exp发布,有哪些新变化?

今天,DeepSeek 突然发布新版本模型 DeepSeek-V3.2-Exp,PPIO 已经首发上线!

DeepSeek-V3.2-Exp 是 DeepSeek 新模型的实验版本,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 “DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention)”,旨在探索和验证在长上下文场景下训练和推理效率的优化。

该实验版本代表了 DeepSeek 对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。

  1. DeepSeek 稀疏注意力首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。DeepSeek-V3.2-Exp 支持 160K 上下文。
  2. 为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。
  3. 基于新架构,DeepSeek-V3.2-Exp 也能在训练推理提效的同时实现 API 价格的大幅下降。PPIO 平台的定价为:每百万输入 tokens 2元,每百万输出 tokens 3元。

现在,你可以到 PPIO 官网(或点击文末阅读原文)在线体验 DeepSeek-V3.2-Exp ,或将模型 API 接入 Cherry Studio、ChatBox 或者你自己的 AI 工作流中。新用户填写邀请码【24CGOJ】注册可得 15 元代金券。

在线体验入口:
https://ppio.com/llm/deepseek-deepseek-v3.2-exp
开发者文档:
https://ppio.com/docs/model/overview

DeepSeek-V3.2 技术报告也已经发布,标题为《 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention》。感兴趣的开发者、用户可扫下方二维码下载,并加入开发者社群。

Read more

Qwen3.5重磅发布 PPIO 模型服务平台同步上线

Qwen3.5重磅发布 PPIO 模型服务平台同步上线

近日,阿里巴巴全新一代大模型千问 Qwen3.5 重磅开源发布,凭借突破性性能登顶全球最强开源模型榜单。 PPIO 模型服务平台在第一时间完成 Qwen3.5-Plus 与 Qwen3.5-397B-A17B 双版本的全面适配与上线,让企业与开发者无需等待,即可率先享受新一代多模态大模型的技术红利。 Qwen3.5 系列模型堪称 “性能与效率的完美平衡体”,总参数3970 亿,激活 170 亿参数即可运转,实现了 “以小胜大” 的技术突破 —— 性能全面超越万亿参数的 Qwen3-Max 模型,同时部署显存占用直降 60%,最大推理吞吐量提升至 19 倍。这一飞跃背后,是其融合线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)的创新架构。 作为原生视觉-语言模型,作为原生视觉-语言模型, Qwen3.5-Plus/Qwen3.5-397B-A17B在推理、

By PPIO
PPIO 上线 MiniMax M2.5:体验架构师级编程与高效 Agent 能力

PPIO 上线 MiniMax M2.5:体验架构师级编程与高效 Agent 能力

PPIO 上线了 MiniMax M2.5 模型。 MiniMax M2.5 是 MiniMax 发布的最新旗舰模型。据官方介绍,M2.5 在编程、工具调用、搜索及办公等生产力场景中均达到或刷新了行业的 SOTA(State-of-the-art)水平。该模型优化了对复杂任务的拆解能力,大幅提升了运行速度,并凭借极佳的 Token 效率,让无限运行复杂 Agent 在经济上成为可能。 现在,你可以到 PPIO 官网体验 MiniMax M2.5 或者调用模型 API。 地址: https://ppio.com/llm/minimax-minimax-m2.5 01 模型特征 * 架构师级编程思维,胜任全栈开发 MiniMax

By PPIO