PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

开源周内传来新消息,DeepSeek 正式发布了 DeepGEMM 开源库。

这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库,特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。

DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100,H200,H800)进行了深度优化。

主要特点是代码简洁(核心部分仅300行左右)但性能出色,在各种矩阵形状下都能够媲美甚至超越专家调优的库。

作为一家专注于提供高性能 AI 计算服务的云平台,PPIO派欧云已经部署了大量 MoE FP8 量化模型(例如 DeepSeek FP8 版本)。

为了更好地利用 DeepGEMM 技术,提升这类模型的推理效率,PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。

在了解具体测试数据之前,我们先来熟悉一些相关的基础概念。


什么是 GEMM?

GEMM (General Matrix Multiplication) 是深度学习中最基础、最重要的计算算子,GEMM 优化是高性能AI计算的核心。

DeepGEMM 是一个专为加速深度学习中关键 GEMM 运算而设计的开源库,通过提高 GEMM 计算效率,直接提升整个 AI 系统的性能表现。

DeepGEMM 的独特优势

与 CUTLASS 和 CuTe 这类成熟的模板库相比,DeepGEMM 采取了轻量级设计路线:它并非追求广泛兼容所有 GPU 和计算场景,而是专注于充分发挥 Hopper 架构的 FP8 计算能力,特别针对 DeepSeek R1 和 V3 等大模型常见的矩阵形状进行了精细优化。

DeepGEMM 的技术创新

DeepGEMM 通过以下四项核心技术创新实现了性能突破:

  • 即时编译技术 ( JIT )

传统方法需要预先编译 CUDA 代码再进行调用,而 DeepGEMM 引入的 JIT 技术将编译过程隐藏在运行时,无需手动编译。

开发者无需创建复杂的 Python 接口,简化了开发流程,仅需几行代码即可实现功能。

  • 计算与传输重叠优化

DeepGEMM 通过同时进行数据传输和计算操作,充分利用了 Hopper 架构 TMA ( Tensor Memory Accelerator ) 特性,进一步优化了数据传输效率。同时,DeepGEMM 使用底层 PTX 指令,实现极致性能。

  • 任意矩阵尺寸支持

传统 GEMM 实现要求矩阵尺寸为 2 的幂次(如128、256),而 DeepGEMM 支持非对齐块大小的矩阵。这一特性避免了内存浪费,提高整体计算效率。

  • FFMA SASS 指令级优化

通过修改 FFMA 指令的 yield 和 reuse 位,创建更多重叠 MMA 指令与 promotion FFMA 指令的机会,即使对底层理解有限也能在某些场景获得 10% 以上性能提升。


DeepSeek 官方测试:DeepGEMM 加速比

根据 DeepSeek 官方在 H800 GPU 上进行的全面测试,DeepGEMM 与经过优化的 CUTLASS 3.6 相比,在各种计算场景中均实现了明显的性能提升。以下是 DeepSeek-V3/R1 推理过程中的加速效果:

  • 稠密模型的常规 GEMM

在小矩阵计算方面,DeepGEMM 性能提升最为显著,最高可达到 2.7 倍的加速比率,极大地提高了小批量数据推理效率。

对于大矩阵计算任务,DeepGEMM 仍然能够稳定地提供约 1.2 倍的性能提升,保证了大规模矩阵运算的高效执行。

  • MoE 模型的分组 GEMM(使用连续存储布局)

连续存储布局主要应用于模型预填充 (Prefilling) 阶段,是处理长文本输入的关键环节。

测试结果表明,DeepGEMM 在这一场景下能够稳定实现约 1.2 倍的计算加速,有效缩短了模型响应时间。

  • MoE 模型的分组 GEMM(使用掩码存储布局)

掩码布局主要用于模型解码 (Decoding) 阶段,直接影响模型生成文本的速度。

在这一关键环节,DeepGEMM 同样实现了约 1.2倍的性能提升,使模型能够更快地完成单个 token 的生成过程。

PPIO 一手测评:DeepGEMM 通用性

在 MoE 模型的推理场景中,PPIO对 DeepGEMM 在 H100和 H200 两款 GPU 上的性能表现进行了详细测试,并与官方 H800 的测评数据进行了对比。

首先,我们整理了 H100、H200和H800 三款 GPU 中影响 DeepGEMM 性能的关键硬件参数:

以下是详细的评测结果:

  • MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充)

在使用连续存储布局的 MoE 网络中,H100/H200/H800(官方)的表现差异不大。

下图展现了显存带宽占用的对比测试,由于受限于计算瓶颈,且三款显卡在 FP8 算力上的差距不大,它们的性能表现没有显著差异。

下图为计算性能的对比图,由于未达到访存瓶颈,三款显卡在性能上并无明显差距。

  • MoE 模型的掩码存储布局分组 GEMM(推理解码)

在使用掩码存储布局的 MoE 网络中,H200 的性能表现相对最优,H100 与 H800 的差异非常小。

下图展现了显存带宽占用的对比测试。由于掩码存储布局比连续存储布局占用更多的显存带宽,部分情况已经达到了访存瓶颈,因而三款显卡的表现有所不同:

下图是计算性能的对比测试,展示了带宽带来的计算差异:

DeepGEMM 与 SGLang Triton 性能对比

目前,主流推理框架在 MoE 模块中使用的是基于 SGLang Triton 开发的分组 GEMM 算子。我们在 H200 硬件条件下对 DeepGEMM 和 SGLang Triton 进行了性能对比测试:

  • 对于 MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充),DeepGEMM 的优势更明显一点:
  • 对于 MoE 模型的掩码存储布局分组 GEMM(推理解码),可以看出 Triton 更具优势:

DeepGEMM 在连续存储布局中表现出一定的优势,但在掩码存储布局中,SGLang Triton 的性能更优。

目前,SGLang Triton 的部分算子主要应用于掩码存储场景,因此,DeepGEMM 需要进一步优化,才能在推理框架中替代 SGLang Triton。

总结

根据评测结果显示,DeepGEMM 在 H100、H200 和 H800 等多款 GPU 上均展现出显著的性能优化能力,体现了其良好的通用性。

对于运行在 Hopper 架构上的 MoE 系列模型(如DeepSeek V3和R1),通过对推理框架中的 MoE 模块进行集成优化,将原有的 CUTLASS 版本分组 GEMMs 替换为 DeepGEMM 实现,预计将为模型推理带来约 1.2 倍的加速效果,提升整体性能。

当前,DeepGEMM 还不能完全替代 SGLang Triton,仍需进一步优化以拓宽其应用范围。在推理解码环节,SGLang Triton 依然更为高效,而 DeepGEMM 在训练前向和推理预填充的环节更有优势。

Read more

PPIO获得量子位年度「杰出产品」「潜力创业公司」「焦点人物」三项AI大奖

PPIO获得量子位年度「杰出产品」「潜力创业公司」「焦点人物」三项AI大奖

12 月 10 日,由量子位主办的 MEET2026 智能未来大会在北京召开。会上,「2025 人工智能年度榜单」正式揭晓,该榜单从技术领先性、长期投入、产品落地能力与产业口碑等多维度综合评估,集中呈现了今年中国 AI 生态中最具代表性的创新力量。 PPIO 凭借扎实的技术底座与持续创新能力,一举获得「2025 人工智能年度潜力创业公司」「2025 人工智能年度杰出产品」「2025 人工智能年度焦点人物」三项重磅荣誉。 # 01 PPIO Agent沙箱入选 「2025人工智能年度杰出产品」 PPIO Agent沙箱与月之暗面 Kimi、Minimax Agent、智谱 Z.ai、字节跳动豆包和扣子、腾讯 ima.copilot、AWS Kiro等产品,一同入围「2025 人工智能年度杰出产品」。 今年,PPIO

By PPIO
首批试点!PPIO获评“数字企业出海服务平台”试点单位,助力数字出海服务体系建设

首批试点!PPIO获评“数字企业出海服务平台”试点单位,助力数字出海服务体系建设

12 月 6 日,2025 上海数字城市活动月主题日活动在黄浦江畔正式启幕。本次活动以‘数城新景 智呈未来’为主题,汇聚上海市数据局、临港集团、上海电信等政企代表及行业智库,集中发布数字出海服务体系重磅成果。作为中国领先的独立分布式云计算服务商,PPIO 受邀参展,并被授予“2025 年上海市数字出海服务平台”试点单位,标志着 PPIO 的跨境算力服务、数字出海技术支撑能力获官方认可。 今年以来,上海以数字出海服务体系建设为核心牵引,持续推动各类服务资源的互联互通与集约共享,全力打造国际数字贸易发展新高地。 在 2025 上海数字城市活动月主题日的数字企业出海服务论坛上,上海市数据局正式发布数字企业出海服务平台首批试点名单,历经申报筛选、专家评审、综合核验等多轮严格流程,PPIO 成功入选首批数字企业出海服务平台试点发布名单中。 这批试点单位覆盖跨境数据、合规咨询、数字营销、智能制造、跨境电商、内容平台等多个关键细分领域,形成了面向数字出海企业的首批专业服务供给矩阵。活动现场,上海市数据局为包括 PPIO 在内的32家试点单位颁发荣誉牌匾。平台试点的推出,

By PPIO
PPIO上线智谱AutoGLM-Phone-9B:快速体验Phone Agent

PPIO上线智谱AutoGLM-Phone-9B:快速体验Phone Agent

今天,智谱开源了 Phone Agent。 Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。 这不仅是一个模型,而是一整套可以「拿来就用」的能力,包括: * 训练好的核心模型; * Phone Use 能力框架与工具链; * 可直接跑通的 Demo,覆盖 50+ 高频中文 App; * 针对 Android 的适配层与示例工程; * 文档、快速上手指南。 今天,PPIO 独家上新 GPU 实例模板,可一键部署 Phone Agent 的底层模型 AutoGLM-Phone-9B。 基于该模型和框架,你可以搭建完整的 Phone Agent 应用,只需用自然语言描述需求,如“打开小红书搜索美食”,Phone

By PPIO