PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

开源周内传来新消息,DeepSeek 正式发布了 DeepGEMM 开源库。

这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库,特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。

DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100,H200,H800)进行了深度优化。

主要特点是代码简洁(核心部分仅300行左右)但性能出色,在各种矩阵形状下都能够媲美甚至超越专家调优的库。

作为一家专注于提供高性能 AI 计算服务的云平台,PPIO派欧云已经部署了大量 MoE FP8 量化模型(例如 DeepSeek FP8 版本)。

为了更好地利用 DeepGEMM 技术,提升这类模型的推理效率,PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。

在了解具体测试数据之前,我们先来熟悉一些相关的基础概念。


什么是 GEMM?

GEMM (General Matrix Multiplication) 是深度学习中最基础、最重要的计算算子,GEMM 优化是高性能AI计算的核心。

DeepGEMM 是一个专为加速深度学习中关键 GEMM 运算而设计的开源库,通过提高 GEMM 计算效率,直接提升整个 AI 系统的性能表现。

DeepGEMM 的独特优势

与 CUTLASS 和 CuTe 这类成熟的模板库相比,DeepGEMM 采取了轻量级设计路线:它并非追求广泛兼容所有 GPU 和计算场景,而是专注于充分发挥 Hopper 架构的 FP8 计算能力,特别针对 DeepSeek R1 和 V3 等大模型常见的矩阵形状进行了精细优化。

DeepGEMM 的技术创新

DeepGEMM 通过以下四项核心技术创新实现了性能突破:

  • 即时编译技术 ( JIT )

传统方法需要预先编译 CUDA 代码再进行调用,而 DeepGEMM 引入的 JIT 技术将编译过程隐藏在运行时,无需手动编译。

开发者无需创建复杂的 Python 接口,简化了开发流程,仅需几行代码即可实现功能。

  • 计算与传输重叠优化

DeepGEMM 通过同时进行数据传输和计算操作,充分利用了 Hopper 架构 TMA ( Tensor Memory Accelerator ) 特性,进一步优化了数据传输效率。同时,DeepGEMM 使用底层 PTX 指令,实现极致性能。

  • 任意矩阵尺寸支持

传统 GEMM 实现要求矩阵尺寸为 2 的幂次(如128、256),而 DeepGEMM 支持非对齐块大小的矩阵。这一特性避免了内存浪费,提高整体计算效率。

  • FFMA SASS 指令级优化

通过修改 FFMA 指令的 yield 和 reuse 位,创建更多重叠 MMA 指令与 promotion FFMA 指令的机会,即使对底层理解有限也能在某些场景获得 10% 以上性能提升。


DeepSeek 官方测试:DeepGEMM 加速比

根据 DeepSeek 官方在 H800 GPU 上进行的全面测试,DeepGEMM 与经过优化的 CUTLASS 3.6 相比,在各种计算场景中均实现了明显的性能提升。以下是 DeepSeek-V3/R1 推理过程中的加速效果:

  • 稠密模型的常规 GEMM

在小矩阵计算方面,DeepGEMM 性能提升最为显著,最高可达到 2.7 倍的加速比率,极大地提高了小批量数据推理效率。

对于大矩阵计算任务,DeepGEMM 仍然能够稳定地提供约 1.2 倍的性能提升,保证了大规模矩阵运算的高效执行。

  • MoE 模型的分组 GEMM(使用连续存储布局)

连续存储布局主要应用于模型预填充 (Prefilling) 阶段,是处理长文本输入的关键环节。

测试结果表明,DeepGEMM 在这一场景下能够稳定实现约 1.2 倍的计算加速,有效缩短了模型响应时间。

  • MoE 模型的分组 GEMM(使用掩码存储布局)

掩码布局主要用于模型解码 (Decoding) 阶段,直接影响模型生成文本的速度。

在这一关键环节,DeepGEMM 同样实现了约 1.2倍的性能提升,使模型能够更快地完成单个 token 的生成过程。

PPIO 一手测评:DeepGEMM 通用性

在 MoE 模型的推理场景中,PPIO对 DeepGEMM 在 H100和 H200 两款 GPU 上的性能表现进行了详细测试,并与官方 H800 的测评数据进行了对比。

首先,我们整理了 H100、H200和H800 三款 GPU 中影响 DeepGEMM 性能的关键硬件参数:

以下是详细的评测结果:

  • MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充)

在使用连续存储布局的 MoE 网络中,H100/H200/H800(官方)的表现差异不大。

下图展现了显存带宽占用的对比测试,由于受限于计算瓶颈,且三款显卡在 FP8 算力上的差距不大,它们的性能表现没有显著差异。

下图为计算性能的对比图,由于未达到访存瓶颈,三款显卡在性能上并无明显差距。

  • MoE 模型的掩码存储布局分组 GEMM(推理解码)

在使用掩码存储布局的 MoE 网络中,H200 的性能表现相对最优,H100 与 H800 的差异非常小。

下图展现了显存带宽占用的对比测试。由于掩码存储布局比连续存储布局占用更多的显存带宽,部分情况已经达到了访存瓶颈,因而三款显卡的表现有所不同:

下图是计算性能的对比测试,展示了带宽带来的计算差异:

DeepGEMM 与 SGLang Triton 性能对比

目前,主流推理框架在 MoE 模块中使用的是基于 SGLang Triton 开发的分组 GEMM 算子。我们在 H200 硬件条件下对 DeepGEMM 和 SGLang Triton 进行了性能对比测试:

  • 对于 MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充),DeepGEMM 的优势更明显一点:
  • 对于 MoE 模型的掩码存储布局分组 GEMM(推理解码),可以看出 Triton 更具优势:

DeepGEMM 在连续存储布局中表现出一定的优势,但在掩码存储布局中,SGLang Triton 的性能更优。

目前,SGLang Triton 的部分算子主要应用于掩码存储场景,因此,DeepGEMM 需要进一步优化,才能在推理框架中替代 SGLang Triton。

总结

根据评测结果显示,DeepGEMM 在 H100、H200 和 H800 等多款 GPU 上均展现出显著的性能优化能力,体现了其良好的通用性。

对于运行在 Hopper 架构上的 MoE 系列模型(如DeepSeek V3和R1),通过对推理框架中的 MoE 模块进行集成优化,将原有的 CUTLASS 版本分组 GEMMs 替换为 DeepGEMM 实现,预计将为模型推理带来约 1.2 倍的加速效果,提升整体性能。

当前,DeepGEMM 还不能完全替代 SGLang Triton,仍需进一步优化以拓宽其应用范围。在推理解码环节,SGLang Triton 依然更为高效,而 DeepGEMM 在训练前向和推理预填充的环节更有优势。

Read more

PPIO首发上线Kimi K2.7 Code,Kimi最智能的Coding模型

PPIO首发上线Kimi K2.7 Code,Kimi最智能的Coding模型

PPIO 已上线Kimi K2.7 Code,这是 Kimi 迄今最智能的 Coding 模型。 Kimi K2.7 Code 是一个以编码为中心的智能体模型,在长上下文中更可靠地遵循指令,能以更高的成功率完成编程任务,同时支持文本、图片与视频输入,思考模式,对话与 Agent 任务。 相比K2.6 ,Kimi K2.7 Code 大幅改善了在长程任务中的过度思考倾向,平均 token 消耗减少 30%。 其主要特点如下: 长程编码能力突破:Kimi K2.7 Code 作为国内领先的 Coding 模型,在长程代码任务中的表现取得了突破,面对不同编程语言(如 Rust、Go、Python)和任务场景(

By luigi
PPIO登上贵州新闻联播,深化AI算力生态建设

PPIO登上贵州新闻联播,深化AI算力生态建设

近日,PPIO 接受贵州新闻联播《高质量发展调研行》栏目的专题采访,相关报道在贵州卫视播出。 PPIO 作为面向开发者和企业的 Agentic Cloud 云计算平台,积极参与贵州 AI 算力生态建设,借助算力券政策进一步降低用户使用门槛,助力 AI 推理、智能体开发等 AI 业务的规模化落地。 本次合作也是 PPIO 在 AI 云服务领域持续投入所积累的市场认可。政策引力与产业实力的双向契合,正在加速数字经济新动能的形成。 算力政策落地,PPIO 积极参与 AI 算力生态建设 当前,大模型推理、AI 原生应用与智能体开发等 AI 需求爆发式增长,算力的使用与维护成本居高不下,成为众多企业和开发者的核心痛点。 贵州依托国家“东数西算”枢纽节点优势,创新推出“算力券”补贴政策,通过财政直补方式降低企业算力使用成本。政策自推出以来已迭代至 3.

By luigi
PPIO亮相华为云创想者大会:以Agentic Cloud加速中国AI走向全球

PPIO亮相华为云创想者大会:以Agentic Cloud加速中国AI走向全球

近期,PPIO 受邀参加 2026 华为云 INSPIRE 创想者大会。 PPIO MaaS 平台产品专家谢晋发表主题演讲《PPIO MaaS平台如何加速中国 AI 走向全球》,从全球视角系统阐述了中国 AI+Token 出海的两大核心维度、热门出海场景以及 PPIO 的 Agentic Cloud 基础设施战略布局。 PPIO 以两大核心引擎为 AI 原生应用与智能体开发提供基础设施服务:全模态 MaaS 平台,提供一站式算力与模型服务;Agent 沙箱,提供智能体安全隔离的云端运行环境。 截至 2026 年 4 月,PPIO 整合了全球 4800+ 分布式算力节点,日均 Token 调用量超过 10000 亿,较

By luigi
PPIO上线MiniMax M3:限时7天5折优惠

PPIO上线MiniMax M3:限时7天5折优惠

作为 MiniMax 官方 MaaS 合作伙伴,PPIO 已首发上线 MiniMax M3 模型。 MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力,最高支持 1M 超长上下文,也是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。 在衡量 Coding 能力的 SWE-Bench Pro 上,MiniMax M3 超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。 在综合评估 SVG 生成性能的基准 SVG-Bench 上,MiniMax M3 超过 Opus 4.7。

By PPIO