technology

PPIO实测一手性能数据，MoE模型推理效率显著提升，DeepGEMM重磅开源！

Saiki

28 Feb 2025 — 8 min read

开源周内传来新消息，DeepSeek 正式发布了 DeepGEMM 开源库。

这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库，特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。

DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100，H200，H800）进行了深度优化。

主要特点是代码简洁（核心部分仅300行左右）但性能出色，在各种矩阵形状下都能够媲美甚至超越专家调优的库。

作为一家专注于提供高性能 AI 计算服务的云平台，PPIO派欧云已经部署了大量 MoE FP8 量化模型（例如 DeepSeek FP8 版本）。

为了更好地利用 DeepGEMM 技术，提升这类模型的推理效率，PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。

在了解具体测试数据之前，我们先来熟悉一些相关的基础概念。

什么是 GEMM？

GEMM (General Matrix Multiplication) 是深度学习中最基础、最重要的计算算子，GEMM 优化是高性能AI计算的核心。

DeepGEMM 是一个专为加速深度学习中关键 GEMM 运算而设计的开源库，通过提高 GEMM 计算效率，直接提升整个 AI 系统的性能表现。

DeepGEMM 的独特优势

与 CUTLASS 和 CuTe 这类成熟的模板库相比，DeepGEMM 采取了轻量级设计路线：它并非追求广泛兼容所有 GPU 和计算场景，而是专注于充分发挥 Hopper 架构的 FP8 计算能力，特别针对 DeepSeek R1 和 V3 等大模型常见的矩阵形状进行了精细优化。

DeepGEMM 的技术创新

DeepGEMM 通过以下四项核心技术创新实现了性能突破：

即时编译技术 ( JIT )

传统方法需要预先编译 CUDA 代码再进行调用，而 DeepGEMM 引入的 JIT 技术将编译过程隐藏在运行时，无需手动编译。

开发者无需创建复杂的 Python 接口，简化了开发流程，仅需几行代码即可实现功能。

计算与传输重叠优化

DeepGEMM 通过同时进行数据传输和计算操作，充分利用了 Hopper 架构 TMA ( Tensor Memory Accelerator ) 特性，进一步优化了数据传输效率。同时，DeepGEMM 使用底层 PTX 指令，实现极致性能。

任意矩阵尺寸支持

传统 GEMM 实现要求矩阵尺寸为 2 的幂次（如128、256），而 DeepGEMM 支持非对齐块大小的矩阵。这一特性避免了内存浪费，提高整体计算效率。

FFMA SASS 指令级优化

通过修改 FFMA 指令的 yield 和 reuse 位，创建更多重叠 MMA 指令与 promotion FFMA 指令的机会，即使对底层理解有限也能在某些场景获得 10% 以上性能提升。

DeepSeek 官方测试：DeepGEMM 加速比

根据 DeepSeek 官方在 H800 GPU 上进行的全面测试，DeepGEMM 与经过优化的 CUTLASS 3.6 相比，在各种计算场景中均实现了明显的性能提升。以下是 DeepSeek-V3/R1 推理过程中的加速效果：

稠密模型的常规 GEMM

在小矩阵计算方面，DeepGEMM 性能提升最为显著，最高可达到 2.7 倍的加速比率，极大地提高了小批量数据推理效率。

对于大矩阵计算任务，DeepGEMM 仍然能够稳定地提供约 1.2 倍的性能提升，保证了大规模矩阵运算的高效执行。

MoE 模型的分组 GEMM（使用连续存储布局）

连续存储布局主要应用于模型预填充 (Prefilling) 阶段，是处理长文本输入的关键环节。

测试结果表明，DeepGEMM 在这一场景下能够稳定实现约 1.2 倍的计算加速，有效缩短了模型响应时间。

MoE 模型的分组 GEMM（使用掩码存储布局）

掩码布局主要用于模型解码 (Decoding) 阶段，直接影响模型生成文本的速度。

在这一关键环节，DeepGEMM 同样实现了约 1.2倍的性能提升，使模型能够更快地完成单个 token 的生成过程。

PPIO 一手测评：DeepGEMM 通用性

在 MoE 模型的推理场景中，PPIO对 DeepGEMM 在 H100和 H200 两款 GPU 上的性能表现进行了详细测试，并与官方 H800 的测评数据进行了对比。

首先，我们整理了 H100、H200和H800 三款 GPU 中影响 DeepGEMM 性能的关键硬件参数：

以下是详细的评测结果：

MoE 模型的连续存储布局分组 GEMM（训练前向、推理预填充）

在使用连续存储布局的 MoE 网络中，H100/H200/H800（官方）的表现差异不大。

下图展现了显存带宽占用的对比测试，由于受限于计算瓶颈，且三款显卡在 FP8 算力上的差距不大，它们的性能表现没有显著差异。

下图为计算性能的对比图，由于未达到访存瓶颈，三款显卡在性能上并无明显差距。

MoE 模型的掩码存储布局分组 GEMM（推理解码）

在使用掩码存储布局的 MoE 网络中，H200 的性能表现相对最优，H100 与 H800 的差异非常小。

下图展现了显存带宽占用的对比测试。由于掩码存储布局比连续存储布局占用更多的显存带宽，部分情况已经达到了访存瓶颈，因而三款显卡的表现有所不同：

下图是计算性能的对比测试，展示了带宽带来的计算差异：

DeepGEMM 与 SGLang Triton 性能对比

目前，主流推理框架在 MoE 模块中使用的是基于 SGLang Triton 开发的分组 GEMM 算子。我们在 H200 硬件条件下对 DeepGEMM 和 SGLang Triton 进行了性能对比测试：

对于 MoE 模型的连续存储布局分组 GEMM（训练前向、推理预填充），DeepGEMM 的优势更明显一点：

对于 MoE 模型的掩码存储布局分组 GEMM（推理解码），可以看出 Triton 更具优势：

DeepGEMM 在连续存储布局中表现出一定的优势，但在掩码存储布局中，SGLang Triton 的性能更优。

目前，SGLang Triton 的部分算子主要应用于掩码存储场景，因此，DeepGEMM 需要进一步优化，才能在推理框架中替代 SGLang Triton。

总结

根据评测结果显示，DeepGEMM 在 H100、H200 和 H800 等多款 GPU 上均展现出显著的性能优化能力，体现了其良好的通用性。

对于运行在 Hopper 架构上的 MoE 系列模型（如DeepSeek V3和R1），通过对推理框架中的 MoE 模块进行集成优化，将原有的 CUTLASS 版本分组 GEMMs 替换为 DeepGEMM 实现，预计将为模型推理带来约 1.2 倍的加速效果，提升整体性能。

当前，DeepGEMM 还不能完全替代 SGLang Triton，仍需进一步优化以拓宽其应用范围。在推理解码环节，SGLang Triton 依然更为高效，而 DeepGEMM 在训练前向和推理预填充的环节更有优势。

PPIO入选36氪“2026最具价值成长企业100”

近日，PPIO 入选 36 氪发布的“2026 最具价值成长企业 100”榜单。该榜单评选聚焦顺应产业变革、构建长期核心竞争力、持续创造商业与产业价值的创新企业，旨在发掘在新一轮科技变革与产业升级中脱颖而出的成长标杆。与 PPIO 同批入选的还有 DeepSeek、Kimi、阶跃星辰、穹彻智能等一批领先的人工智能/大模型公司。 PPIO 此次入选，体现了其在技术创新与商业化落地方面的综合实力，也反映出行业与市场对 AI 基础设施赛道发展前景的持续看好。 PPIO 是全球领先的 AI 云计算服务商，致力于帮助更多企业、开发者和智能体应用以更低成本、更高效率使用 AI 基础设施服务。面向 AI 原生应用、智能体开发、AI 编程、多模态应用和企业级大模型服务等新一代需求，PPIO 提供高性价比、超弹性、低延迟的一站式 AI 云平台服务，覆盖

香港特区政府财政司司长陈茂波一行到访 PPIO

6 月 18 日上午，香港特别行政区政府财政司司长陈茂波一行到访 PPIO 上海总部，参观 PPIO 企业展厅，并围绕人工智能基础设施建设、AI 云服务发展、产业生态协同以及香港创新科技发展等议题开展座谈交流。PPIO 联合创始人、董事长兼 CEO 姚欣等接待来访并参加座谈。此次来访体现了香港特区政府对人工智能基础设施、分布式AI 云计算以及新一代 AI 服务平台发展的高度关注，也为 PPIO 进一步发挥自身技术与平台优势、深化香港布局、连接国际市场提供了重要交流契机。来访期间，陈茂波司长一行参观了PPIO 展厅，详细了解 PPIO 的发展历程、技术架构、全球业务布局，以及公司在分布式算力、模型推理服务、Agentic Cloud、智能体基础设施和全球开发者生态等方面的最新进展。座谈会上，双方围绕AI产业发展趋势、算力基础设施建设、模型服务能力、AI 应用落地、香港国际化平台优势及未来合作方向等内容进行了深入交流。

PPIO入选中国信通院Token服务能力攀登计划

6 月 16 日，中国信通院正式发布“Token 服务能力攀登计划”。PPIO 凭借在 MaaS 模型服务性能、稳定性和 Token 输出效率方面的表现，入选首批企业级 Token 服务性能攀登基线。在通用场景下，PPIO 模型服务实现 TPS ≥55 个/秒、TTFT ≤0.9 秒、调用成功率 ≥99.9%，标志着其模型平台已具备面向企业级 AI 应用和 Agent 场景的高质量 Token 服务能力。 PPIO 此次入选，体现了其在模型推理服务能力、AI 云基础设施建设和企业级 Token 服务质量方面获得权威行业机构认可。同时，PPIO 还受邀参加高质量词元（Token）服务专题研讨，

PPIO首发上线GLM-5.2：代码能力仅次于Claude Fable 5

今天，PPIO 首发上线智谱最新开源旗舰模型 GLM-5.2。其核心特点如下： ✅Coding 能力开源 SOTA：GLM-5.2 发布即获 LMArena 代码榜开源模型第一、全球模型二，整体表现仅次于 Claude Fable 5； ✅支持真正可用的 1M 上下文：一次任务即可完成“从需求到多端可部署产物“的完整开发链路； ✅自主规划驱动高效迭代：引领开发模式从 Vibe Coding 迈向 Agentic Engineering，构建“规划-实现-迭代”的工程闭环； ✅万级真实任务验证：构建逾万个可验证任务环境，覆盖九大主流编程语言，大幅提升模型软件工程能力。现在，GLM-5.2 已上线 PPIO 模型广场，您可以在线试用该模型或通过 API 快速集成。地址：https: