PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

开源周内传来新消息,DeepSeek 正式发布了 DeepGEMM 开源库。

这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库,特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。

DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100,H200,H800)进行了深度优化。

主要特点是代码简洁(核心部分仅300行左右)但性能出色,在各种矩阵形状下都能够媲美甚至超越专家调优的库。

作为一家专注于提供高性能 AI 计算服务的云平台,PPIO派欧云已经部署了大量 MoE FP8 量化模型(例如 DeepSeek FP8 版本)。

为了更好地利用 DeepGEMM 技术,提升这类模型的推理效率,PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。

在了解具体测试数据之前,我们先来熟悉一些相关的基础概念。


什么是 GEMM?

GEMM (General Matrix Multiplication) 是深度学习中最基础、最重要的计算算子,GEMM 优化是高性能AI计算的核心。

DeepGEMM 是一个专为加速深度学习中关键 GEMM 运算而设计的开源库,通过提高 GEMM 计算效率,直接提升整个 AI 系统的性能表现。

DeepGEMM 的独特优势

与 CUTLASS 和 CuTe 这类成熟的模板库相比,DeepGEMM 采取了轻量级设计路线:它并非追求广泛兼容所有 GPU 和计算场景,而是专注于充分发挥 Hopper 架构的 FP8 计算能力,特别针对 DeepSeek R1 和 V3 等大模型常见的矩阵形状进行了精细优化。

DeepGEMM 的技术创新

DeepGEMM 通过以下四项核心技术创新实现了性能突破:

  • 即时编译技术 ( JIT )

传统方法需要预先编译 CUDA 代码再进行调用,而 DeepGEMM 引入的 JIT 技术将编译过程隐藏在运行时,无需手动编译。

开发者无需创建复杂的 Python 接口,简化了开发流程,仅需几行代码即可实现功能。

  • 计算与传输重叠优化

DeepGEMM 通过同时进行数据传输和计算操作,充分利用了 Hopper 架构 TMA ( Tensor Memory Accelerator ) 特性,进一步优化了数据传输效率。同时,DeepGEMM 使用底层 PTX 指令,实现极致性能。

  • 任意矩阵尺寸支持

传统 GEMM 实现要求矩阵尺寸为 2 的幂次(如128、256),而 DeepGEMM 支持非对齐块大小的矩阵。这一特性避免了内存浪费,提高整体计算效率。

  • FFMA SASS 指令级优化

通过修改 FFMA 指令的 yield 和 reuse 位,创建更多重叠 MMA 指令与 promotion FFMA 指令的机会,即使对底层理解有限也能在某些场景获得 10% 以上性能提升。


DeepSeek 官方测试:DeepGEMM 加速比

根据 DeepSeek 官方在 H800 GPU 上进行的全面测试,DeepGEMM 与经过优化的 CUTLASS 3.6 相比,在各种计算场景中均实现了明显的性能提升。以下是 DeepSeek-V3/R1 推理过程中的加速效果:

  • 稠密模型的常规 GEMM

在小矩阵计算方面,DeepGEMM 性能提升最为显著,最高可达到 2.7 倍的加速比率,极大地提高了小批量数据推理效率。

对于大矩阵计算任务,DeepGEMM 仍然能够稳定地提供约 1.2 倍的性能提升,保证了大规模矩阵运算的高效执行。

  • MoE 模型的分组 GEMM(使用连续存储布局)

连续存储布局主要应用于模型预填充 (Prefilling) 阶段,是处理长文本输入的关键环节。

测试结果表明,DeepGEMM 在这一场景下能够稳定实现约 1.2 倍的计算加速,有效缩短了模型响应时间。

  • MoE 模型的分组 GEMM(使用掩码存储布局)

掩码布局主要用于模型解码 (Decoding) 阶段,直接影响模型生成文本的速度。

在这一关键环节,DeepGEMM 同样实现了约 1.2倍的性能提升,使模型能够更快地完成单个 token 的生成过程。

PPIO 一手测评:DeepGEMM 通用性

在 MoE 模型的推理场景中,PPIO对 DeepGEMM 在 H100和 H200 两款 GPU 上的性能表现进行了详细测试,并与官方 H800 的测评数据进行了对比。

首先,我们整理了 H100、H200和H800 三款 GPU 中影响 DeepGEMM 性能的关键硬件参数:

以下是详细的评测结果:

  • MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充)

在使用连续存储布局的 MoE 网络中,H100/H200/H800(官方)的表现差异不大。

下图展现了显存带宽占用的对比测试,由于受限于计算瓶颈,且三款显卡在 FP8 算力上的差距不大,它们的性能表现没有显著差异。

下图为计算性能的对比图,由于未达到访存瓶颈,三款显卡在性能上并无明显差距。

  • MoE 模型的掩码存储布局分组 GEMM(推理解码)

在使用掩码存储布局的 MoE 网络中,H200 的性能表现相对最优,H100 与 H800 的差异非常小。

下图展现了显存带宽占用的对比测试。由于掩码存储布局比连续存储布局占用更多的显存带宽,部分情况已经达到了访存瓶颈,因而三款显卡的表现有所不同:

下图是计算性能的对比测试,展示了带宽带来的计算差异:

DeepGEMM 与 SGLang Triton 性能对比

目前,主流推理框架在 MoE 模块中使用的是基于 SGLang Triton 开发的分组 GEMM 算子。我们在 H200 硬件条件下对 DeepGEMM 和 SGLang Triton 进行了性能对比测试:

  • 对于 MoE 模型的连续存储布局分组 GEMM(训练前向、推理预填充),DeepGEMM 的优势更明显一点:
  • 对于 MoE 模型的掩码存储布局分组 GEMM(推理解码),可以看出 Triton 更具优势:

DeepGEMM 在连续存储布局中表现出一定的优势,但在掩码存储布局中,SGLang Triton 的性能更优。

目前,SGLang Triton 的部分算子主要应用于掩码存储场景,因此,DeepGEMM 需要进一步优化,才能在推理框架中替代 SGLang Triton。

总结

根据评测结果显示,DeepGEMM 在 H100、H200 和 H800 等多款 GPU 上均展现出显著的性能优化能力,体现了其良好的通用性。

对于运行在 Hopper 架构上的 MoE 系列模型(如DeepSeek V3和R1),通过对推理框架中的 MoE 模块进行集成优化,将原有的 CUTLASS 版本分组 GEMMs 替换为 DeepGEMM 实现,预计将为模型推理带来约 1.2 倍的加速效果,提升整体性能。

当前,DeepGEMM 还不能完全替代 SGLang Triton,仍需进一步优化以拓宽其应用范围。在推理解码环节,SGLang Triton 依然更为高效,而 DeepGEMM 在训练前向和推理预填充的环节更有优势。

Read more

如何保障AI代码安全运行?深入拆解PPIO沙箱五大Agent实战场景

如何保障AI代码安全运行?深入拆解PPIO沙箱五大Agent实战场景

AI 写出的代码,你敢直接跑在生产环境吗?代码执行失控、用户数据泄露、环境冷启动拖慢体验……这些不是假设,而是每一个 Agent 开发者迟早会踩的坑。PPIO 沙箱是一款专为 Agent 场景设计的新一代运行时基础设施,提供了一个安全隔离的云端沙箱环境来执行 AI 生成的代码。从 Vibe Coding 到自动化测试,五个真实场景告诉你:一个好的沙箱,是 Agent 从 Demo 走向生产的最后一块拼图。 场景一:Vibe Coding Vibe Coding 的核心体验是“生成即运行”——用户希望 Agent 写出代码后立刻看到执行结果,并根据结果继续迭代。但如果每次执行都要拉起一个新的空白环境,依赖重新安装、项目重新初始化,等待时间会严重割裂体验,等待期间计算资源不释放的话也会造成大量的成本浪费。多用户同时使用时,还要保证各自的代码执行环境完全隔离,不能互相干扰。PPIO 沙箱为每个用户提供独立的持久化沙箱。亚秒级冷启动保证环境随时就绪;

By shalina
创建Agent云沙箱,为什么传统容器和云主机不够用?

创建Agent云沙箱,为什么传统容器和云主机不够用?

你用 AI 写出的代码,敢直接跑在生产环境吗? 答案往往是否定的。这就是沙箱(Sandbox)存在的意义——给 AI 安装一个可控的安全围栏,无论 AI 怎么折腾,也始终控制在沙箱的范围内。 过去两年 Agent 的爆发催生了大量的沙箱需求。但问题是,传统的容器、云主机等沙箱创建方案都不是专门为 Agent 任务需求而设计的。能用,但不够好。 在此背景下,PPIO 推出了国内第一个真正为 Agent 量身定制的沙箱,一举满足 Agent 任务对沙箱的安全性、完整性、低成本、开箱即用等专属需求。 PPIO 沙箱为什么能做到?本文从技术角度深入拆解。 1、传统技术方案的三个矛盾 首先看一下 Agent 执行任务的具体需求。Manus 在他们关于沙箱的技术文章里对这件事描述得很直接: “最强大的莫过于一台真正的云电脑——它拥有完整的能力:网络、文件系统、

By shalina
PPIO上线DeepSeek-V4预览版

PPIO上线DeepSeek-V4预览版

今天,PPIO 已上线备受关注的 DeepSeek-V4 新模型。 DeepSeek-V4 预览版包含两个 MoE 模型:DeepSeek-V4-Pro(1.6T 总参数/49B 激活)和 DeepSeek-V4-Flash(284B/13B 激活),均支持 100 万 token 上下文。 DeepSeek-V4 在架构创新和上下文效率上作出了新的突破,在 Agent 能力、世界知识和推理性能上做到了国内与开源领域最强模型。 DeepSeek-V4-Pro 大幅缩小了与顶级闭源模型的差距,Agent 能力优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。 DeepSeek-V4-Flash 能够提供更加快捷、

By shalina
新品内测|延迟从500ms降至50ms!PPIO Sandbox TURN发布,彻底打通Agent实时交互网络

新品内测|延迟从500ms降至50ms!PPIO Sandbox TURN发布,彻底打通Agent实时交互网络

PPIO Sandbox TURN,打通 Agent Sandbox实时通信通路。 进入 Agent 时代,云沙箱(Sandbox)已成为智能体执行代码、调用工具、操作浏览器的基础设施。然而,当你的 Agent 试图进行音视频处理、远程桌面操作或人机实时协同等“延迟敏感型”任务时,往往会遭遇滑铁卢:画面撕裂、操作迟钝、哪怕在同城也卡成 PPT。不是带宽不够,而是底层的网络协议走错了路。PPIO Sandbox TURN 实时通信服务正式开启内测,专为实时类 Agent 应用优化,一举将端到端延迟从 300-500ms 暴降至 50-100ms。 挑战:沙箱的网络层不是天生为实时交互而设计 标准云沙箱的网络层并非天生为实时交互类请求而设计,很难满足延迟敏感型 Agent 场景的需求。大多数云沙箱的网络架构是为 HTTP 服务场景优化的——流量走 TCP(

By shalina