technology

官网新闻,技术博客

EP架构:是未来技术发展的主流趋势,还是仅适用于特定场景?

technology

EP架构:是未来技术发展的主流趋势,还是仅适用于特定场景?

DeepSeek MoE架构采用跨节点专家并行(EP)架构,在提升推理系统性能方面展现出巨大潜力。这一架构在发展进程中也面临诸多挑战,其未来究竟是会成为行业的主流方向,还是仅适用于特定场景,成为特定领域的最优解,引发了广泛的讨论。 PPIO派欧云作为专注于分布式推理的AI infra公司,致力于探索前沿推理加速技术。PD分离(prefill-decode分离)作为一种新兴的推理范式,是我们近期重要的研究方向之一,其对EP架构的发展产生了深远影响。 一、EP 架构的技术优势与潜力 (一)提升系统吞吐能力 EP 架构通过增大 batch size,充分挖掘 GPU 矩阵乘法的并行计算潜力,显著提升系统的吞吐能力。在深度学习模型的推理阶段,较大的 batch size 能够让 GPU 在单位时间内处理更多数据。 以图像识别模型为例,当 batch size 增大时,GPU 可以同时对更多张图片进行特征提取与分类运算,大大加快了推理速度。这种机制充分利用了 GPU 的并行计算资源,使模型在数据处理效率上得到质的提升,

By Saiki
PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

technology

PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

开源周内传来新消息,DeepSeek 正式发布了 DeepGEMM 开源库。 这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库,特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。 DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100,H200,H800)进行了深度优化。 主要特点是代码简洁(核心部分仅300行左右)但性能出色,在各种矩阵形状下都能够媲美甚至超越专家调优的库。 作为一家专注于提供高性能 AI 计算服务的云平台,PPIO派欧云已经部署了大量 MoE FP8 量化模型(例如 DeepSeek FP8 版本)。 为了更好地利用 DeepGEMM 技术,提升这类模型的推理效率,PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。 在了解具体测试数据之前,我们先来熟悉一些相关的基础概念。 什么是

By Saiki
DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

今天,DeepSeek 在继 FlashMLA 之后,推出了第二个 OpenSourceWeek 开源项目——DeepEP。 作为首个专为 MoE(Mixture-of-Experts)训练与推理设计的开源 EP 通信库,DeepEP 在 EP(Expert Parallelism)领域迈出了重要一步,旨在为 MoE 模型提供低时延、高带宽、高吞吐的卡间和节点间通信能力。 根据测试结果,DeepEP 在节点内部的多卡通信中表现接近带宽上限,同时节点间通信效率也显著提升。 什么是EP? 在深入了解 DeepEP 之前,我们需要先理解什么是 EP。 EP 是一种专为 MoE 设计的分布式计算方法。而 MoE 是一种基于 Transformer 的模型架构,采用稀疏策略,使其相比传统的密集模型在训练时更加轻量化。 在这种 MoE 神经网络架构中,

By Saiki
如何通过KV稀疏实现对vLLM的1.5倍加速

如何通过KV稀疏实现对vLLM的1.5倍加速

作者:PPIO派欧云算法专家 张青青 前言 近一年以来,自H2O起,关于KV稀疏的论文便百花齐放,而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的巨大鸿沟,例如,像vLLM等框架采用的是 PagedAttention 等分页内存,与大部分的稀疏算法都无法与之兼容或者本身性能不如 PagedAttention,类似的种种问题,导致了稀疏算法无法真正的在生产中应用。 我们参考KV稀疏这一方向最近一年的学术论文,结合vLLM框架本身的优化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,对vLLM框架进行基于KV稀疏的修改,最终基于线上最常用的模型、参数与硬件,与SOTA版本的推理框架进行对比,实现了1.5倍的推理加速。 说到KV稀疏之前,不得不说的便是LLM的 Massive Activations 特性,即在LLM中有很少数的激活值明显活跃于其他的激活,有时候高于其他激活100,000倍以上,换而言之,即少部分的token起到了至关重要的作用,因而可以通过KV稀疏方法(即保留重要的toke

By Saiki
投机采样会损失大语言模型的推理精度吗?

投机采样会损失大语言模型的推理精度吗?

Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。 一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。 标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。 数学证明 投机采样公式可以定义如下: 其中: * 𝑟 是从均匀分布中采样的实数。 是要预测的下一个token。 * 𝑝(𝑥) 是草稿模型给出的下一个token分布。 * 𝑞(𝑥) 是基础模型给出的下一个token分布。 为简单起见,我们省略了概率条件。实际上,𝑝 和 𝑞 是基于前缀token序列 的条件分布。 以下是 DeepMind 论文中关于该公式无损性的证明: 如果你觉得阅读数学方程式太枯燥,接下来我们将通过一些直观的图表来说明证明过程。 这是草稿模型 𝑝 和基础模型 𝑞 的分布示意图: 需要说明的是,这只是一个理想化的图

By Saiki
A100 解析:为何它成为 AI 大模型时代的首选?

A100 解析:为何它成为 AI 大模型时代的首选?

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。 英伟达 A100 显卡凭借其卓越的性能、高效能和广泛的应用场景,

By Saiki