PPIO 博客 (Page 9)

姚欣接受东方卫视采访，谈Maas平台的便捷性和高效性

https://mp.weixin.qq.com/s/ZnYi0_Zizdze3oe5fUtJVA

PPIO王闻宇解读DeepSeek开源周技术：推理成本将持续降低10倍乃至100倍

https://mp.weixin.qq.com/s/_CpQT9weW18K6VZwTMNc0A

DeepSeek开源周背后的思考：榨干硬件每一滴性能，才能释放AI模型的真正潜力

545% 的成本利润率，是 DeepSeek 抛出的诱人数字，还是触手可及的未来？这场由开源所引发的 AI 技术平民化浪潮，又将如何重塑 AI Infra 的格局？ 3 月 5 日，PPIO派欧云联合创始人兼 CTO 王闻宇做客「CSDN AI 进化论」，深度剖析 DeepSeek 开源周背后的技术逻辑与生态影响，揭示了这场技术盛宴中蕴藏的机遇与挑战。王闻宇认为： * DeepSeek 声称的 545% 成本利润率虽难以完全复现，但揭示了 AI Infra 盈利能力的巨大潜力，指引我们不断逼近这个目标； * DeepSeek 类似于 AI 领域的瓦特，通过降低技术门槛和开源策略，预示着 AI 应用的平民化和算力需求的爆发式增长； * DeepSeek 在现有硬件限制下，充分发挥软件和集群能力，是典型的“硬件定义软件”

PPIO解锁QwQ-32B：小参数大能量，推理性能亮眼！

QwQ 系列推理模型在 AI 界久负盛名。 2025 年 3 月 6 日凌晨，阿里巴巴正式发布并开源了其中极具潜力的 QwQ-32B 模型。与传统的指令调优模型相比，QwQ 具备卓越的思考和推理能力，能够在下游任务中实现显著增强的性能，尤其是在解决困难问题方面表现突出。 Ⅰ. 模型简介：中型推理的实力担当 QwQ-32B 是一款 320 亿参数的中型推理模型，在与最先进的推理模型，如 DeepSeek-R1、o1-mini 的对比中，也能展现出极具竞争力的性能。该模型在一系列评估数学、编码和结构化推理的基准上进行了测试。在 AIME24 数学测试、LiveCodeBench 编码测试中，QwQ-32B 均紧追 DeepSeek - R1 。在 IFEval 测试、LiveBench、BFCL 通用技能评估方面，QwQ-32B 分别以

PPIO上线高性能版Deepseek R1/V3 Turbo！吞吐性能3倍提升，限时8折优惠！

作为国内最早上线 DeepSeek 全模型的 API 供应商之一，PPIO派欧云致力于为AI开发者和企业提供低成本、稳定可靠、接入简单的大模型 API 和 GPU 算力服务。目前我们又推出了高性能版 Deepseek-r1-turbo，Deepseek-v3-turbo 模型，重新定义推理性能边界！ Ⅰ. 模型性能解读 * Turbo 系列模型依旧保持全参数满血版，无性能损失。 * 吞吐速度达到 30+TPS，相较于 2 月版本增长 3 倍，满足高并发场景需求。Max output 由 8k 增加至 16k，支持更长文本生成。 * 依旧保持 99.9% 高服务可用性，为企业级用户保驾护航。 Ⅱ. AI 低成本赋能 PPIO派欧云与 Deepseek 官方模型保持基础定价一致，但为助力 AI 技术普惠化，

EP架构：是未来技术发展的主流趋势，还是仅适用于特定场景？

DeepSeek MoE架构采用跨节点专家并行（EP）架构，在提升推理系统性能方面展现出巨大潜力。这一架构在发展进程中也面临诸多挑战，其未来究竟是会成为行业的主流方向，还是仅适用于特定场景，成为特定领域的最优解，引发了广泛的讨论。 PPIO派欧云作为专注于分布式推理的AI infra公司，致力于探索前沿推理加速技术。PD分离（prefill-decode分离）作为一种新兴的推理范式，是我们近期重要的研究方向之一，其对EP架构的发展产生了深远影响。一、EP 架构的技术优势与潜力（一）提升系统吞吐能力 EP 架构通过增大 batch size，充分挖掘 GPU 矩阵乘法的并行计算潜力，显著提升系统的吞吐能力。在深度学习模型的推理阶段，较大的 batch size 能够让 GPU 在单位时间内处理更多数据。以图像识别模型为例，当 batch size 增大时，GPU 可以同时对更多张图片进行特征提取与分类运算，大大加快了推理速度。这种机制充分利用了 GPU 的并行计算资源，使模型在数据处理效率上得到质的提升，

PPIO实测一手性能数据，MoE模型推理效率显著提升，DeepGEMM重磅开源！

开源周内传来新消息，DeepSeek 正式发布了 DeepGEMM 开源库。这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库，特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。 DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100，H200，H800）进行了深度优化。主要特点是代码简洁（核心部分仅300行左右）但性能出色，在各种矩阵形状下都能够媲美甚至超越专家调优的库。作为一家专注于提供高性能 AI 计算服务的云平台，PPIO派欧云已经部署了大量 MoE FP8 量化模型（例如 DeepSeek FP8 版本）。为了更好地利用 DeepGEMM 技术，提升这类模型的推理效率，PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。在了解具体测试数据之前，我们先来熟悉一些相关的基础概念。什么是

DeepSeek推出DeepEP：首个开源EP通信库，让MoE模型训练与推理起飞！

今天，DeepSeek 在继 FlashMLA 之后，推出了第二个 OpenSourceWeek 开源项目——DeepEP。作为首个专为 MoE（Mixture-of-Experts）训练与推理设计的开源 EP 通信库，DeepEP 在 EP（Expert Parallelism）领域迈出了重要一步，旨在为 MoE 模型提供低时延、高带宽、高吞吐的卡间和节点间通信能力。根据测试结果，DeepEP 在节点内部的多卡通信中表现接近带宽上限，同时节点间通信效率也显著提升。什么是EP？在深入了解 DeepEP 之前，我们需要先理解什么是 EP。 EP 是一种专为 MoE 设计的分布式计算方法。而 MoE 是一种基于 Transformer 的模型架构，采用稀疏策略，使其相比传统的密集模型在训练时更加轻量化。在这种 MoE 神经网络架构中，

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

https://www.jiqizhixin.com/articles/2025-02-25?from=synced&keyword=ppio

DeepSeek绝不仅仅是开源的胜利

https://mp.weixin.qq.com/s/kKa8sERJceAY8_k2u0F45A

News

PPIO真满血，全网唯一100%准确率DeepSeek第三方平台

作为国内首批支持 DeepSeek 全模型（V3 满血版/R1 满血版/R1蒸馏模型等）商业化 API 服务平台，PPIO派欧云不仅帮助开发者和客户在性能上告别 “卡顿”，更是真正做到满血版 DeepSeek-R1 的第三方平台。根据 SuperCLUE 最新发布的 DeepSeek-R1 网页端稳定性测评报告显示，PPIO派欧云是唯一一个在准确率上达到了100%的 DeepSeek-R1 第三方平台，也就是说 PPIO派欧云 DeepSeek API 能为客户和开发者提供稳定的高准确率支持。为什么只有PPIO派欧云是100%的准确率? 原因很简单，因为在推理部署时，很多三方平台会通过一些优化手段造成原版 DeepSeek-R1 模型效果的损失，比如低精度量化，把官方提供的FP8精度参数量化为int8（或者更低精度时）造成精度损失。而 PPIO派欧云直接接入的全参数真满血版本 DeepSeek-R1 ，没做任何有损优化，API 服务不仅运行稳定，体验流畅，在准确率上更是能保证 100%