News

PPIO派欧云发布下一代推理加速引擎

Saiki

30 Jul 2024 — 8 min read

（2024年7月28日，长春）2024年7月26至28日，由中国计算机学会（CCF）主办的“CCF Computility 2024分布式计算大会暨全国开放式分布与并行计算学术年会”在长春市举办。陈国良院士、于全院士、郑纬民院士等11位院士与学术界和产业界的1000多位顶级专家齐聚一堂，深入探讨分布式计算与算力网的最新进展，推动科技与产业的深度融合。

作为中国领先的分布式云服务商，PPIO派欧云联合创始人、董事长兼CEO姚欣受邀参会并发表题为《面向下一代人工智能的分布式智算网络建设与运营》的主题演讲，正式发布下一代分布式推理加速技术产品——派欧算力云推理加速引擎。

性价比领先，推理性能提升十倍，综合成本降低90%

派欧算力云推理加速引擎通过一系列自研推理加速算法，使大语言模型（LLM）推理性能提升10倍。同时，PPIO派欧云还积极在硬件层构建分布式算力基础设施，将综合推理成本降低90%以上。不仅推理性能超越了众多硅谷AI Infra头部公司，还具备显著的成本优势，助力更多开发者使用大模型技术进行应用创新。

为了突破显存、算力和带宽对大模型推理性能的限制，PPIO派欧云通过算法、系统和硬件的协同创新实践，推出三大核心技术，通过Pyramid Cache稀疏化压缩算法、Hydra Sampling投机采样技术以及端到端FP8推理，打造全球领先的下一代高性价比算力云推理加速引擎。这些技术显著提升了推理加速优化的潜能，实现成本与性能之间的最佳平衡，为开发者提供了卓越性价比的大模型推理服务。

Pyramid Cache稀疏化压缩算法

与当前主流压缩优化思路不同，Pyramid Cache稀疏化压缩算法分析计算注意力分数在不同层上的分布模式，为不同层动态分配不同KV Cache预算，在压缩比和模型性能之间取得最佳匹配。实验表明，该方法将KV Cache压缩至10%以内，同时保持95%以上的模型性能表现，最终将GPU内存开销降低至20%，显著提高GPU内存资源利用率，不仅满足长窗口的推理需求，还进一步将端到端推理效率提升2倍以上。

Hydra Sampling投机采样技术

针对传统大模型推理过程中每次仅生成一个token导致的低吞吐量问题，PPIO派欧云创新实现了基于多头并行推理的Hydra Sampling投机采样技术。大量实验证实，在传统的投机采样算法中，草稿模型的输出token接受率严重影响推理效率。为此，PPIO通过用场景数据在线更新草稿模型，使得草稿模型逐渐拟合目标大模型，相应的输出token接受率可以进一步提高。基于这种在线动态更新机制，草稿模型越用越聪明，推理效率也随之越来越高，端到端综合性能优化达到2倍以上，处理更多请求的同时，推理性价比显著提升。

端到端FP8推理

PPIO派欧云重写了核心的注意力算法，直接调用FP8 TensorCore进行注意力计算，并使用FP8保存KV Cache，避免FP16格式的中间结果转换和传输，实现全链路FP8计算。通过这些优化，显著降低数据存储和通信成本，端到端推理效率提升约2倍，充分释放硬件算力潜能。

在三项创新技术的支持下，派欧算力云产品基于自研的推理加速引擎能够迅速适配和优化开源大模型，第一时间上架Llama3.1-405B、Mixtral 8x22B等20多个开源高性能大模型，API正常运行时间达到99.99% 。与GPT-4o相比，通过派欧算力云产品微调和优化的Llama3.1-70b模型，其Input token价格降低了90%，Output token价格降低了95%。派欧算力云产品还通过第三方大模型API平台为全球开发者提供高性能推理服务，相比于OctoAI、Together、Fireworks等硅谷公司，派欧算力云产品在综合性价比上具有显著优势，确保开发者在享受高性能、稳定的推理服务的同时，获得前所未有的成本效益。

灵活产品形态，共建繁荣AI开发者和产学研生态

派欧算力云推理加速引擎可广泛应用于多个场景，提供灵活且高效的解决方案。在大模型服务方面，用户只需几行代码即可享受高性价比的推理服务，并且只需为实际消耗的token数量付费。这种方式极大地降低了用户的使用门槛和成本，帮助企业专注于自身业务的增长和发展。

不仅如此，派欧算力云产品还提供容器化的推理基础设施，满足模型定制和私有部署的需求。用户无需担心底层的计算资源管理，只需专注于模型和上层业务，即可自动获得强大的推理性能输出，并按使用时长付费。这种灵活的服务模式使得企业能够快速部署和扩展推理服务，适应不断变化的业务需求。

同时，PPIO派欧云积极推动高校学术合作和人才培养。PPIO派欧云首席科学家王晓飞教授在大会发表演讲，分享了PPIO与天津大学在分布式算力云方向的产学研合作最新动态，并介绍了通过汇聚网络边缘侧与端侧算力资源、构建混合异构分布式算力网络的实践案例。此外，依托此次CCF分布式计算大会，PPIO联合中国计算机学会分布式计算与系统专业委员会、中国科学院计算技术研究所分布式系统研究中心、鹏城实验室网络智能研究部，举办第一届CCF算力网系统与应用大赛。大赛旨在激发青年学生的创新创造力，深入了解算力网的系统架构和关键技术，推动算力网技术的创新发展和落地应用，为算力网等分布式领域的创新人才培养和新质生产力实践提供开放合作的平台。经过激烈角逐，最终由南京大学、国防科技大学和河北工业大学队伍获得大赛一等奖。

姚欣强调，随着推理需求的不断增长，降低成本是大势所趋。PPIO派欧云将继续深耕分布式计算及推理加速技术的研究与应用，不断更新迭代推理加速引擎，力求在性能和成本上实现新的飞跃。PPIO的目标是让推理成本降低90%、99%、甚至99.9%，使更多AI创业企业和开发者能够轻松承担大模型推理的费用，从而真正构建出赋能AIGC应用爆发的基础设施。

如何保障AI代码安全运行？深入拆解PPIO沙箱五大Agent实战场景

AI 写出的代码，你敢直接跑在生产环境吗？代码执行失控、用户数据泄露、环境冷启动拖慢体验……这些不是假设，而是每一个 Agent 开发者迟早会踩的坑。PPIO 沙箱是一款专为 Agent 场景设计的新一代运行时基础设施，提供了一个安全隔离的云端沙箱环境来执行 AI 生成的代码。从 Vibe Coding 到自动化测试，五个真实场景告诉你：一个好的沙箱，是 Agent 从 Demo 走向生产的最后一块拼图。场景一：Vibe Coding Vibe Coding 的核心体验是“生成即运行”——用户希望 Agent 写出代码后立刻看到执行结果，并根据结果继续迭代。但如果每次执行都要拉起一个新的空白环境，依赖重新安装、项目重新初始化，等待时间会严重割裂体验，等待期间计算资源不释放的话也会造成大量的成本浪费。多用户同时使用时，还要保证各自的代码执行环境完全隔离，不能互相干扰。PPIO 沙箱为每个用户提供独立的持久化沙箱。亚秒级冷启动保证环境随时就绪；

创建Agent云沙箱，为什么传统容器和云主机不够用？

你用 AI 写出的代码，敢直接跑在生产环境吗？答案往往是否定的。这就是沙箱（Sandbox）存在的意义——给 AI 安装一个可控的安全围栏，无论 AI 怎么折腾，也始终控制在沙箱的范围内。过去两年 Agent 的爆发催生了大量的沙箱需求。但问题是，传统的容器、云主机等沙箱创建方案都不是专门为 Agent 任务需求而设计的。能用，但不够好。在此背景下，PPIO 推出了国内第一个真正为 Agent 量身定制的沙箱，一举满足 Agent 任务对沙箱的安全性、完整性、低成本、开箱即用等专属需求。 PPIO 沙箱为什么能做到？本文从技术角度深入拆解。 1、传统技术方案的三个矛盾首先看一下 Agent 执行任务的具体需求。Manus 在他们关于沙箱的技术文章里对这件事描述得很直接： “最强大的莫过于一台真正的云电脑——它拥有完整的能力：网络、文件系统、

PPIO上线DeepSeek-V4预览版

今天，PPIO 已上线备受关注的 DeepSeek-V4 新模型。 DeepSeek-V4 预览版包含两个 MoE 模型：DeepSeek-V4-Pro（1.6T 总参数/49B 激活）和 DeepSeek-V4-Flash（284B/13B 激活），均支持 100 万 token 上下文。 DeepSeek-V4 在架构创新和上下文效率上作出了新的突破，在 Agent 能力、世界知识和推理性能上做到了国内与开源领域最强模型。 DeepSeek-V4-Pro 大幅缩小了与顶级闭源模型的差距，Agent 能力优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。 DeepSeek-V4-Flash 能够提供更加快捷、

新品内测｜延迟从500ms降至50ms！PPIO Sandbox TURN发布，彻底打通Agent实时交互网络

PPIO Sandbox TURN，打通 Agent Sandbox实时通信通路。进入 Agent 时代，云沙箱（Sandbox）已成为智能体执行代码、调用工具、操作浏览器的基础设施。然而，当你的 Agent 试图进行音视频处理、远程桌面操作或人机实时协同等“延迟敏感型”任务时，往往会遭遇滑铁卢：画面撕裂、操作迟钝、哪怕在同城也卡成 PPT。不是带宽不够，而是底层的网络协议走错了路。PPIO Sandbox TURN 实时通信服务正式开启内测，专为实时类 Agent 应用优化，一举将端到端延迟从 300-500ms 暴降至 50-100ms。挑战：沙箱的网络层不是天生为实时交互而设计标准云沙箱的网络层并非天生为实时交互类请求而设计，很难满足延迟敏感型 Agent 场景的需求。大多数云沙箱的网络架构是为 HTTP 服务场景优化的——流量走 TCP（