Saiki

PPIO分布式AI智算云入选「2024人工智能应用标杆」

近日，“第二届人工智能产业应用大会”在中关村国家自主创新示范区展示中心成功举办，大会由中关村智用人工智能研究院、新智引擎主办。在大会颁奖典礼上，PPIO派欧云通过深入应用于智慧城市场景的“分布式AI智算云项目”，与百川智能、出门问问、作业帮等科技创新企业共同入选了新智引擎发布的“ 2024 人工智能应用标杆”。 “ 2024 人工智能应用标杆”是为了相应国家开展“人工智能+”行动号召，甄选具有高价值、标杆性、真落地的行业典型应用实践。该榜单更加关注 AI 在场景中的实效性和技术先进性，因此入选该榜单的行业应用更加注重实际应用，并且可以为本行业带来更多的经验借鉴。 PPIO派欧云借助已有算力供应商网络，整合和盘活广泛覆盖的分布式算力资源，面对跨区域、跨时间、跨场景的多样化需求，通过智能调度算法结合负载预测技术，实现任务需求与算力资源的动态匹配，显著提升系统资源利用效率。推动人工智能技术在科创园区、高校科研、大型商超、智慧社区、云游戏等场景的应用落地。未来，PPIO派欧云将继续坚持以“汇聚全球计算资源，并为全世界提供服务”的使命，致力于为人工智能、音视频、元宇宙等新一代场景提供

PPIO派欧云荣登SegmentFault 2024中国新锐技术先锋企业榜单

近日，SegmentFault 思否发布“中国技术先锋年度评选 | 2024 中国新锐技术先锋企业榜单”。作为中国领先的新一代开发者社区，SegmentFault 思否依托上千万开发者用户数据分析，各科技企业在国内技术领域的行为及影响力指标，最终评选出 30 家新锐技术先锋企业。 PPIO派欧云作为中国领先的分布式智算云服务商，入选 30 强之列。 2024 中国新锐技术先锋企业榜隶属于中国技术先锋年度评选，旨在挖掘信奉技术力量、敢于技术创新、践行技术信仰，扎根行业、奋力探索的先锋企业。中国新锐技术先锋企业则面向高成长性的科技型初创公司，他们关注开发者生态、积极在社区贡献，在开发者群体中具备一定关注度及良好口碑，拥有较高成长性。 PPIO派欧云秉承“汇聚全球计算资源，并为全世界提供服务”的使命，致力于为人工智能、音视频、元宇宙等新一代场景提供高性价比、稳定可靠、高效弹性的一站式AI智算、模型及边缘计算服务，助力开发者专注应用创新与增长，推动下一个智能时代的加速到来。 2025 年，PPIO派欧云将继续加强开发者生态建设，服务广大开发者，进而推动企业数字化转型的步伐，与合作伙

PPIO CEO姚欣：AI应用即将迎来免费时代｜甲子引力

https://mp.weixin.qq.com/s/bloe7ZJr1dqln3XHlCaDMA

如何通过KV稀疏实现对vLLM的1.5倍加速

作者：PPIO派欧云算法专家张青青前言近一年以来，自H2O起，关于KV稀疏的论文便百花齐放，而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的巨大鸿沟，例如，像vLLM等框架采用的是 PagedAttention 等分页内存，与大部分的稀疏算法都无法与之兼容或者本身性能不如 PagedAttention，类似的种种问题，导致了稀疏算法无法真正的在生产中应用。我们参考KV稀疏这一方向最近一年的学术论文，结合vLLM框架本身的优化特性，例如 Continuous Batching、FlashAttention、PagedAttention 等，对vLLM框架进行基于KV稀疏的修改，最终基于线上最常用的模型、参数与硬件，与SOTA版本的推理框架进行对比，实现了1.5倍的推理加速。说到KV稀疏之前，不得不说的便是LLM的 Massive Activations 特性，即在LLM中有很少数的激活值明显活跃于其他的激活，有时候高于其他激活100,000倍以上，换而言之，即少部分的token起到了至关重要的作用，因而可以通过KV稀疏方法（即保留重要的toke

PPIO CEO姚欣：AI创业的风口期，如何让企业不被淘汰？

近日，PPIO 派欧云联合创始人兼 CEO 姚欣参加由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的「2024 全球产品经理大会」，以「生成式 AI 引领产品创新范式」为主题，分享了他在 AI 时代领悟的全新思考。会上，姚欣发表名为《生成式AI的产业创新曲线》主题演讲。他指出：“并不会出现某类大模型一统天下。无论是 PC、互联网还是移动互联网，任何行业、产业均呈现一个产业分层结构——底层的基础设施、中层的平台工具、上层的应用服务，自底向上分阶段成熟。生成式人工智能的产业发展亦是如此。过去几年间，我们亲证了生成式 AI 底层基础设施发展得如火如荼，包括英伟达以及诸多的云服务公司。直至今日，算力基础设施还处于一个大规模增长的过程中，只是下一阶段的发展重点，会从现在很热闹的训练逐渐转向推理。随着算力成本每年 10 倍速下降，会持续解锁应用新场景。

“算力滴滴”开跑欲将大模型推理成本“三年降千倍”

https://mp.weixin.qq.com/s/c430sWyXc2DRssMWX8_j1Q

解决算力网“最后一公里”难题，PPIO 派欧云发布全新算力云产品矩阵

https://www.infoq.cn/article/fhugtAQ12eTiU8uqGgCs

PPTV创始人姚欣AI再创业，“分布式推理”终于有人做了

https://mp.weixin.qq.com/s/Mn0aK4Z66WMr3042zbLGRg

“算力版滴滴”发布 AI 云新品，PPIO CEO预测三年模型推理成本将下降1000倍｜钛媒体AGI

https://www.tmtpost.com/7240084.html

media

PPIO派欧云发布全新算力云产品，助力大模型推理千倍降本

https://www.lieyunpro.com/archives/494390

technology

投机采样会损失大语言模型的推理精度吗？

Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善，包括 Lookahead Decoding、REST、Medusa 和 EAGLE，投机采样显著加快了大型语言模型 (LLM) 的推理过程。一个重要的问题是：LLM 中的投机采样会损害原始模型的准确性吗？先说答案：不会。标准的投机采样算法是无损的，本文将通过数学分析和实验来证明这一点。数学证明投机采样公式可以定义如下：其中： * 𝑟 是从均匀分布中采样的实数。是要预测的下一个token。 * 𝑝(𝑥) 是草稿模型给出的下一个token分布。 * 𝑞(𝑥) 是基础模型给出的下一个token分布。为简单起见，我们省略了概率条件。实际上，𝑝 和 𝑞 是基于前缀token序列的条件分布。以下是 DeepMind 论文中关于该公式无损性的证明：如果你觉得阅读数学方程式太枯燥，接下来我们将通过一些直观的图表来说明证明过程。这是草稿模型 𝑝 和基础模型 𝑞 的分布示意图：需要说明的是，这只是一个理想化的图

News

PPIO派欧云发布下一代推理加速引擎

（2024年7月28日，长春）2024年7月26至28日，由中国计算机学会（CCF）主办的“CCF Computility 2024分布式计算大会暨全国开放式分布与并行计算学术年会”在长春市举办。陈国良院士、于全院士、郑纬民院士等11位院士与学术界和产业界的1000多位顶级专家齐聚一堂，深入探讨分布式计算与算力网的最新进展，推动科技与产业的深度融合。作为中国领先的分布式云服务商，PPIO派欧云联合创始人、董事长兼CEO姚欣受邀参会并发表题为《面向下一代人工智能的分布式智算网络建设与运营》的主题演讲，正式发布下一代分布式推理加速技术产品——派欧算力云推理加速引擎。性价比领先，推理性能提升十倍，综合成本降低90% 派欧算力云推理加速引擎通过一系列自研推理加速算法，使大语言模型（LLM）推理性能提升10倍。同时，PPIO派欧云还积极在硬件层构建分布式算力基础设施，将综合推理成本降低90%以上。不仅推理性能超越了众多硅谷AI Infra头部公司，还具备显著的成本优势，助力更多开发者使用大模型技术进行应用创新。为了突破显存、算力和带宽对大模型推理性能的限制，PPIO派欧云通