Latest

如何通过KV稀疏实现对vLLM的1.5倍加速

如何通过KV稀疏实现对vLLM的1.5倍加速

作者:PPIO派欧云算法专家 张青青 前言 近一年以来,自H2O起,关于KV稀疏的论文便百花齐放,而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的巨大鸿沟,例如,像vLLM等框架采用的是 PagedAttention 等分页内存,与大部分的稀疏算法都无法与之兼容或者本身性能不如 PagedAttention,类似的种种问题,导致了稀疏算法无法真正的在生产中应用。 我们参考KV稀疏这一方向最近一年的学术论文,结合vLLM框架本身的优化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,对vLLM框架进行基于KV稀疏的修改,最终基于线上最常用的模型、参数与硬件,与SOTA版本的推理框架进行对比,实现了1.5倍的推理加速。 说到KV稀疏之前,不得不说的便是LLM的 Massive Activations 特性,即在LLM中有很少数的激活值明显活跃于其他的激活,有时候高于其他激活100,000倍以上,换而言之,即少部分的token起到了至关重要的作用,因而可以通过KV稀疏方法(即保留重要的toke

By Saiki
PPIO CEO姚欣:AI创业的风口期,如何让企业不被淘汰?

PPIO CEO姚欣:AI创业的风口期,如何让企业不被淘汰?

近日,PPIO 派欧云联合创始人兼 CEO 姚欣参加由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的「2024 全球产品经理大会」,以「生成式 AI 引领产品创新范式」为主题,分享了他在 AI 时代领悟的全新思考。 会上,姚欣发表名为《生成式AI的产业创新曲线》主题演讲。他指出:“并不会出现某类大模型一统天下。无论是 PC、互联网还是移动互联网,任何行业、产业均呈现一个产业分层结构——底层的基础设施、中层的平台工具、上层的应用服务,自底向上分阶段成熟。生成式人工智能的产业发展亦是如此。 过去几年间,我们亲证了生成式 AI 底层基础设施发展得如火如荼,包括英伟达以及诸多的云服务公司。直至今日,算力基础设施还处于一个大规模增长的过程中,只是下一阶段的发展重点,会从现在很热闹的训练逐渐转向推理。随着算力成本每年 10 倍速下降,会持续解锁应用新场景。

By Saiki
PPIO派欧云发布全新算力云产品,助力大模型推理千倍降本

recommend

PPIO派欧云发布全新算力云产品,助力大模型推理千倍降本

2024年9月4日,由PPIO派欧云主办的“Power to Pioneers · 2024分布式云计算论坛暨 PPIO AI产品发布会”在上海召开。论坛聚焦于分布式云计算的技术创新、产业落地、市场趋势,及其对AIGC规模化应用的推动力。期间,PPIO推出全新的Serverless和模型API服务产品,进一步完善派欧算力云产品矩阵,标志着PPIO的分布式云服务从边缘云延伸到AI基础设施,将为AIGC创新企业和开发者带来更高性价比、弹性、易用的一站式AI基础设施产品和服务。 张江集团党委书记、董事长袁涛;华中科技大学教授、长江学者特聘教授、中国计算机学会副理事长金海教授出席本次论坛并致辞。中国信通院云大所政企数字化转型部主任徐恩庆;上海交通大学特聘教授、中国计算机学会系统软件专委副主任、开源鸿蒙技术指导委员会主席陈海波教授分别发表精彩演讲,为分布式云产业发展贡献无尽灵感。 PPIO派欧云联合创始人、董事长兼 CEO姚欣在主题演讲中指出:“遵循尺度定律的基本原理,计算能力将决定大模型创新和应用的上限。在计算资源成本高昂而需求爆增的市场格局下,分布式算力将成为引领下一轮科技革命的重要推动

By Ghost
投机采样会损失大语言模型的推理精度吗?

投机采样会损失大语言模型的推理精度吗?

Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。 一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。 标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。 数学证明 投机采样公式可以定义如下: 其中: * 𝑟 是从均匀分布中采样的实数。 是要预测的下一个token。 * 𝑝(𝑥) 是草稿模型给出的下一个token分布。 * 𝑞(𝑥) 是基础模型给出的下一个token分布。 为简单起见,我们省略了概率条件。实际上,𝑝 和 𝑞 是基于前缀token序列 的条件分布。 以下是 DeepMind 论文中关于该公式无损性的证明: 如果你觉得阅读数学方程式太枯燥,接下来我们将通过一些直观的图表来说明证明过程。 这是草稿模型 𝑝 和基础模型 𝑞 的分布示意图: 需要说明的是,这只是一个理想化的图

By Saiki
PPIO派欧云发布下一代推理加速引擎

News

PPIO派欧云发布下一代推理加速引擎

(2024年7月28日,长春)2024年7月26至28日,由中国计算机学会(CCF)主办的“CCF Computility 2024分布式计算大会暨全国开放式分布与并行计算学术年会”在长春市举办。陈国良院士、于全院士、郑纬民院士等11位院士与学术界和产业界的1000多位顶级专家齐聚一堂,深入探讨分布式计算与算力网的最新进展,推动科技与产业的深度融合。 作为中国领先的分布式云服务商,PPIO派欧云联合创始人、董事长兼CEO姚欣受邀参会并发表题为《面向下一代人工智能的分布式智算网络建设与运营》的主题演讲,正式发布下一代分布式推理加速技术产品——派欧算力云推理加速引擎。 性价比领先,推理性能提升十倍,综合成本降低90% 派欧算力云推理加速引擎通过一系列自研推理加速算法,使大语言模型(LLM)推理性能提升10倍。同时,PPIO派欧云还积极在硬件层构建分布式算力基础设施,将综合推理成本降低90%以上。不仅推理性能超越了众多硅谷AI Infra头部公司,还具备显著的成本优势,助力更多开发者使用大模型技术进行应用创新。 为了突破显存、算力和带宽对大模型推理性能的限制,PPIO派欧云通

By Saiki
A100 解析:为何它成为 AI 大模型时代的首选?

A100 解析:为何它成为 AI 大模型时代的首选?

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。 英伟达 A100 显卡凭借其卓越的性能、高效能和广泛的应用场景,

By Saiki
PPIO派欧云蝉联边缘公有云市场 TOP 10 企业

News

PPIO派欧云蝉联边缘公有云市场 TOP 10 企业

近日,国际数据公司(IDC)正式发布《中国边缘云市场跟踪研究,2023H2》报告。该报告指出,在2023年下半年,中国边缘云市场实现了显著增长,市场规模达62.6亿元人民币,同比增长率高达36.1%。在众多竞争者中,PPIO派欧云凭借卓越的市场表现和强大的竞争力,再次跻身于该领域的TOP10榜单。 在市场概况方面,报告指出,纵观2023年,互联网行业客户在降本增效诉求下加速自建流量分发与分布式音视频处理体系,以及传统行业客户持续将轻量级IT架构迁移至边缘云体系中,仍然是整个市场增长的核心驱动力。即便受到互联网流量增长见顶甚至回退、行业客户收紧IT预算影响,边缘云市场在下半年依然出现了超预期需求,成为云计算市场中重要的增长引擎。 PPIO派欧云在此次报告中荣获TOP10殊荣,充分彰显了其在边缘云领域的卓越实力和创新能力。展望未来,PPIO派欧云将继续致力于满足行业客户日益增长的需求,推动边缘云技术的持续演进和发展,为市场的持续健康增长贡献力量。

By Saiki