technology

官网新闻,技术博客

代理工作流:RAG、Deep Research与代码助手都在用的技术

代理工作流:RAG、Deep Research与代码助手都在用的技术

我们经常看到这些名词:AI 代理(AI agents)、代理 AI(Agentic AI)、代理架构(Agentic architectures)、代理工作流(Agentic workflows)。 代理无处不在,但它们究竟是什么?它们真的能做些什么吗? 新技术带来了混乱的术语、不切实际的期望和自封的网络专家的混合体。在本文中,我们将透过围绕 AI 代理的喧嚣和炒作,解释和说明代理 AI 的一个关键原则:代理工作流。 代理本身几乎什么都做不了。它们需要被赋予角色、目标和结构来实现目标。这就是工作流发挥作用的地方。理解了代理工作流,就理解了 AI 代理的运作方式。 本文将从以下部分展开: 1. AI代理的核心组成部分:推理、工具和记忆 2. 代理工作流的基本概念 3. 代理工作流的三种模式 4. 代理工作流的三种应用场景:RAG、Deep Research

By Saiki
大模型推理成本每年降低10倍的秘密:一文了解vLLM、SGLang等主流推理引擎

大模型推理成本每年降低10倍的秘密:一文了解vLLM、SGLang等主流推理引擎

上个月,“源神” DeepSeek 又在 Github 上宣布开源计划了,这次将开源的是 DeepSeek 自研的推理引擎,也是更早之前 DeepSeek 开源周最后一天发布的“One More Thing”。 DeepSeek 并不会选择直接开源其内部完整且高度定制化的代码库,而是将采取一种更侧重协作、更具可持续性的策略,将其核心优化成果贡献给现有的开源项目,比如 vLLM 与 SGLang——这是两家业内领先的开源推理引擎项目。 推理引擎对于提高推理效率、降低推理成本有着重要意义,是大模型产品化部署的核心基础设施。 著名投资机构 a16z 曾预测,大模型价格的下降速度甚至比个人电脑革命时期的计算成本或互联网泡沫时期的带宽成本下降速度还要快,同等性能的大模型成本每年下降 10 倍。 本文将介绍业内主流的六大推理引擎,以及他们分别解决的核心技术问题。 🔥 点击文末链接,注册即可得获取 15 元算力代金券,畅享 DeepSeek V3/R1 以及最新上线的 Prover2、Qwen3 系列、GLM-4-0414

By Saiki
AI圈爆火的MCP,你最需要了解这5个关键问题

AI圈爆火的MCP,你最需要了解这5个关键问题

近期,一个名为 MCP 的概念正在 AI 圈子里流行,从海外火到了国内。 3 月 27 日,OpenAI 宣布在 Agent SDK 中支持 MCP;4 月 4 日,谷歌宣布在 Gemini 的官方 API 文档中添加使用 MCP 的范例。加上此前提出 MCP 协议的 Anthropic,海外三大 AI 巨头已经全部投入 MCP 怀抱。 国内也迅速跟进,阿里云百炼上线业界首个全生命周期 MCP 服务,腾讯云支持 MCP 插件托管服务,MiniMax 发布了 MCP Server......MCP 似乎在一夜之间变成

By Saiki
高主频CPU+RTX4090:AI生图性能优化超150%

高主频CPU+RTX4090:AI生图性能优化超150%

在 AI 图像生成过程中,CPU 与 GPU 的协同效应对系统的整体性能至关重要。 测试表明,与 RTX 4090 显卡搭配使用时,相较于核心数量,CPU 主频对性能的影响更为显著。这颠覆了传统认知中对多核企业级处理器的推崇,也证明了高主频消费级 CPU 不仅能大幅提升生成速度,还可以有效降低硬件成本。 CPU 主频对图像生成速度的影响 在文生图过程中,CPU 为 GPU 预处理数据。更高的 CPU 主频可以加速指令集的准备和传输效率,使得 GPU 无需等待便可保持满载运行。测试显示,相比于低频企业级 CPU,高频消费级 CPU 可将 GPU 的利用率提升 150% 以上。 测试框架: 在 ComfyUI上运行Stable Diffusion 1.8.0,

By Saiki
DeepSeek开源周背后的思考:榨干硬件每一滴性能,才能释放AI模型的真正潜力

DeepSeek开源周背后的思考:榨干硬件每一滴性能,才能释放AI模型的真正潜力

545% 的成本利润率,是 DeepSeek 抛出的诱人数字,还是触手可及的未来? 这场由开源所引发的 AI 技术平民化浪潮,又将如何重塑 AI Infra 的格局? 3 月 5 日,PPIO派欧云联合创始人兼 CTO 王闻宇做客「CSDN AI 进化论」,深度剖析 DeepSeek 开源周背后的技术逻辑与生态影响,揭示了这场技术盛宴中蕴藏的机遇与挑战。 王闻宇认为: * DeepSeek 声称的 545% 成本利润率虽难以完全复现,但揭示了 AI Infra 盈利能力的巨大潜力,指引我们不断逼近这个目标; * DeepSeek 类似于 AI 领域的瓦特,通过降低技术门槛和开源策略,预示着 AI 应用的平民化和算力需求的爆发式增长; * DeepSeek 在现有硬件限制下,充分发挥软件和集群能力,是典型的“硬件定义软件”

By Saiki
EP架构:是未来技术发展的主流趋势,还是仅适用于特定场景?

technology

EP架构:是未来技术发展的主流趋势,还是仅适用于特定场景?

DeepSeek MoE架构采用跨节点专家并行(EP)架构,在提升推理系统性能方面展现出巨大潜力。这一架构在发展进程中也面临诸多挑战,其未来究竟是会成为行业的主流方向,还是仅适用于特定场景,成为特定领域的最优解,引发了广泛的讨论。 PPIO派欧云作为专注于分布式推理的AI infra公司,致力于探索前沿推理加速技术。PD分离(prefill-decode分离)作为一种新兴的推理范式,是我们近期重要的研究方向之一,其对EP架构的发展产生了深远影响。 一、EP 架构的技术优势与潜力 (一)提升系统吞吐能力 EP 架构通过增大 batch size,充分挖掘 GPU 矩阵乘法的并行计算潜力,显著提升系统的吞吐能力。在深度学习模型的推理阶段,较大的 batch size 能够让 GPU 在单位时间内处理更多数据。 以图像识别模型为例,当 batch size 增大时,GPU 可以同时对更多张图片进行特征提取与分类运算,大大加快了推理速度。这种机制充分利用了 GPU 的并行计算资源,使模型在数据处理效率上得到质的提升,

By Saiki
PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

PPIO实测一手性能数据,MoE模型推理效率显著提升,DeepGEMM重磅开源!

开源周内传来新消息,DeepSeek 正式发布了 DeepGEMM 开源库。 这是一个专为稠密和 MoE 模型设计的FP8 GEMM计算库,特别为 DeepSeek - V3/R1等MoE FP8量化模型的训练和推理提供了强有力的支持。 DeepGEMM 针对英伟达 Hopper 架构 GPU (如H100,H200,H800)进行了深度优化。 主要特点是代码简洁(核心部分仅300行左右)但性能出色,在各种矩阵形状下都能够媲美甚至超越专家调优的库。 作为一家专注于提供高性能 AI 计算服务的云平台,PPIO派欧云已经部署了大量 MoE FP8 量化模型(例如 DeepSeek FP8 版本)。 为了更好地利用 DeepGEMM 技术,提升这类模型的推理效率,PPIO 第一时间对 DeepGEMM 的性能进行了全面测试。 在了解具体测试数据之前,我们先来熟悉一些相关的基础概念。 什么是

By Saiki
DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

technology

DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

今天,DeepSeek 在继 FlashMLA 之后,推出了第二个 OpenSourceWeek 开源项目——DeepEP。 作为首个专为 MoE(Mixture-of-Experts)训练与推理设计的开源 EP 通信库,DeepEP 在 EP(Expert Parallelism)领域迈出了重要一步,旨在为 MoE 模型提供低时延、高带宽、高吞吐的卡间和节点间通信能力。 根据测试结果,DeepEP 在节点内部的多卡通信中表现接近带宽上限,同时节点间通信效率也显著提升。 什么是EP? 在深入了解 DeepEP 之前,我们需要先理解什么是 EP。 EP 是一种专为 MoE 设计的分布式计算方法。而 MoE 是一种基于 Transformer 的模型架构,采用稀疏策略,使其相比传统的密集模型在训练时更加轻量化。 在这种 MoE 神经网络架构中,

By Saiki
如何通过KV稀疏实现对vLLM的1.5倍加速

如何通过KV稀疏实现对vLLM的1.5倍加速

作者:PPIO派欧云算法专家 张青青 前言 近一年以来,自H2O起,关于KV稀疏的论文便百花齐放,而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的巨大鸿沟,例如,像vLLM等框架采用的是 PagedAttention 等分页内存,与大部分的稀疏算法都无法与之兼容或者本身性能不如 PagedAttention,类似的种种问题,导致了稀疏算法无法真正的在生产中应用。 我们参考KV稀疏这一方向最近一年的学术论文,结合vLLM框架本身的优化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,对vLLM框架进行基于KV稀疏的修改,最终基于线上最常用的模型、参数与硬件,与SOTA版本的推理框架进行对比,实现了1.5倍的推理加速。 说到KV稀疏之前,不得不说的便是LLM的 Massive Activations 特性,即在LLM中有很少数的激活值明显活跃于其他的激活,有时候高于其他激活100,000倍以上,换而言之,即少部分的token起到了至关重要的作用,因而可以通过KV稀疏方法(即保留重要的toke

By Saiki
投机采样会损失大语言模型的推理精度吗?

technology

投机采样会损失大语言模型的推理精度吗?

Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。 一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。 标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。 数学证明 投机采样公式可以定义如下: 其中: * 𝑟 是从均匀分布中采样的实数。 是要预测的下一个token。 * 𝑝(𝑥) 是草稿模型给出的下一个token分布。 * 𝑞(𝑥) 是基础模型给出的下一个token分布。 为简单起见,我们省略了概率条件。实际上,𝑝 和 𝑞 是基于前缀token序列 的条件分布。 以下是 DeepMind 论文中关于该公式无损性的证明: 如果你觉得阅读数学方程式太枯燥,接下来我们将通过一些直观的图表来说明证明过程。 这是草稿模型 𝑝 和基础模型 𝑞 的分布示意图: 需要说明的是,这只是一个理想化的图

By Saiki
A100 解析:为何它成为 AI 大模型时代的首选?

technology

A100 解析:为何它成为 AI 大模型时代的首选?

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。 英伟达 A100 显卡凭借其卓越的性能、高效能和广泛的应用场景,

By Saiki