technology

官网新闻,技术博客

一文看懂2025年Agent六大最新趋势|AI专栏

technology

一文看懂2025年Agent六大最新趋势|AI专栏

2025 年被称为通用 Agent 元年。从 Manus 到各类 Deep Research 产品,掀起了 Agent 热潮。 按照 OpenAI 的定义,通往 AGI 之路有五个阶段,而 Agent 正值 L3 阶段。 PPIO AI 专栏基于过去三年模型与 Agent 生态的技术进展,总结了 Agent 行业的最新六大趋势,分别是: 1. 什么是 Agent “套壳”,以及为什么套壳被严重低估 2. Agent 定义:广义的 Agent 面向企业级,狭义的 Agent 面向消费级 3. 代码模型是当前阶段推动 Agent

By PPIO
一文看懂Agent的9种“记忆系统” | AI专栏

technology

一文看懂Agent的9种“记忆系统” | AI专栏

对 AI Agent 来说,“记忆”指的是它在多轮交互中保留信息、上下文、用户偏好、任务细节的能力。就像一个助理需要记住老板昨天布置的任务一样,AI Agent 也必须“有记性”,才能真正完成连续性的任务。 但 AI 并不天然拥有记忆,它只有 “上下文窗口” —— 就是我们每次和模型交互时,把前面的对话再“重新发一遍”,它才“看得见过去”。 问题来了:上下文窗口有长度限制,信息多了就塞不下;重复发送也会导致 token 成本高昂。 所以,研究者和开发者们就发明了很多不同的“记忆策略”,来让 Agent 更聪明、更节省资源。 AI 工程师 Fareed Khan 总结了 9 种主流 AI Agent Memory 技术方式,以及这些技术各自的优点和缺点。

By Saiki
PPIO发布AI报告:2025年上半年国产大模型调用量十大趋势

technology

PPIO发布AI报告:2025年上半年国产大模型调用量十大趋势

2025年上半年,各种现象级智能体应用层出不穷,Manus、Flowith、扣子空间、Lovart、MiniMax Agent、Kimi Deep Research 等等。 智能体应用爆发背后,证明了大模型的智能水平已经达到相当可靠、可用的阶段。 其中,开源模型发展迅速,在性能上已经整体逼近甚至追平闭源模型,以 DeepSeek R1、Qwen3-235B-A22B 、Kimi K2 为代表的模型已经跻身全球 top 级模型。同时,开源模型大大降低了模型成本,AI 推理成本正以每年 10 倍的速度降低。 PPIO 提供国内主流开源模型服务,包括 DeepSeek、阿里 Qwen、MiniMax、Kimi、智谱 GLM 等,是国内开源模型服务最全面的 AI 推理云平台之一。根据 PPIO 平台的大模型

By Saiki
为什么主流大模型的上下文窗口都是128k?| 深度

technology

为什么主流大模型的上下文窗口都是128k?| 深度

近期 AI 圈正在流行一个新的概念——Context Engineering(上下文工程),它被 AI 专家安德烈·卡帕西称为“在上下文窗口中填充下一步所需的恰到好处的信息的精细艺术与科学”。 上下文工程的前提是大模型充足的上下文窗口。如果梳理大模型的上下文窗口会发现,今天主流模型基本都把 128k 作为上下文的标准长度。 在闭源模型阵营中,GPT-4-Turbo、GPT-4o 都支持 128k 上下文窗口,Gemini 1.5 Pro 也以 128k 作为标准窗口(企业版可选更高);在开源模型阵营中,Qwen3 系列将 128k 作为上下文标配,DeepSeek V3/R1 的官方最大上下文长度是128k,近期刚刚发布的 Kimi K2 的上下文长度也是 128k 。 当然,很多模型也在尝试把上下文拓展到更大的长度。比如,PPIO 将 DeepSeek

By Saiki
为什么Agent Sandbox会成为下一代AI应用的基石?| 深度

为什么Agent Sandbox会成为下一代AI应用的基石?| 深度

2023 年夏天,当 OpenAI 在 ChatGPT 中悄然上线了一个名为“Code Interpreter(代码解释器)”的功能时,很少有人意识到,这标志着一个全新 AI Agent Infra 技术时代的开启。 在基础的聊天、写文章的功能之上,Code Interpreterr 赋予了 ChatGPT 执行代码的能力,让 ChatGPT 能像一个真正的数据分析师那样,运行 Python 代码、分析数据、生成图表。 然而,这就像打开了潘多拉的魔盒——强大的能力伴随着未知的风险。如果 AI 生成的代码是恶意的呢?如果它试图访问系统文件、删除数据、或者向外发送敏感信息呢? 这个古老而永恒的安全问题,催生了一个全新的技术分支:Agent Sandbox——专为 AI Agent 量身定制的安全沙箱技术。 预告一下,

By Saiki
从Copilot到Agent,AI Coding是如何进化的?

从Copilot到Agent,AI Coding是如何进化的?

编程原本是一项具有一定门槛的技能,但借助 AI Coding 产品,新手也能写出可运行的代码,非专业人员如业务分析师、产品经理,也能在 AI 帮助下直接生成简单应用。 这一演变对软件产业产生了深远影响。当 AI 逐步参与代码生成、调试乃至项目管理,编程范式正从“AI 辅助”迈向 AI Agent 驱动的“AI 协作”。 今天市场上的 AI Coding 产品是如何发展的?按照发布时间与产品类型,AI Coding 的发展历程大致可以分为四个阶段: * 代码模型基建,比如 Codex、o1、DeepSeek R1 等 * 基于 IDE 的编程增强插件,比如 GitHub Copilot * Web IDE 平台集成 AI,

By Saiki
DeepSeek-V3最新论文重磅发布,PPIO已跑通所有核心推理加速技术

DeepSeek-V3最新论文重磅发布,PPIO已跑通所有核心推理加速技术

梁文锋署名论文最新发布,PPIO全链路推理加速技术率先跑通。 今天,DeepSeek官方发布了一篇重磅论文,由梁文锋亲自署名:《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》——《深入了解DeepSeek-V3:AI架构的硬件扩展挑战和思考》。 这篇论文并非DeepSeek-V3的详细架构与算法细节的重复,而是从硬件架构和模型设计的双重角度出发,探讨它们之间在实现大规模训练和推理的成本效益方面的复杂相互作用。 DeepSeek-V3的关键创新包括: * 多头潜在注意力(MLA):通过压缩KV缓存来提高内存效率。 * 专家混合(MoE)架构:优化计算-通信权衡。 * FP8混合精度训练:充分利用硬件能力。 * 多平面网络拓扑:减少集群级网络开销。 这些创新旨在应对扩展LLM的三个核心挑战——内存效率、成本效益和推理速度,而这也是PPIO派欧云的推理加速优化方向。 作为一站式AIGC云服务平台,PPIO派欧云目前已

By Saiki
代理工作流:RAG、Deep Research与代码助手都在用的技术

technology

代理工作流:RAG、Deep Research与代码助手都在用的技术

我们经常看到这些名词:AI 代理(AI agents)、代理 AI(Agentic AI)、代理架构(Agentic architectures)、代理工作流(Agentic workflows)。 代理无处不在,但它们究竟是什么?它们真的能做些什么吗? 新技术带来了混乱的术语、不切实际的期望和自封的网络专家的混合体。在本文中,我们将透过围绕 AI 代理的喧嚣和炒作,解释和说明代理 AI 的一个关键原则:代理工作流。 代理本身几乎什么都做不了。它们需要被赋予角色、目标和结构来实现目标。这就是工作流发挥作用的地方。理解了代理工作流,就理解了 AI 代理的运作方式。 本文将从以下部分展开: 1. AI代理的核心组成部分:推理、工具和记忆 2. 代理工作流的基本概念 3. 代理工作流的三种模式 4. 代理工作流的三种应用场景:RAG、Deep Research

By Saiki
大模型推理成本每年降低10倍的秘密:一文了解vLLM、SGLang等主流推理引擎

大模型推理成本每年降低10倍的秘密:一文了解vLLM、SGLang等主流推理引擎

上个月,“源神” DeepSeek 又在 Github 上宣布开源计划了,这次将开源的是 DeepSeek 自研的推理引擎,也是更早之前 DeepSeek 开源周最后一天发布的“One More Thing”。 DeepSeek 并不会选择直接开源其内部完整且高度定制化的代码库,而是将采取一种更侧重协作、更具可持续性的策略,将其核心优化成果贡献给现有的开源项目,比如 vLLM 与 SGLang——这是两家业内领先的开源推理引擎项目。 推理引擎对于提高推理效率、降低推理成本有着重要意义,是大模型产品化部署的核心基础设施。 著名投资机构 a16z 曾预测,大模型价格的下降速度甚至比个人电脑革命时期的计算成本或互联网泡沫时期的带宽成本下降速度还要快,同等性能的大模型成本每年下降 10 倍。 本文将介绍业内主流的六大推理引擎,以及他们分别解决的核心技术问题。 🔥 点击文末链接,注册即可得获取 15 元算力代金券,畅享 DeepSeek V3/R1 以及最新上线的 Prover2、Qwen3 系列、GLM-4-0414

By Saiki
AI圈爆火的MCP,你最需要了解这5个关键问题

AI圈爆火的MCP,你最需要了解这5个关键问题

近期,一个名为 MCP 的概念正在 AI 圈子里流行,从海外火到了国内。 3 月 27 日,OpenAI 宣布在 Agent SDK 中支持 MCP;4 月 4 日,谷歌宣布在 Gemini 的官方 API 文档中添加使用 MCP 的范例。加上此前提出 MCP 协议的 Anthropic,海外三大 AI 巨头已经全部投入 MCP 怀抱。 国内也迅速跟进,阿里云百炼上线业界首个全生命周期 MCP 服务,腾讯云支持 MCP 插件托管服务,MiniMax 发布了 MCP Server......MCP 似乎在一夜之间变成

By Saiki
高主频CPU+RTX4090:AI生图性能优化超150%

高主频CPU+RTX4090:AI生图性能优化超150%

在 AI 图像生成过程中,CPU 与 GPU 的协同效应对系统的整体性能至关重要。 测试表明,与 RTX 4090 显卡搭配使用时,相较于核心数量,CPU 主频对性能的影响更为显著。这颠覆了传统认知中对多核企业级处理器的推崇,也证明了高主频消费级 CPU 不仅能大幅提升生成速度,还可以有效降低硬件成本。 CPU 主频对图像生成速度的影响 在文生图过程中,CPU 为 GPU 预处理数据。更高的 CPU 主频可以加速指令集的准备和传输效率,使得 GPU 无需等待便可保持满载运行。测试显示,相比于低频企业级 CPU,高频消费级 CPU 可将 GPU 的利用率提升 150% 以上。 测试框架: 在 ComfyUI上运行Stable Diffusion 1.8.0,

By Saiki
DeepSeek开源周背后的思考:榨干硬件每一滴性能,才能释放AI模型的真正潜力

technology

DeepSeek开源周背后的思考:榨干硬件每一滴性能,才能释放AI模型的真正潜力

545% 的成本利润率,是 DeepSeek 抛出的诱人数字,还是触手可及的未来? 这场由开源所引发的 AI 技术平民化浪潮,又将如何重塑 AI Infra 的格局? 3 月 5 日,PPIO派欧云联合创始人兼 CTO 王闻宇做客「CSDN AI 进化论」,深度剖析 DeepSeek 开源周背后的技术逻辑与生态影响,揭示了这场技术盛宴中蕴藏的机遇与挑战。 王闻宇认为: * DeepSeek 声称的 545% 成本利润率虽难以完全复现,但揭示了 AI Infra 盈利能力的巨大潜力,指引我们不断逼近这个目标; * DeepSeek 类似于 AI 领域的瓦特,通过降低技术门槛和开源策略,预示着 AI 应用的平民化和算力需求的爆发式增长; * DeepSeek 在现有硬件限制下,充分发挥软件和集群能力,是典型的“硬件定义软件”

By Saiki