technology

官网新闻,技术博客

当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

technology

当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

近期,PPIO Sandbox(沙箱)发布了一个重要功能:沙箱克隆。 沙箱克隆旨在助力提高 Agent 的并行计算能力,也就是经典的“Scale up”规模扩展问题。 今年最流行的 Agent 产品是 Deep Research,它可以看作对单个研究问题持续追踪、推演、迭代直到形成洞察的长链路串行推理过程。 那么,如果将 Deep Research 的能力 Scale up 一百倍会发生什么?像 Manus 这样的 Agent 正在解决这类挑战,并将这种并行计算架构的 Agent 称之为 Wide Research。 从 Agent 的串行计算到并行计算,离不开“沙箱克隆”这一核心技术的助力,这是 PPIO 在 Agentic Infra

By PPIO
为什么说“Spot GPU实例”是AI算力体系的战略级补充?

technology

为什么说“Spot GPU实例”是AI算力体系的战略级补充?

在云计算的成本优化领域,有一种独特的计费模式,它允许用户以极低的折扣获取计算资源,堪比“捡漏”。这就是 Spot 实例。 早期的 Spot 实例是“闲置资源的低价甩卖”,本质是供需调节。但在今天的云原生与 AI 生态中, Spot 实例——尤其是 Spot GPU 实例,变成了 AI 算力编排体系中的战略一环。 对于希望最大化利用云预算的开发者和企业来说,理解并善用 Spot GPU 实例是实现成本效益最大化的关键。 # 01 什么是 Spot 实例? Spot 实例,又被称为竞价实例、抢占式实例,是云服务提供商将数据中心内的闲置计算容量以动态变化的价格进行售卖的一种机制。 Spot 实例在性能上与标准的按需实例(On-Demand Instance)并无二致,但价格却能提供高达 50%~90% 的折扣。 而低价的代价是,当云服务商需要收回这些容量以满足按需或其他更高优先级用户的需求时,

By PPIO
2025年Q3 tokens调用量趋势:国产开源模型“一超三强”

technology

2025年Q3 tokens调用量趋势:国产开源模型“一超三强”

昨天,我们发布了 2025 年 Q3 海外大模型 tokens 调用量趋势。 海外 AI 推理市场由闭源模型厂商主导,Google、Anthropic、OpenAI 以及 xAI 四家闭源模型占据了60%-80% 的市场份额。 但在国内恰恰相反, DeepSeek 掀起的开源浪潮还在继续,Qwen、GLM、Kimi、百度、MiniMax 等模型公司纷纷拥抱开源。 今天,基于第三季度 PPIO 平台的开源模型调用量表现,我们总结出国内 AI 推理市场五大趋势。 趋势一:国产开源模型“一超三强” 在第三季度,DeepSeek 仍然是用户调用量最大的开源模型,最高占据 90% 以上的市场份额,比上个季度进一步增长。 阿里 Qwen 系列在第三季度的大部分时间里都是用户调用量第二大的开源模型,且用量非常稳定,市场占有率在

By PPIO
2025年Q3大模型tokens调用量观察:Grok逆袭,DeepSeek弥坚

technology

2025年Q3大模型tokens调用量观察:Grok逆袭,DeepSeek弥坚

2025 年第三季度,大模型市场又有哪些新的变化? 基于 OpenRouter 过去三个月的 tokens 调用数据,我们能看到总 token 使用量排名及趋势、不同大模型的市场份额占比、细分领域模型的应用偏好等趋势。 OpenRouter 的数据主要反映了海外闭源模型的调用量趋势。预告一下,下一篇我们将基于 PPIO 数据,分析国产开源模型在国内市场的调用量趋势。 # 01 Tokens 调用量高速增长,Grok 逆袭 * 2025 年第三季度,OpenRouter 的 tokens 调用总量相比上个季度继续增长,9 月份每周平均消耗超过 4T tokens,大约是上个季度周消耗的两倍。也就是说,AI 推理市场仍在高速增长。 * 在 tokens 消耗前二十的模型中,Grok 是一个新面孔。今年上半年,Grok 系列模型表现平平,一直被归类于 Others。但在第三季度,

By PPIO
企业大模型选型指南:100位CIO总结的16条采购建议

technology

企业大模型选型指南:100位CIO总结的16条采购建议

生成式 AI 的落地分为两大场景,消费级与企业级。对于消费级 AI,我们可以通过 similarweb 等第三方网站获取其流量与用户使用情况;而对于企业级 AI,则需要参考专业的调研机构数据。 几个月前,知名投资机构 a16z 发布了一篇深度调研报告,通过一手访谈 20 多家企业级 AI 客户,以及 15 个行业的 100 位首席信息官(CIO),总结了 2025 年及未来企业如何使用、购买和规划新一代人工智能的 16 条建议。 AI 是一个快速变化的领域,今年的 AI 的市场结构已经比去年发生明显转变。这些趋势包括: * 企业级 AI 预算超出了本已很高的预测,并从试点项目和创新基金升级为核心 IT 和业务部门预算中的经常性支出项目。 * 企业在混合搭配多种模型以在性能和成本之间进行优化方面变得更加成熟。OpenAI、Google 和 Anthropic

By PPIO
一文看懂2025年Agent六大最新趋势|AI专栏

technology

一文看懂2025年Agent六大最新趋势|AI专栏

2025 年被称为通用 Agent 元年。从 Manus 到各类 Deep Research 产品,掀起了 Agent 热潮。 按照 OpenAI 的定义,通往 AGI 之路有五个阶段,而 Agent 正值 L3 阶段。 PPIO AI 专栏基于过去三年模型与 Agent 生态的技术进展,总结了 Agent 行业的最新六大趋势,分别是: 1. 什么是 Agent “套壳”,以及为什么套壳被严重低估 2. Agent 定义:广义的 Agent 面向企业级,狭义的 Agent 面向消费级 3. 代码模型是当前阶段推动 Agent

By PPIO
一文看懂Agent的9种“记忆系统” | AI专栏

technology

一文看懂Agent的9种“记忆系统” | AI专栏

对 AI Agent 来说,“记忆”指的是它在多轮交互中保留信息、上下文、用户偏好、任务细节的能力。就像一个助理需要记住老板昨天布置的任务一样,AI Agent 也必须“有记性”,才能真正完成连续性的任务。 但 AI 并不天然拥有记忆,它只有 “上下文窗口” —— 就是我们每次和模型交互时,把前面的对话再“重新发一遍”,它才“看得见过去”。 问题来了:上下文窗口有长度限制,信息多了就塞不下;重复发送也会导致 token 成本高昂。 所以,研究者和开发者们就发明了很多不同的“记忆策略”,来让 Agent 更聪明、更节省资源。 AI 工程师 Fareed Khan 总结了 9 种主流 AI Agent Memory 技术方式,以及这些技术各自的优点和缺点。

By Saiki
PPIO发布AI报告:2025年上半年国产大模型调用量十大趋势

PPIO发布AI报告:2025年上半年国产大模型调用量十大趋势

2025年上半年,各种现象级智能体应用层出不穷,Manus、Flowith、扣子空间、Lovart、MiniMax Agent、Kimi Deep Research 等等。 智能体应用爆发背后,证明了大模型的智能水平已经达到相当可靠、可用的阶段。 其中,开源模型发展迅速,在性能上已经整体逼近甚至追平闭源模型,以 DeepSeek R1、Qwen3-235B-A22B 、Kimi K2 为代表的模型已经跻身全球 top 级模型。同时,开源模型大大降低了模型成本,AI 推理成本正以每年 10 倍的速度降低。 PPIO 提供国内主流开源模型服务,包括 DeepSeek、阿里 Qwen、MiniMax、Kimi、智谱 GLM 等,是国内开源模型服务最全面的 AI 推理云平台之一。根据 PPIO 平台的大模型

By Saiki
为什么主流大模型的上下文窗口都是128k?| 深度

为什么主流大模型的上下文窗口都是128k?| 深度

近期 AI 圈正在流行一个新的概念——Context Engineering(上下文工程),它被 AI 专家安德烈·卡帕西称为“在上下文窗口中填充下一步所需的恰到好处的信息的精细艺术与科学”。 上下文工程的前提是大模型充足的上下文窗口。如果梳理大模型的上下文窗口会发现,今天主流模型基本都把 128k 作为上下文的标准长度。 在闭源模型阵营中,GPT-4-Turbo、GPT-4o 都支持 128k 上下文窗口,Gemini 1.5 Pro 也以 128k 作为标准窗口(企业版可选更高);在开源模型阵营中,Qwen3 系列将 128k 作为上下文标配,DeepSeek V3/R1 的官方最大上下文长度是128k,近期刚刚发布的 Kimi K2 的上下文长度也是 128k 。 当然,很多模型也在尝试把上下文拓展到更大的长度。比如,PPIO 将 DeepSeek

By Saiki
为什么Agent Sandbox会成为下一代AI应用的基石?| 深度

为什么Agent Sandbox会成为下一代AI应用的基石?| 深度

2023 年夏天,当 OpenAI 在 ChatGPT 中悄然上线了一个名为“Code Interpreter(代码解释器)”的功能时,很少有人意识到,这标志着一个全新 AI Agent Infra 技术时代的开启。 在基础的聊天、写文章的功能之上,Code Interpreterr 赋予了 ChatGPT 执行代码的能力,让 ChatGPT 能像一个真正的数据分析师那样,运行 Python 代码、分析数据、生成图表。 然而,这就像打开了潘多拉的魔盒——强大的能力伴随着未知的风险。如果 AI 生成的代码是恶意的呢?如果它试图访问系统文件、删除数据、或者向外发送敏感信息呢? 这个古老而永恒的安全问题,催生了一个全新的技术分支:Agent Sandbox——专为 AI Agent 量身定制的安全沙箱技术。 预告一下,

By Saiki
从Copilot到Agent,AI Coding是如何进化的?

从Copilot到Agent,AI Coding是如何进化的?

编程原本是一项具有一定门槛的技能,但借助 AI Coding 产品,新手也能写出可运行的代码,非专业人员如业务分析师、产品经理,也能在 AI 帮助下直接生成简单应用。 这一演变对软件产业产生了深远影响。当 AI 逐步参与代码生成、调试乃至项目管理,编程范式正从“AI 辅助”迈向 AI Agent 驱动的“AI 协作”。 今天市场上的 AI Coding 产品是如何发展的?按照发布时间与产品类型,AI Coding 的发展历程大致可以分为四个阶段: * 代码模型基建,比如 Codex、o1、DeepSeek R1 等 * 基于 IDE 的编程增强插件,比如 GitHub Copilot * Web IDE 平台集成 AI,

By Saiki
DeepSeek-V3最新论文重磅发布,PPIO已跑通所有核心推理加速技术

technology

DeepSeek-V3最新论文重磅发布,PPIO已跑通所有核心推理加速技术

梁文锋署名论文最新发布,PPIO全链路推理加速技术率先跑通。 今天,DeepSeek官方发布了一篇重磅论文,由梁文锋亲自署名:《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》——《深入了解DeepSeek-V3:AI架构的硬件扩展挑战和思考》。 这篇论文并非DeepSeek-V3的详细架构与算法细节的重复,而是从硬件架构和模型设计的双重角度出发,探讨它们之间在实现大规模训练和推理的成本效益方面的复杂相互作用。 DeepSeek-V3的关键创新包括: * 多头潜在注意力(MLA):通过压缩KV缓存来提高内存效率。 * 专家混合(MoE)架构:优化计算-通信权衡。 * FP8混合精度训练:充分利用硬件能力。 * 多平面网络拓扑:减少集群级网络开销。 这些创新旨在应对扩展LLM的三个核心挑战——内存效率、成本效益和推理速度,而这也是PPIO派欧云的推理加速优化方向。 作为一站式AIGC云服务平台,PPIO派欧云目前已

By Saiki