当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

近期,PPIO Sandbox(沙箱)发布了一个重要功能:沙箱克隆。

沙箱克隆旨在助力提高 Agent 的并行计算能力,也就是经典的“Scale up”规模扩展问题。

今年最流行的 Agent 产品是 Deep Research,它可以看作对单个研究问题持续追踪、推演、迭代直到形成洞察的长链路串行推理过程。

那么,如果将 Deep Research 的能力 Scale up 一百倍会发生什么?像 Manus 这样的 Agent 正在解决这类挑战,并将这种并行计算架构的 Agent 称之为 Wide Research。

从 Agent 的串行计算到并行计算,离不开“沙箱克隆”这一核心技术的助力,这是 PPIO 在 Agentic Infra 方向正在做的事情之一。


# 01 

上下文窗口的根本性瓶颈

在介绍沙箱克隆之前,有必要先解释一下 Deep Research 产品做串行任务的瓶颈。

比如,大多数人都会遇到这样一个令人沮丧的现实,在多主题研究任务中,到第八或第九个项目时,AI 就开始编造内容。

是因为模型的上下文窗口太小吗?众所周知,模型的上下文窗口就是一个有限的记忆缓冲区,限制了模型在任何给定时刻可以主动处理的信息量,扩展上下文窗口就是扩展模型的记忆能力。最新的前沿大模型已经大大扩展了上下文窗口的边界,从 4K 到 32K、128K,甚至 1M+ tokens。

然而,更大的上下文窗口却并不能从根本上解决 Agent 的记忆瓶颈。Agent 的 Scale up,不仅仅是提示词工程问题,也不仅仅是模型的问题,而是一个架构约束——单线程、顺序处理的范式无法突破这种约束。

Manus 在近期的博客中解释了这一现象。模型的检索准确性会随着当前位置的距离而下降,即"迷失在中间"现象。上下文开头和结尾的信息比中间的信息更可靠地被回忆起来。即使是无限上下文,要求单个模型在数十个独立研究任务中保持一致的质量也会产生认知瓶颈。

其中原因跟后训练数据有关系。当前语言模型的后训练数据混合仍然主要由为聊天机器人式交互设计的相对较短的轨迹主导。因此,当消息内容的长度超过某个阈值时,模型自然会经历一种上下文长度压力,促使它加速总结或诉诸于不完整的表达形式,比如开始输出要点列表。

而且,处理更长的上下文也意味着成本是指数级的增长。

那么,要想应对大规模研究任务,应该如何处理?并行处理应运而生。


# 02 

并行处理架构带来的Sandbox需求

日常办公中有一类场景天然适合并行计算架构,包括批量文档处理、多资产创意生成、大规模数据分析、复杂工作流分解等。这些任务的特点是,规模量大但任务类型相似,任务之间具有一定的独立性。

Agent 的并行计算不是要求一个处理器顺序处理 n 个项目,而是像影分身那样部署 n 个并行子Agent 同时处理 n 个项目,然后将子 Agent 的任务成果综合成一个单一的、连贯的、全面的报告。

也就是说,如果需要处理 50 个项目,那就部署 50 个子 Agent ;如果要处理 500 个项目,那就部署 500 个。架构随任务大小线性扩展,而不是像基于上下文的方法那样呈指数级扩展。

最核心的变化在于,子 Agent 之间互相独立。每个子 Agent 都拥有完整的 Sandbox 运行环境,全新的、空的上下文窗口,以及完整的工具库和独立的互联网连接。

因为子 Agent 并行操作,分析 50 个项目所需的实际时间与分析 5 个项目大致相同。即使单个子 Agent 出现错误或幻觉也不会传播到其他子 Agent。这大大降低了整个 Agent 系统的幻觉。

我们知道,Agent 的运行离不开 Sandbox 环境,而现阶段的 Sandbox 通常服务于串行计算的 Agent 架构。当 Agent 架构开始从串行计算往并行计算发展的时候,Sandbox 也相应地需要满足并行计算的要求。

这一功能,就是沙箱克隆。


# 03

PPIO 上线“沙箱克隆”功能

PPIO 在今年7月正式发布 Sandbox 产品,已上线 Computer Use、Browser-use、Code Interpreter 等基础功能。

近期,PPIO 发布了沙箱实例自动暂停和恢复、沙箱克隆、沙箱闲时释放等功能的 Beta 版本。其中,沙箱克隆允许复制正在运行或处于暂停状态的沙箱实例,克隆出的沙箱和原沙箱的文件系统、内存状态保持一致。

借助 “沙箱克隆” 功能,Agent 实现了从 “深度单线探索”(Deep-Research)到 “广度并行探索”(Wide-Research)的架构转变:

  1. 多时间线探索架构:就像决策树一样,Agent 可以从同一个基准状态出发,创建多个独立的沙箱副本,每个副本探索一条不同的解决路径,互不干扰。
  2. 真正的并行计算能力:通过将大任务拆分成批量子任务,Agent 能够将计算能力扩展数十倍甚至上百倍,同时处理数十个、上百个探索分支。
  3. 零风险实验环境:克隆出的沙箱完全隔离,AI 可以在其中自由实验、测试各种可能性,而不会影响原始环境或开发者的主工作流程。
  4. 高效的资源利用:虽然可能同时启动多个沙箱实例,但通过动态管理和及时终止不再有价值的分支(沙箱实例),总体计算资源消耗可以保持在合理范围内。

这种能力使 Agent 能够突破当前的性能瓶颈,从提供理论建议转变为交付经过并行验证、实际测试的可靠方案,真正实现自主探索、迭代和解决复杂问题的能力。

关于更多沙箱克隆的信息,您可以到 PPIO 网站查看我们的开发者文档:

https://ppio.com/docs/sandbox/sandbox-clone

如果您正在探索并行计算的 Agent 架构,欢迎体验 PPIO 的沙箱克隆功能以及完整的 Agentic Infra 解决方案,您可以扫码以下二维码添加专属小助手进行进一步沟通。

参考文章:

Wide Research:超越上下文窗口

Read more

PPIO发布Agent Runtime:让Agent部署像Serverless一样简单

PPIO发布Agent Runtime:让Agent部署像Serverless一样简单

近期,PPIO 发布了基于 Sandbox(沙箱)自研的新产品:Agent Runtime,一个轻量级的 Agent 运行时框架。 Agent Runtime 是为了顺应 Agent 的专属需求而推出,其定位与 AWS AgentCore Runtime 类似。AgentCore 是 AWS 在 2025 年推出的专为 Agent 设计的基础设施平台,AgentCore Runtime 则是其中一个子产品,是基于 Firecracker 微虚拟机的 Serverless 运行时环境,旨在解决 Agent 低成本、高效率的部署问题。 PPIO Agent Runtime 通过简单易用的 SDK 与强大的沙箱运行环境来简化 Agent 的部署过程。用户无需关心基础设施配置、

By PPIO
PPIO上线Kimi K2 Thinking,兼容Anthropic协议

PPIO上线Kimi K2 Thinking,兼容Anthropic协议

今天,PPIO 上线 Kimi K2 Thinking,这是 Kimi 最新、功能最强大的开源思考模型。 Kimi K2 Thinking 基于 Kimi K2 后训练而来的混合专家模型(MoE),总参数达 1T,激活参数 32B,上下文长度 256K。该模型支持深度思考、Function Call、结构化输出、json_schema、json_object 等功能。 现在,你可以到 PPIO 官网在线体现 Kimi K2 Thinking,也可以将 PPIO 的模型 API 部署到 AI 应用中。 PPIO 在线体验地址: https:

By PPIO
PPIO独家上新GPU实例模板,一键部署Kimi-Linear

PPIO独家上新GPU实例模板,一键部署Kimi-Linear

昨晚,月之暗面发布了混合线性注意力架构新模型 Kimi-Linear,旨在解决大语言模型在长上下文推理中的计算瓶颈。 Kimi-Linear 的核心亮点: * Kimi Delta Attention(KDA),一种通过细粒度门控机制改进门控规则的线性注意力架构。 * 混合架构:采用 3:1 的 KDA 与全局 MLA 比例,在保持甚至超越全注意力质量的同时降低内存占用。 * 卓越性能:在 1.4T Token 的训练规模下,经公平对比,KDA 在长文本与类强化学习基准等多项任务上均优于全注意力。 * 高吞吐:在 1M 上下文中实现最高 6 倍的解码吞吐量,显著缩短单输出 Token 耗时(TPOT)。 今天,PPIO 独家上新 GPU 实例模板,可一键部署 Kimi-Linear-48B-A3B-Instruct 的专属模型。 PPIO 算力市场的

By PPIO
为什么说“Spot GPU实例”是AI算力体系的战略级补充?

为什么说“Spot GPU实例”是AI算力体系的战略级补充?

在云计算的成本优化领域,有一种独特的计费模式,它允许用户以极低的折扣获取计算资源,堪比“捡漏”。这就是 Spot 实例。 早期的 Spot 实例是“闲置资源的低价甩卖”,本质是供需调节。但在今天的云原生与 AI 生态中, Spot 实例——尤其是 Spot GPU 实例,变成了 AI 算力编排体系中的战略一环。 对于希望最大化利用云预算的开发者和企业来说,理解并善用 Spot GPU 实例是实现成本效益最大化的关键。 # 01 什么是 Spot 实例? Spot 实例,又被称为竞价实例、抢占式实例,是云服务提供商将数据中心内的闲置计算容量以动态变化的价格进行售卖的一种机制。 Spot 实例在性能上与标准的按需实例(On-Demand Instance)并无二致,但价格却能提供高达 50%~90% 的折扣。 而低价的代价是,当云服务商需要收回这些容量以满足按需或其他更高优先级用户的需求时,

By PPIO