一文看懂2025年Agent六大最新趋势|AI专栏

一文看懂2025年Agent六大最新趋势|AI专栏

2025 年被称为通用 Agent 元年。从 Manus 到各类 Deep Research 产品,掀起了 Agent 热潮。

按照 OpenAI 的定义,通往 AGI 之路有五个阶段,而 Agent 正值 L3 阶段。

PPIO AI 专栏基于过去三年模型与 Agent 生态的技术进展,总结了 Agent 行业的最新六大趋势,分别是:

  1. 什么是 Agent “套壳”,以及为什么套壳被严重低估
  2. Agent 定义:广义的 Agent 面向企业级,狭义的 Agent 面向消费级
  3. 代码模型是当前阶段推动 Agent 的最关键一步
  4. 模型公司一方 Agent 与第三方独立 Agent 的路线之争仍未收敛
  5. 上下文工程是构建 Agent 的必经之路
  6. Sandbox 成为 Agent runtime 的核心产品

此外,下一篇 AI 专栏将详细梳理上下文工程的演进历程,包括 RAG、记忆系统、工具集成推理以及多智能体系统四大模块。


# 01

被低估的 Agent “套壳”

过去两年基础模型的快速迭代是大模型生态发展的主线命题。在此背景下,基于模型开发的 Agent 应用常被质疑是“套壳”,其价值被远远低估了。

如果模型是“核”,那什么是“壳”?今天,随着大模型技术生态的逐步完善,这一层“壳”的样貌也逐渐清晰。

2023 年,前 OpenAI 研究员 Lilian Weng 发布一篇博客,在业内首次定义了 Agent 的技术框架,在 LLM 之外包括 Planning、Tools、Memory 以及 Action 四大关键组件。

这四大组件,其实就是 Agent 的壳。

过去两年,Agent 壳生态最大的进展有两个。在 Planning 领域,OpenAI 的 o 系列、DeepSeek 的 R 系列将带思维链(Chain of thought )的推理模型真正推向大规模落地;Anthropic 的 Claude 3.5 则以卓越的代码能力著称,结合执行环境,让 Agent 具备了自我反省(Self-Reflection)的能力。

在 Tools use 领域,Function Call(调用插件)、Web search(网络搜索)、File search(本地搜索)、Computer use(操作电脑)、Browser Use(操作网页)已经成为前沿模型的基本能力,而 Anthropic 提出的 MCP 协议,则进一步为 Agent 工具调用提供了统一的标准接口,推动了整个工具生态的规模化发展。

在“壳“之外还有一个非常重要的进展——Agent 框架层,就是 Agent 的运行时与编排系统,负责将“核 + 壳”变成一个可落地、可扩展、可监控的系统。

框架层提供了运行时(Agent Runtime)、编排与协作(Orchestrator,比如AutoGen、LangChain)、开发框架(LangChain、Dify、n8n)和观测与安全机制,让多个 Agent 能够在统一环境下通信、协作与演化。没有这一层,Agent 依旧停留在“单体实验”;有了它,Agent 才真正进入“系统工程”。

从这个角度来说,Agent 壳还远未展现所有价值,其潜力被严重低估了。


# 02

广义的 Agent =企业级

狭义的Agent=消费级

关于 Agent 的概念与定义有很多不同的说法,可以将其总结为狭义的 Agent 与广义的 Agent。

狭义的 Agent 通常指“能够自主采取行动的系统“,强调其自主独立运行;而广义的 Agent,也包含了“遵循预定义工作流程的更具规范性实现的系统”,尽管其缺乏自主性。

不过两者在技术实现上存在重要的架构区别:

  • 工作流是指通过预定义代码路径协调 LLM 和工具的系统,有的语境下也称之为“静态工作流”
  • Agent 是指 LLM 动态指导其自身流程和工具使用的系统,可以控制其完成任务的方式,有的语境下也称之为“动态工作流”。

结合实际落地场景,静态工作流更常用于企业级场景,因此可称之为“企业级 Agent”。企业级 Agent 需提前定义好任务分解、角色分工、工具调用路径,强调可靠性、可控性、合规性。比如在金融、医疗等场景几乎都需要可审计的决策链,不能依赖 LLM 自主“随兴”规划。

Anthropic 曾分享过与数十个跨行业团队合作构建的 LLM Agent 架构,其中包括五种常见的工作流系统:

  • 链式提示系统(Prompt chaining):提示链将任务分解为一系列步骤,其中每个 LLM 调用都会处理前一个步骤的输出。

  • 路由系统(Routing):路由会对输入进行分类,并将其定向到专门的后续任务。

  • 并行化系统(Parallelization):LLM 有时可以同时处理一项任务,并以编程方式聚合其输出。

  • 协调器编排系统(Orchestrator-workers):中央 LLM 动态分解任务,将其委托给工作者 LLM,并综合其结果。

  • 评估器、优化器系统(Evaluator-optimizer):一个 LLM 调用生成响应,而另一个调用在循环中提供评估和反馈。

而动态工作流更多面向大众消费者,因此可称之为“消费级 Agent”。消费级 Agent 就是随着 LLM 在关键能力方面的日趋成熟而兴起的自主智能体系统,可以基于环境反馈使用工具,能够独立规划和操作。其典型代表就是 Deep Research 类产品。不过多数产品背后仍辅以一定的工程化编排,以保障可用性。


# 03

代码模型是当前阶段

推动Agent 的最关键一步

早在 2023 年,就有 Agent 项目爆火一时,比如 AutoGPT、BabyAGI、斯坦福 AI 小镇等。不过,直到 2024 年的 Cursor、2025年的 Deep Research ,才真正宣告成熟可用的 Agent 产品出现。

这背后最核心的原因,就是基础模型能力的提升,尤其是为 Claude 3.5 为代表的“代码模型”。在 Hugging Face 的 Agent 分级中,Code Agent 也是最高等级。

一个真正有用的 Agent,至少需要三种能力:推理与规划(Reasoning)、工具调用(Tool Use)、记忆与状态管理(Memory)。其中的第二点的工具调用,几乎离不开“代码”的能力,代码模型可以将此前大语言模型的模糊指令转化为明确的代码动作,执行与检验推理模型规划出来的行动序列,以及在执行环境中实现自我调用、自我调试。

其中一个最具代表性的案例就是 Cursor。Cursor 在 2023 年就已发布,但直到 2024 年接入 Claude 3.5 之后,才真正迎来爆发式增长。很多开发者发现,在 Cursor + Claude 3.5 组合下,体验远好于传统 Copilot + GPT-4

凭借更长的 200k 上下文以及代码能力,越来越多的 Agent 开发者选择 Claude 3.5 以及后续模型作为基础模型,尤其是是在代码 IDE、长文档分析、多智能体协作实验等应用场景,这改变了 OpenAI 一家独大的局面。

2025 年 8 月,媒体对比了 OpenAI 与 Anthropic 的收入,其中的 API 收入 Anthropic 技胜一筹,反映了代码模型在 Agent 市场的巨大潜力。

Hugging Face 定义了 Agent 的六个等级,其中 Code Agent 是其中的最高级别:

  • 简单处理器:LLM 输出对程序流程没有影响
  • 路由器:LLM 输出控制 if/else 开关
  • 工具调用:LLM 输出控制函数执行
  • 多步代理:LLM 输出控制迭代和程序继续
  • 多代理:一个代理工作流可以启动另一个代理工作流
  • 代码代理:LLM 在代码中起作用,可以定义自己的工具/启动其他代理


# 04

模型一方Agent vs 第三方独立Agent

今天的消费级 Agent,比如 Manus、ChatGPT Agent 都采用了动态工作流的架构,即由模型自主采取行动,但他们的产品架构并不相同。

在《DEEP RESEARCH AGENTS: A SYSTEMATIC EXAMINATION AND ROADMAP》这篇论文中,动态工作流模式的 Agent 被进一步分成两种不同的形态:动态单智能体系统 vs 动态多智能体系统。

单智能体系统由一个大型推理模型(LRM)自主更新并执行任务,但这种高度集成的单智能体模式对基础模型的推理能力、上下文理解及自主工具调用提出了极高要求;多智能体系统利用多个专业智能体,通过自适应规划策略协同完成不断生成并动态分配的子任务。

现在的基础模型厂商多采用单智能体系统,即采用端到端的强化学习策略,在多个领域的复杂浏览和推理任务上进行训练,将 tool use 工具使用的能力训练到模型中,得到一个学会了规划和执行多步骤路径以查找所需数据的单一模型。

这种产品策略被总结为“Model as Agent”,代表产品是基础模型厂商推出了 Deep Research 产品,比如 OpenAI Deep Research(现整合为 ChatGPT Agent)、Kimi Research 、Grok Deep Search、Google Gemini Deep Research。

而独立的 Agent 公司,通常不会基于开源模型做端到端强化学习的模型训练路线,这并非他们的强项,而是选择基于现有的顶级前沿模型,尤其是擅长编码能力的 Claude 系列,做上下文工程(Context Engineering),基于 MCP 协议调用 tools use 能力,代表性公司就是 Manus、Genspark 等。

Manus 提出的 Agent 产品 Slogan 是“less structure more intelligence”,Genspark 提出的产品理念则是“Less Control,More Tools”,两者有异曲同工之处,都在强调让模型自主规划与执行,并且已经取得了行业领先的成果。

模型厂商与独立 Agent 厂商两种不同的路线究竟孰优孰劣?现在还尚无定论。

最新的趋势是,模型性能提升的幅度在 2025 年已经明显放缓,颠覆性的迭代更新越来越少,这给了独立 Agent 厂商发展的绝佳时间窗口。


# 05

上下文工程是构建Agent

必不可少的路径

上下文工程正在称为继 Model、Tool Use 之后的下一个 Agent 趋势,

大模型性能高度依赖上下文信息,传统“提示词工程(prompt engineering)”已无法满足复杂系统的需求,而上下文工程结合了用于设计、管理和优化上下文的技术,是在提示词工程基础上的更新与迭代。

上下文工程不仅涵盖大语言模型,也涵盖了多模态模型以及工程优化的所有相关过程,包括:

  • 提示词和指令
  • 检索文档或外部数据(例如 RAG)
  • 任何过去的状态、工具调用、结果或其他历史记录
  • 任何来自相关但独立的历史/对话的过去信息或事件(记忆)
  • 关于输出什么类型的结构化数据的说明

上下文工程是一门新兴科学。Langchain 发表的一篇博客中介绍了上下文工程的四种构建方式:写入上下文、筛选上下文、压缩上下文、隔离上下文。

Manus 曾分享过其上下文工程的实践,将其评价为构建智能体系统必不可少的路径。尽管模型本身可能会变得更强大、更快速、更经济,但再多的原始能力也无法替代对记忆、环境和反馈的需求。如何塑造上下文最终决定了智能体的行为方式,包括它运行的速度、恢复的效果以及扩展的范围。

PPIO 下一篇 AI 专栏,将详细梳理上下文工程的演进历程,包括 RAG、记忆系统、工具集成推理以及多智能体系统四大模块。


# 06

Sandbox 成为 Agent runtime

的核心产品

随着通用 Agent 产品的涌现与成熟,一个新的刚需开始显现:Agent runtime(运行时环境)。

在构建 Agent 框架的过程中,runtime 模块扮演着至关重要的角色,它不仅负责启动和管理 workflow / Agent 的生命周期,还处理任务调度、资源分配和状态监控等核心功能。

Sandbox(沙箱)是运行时环境的核心功能。它是一种隔离的执行环境,用来安全地运行模型生成的代码或操作。

为什么需要 Sandbox?因为 Agent 经常输出Python/JS/Shell 等代码、文件操作命令、API 调用指令、浏览器操作请求,这带来了代码安全风险,比如删除、覆盖文件、窃取本地信息、无限循环耗尽算力、访问敏感外部网站等。因此,Agent 必须在一个安全的隔离环境中运行,防止误操作或恶意行为破坏真实系统。

今天,Sandbox 已经大规模落地到生产实践中。在海外,ChatGPT Code Interpreter / ADA 里,Runtime 的“亮点功能”就是沙箱执行环境,Claude 的代码执行也是围绕安全沙箱来做的。

在国内,PPIO 推出了国内首款兼容 E2B 接口的 Agent 沙箱,并且提供更具性价比的价格。PPIO Agent 沙箱已接入开源的安全虚拟桌面项目 E2B Desktop (computer Use)和 AI 浏览器 Agent Browser-use,逐步构建完善的 Agentic AI 生态。

Read more

PPIO入选36氪“2026最具价值成长企业100”

PPIO入选36氪“2026最具价值成长企业100”

近日,PPIO 入选 36 氪发布的“2026 最具价值成长企业 100”榜单。 该榜单评选聚焦顺应产业变革、构建长期核心竞争力、持续创造商业与产业价值的创新企业,旨在发掘在新一轮科技变革与产业升级中脱颖而出的成长标杆。与 PPIO 同批入选的还有 DeepSeek、Kimi、阶跃星辰、穹彻智能等一批领先的人工智能/大模型公司。 PPIO 此次入选,体现了其在技术创新与商业化落地方面的综合实力,也反映出行业与市场对 AI 基础设施赛道发展前景的持续看好。 PPIO 是全球领先的 AI 云计算服务商,致力于帮助更多企业、开发者和智能体应用以更低成本、更高效率使用 AI 基础设施服务。 面向 AI 原生应用、智能体开发、AI 编程、多模态应用和企业级大模型服务等新一代需求,PPIO 提供高性价比、超弹性、低延迟的一站式 AI 云平台服务,覆盖

By luigi
香港特区政府财政司司长陈茂波一行到访 PPIO

香港特区政府财政司司长陈茂波一行到访 PPIO

6 月 18 日上午,香港特别行政区政府财政司司长陈茂波一行到访 PPIO 上海总部,参观 PPIO 企业展厅,并围绕人工智能基础设施建设、AI 云服务发展、产业生态协同以及香港创新科技发展等议题开展座谈交流。PPIO 联合创始人、董事长兼 CEO 姚欣等接待来访并参加座谈。 此次来访体现了香港特区政府对人工智能基础设施、分布式AI 云计算以及新一代 AI 服务平台发展的高度关注,也为 PPIO 进一步发挥自身技术与平台优势、深化香港布局、连接国际市场提供了重要交流契机。   来访期间,陈茂波司长一行参观了PPIO 展厅,详细了解 PPIO 的发展历程、技术架构、全球业务布局,以及公司在分布式 算力、模型推理服务、Agentic Cloud、智能体基础设施和全球开发者生态等方面的最新进展。   座谈会上,双方围绕AI产业发展趋势、算力基础设施建设、模型服务能力、AI 应用落地、香港国际化平台优势及未来合作方向等内容进行了深入交流。

By luigi
PPIO入选中国信通院Token服务能力攀登计划

PPIO入选中国信通院Token服务能力攀登计划

6 月 16 日,中国信通院正式发布“Token 服务能力攀登计划”。PPIO 凭借在 MaaS 模型服务性能、稳定性和 Token 输出效率方面的表现,入选首批企业级 Token 服务性能攀登基线。 在通用场景下,PPIO 模型服务实现 TPS ≥55 个/秒、TTFT ≤0.9 秒、调用成功率 ≥99.9%,标志着其模型平台已具备面向企业级 AI 应用和 Agent 场景的高质量 Token 服务能力。 PPIO 此次入选,体现了其在模型推理服务能力、AI 云基础设施建设和企业级 Token 服务质量方面获得权威行业机构认可。 同时,PPIO 还受邀参加高质量词元(Token)服务专题研讨,

By luigi
PPIO首发上线GLM-5.2:代码能力仅次于Claude Fable 5

PPIO首发上线GLM-5.2:代码能力仅次于Claude Fable 5

今天,PPIO 首发上线智谱最新开源旗舰模型 GLM-5.2。 其核心特点如下: ✅Coding 能力开源 SOTA:GLM-5.2 发布即获 LMArena 代码榜开源模型第一、全球模型二,整体表现仅次于 Claude Fable 5; ✅支持真正可用的 1M 上下文:一次任务即可完成“从需求到多端可部署产物“的完整开发链路; ✅自主规划驱动高效迭代:引领开发模式从 Vibe Coding 迈向 Agentic Engineering,构建“规划-实现-迭代”的工程闭环; ✅万级真实任务验证:构建逾万个可验证任务环境,覆盖九大主流编程语言,大幅提升模型软件工程能力。 现在,GLM-5.2 已上线 PPIO 模型广场,您可以在线试用该模型或通过 API 快速集成。  地址:https:

By PPIO