PPIO 博客 (Page 5)

technology

当Agent计算规模扩大100倍，我们需要什么样的Agentic Infra？

近期，PPIO Sandbox（沙箱）发布了一个重要功能：沙箱克隆。沙箱克隆旨在助力提高 Agent 的并行计算能力，也就是经典的“Scale up”规模扩展问题。今年最流行的 Agent 产品是 Deep Research，它可以看作对单个研究问题持续追踪、推演、迭代直到形成洞察的长链路串行推理过程。那么，如果将 Deep Research 的能力 Scale up 一百倍会发生什么？像 Manus 这样的 Agent 正在解决这类挑战，并将这种并行计算架构的 Agent 称之为 Wide Research。从 Agent 的串行计算到并行计算，离不开“沙箱克隆”这一核心技术的助力，这是 PPIO 在 Agentic Infra

News

PPIO上线Kimi K2 Thinking，兼容Anthropic协议

今天，PPIO 上线 Kimi K2 Thinking，这是 Kimi 最新、功能最强大的开源思考模型。 Kimi K2 Thinking 基于 Kimi K2 后训练而来的混合专家模型（MoE），总参数达 1T，激活参数 32B，上下文长度 256K。该模型支持深度思考、Function Call、结构化输出、json_schema、json_object 等功能。现在，你可以到 PPIO 官网在线体现 Kimi K2 Thinking，也可以将 PPIO 的模型 API 部署到 AI 应用中。 PPIO 在线体验地址： https:

News

PPIO独家上新GPU实例模板，一键部署Kimi-Linear

昨晚，月之暗面发布了混合线性注意力架构新模型 Kimi-Linear，旨在解决大语言模型在长上下文推理中的计算瓶颈。 Kimi-Linear 的核心亮点： * Kimi Delta Attention（KDA），一种通过细粒度门控机制改进门控规则的线性注意力架构。 * 混合架构：采用 3:1 的 KDA 与全局 MLA 比例，在保持甚至超越全注意力质量的同时降低内存占用。 * 卓越性能：在 1.4T Token 的训练规模下，经公平对比，KDA 在长文本与类强化学习基准等多项任务上均优于全注意力。 * 高吞吐：在 1M 上下文中实现最高 6 倍的解码吞吐量，显著缩短单输出 Token 耗时（TPOT）。今天，PPIO 独家上新 GPU 实例模板，可一键部署 Kimi-Linear-48B-A3B-Instruct 的专属模型。 PPIO 算力市场的

technology

为什么说“Spot GPU实例”是AI算力体系的战略级补充？

在云计算的成本优化领域，有一种独特的计费模式，它允许用户以极低的折扣获取计算资源，堪比“捡漏”。这就是 Spot 实例。早期的 Spot 实例是“闲置资源的低价甩卖”，本质是供需调节。但在今天的云原生与 AI 生态中， Spot 实例——尤其是 Spot GPU 实例，变成了 AI 算力编排体系中的战略一环。对于希望最大化利用云预算的开发者和企业来说，理解并善用 Spot GPU 实例是实现成本效益最大化的关键。 # 01 什么是 Spot 实例？ Spot 实例，又被称为竞价实例、抢占式实例，是云服务提供商将数据中心内的闲置计算容量以动态变化的价格进行售卖的一种机制。 Spot 实例在性能上与标准的按需实例（On-Demand Instance）并无二致，但价格却能提供高达 50%～90% 的折扣。而低价的代价是，当云服务商需要收回这些容量以满足按需或其他更高优先级用户的需求时，

News

AI正跨越鸿沟，创业者该关注什么？PPIO姚欣提出两大关键指标

从 23 岁在宿舍创办PPTV，到率先成立 AI 创业营，再到预见性地布局 AI 云算力基础设施 PPIO ，创业者姚欣的二十一年，是一部穿越了 PC 、移动和 AI 三次技术浪潮的“活历史”。近日，PPIO 联合创始人兼 CEO 姚欣受邀做客36氪《AI局中人》栏目，直播中分享了他横跨 PC 互联网、移动互联网到 AI 时代的三段创业经历，并与36氪特邀主持人、蚂蚁集团 NEXTA 创新实验室项目负责人何思翀深入探讨了以下内容： · 谈选择：放弃内卷的 AI 应用红海，他为何坚信“送水”是门更好的生意？ · 谈数据：日均 2000 亿次 Token 调用的硬核数据里，藏着你没看到的增长密码。 · 谈未来：杀手级应用不是下一个微信，

PPIO上线MiniMax-M2：聚焦编码和智能体，兼容Anthropic SDK

今天，PPIO 首发上线 MiniMax 最新发布并开源的模型：MiniMax-M2。 MiniMax-M2 是一款轻量、快速且极具成本效益的 MoE 模型（230B 总参数，10B 激活参数）。它在保持强大通用智能的同时，专为编码和智能体任务进行了深度优化，提供了开发者期待的端到端工具使用性能。同时，在全球权威测评榜单 Artificial Analysis 中总分位列全球前五。 MiniMax-M2 支持 200K 上下文，最大输出 tokens 数为 128K。价格方面，其 API 定价为每百万 tokens 输入 2.1 元、输出 8.4 元。该定价低于 GLM-4.6、Kimi-K2-0905、DeepSeek-R1-0528 等开源模型，

News

PPIO上线DeepSeek-OCR模型

刚刚，PPIO 上线 DeepSeeek 最新发布的 DeepSeek-OCR 模型，这是一个专为高效视觉-文本压缩概念验证而设计的视觉文本模型。现在，你可以到 PPIO 官网在线体验 DeepSeek-OCR，或将模型 API 接入 Cherry Studio 等第三方 AI 应用或你自己的 AI 工作流中。在线体验地址： https://ppio.com/llm/deepseek-deepseek-ocr 开发者文档： https://ppio.com/docs/model/llm 模型基础信息：模型创新点 DeepSeek-OCR 模型的创新点是什么？当前大语言模型（LLM）在处理长文本内容时面临显著的计算挑战——计算量随序列长度呈二次方增长。 DeepSeek 探索了一种潜在解决方案：利用视觉模态作为文本信息的高效压缩媒介。一张包含文档文本的图像可以用远少于等效数字文本的 token 数表示丰富信息，

News

PPIO上线Qwen-VL-8B/30B、GLM-4.5-Air等多款中小尺寸模型

今天，PPIO 上线多个中小尺寸新模型，包括 Qwen3-VL 系列的 8B/30B，以及智谱的 GLM-4.5-Air。 Qwen3-VL 系列是 Qwen3 家族最新发布的视觉理解模型，每个尺寸都有 Instruct 和 Thinking 两大版本。其中，Qwen3-VL-8B 是稠密（Dense）视觉理解模型，显存占用更低；Qwen3-VL-30B 是 MoE 模型，激活参数仅 3B，体积更小，性能依旧强劲。 GLM-4.5-Air 是此前 GLM-4.5 系列的小尺寸版本，拥有 106B 总参数和 12B 激活参数。 GLM-4.5-Air 是一个混合推理模型，用于复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。

technology

2025年Q3 tokens调用量趋势：国产开源模型“一超三强”

昨天，我们发布了 2025 年 Q3 海外大模型 tokens 调用量趋势。海外 AI 推理市场由闭源模型厂商主导，Google、Anthropic、OpenAI 以及 xAI 四家闭源模型占据了60%-80% 的市场份额。但在国内恰恰相反， DeepSeek 掀起的开源浪潮还在继续，Qwen、GLM、Kimi、百度、MiniMax 等模型公司纷纷拥抱开源。今天，基于第三季度 PPIO 平台的开源模型调用量表现，我们总结出国内 AI 推理市场五大趋势。趋势一：国产开源模型“一超三强” 在第三季度，DeepSeek 仍然是用户调用量最大的开源模型，最高占据 90% 以上的市场份额，比上个季度进一步增长。阿里 Qwen 系列在第三季度的大部分时间里都是用户调用量第二大的开源模型，且用量非常稳定，市场占有率在

technology

2025年Q3大模型tokens调用量观察：Grok逆袭，DeepSeek弥坚

2025 年第三季度，大模型市场又有哪些新的变化？基于 OpenRouter 过去三个月的 tokens 调用数据，我们能看到总 token 使用量排名及趋势、不同大模型的市场份额占比、细分领域模型的应用偏好等趋势。 OpenRouter 的数据主要反映了海外闭源模型的调用量趋势。预告一下，下一篇我们将基于 PPIO 数据，分析国产开源模型在国内市场的调用量趋势。 # 01 Tokens 调用量高速增长，Grok 逆袭 * 2025 年第三季度，OpenRouter 的 tokens 调用总量相比上个季度继续增长，9 月份每周平均消耗超过 4T tokens，大约是上个季度周消耗的两倍。也就是说，AI 推理市场仍在高速增长。 * 在 tokens 消耗前二十的模型中，Grok 是一个新面孔。今年上半年，Grok 系列模型表现平平，一直被归类于 Others。但在第三季度，

News

PPIO上线智谱GLM-4.6，Coding 能力创国产模型新高

今天，PPIO 上线智谱旗舰模型 GLM-4.6。 GLM-4.6 是智谱最强的代码 Coding 模型，较 GLM-4.5 提升 27%，在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。 1. 高级编码能力：在公开基准与真实编程任务中，GLM-4.6 的代码能力对齐 Claude Sonnet 4，是国内已知的最好的 Coding 模型。 2. 上下文长度：上下文窗口由 128K 提升至 200K，适应更长的代码和智能体任务。 3. 推理能力：推理能力提升，并支持在推理过程中调用工具。、搜索能力：增强模型的工具调用和搜索智能体，在智能体框架中表现更好。 4. 写作能力：在文风、可读性与角色扮演场景中更符合人类偏好。

News

DeepSeek-V3.2-Exp发布，有哪些新变化？

今天，DeepSeek 突然发布新版本模型 DeepSeek-V3.2-Exp，PPIO 已经首发上线！ DeepSeek-V3.2-Exp 是 DeepSeek 新模型的实验版本，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 “DeepSeek 稀疏注意力机制（DeepSeek Sparse Attention）”，旨在探索和验证在长上下文场景下训练和推理效率的优化。该实验版本代表了 DeepSeek 对更高效的 Transformer 架构的持续研究，特别注重提高处理扩展文本序列时的计算效率。 1. DeepSeek 稀疏注意力首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。DeepSeek-V3.2-Exp 支持 160K 上下文。 2. 为了严格评估引入稀疏注意力机制的影响，DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。

Latest

当Agent计算规模扩大100倍，我们需要什么样的Agentic Infra？

PPIO上线Kimi K2 Thinking，兼容Anthropic协议

PPIO独家上新GPU实例模板，一键部署Kimi-Linear

为什么说“Spot GPU实例”是AI算力体系的战略级补充？

AI正跨越鸿沟，创业者该关注什么？PPIO姚欣提出两大关键指标

PPIO上线MiniMax-M2：聚焦编码和智能体，兼容Anthropic SDK

PPIO上线DeepSeek-OCR模型

PPIO上线Qwen-VL-8B/30B、GLM-4.5-Air等多款中小尺寸模型

2025年Q3 tokens调用量趋势：国产开源模型“一超三强”

2025年Q3大模型tokens调用量观察：Grok逆袭，DeepSeek弥坚

PPIO上线智谱GLM-4.6，Coding 能力创国产模型新高

DeepSeek-V3.2-Exp发布，有哪些新变化？