PPIO - PPIO 博客 (Page 4)

News

PPIO独家上新GPU实例模板，一键部署Kimi-Linear

昨晚，月之暗面发布了混合线性注意力架构新模型 Kimi-Linear，旨在解决大语言模型在长上下文推理中的计算瓶颈。 Kimi-Linear 的核心亮点： * Kimi Delta Attention（KDA），一种通过细粒度门控机制改进门控规则的线性注意力架构。 * 混合架构：采用 3:1 的 KDA 与全局 MLA 比例，在保持甚至超越全注意力质量的同时降低内存占用。 * 卓越性能：在 1.4T Token 的训练规模下，经公平对比，KDA 在长文本与类强化学习基准等多项任务上均优于全注意力。 * 高吞吐：在 1M 上下文中实现最高 6 倍的解码吞吐量，显著缩短单输出 Token 耗时（TPOT）。今天，PPIO 独家上新 GPU 实例模板，可一键部署 Kimi-Linear-48B-A3B-Instruct 的专属模型。 PPIO 算力市场的

technology

为什么说“Spot GPU实例”是AI算力体系的战略级补充？

在云计算的成本优化领域，有一种独特的计费模式，它允许用户以极低的折扣获取计算资源，堪比“捡漏”。这就是 Spot 实例。早期的 Spot 实例是“闲置资源的低价甩卖”，本质是供需调节。但在今天的云原生与 AI 生态中， Spot 实例——尤其是 Spot GPU 实例，变成了 AI 算力编排体系中的战略一环。对于希望最大化利用云预算的开发者和企业来说，理解并善用 Spot GPU 实例是实现成本效益最大化的关键。 # 01 什么是 Spot 实例？ Spot 实例，又被称为竞价实例、抢占式实例，是云服务提供商将数据中心内的闲置计算容量以动态变化的价格进行售卖的一种机制。 Spot 实例在性能上与标准的按需实例（On-Demand Instance）并无二致，但价格却能提供高达 50%～90% 的折扣。而低价的代价是，当云服务商需要收回这些容量以满足按需或其他更高优先级用户的需求时，

News

AI正跨越鸿沟，创业者该关注什么？PPIO姚欣提出两大关键指标

从 23 岁在宿舍创办PPTV，到率先成立 AI 创业营，再到预见性地布局 AI 云算力基础设施 PPIO ，创业者姚欣的二十一年，是一部穿越了 PC 、移动和 AI 三次技术浪潮的“活历史”。近日，PPIO 联合创始人兼 CEO 姚欣受邀做客36氪《AI局中人》栏目，直播中分享了他横跨 PC 互联网、移动互联网到 AI 时代的三段创业经历，并与36氪特邀主持人、蚂蚁集团 NEXTA 创新实验室项目负责人何思翀深入探讨了以下内容： · 谈选择：放弃内卷的 AI 应用红海，他为何坚信“送水”是门更好的生意？ · 谈数据：日均 2000 亿次 Token 调用的硬核数据里，藏着你没看到的增长密码。 · 谈未来：杀手级应用不是下一个微信，

PPIO上线MiniMax-M2：聚焦编码和智能体，兼容Anthropic SDK

今天，PPIO 首发上线 MiniMax 最新发布并开源的模型：MiniMax-M2。 MiniMax-M2 是一款轻量、快速且极具成本效益的 MoE 模型（230B 总参数，10B 激活参数）。它在保持强大通用智能的同时，专为编码和智能体任务进行了深度优化，提供了开发者期待的端到端工具使用性能。同时，在全球权威测评榜单 Artificial Analysis 中总分位列全球前五。 MiniMax-M2 支持 200K 上下文，最大输出 tokens 数为 128K。价格方面，其 API 定价为每百万 tokens 输入 2.1 元、输出 8.4 元。该定价低于 GLM-4.6、Kimi-K2-0905、DeepSeek-R1-0528 等开源模型，

News

PPIO上线DeepSeek-OCR模型

刚刚，PPIO 上线 DeepSeeek 最新发布的 DeepSeek-OCR 模型，这是一个专为高效视觉-文本压缩概念验证而设计的视觉文本模型。现在，你可以到 PPIO 官网在线体验 DeepSeek-OCR，或将模型 API 接入 Cherry Studio 等第三方 AI 应用或你自己的 AI 工作流中。在线体验地址： https://ppio.com/llm/deepseek-deepseek-ocr 开发者文档： https://ppio.com/docs/model/llm 模型基础信息：模型创新点 DeepSeek-OCR 模型的创新点是什么？当前大语言模型（LLM）在处理长文本内容时面临显著的计算挑战——计算量随序列长度呈二次方增长。 DeepSeek 探索了一种潜在解决方案：利用视觉模态作为文本信息的高效压缩媒介。一张包含文档文本的图像可以用远少于等效数字文本的 token 数表示丰富信息，

News

PPIO上线Qwen-VL-8B/30B、GLM-4.5-Air等多款中小尺寸模型

今天，PPIO 上线多个中小尺寸新模型，包括 Qwen3-VL 系列的 8B/30B，以及智谱的 GLM-4.5-Air。 Qwen3-VL 系列是 Qwen3 家族最新发布的视觉理解模型，每个尺寸都有 Instruct 和 Thinking 两大版本。其中，Qwen3-VL-8B 是稠密（Dense）视觉理解模型，显存占用更低；Qwen3-VL-30B 是 MoE 模型，激活参数仅 3B，体积更小，性能依旧强劲。 GLM-4.5-Air 是此前 GLM-4.5 系列的小尺寸版本，拥有 106B 总参数和 12B 激活参数。 GLM-4.5-Air 是一个混合推理模型，用于复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。

technology

2025年Q3 tokens调用量趋势：国产开源模型“一超三强”

昨天，我们发布了 2025 年 Q3 海外大模型 tokens 调用量趋势。海外 AI 推理市场由闭源模型厂商主导，Google、Anthropic、OpenAI 以及 xAI 四家闭源模型占据了60%-80% 的市场份额。但在国内恰恰相反， DeepSeek 掀起的开源浪潮还在继续，Qwen、GLM、Kimi、百度、MiniMax 等模型公司纷纷拥抱开源。今天，基于第三季度 PPIO 平台的开源模型调用量表现，我们总结出国内 AI 推理市场五大趋势。趋势一：国产开源模型“一超三强” 在第三季度，DeepSeek 仍然是用户调用量最大的开源模型，最高占据 90% 以上的市场份额，比上个季度进一步增长。阿里 Qwen 系列在第三季度的大部分时间里都是用户调用量第二大的开源模型，且用量非常稳定，市场占有率在

technology

2025年Q3大模型tokens调用量观察：Grok逆袭，DeepSeek弥坚

2025 年第三季度，大模型市场又有哪些新的变化？基于 OpenRouter 过去三个月的 tokens 调用数据，我们能看到总 token 使用量排名及趋势、不同大模型的市场份额占比、细分领域模型的应用偏好等趋势。 OpenRouter 的数据主要反映了海外闭源模型的调用量趋势。预告一下，下一篇我们将基于 PPIO 数据，分析国产开源模型在国内市场的调用量趋势。 # 01 Tokens 调用量高速增长，Grok 逆袭 * 2025 年第三季度，OpenRouter 的 tokens 调用总量相比上个季度继续增长，9 月份每周平均消耗超过 4T tokens，大约是上个季度周消耗的两倍。也就是说，AI 推理市场仍在高速增长。 * 在 tokens 消耗前二十的模型中，Grok 是一个新面孔。今年上半年，Grok 系列模型表现平平，一直被归类于 Others。但在第三季度，

News

PPIO上线智谱GLM-4.6，Coding 能力创国产模型新高

今天，PPIO 上线智谱旗舰模型 GLM-4.6。 GLM-4.6 是智谱最强的代码 Coding 模型，较 GLM-4.5 提升 27%，在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。 1. 高级编码能力：在公开基准与真实编程任务中，GLM-4.6 的代码能力对齐 Claude Sonnet 4，是国内已知的最好的 Coding 模型。 2. 上下文长度：上下文窗口由 128K 提升至 200K，适应更长的代码和智能体任务。 3. 推理能力：推理能力提升，并支持在推理过程中调用工具。、搜索能力：增强模型的工具调用和搜索智能体，在智能体框架中表现更好。 4. 写作能力：在文风、可读性与角色扮演场景中更符合人类偏好。

News

DeepSeek-V3.2-Exp发布，有哪些新变化？

今天，DeepSeek 突然发布新版本模型 DeepSeek-V3.2-Exp，PPIO 已经首发上线！ DeepSeek-V3.2-Exp 是 DeepSeek 新模型的实验版本，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 “DeepSeek 稀疏注意力机制（DeepSeek Sparse Attention）”，旨在探索和验证在长上下文场景下训练和推理效率的优化。该实验版本代表了 DeepSeek 对更高效的 Transformer 架构的持续研究，特别注重提高处理扩展文本序列时的计算效率。 1. DeepSeek 稀疏注意力首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。DeepSeek-V3.2-Exp 支持 160K 上下文。 2. 为了严格评估引入稀疏注意力机制的影响，DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。

News

PPIO首席科学家王晓飞教授荣登“终身科学影响力排行榜”

近日，美国斯坦福大学（Stanford University）与国际权威学术出版社爱思唯尔（Elsevier）共同发布 2025 年全球前 2% 顶尖科学家榜单（World's Top 2% Scientists）。PPIO 首席科学家、天津大学教授、博导王晓飞教授入选榜单，并同时跻身 “终身科学影响力排行榜” 与 “年度科学影响力排行榜”。此次入选不仅体现了王晓飞教授在人工智能与分布式计算领域的卓越学术贡献，也进一步巩固了 PPIO 作为全球领先的分布式 AI 云计算服务商的行业地位。全球前 2% 顶尖科学家榜单评选涵盖全球超 800 万名科学家的职业生涯和年度学术表现，通过引用次数、h指数等多维数据计算生成。因其标准化和透明性，该榜单被公认为国际学术界和产业界衡量学者影响力的重要参照。王晓飞教授现任天津大学计算机学院副院长，研究领域涵盖人工智能计算、分布式云计算和边缘智能等，已发表 SCI 及国际会议论文 220 余篇，总引用量超 12000

technology

企业大模型选型指南：100位CIO总结的16条采购建议

生成式 AI 的落地分为两大场景，消费级与企业级。对于消费级 AI，我们可以通过 similarweb 等第三方网站获取其流量与用户使用情况；而对于企业级 AI，则需要参考专业的调研机构数据。几个月前，知名投资机构 a16z 发布了一篇深度调研报告，通过一手访谈 20 多家企业级 AI 客户，以及 15 个行业的 100 位首席信息官（CIO），总结了 2025 年及未来企业如何使用、购买和规划新一代人工智能的 16 条建议。 AI 是一个快速变化的领域，今年的 AI 的市场结构已经比去年发生明显转变。这些趋势包括： * 企业级 AI 预算超出了本已很高的预测，并从试点项目和创新基金升级为核心 IT 和业务部门预算中的经常性支出项目。 * 企业在混合搭配多种模型以在性能和成本之间进行优化方面变得更加成熟。OpenAI、Google 和 Anthropic