Latest

PPIO上线Kimi K2 Thinking,兼容Anthropic协议

PPIO上线Kimi K2 Thinking,兼容Anthropic协议

今天,PPIO 上线 Kimi K2 Thinking,这是 Kimi 最新、功能最强大的开源思考模型。 Kimi K2 Thinking 基于 Kimi K2 后训练而来的混合专家模型(MoE),总参数达 1T,激活参数 32B,上下文长度 256K。该模型支持深度思考、Function Call、结构化输出、json_schema、json_object 等功能。 现在,你可以到 PPIO 官网在线体现 Kimi K2 Thinking,也可以将 PPIO 的模型 API 部署到 AI 应用中。 PPIO 在线体验地址: https:

By PPIO
PPIO独家上新GPU实例模板,一键部署Kimi-Linear

PPIO独家上新GPU实例模板,一键部署Kimi-Linear

昨晚,月之暗面发布了混合线性注意力架构新模型 Kimi-Linear,旨在解决大语言模型在长上下文推理中的计算瓶颈。 Kimi-Linear 的核心亮点: * Kimi Delta Attention(KDA),一种通过细粒度门控机制改进门控规则的线性注意力架构。 * 混合架构:采用 3:1 的 KDA 与全局 MLA 比例,在保持甚至超越全注意力质量的同时降低内存占用。 * 卓越性能:在 1.4T Token 的训练规模下,经公平对比,KDA 在长文本与类强化学习基准等多项任务上均优于全注意力。 * 高吞吐:在 1M 上下文中实现最高 6 倍的解码吞吐量,显著缩短单输出 Token 耗时(TPOT)。 今天,PPIO 独家上新 GPU 实例模板,可一键部署 Kimi-Linear-48B-A3B-Instruct 的专属模型。 PPIO 算力市场的

By PPIO
为什么说“Spot GPU实例”是AI算力体系的战略级补充?

为什么说“Spot GPU实例”是AI算力体系的战略级补充?

在云计算的成本优化领域,有一种独特的计费模式,它允许用户以极低的折扣获取计算资源,堪比“捡漏”。这就是 Spot 实例。 早期的 Spot 实例是“闲置资源的低价甩卖”,本质是供需调节。但在今天的云原生与 AI 生态中, Spot 实例——尤其是 Spot GPU 实例,变成了 AI 算力编排体系中的战略一环。 对于希望最大化利用云预算的开发者和企业来说,理解并善用 Spot GPU 实例是实现成本效益最大化的关键。 # 01 什么是 Spot 实例? Spot 实例,又被称为竞价实例、抢占式实例,是云服务提供商将数据中心内的闲置计算容量以动态变化的价格进行售卖的一种机制。 Spot 实例在性能上与标准的按需实例(On-Demand Instance)并无二致,但价格却能提供高达 50%~90% 的折扣。 而低价的代价是,当云服务商需要收回这些容量以满足按需或其他更高优先级用户的需求时,

By PPIO
AI正跨越鸿沟,创业者该关注什么?PPIO姚欣提出两大关键指标

AI正跨越鸿沟,创业者该关注什么?PPIO姚欣提出两大关键指标

从 23 岁在宿舍创办PPTV,到率先成立 AI 创业营,再到预见性地布局 AI 云算力基础设施 PPIO ,创业者姚欣的二十一年,是一部穿越了 PC 、移动和 AI 三次技术浪潮的“活历史”。 近日,PPIO 联合创始人兼 CEO 姚欣受邀做客36氪《AI局中人》栏目,直播中分享了他横跨 PC 互联网、移动互联网到 AI 时代的三段创业经历,并与36氪特邀主持人、蚂蚁集团 NEXTA 创新实验室项目负责人何思翀深入探讨了以下内容: · 谈选择:放弃内卷的 AI 应用红海,他为何坚信“送水”是门更好的生意? · 谈数据:日均 2000 亿次 Token 调用的硬核数据里,藏着你没看到的增长密码。 · 谈未来:杀手级应用不是下一个微信,

By PPIO
PPIO上线MiniMax-M2:聚焦编码和智能体,兼容Anthropic SDK

PPIO上线MiniMax-M2:聚焦编码和智能体,兼容Anthropic SDK

今天,PPIO 首发上线 MiniMax 最新发布并开源的模型:MiniMax-M2。 MiniMax-M2 是一款轻量、快速且极具成本效益的 MoE 模型(230B 总参数,10B 激活参数)。它在保持强大通用智能的同时,专为编码和智能体任务进行了深度优化,提供了开发者期待的端到端工具使用性能。同时,在全球权威测评榜单 Artificial Analysis 中总分位列全球前五。 MiniMax-M2 支持 200K 上下文,最大输出 tokens 数为 128K。 价格方面,其 API 定价为每百万 tokens 输入 2.1 元、输出 8.4 元。该定价低于 GLM-4.6、Kimi-K2-0905、DeepSeek-R1-0528 等开源模型,

By PPIO
PPIO上线DeepSeek-OCR模型

PPIO上线DeepSeek-OCR模型

刚刚,PPIO 上线 DeepSeeek 最新发布的 DeepSeek-OCR 模型,这是一个专为高效视觉-文本压缩概念验证而设计的视觉文本模型。 现在,你可以到 PPIO 官网在线体验 DeepSeek-OCR,或将模型 API 接入 Cherry Studio 等第三方 AI 应用或你自己的 AI 工作流中。 在线体验地址: https://ppio.com/llm/deepseek-deepseek-ocr 开发者文档: https://ppio.com/docs/model/llm 模型基础信息: 模型创新点 DeepSeek-OCR 模型的创新点是什么? 当前大语言模型(LLM)在处理长文本内容时面临显著的计算挑战——计算量随序列长度呈二次方增长。 DeepSeek 探索了一种潜在解决方案:利用视觉模态作为文本信息的高效压缩媒介。 一张包含文档文本的图像可以用远少于等效数字文本的 token 数表示丰富信息,

By PPIO
PPIO上线Qwen-VL-8B/30B、GLM-4.5-Air等多款中小尺寸模型

PPIO上线Qwen-VL-8B/30B、GLM-4.5-Air等多款中小尺寸模型

今天,PPIO 上线多个中小尺寸新模型,包括 Qwen3-VL 系列的 8B/30B,以及智谱的 GLM-4.5-Air。 Qwen3-VL 系列是 Qwen3 家族最新发布的视觉理解模型,每个尺寸都有 Instruct 和 Thinking 两大版本。 其中,Qwen3-VL-8B 是稠密(Dense)视觉理解模型,显存占用更低;Qwen3-VL-30B 是 MoE 模型,激活参数仅 3B,体积更小,性能依旧强劲。 GLM-4.5-Air 是此前 GLM-4.5 系列的小尺寸版本,拥有 106B 总参数和 12B 激活参数。 GLM-4.5-Air 是一个混合推理模型,用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。

By PPIO
2025年Q3 tokens调用量趋势:国产开源模型“一超三强”

2025年Q3 tokens调用量趋势:国产开源模型“一超三强”

昨天,我们发布了 2025 年 Q3 海外大模型 tokens 调用量趋势。 海外 AI 推理市场由闭源模型厂商主导,Google、Anthropic、OpenAI 以及 xAI 四家闭源模型占据了60%-80% 的市场份额。 但在国内恰恰相反, DeepSeek 掀起的开源浪潮还在继续,Qwen、GLM、Kimi、百度、MiniMax 等模型公司纷纷拥抱开源。 今天,基于第三季度 PPIO 平台的开源模型调用量表现,我们总结出国内 AI 推理市场五大趋势。 趋势一:国产开源模型“一超三强” 在第三季度,DeepSeek 仍然是用户调用量最大的开源模型,最高占据 90% 以上的市场份额,比上个季度进一步增长。 阿里 Qwen 系列在第三季度的大部分时间里都是用户调用量第二大的开源模型,且用量非常稳定,市场占有率在

By PPIO
2025年Q3大模型tokens调用量观察:Grok逆袭,DeepSeek弥坚

2025年Q3大模型tokens调用量观察:Grok逆袭,DeepSeek弥坚

2025 年第三季度,大模型市场又有哪些新的变化? 基于 OpenRouter 过去三个月的 tokens 调用数据,我们能看到总 token 使用量排名及趋势、不同大模型的市场份额占比、细分领域模型的应用偏好等趋势。 OpenRouter 的数据主要反映了海外闭源模型的调用量趋势。预告一下,下一篇我们将基于 PPIO 数据,分析国产开源模型在国内市场的调用量趋势。 # 01 Tokens 调用量高速增长,Grok 逆袭 * 2025 年第三季度,OpenRouter 的 tokens 调用总量相比上个季度继续增长,9 月份每周平均消耗超过 4T tokens,大约是上个季度周消耗的两倍。也就是说,AI 推理市场仍在高速增长。 * 在 tokens 消耗前二十的模型中,Grok 是一个新面孔。今年上半年,Grok 系列模型表现平平,一直被归类于 Others。但在第三季度,

By PPIO
PPIO上线智谱GLM-4.6,Coding 能力创国产模型新高

PPIO上线智谱GLM-4.6,Coding 能力创国产模型新高

今天,PPIO 上线智谱旗舰模型 GLM-4.6。 GLM-4.6 是智谱最强的代码 Coding 模型,较 GLM-4.5 提升 27%,在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。 1. 高级编码能力:在公开基准与真实编程任务中,GLM-4.6 的代码能力对齐 Claude Sonnet 4,是国内已知的最好的 Coding 模型。 2. 上下文长度:上下文窗口由 128K 提升至 200K,适应更长的代码和智能体任务。 3. 推理能力:推理能力提升,并支持在推理过程中调用工具。、搜索能力:增强模型的工具调用和搜索智能体,在智能体框架中表现更好。 4. 写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。

By PPIO
DeepSeek-V3.2-Exp发布,有哪些新变化?

DeepSeek-V3.2-Exp发布,有哪些新变化?

今天,DeepSeek 突然发布新版本模型 DeepSeek-V3.2-Exp,PPIO 已经首发上线! DeepSeek-V3.2-Exp 是 DeepSeek 新模型的实验版本,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 “DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention)”,旨在探索和验证在长上下文场景下训练和推理效率的优化。 该实验版本代表了 DeepSeek 对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。 1. DeepSeek 稀疏注意力首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。DeepSeek-V3.2-Exp 支持 160K 上下文。 2. 为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。

By PPIO
PPIO首席科学家王晓飞教授荣登“终身科学影响力排行榜”

PPIO首席科学家王晓飞教授荣登“终身科学影响力排行榜”

近日,美国斯坦福大学(Stanford University)与国际权威学术出版社爱思唯尔(Elsevier)共同发布 2025 年全球前 2% 顶尖科学家榜单(World's Top 2% Scientists)。PPIO 首席科学家、天津大学教授、博导王晓飞教授入选榜单,并同时跻身 “终身科学影响力排行榜” 与 “年度科学影响力排行榜”。 此次入选不仅体现了王晓飞教授在人工智能与分布式计算领域的卓越学术贡献,也进一步巩固了 PPIO 作为全球领先的分布式 AI 云计算服务商的行业地位。 全球前 2% 顶尖科学家榜单评选涵盖全球超 800 万名科学家的职业生涯和年度学术表现,通过引用次数、h指数等多维数据计算生成。因其标准化和透明性,该榜单被公认为国际学术界和产业界衡量学者影响力的重要参照。 王晓飞教授现任天津大学计算机学院副院长,研究领域涵盖人工智能计算、分布式云计算和边缘智能等,已发表 SCI 及国际会议论文 220 余篇,总引用量超 12000

By PPIO
企业大模型选型指南:100位CIO总结的16条采购建议

technology

企业大模型选型指南:100位CIO总结的16条采购建议

生成式 AI 的落地分为两大场景,消费级与企业级。对于消费级 AI,我们可以通过 similarweb 等第三方网站获取其流量与用户使用情况;而对于企业级 AI,则需要参考专业的调研机构数据。 几个月前,知名投资机构 a16z 发布了一篇深度调研报告,通过一手访谈 20 多家企业级 AI 客户,以及 15 个行业的 100 位首席信息官(CIO),总结了 2025 年及未来企业如何使用、购买和规划新一代人工智能的 16 条建议。 AI 是一个快速变化的领域,今年的 AI 的市场结构已经比去年发生明显转变。这些趋势包括: * 企业级 AI 预算超出了本已很高的预测,并从试点项目和创新基金升级为核心 IT 和业务部门预算中的经常性支出项目。 * 企业在混合搭配多种模型以在性能和成本之间进行优化方面变得更加成熟。OpenAI、Google 和 Anthropic

By PPIO
PPIO首发上线DeepSeek-V3.1-Terminus

News

PPIO首发上线DeepSeek-V3.1-Terminus

刚刚,PPIO 首发上线 DeepSeek-V3.1 的更新版本 DeepSeek-V3.1-Terminus!该版本的模型输出效果相比前一版本更加稳定。 此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括: * 语言一致性:缓解了中英文混杂、偶发异常字符等情况; * Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。 “Terminus”源自拉丁语,意为“终点、完结”之意,或许代表了 DeepSeek V3 这一大版本的最终更新,后续的更新或将开启新版本。 快速入口: https://ppio.com/llm/deepseek-deepseek-v3.1-terminus 开发者文档: https://ppio.com/docs/model/overview DeepSeek-V3.

By PPIO
PPIO首发上线Qwen3-Next-80B-A3B

News

PPIO首发上线Qwen3-Next-80B-A3B

今天,阿里通义千问发布了下一代基础模型 Qwen3-Next-80B-A3B,该模型已经首发上线 PPIO! Qwen3-Next 系列采用了“混合注意力机制”——引入业内前沿的“线性注意力机制”,与经典的“全注意力机制”混搭使用,该架构专为极长上下文和超大规模参数性能而优化。 现在,PPIO 上线了 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking,其上下文长度为 64k,价格为每百万 tokens 输入,每百万 tokens 输出。 前往 PPIO 官网或点击文末阅读原文即可体验,新用户填写邀请码【LYYQD1】注册可得 15 元代金券。 # 01 Qwen3-Next 的架构创新 Qwen3-Next 系列代表了 Qwen 系列下一代的基础模型,专为极长上下文和超大规模参数性能而优化。 这一系列引入了一套架构创新,旨在最大化性能的同时最小化计算成本: * 混合注意力(Hybrid Attention):用

By PPIO
一文看懂2025年Agent六大最新趋势|AI专栏

technology

一文看懂2025年Agent六大最新趋势|AI专栏

2025 年被称为通用 Agent 元年。从 Manus 到各类 Deep Research 产品,掀起了 Agent 热潮。 按照 OpenAI 的定义,通往 AGI 之路有五个阶段,而 Agent 正值 L3 阶段。 PPIO AI 专栏基于过去三年模型与 Agent 生态的技术进展,总结了 Agent 行业的最新六大趋势,分别是: 1. 什么是 Agent “套壳”,以及为什么套壳被严重低估 2. Agent 定义:广义的 Agent 面向企业级,狭义的 Agent 面向消费级 3. 代码模型是当前阶段推动 Agent

By PPIO
PPIO姚欣出席首届AI国际人才峰会:AI落地需先找对“钉子”再选好“锤子”

News

PPIO姚欣出席首届AI国际人才峰会:AI落地需先找对“钉子”再选好“锤子”

8 月 26 日,由香港投资管理有限公司(下称 “港投公司”)与北京智源人工智能研究院(下称 “智源研究院”)联合主办的首届 “AI 国际人才峰会” 在香港成功举办。香港特别行政区政府财政司司长陈茂波、港投公司行政总裁陈家齐、智源研究院理事长黄铁军等出席并致辞。 峰会还汇聚了加拿大皇家科学院院士张大鹏教授、美国国家工程院院士 David Srolovitz 教授、英国皇家工程院院士 Sethu Vijayakumar 教授等全球人工智能领域顶尖专家、海内外青年学者,以及不同产业的 AI 初创企业,共同围绕 AI 前沿技术发展、产业实践以及生态建设展开交流互动。PPIO 联合创始人兼 CEO 姚欣受邀出席峰会并发表题为《从 PPTV 到 PPIO:赋能全球 AI 创业者》的演讲,从自身创业经历出发,同与会者分享 AI 时代创业者所需的特质。

By PPIO
PPIO出席中国算力大会 首席科学家王晓飞获评“青年先锋人物”

News

PPIO出席中国算力大会 首席科学家王晓飞获评“青年先锋人物”

近日,中国算力大会在山西大同成功举办,PPIO 首席科学家王晓飞教授受邀参加并出席同期活动“算力中国·星耀之夜”,他在活动上分享了分布式算力网络的理论研究以及创新成果,同时荣获“中国青年先锋人物”称号。 在“算力中国·星耀之夜”交流活动上,王晓飞以“面向大模型服务的分布式算力网络——迈向通用人工智能之路”为题进行分享。他提出,算力资源分布存在“马太效应”与长尾供需难题,网络需要实现精准调度和抗熵演进,并通过“核心+边缘”分层协同,探索算力网络的新发展范式。 王晓飞在演讲中指出,围绕分布式算力赋能大模型与智能体应用, PPIO 目前已取得多项突破:构建了覆盖全球 4000+ 节点的分布式算力网络;依托自研 FP8 算法与 KV Cache 优化,大幅提升推理性能并降低显存消耗,同时打造了兼容主流框架的智能体基座,支撑大规模高效运行。 他强调,人工智能正加速迈向 Agentic AI 时代。因此,

By PPIO
PPIO首发上线DeepSeek-V3.1,Agent 能力大幅提升

News

PPIO首发上线DeepSeek-V3.1,Agent 能力大幅提升

刚刚,DeepSeek 正式发布 DeepSeek-V3.1,该模型相比此前 DeepSeek 系列模型拥有更高的思考效率和更强的 Agent 能力,在工具使用与智能体任务中的表现大幅提升。 DeepSeek-V3.1 采用混合推理架构,同时支持思考模式与非思考模式,且官方上下文均已扩展为 128K。经 PPIO 优化后,DeepSeek-V3.1 上下文长度可拓展至 160k,处理长文本及复杂问题的能力进一步增强。 快速入口: https://ppio.com/llm/deepseek-deepseek-v3.1 模型特征 * 工具调用/智能体支持增强 据 DeepSeek 官方发布消息,通过 Post-Training 优化,DeepSeek-V3.1 拥有更强工具调用和任务处理能力。 在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.

By Saiki
PPIO上线Baichuan-M2:全球最强开源医疗模型

PPIO上线Baichuan-M2:全球最强开源医疗模型

今日,PPIO 上线百川医疗增强大模型 Baichuan-M2,该模型是目前全球最强开源医疗模型。 在 HealthBench 医疗健康评测中,Baichuan-M2 以 60.1 的高分,反超 OpenAI 最新开源模型 gpt-oss120b(得分 57.6),优于众多前沿闭源模型,是目前最接近 GPT-5 医疗能力的开源模型 。 在 PPIO 平台,Baichuan-M2 的价格为: 输入: ¥0.5/百万 tokens 输出: ¥0.5/百万 tokens 快速入口: https://ppio.com/llm/baichuan-baichuan-m2-32b 模型特点 医疗复杂问题处理能力比肩 GPT-5 相比于医疗考试,真实医疗场景往往更加复杂。

By Saiki
PPIO上线智谱GLM-4.5V

News

PPIO上线智谱GLM-4.5V

今天,PPIO 首发上线智谱新一代视觉推理模型 GLM-4.5V,该模型基于 GLM-4.5-Air 基础架构开发,继承了 GLM-4.1V-Thinking 的技术路线,采用 1060 亿参数的混合专家(MoE)架构实现高效扩展。 GLM-4.5V 具备全方位的视觉理解能力,包括图像/视频分析、图形界面交互、复杂文档处理以及精准的视觉元素定位等核心能力。 在中国 GeoGuessr 地理定位挑战赛中,GLM-4.5V 仅用 16 小时就超越了 99% 的人类选手(共 21000 人参与),一周内攀升至第 66 名。 在 PPIO 平台,GLM-4.5V 的价格为:输入: ¥4.5/

By PPIO
热门显卡折扣来袭!长租单卡低至9.9元/小时

News

热门显卡折扣来袭!长租单卡低至9.9元/小时

H100 是英伟达(NVIDIA)目前最顶级的显卡之一,专为 AI 训练和高性能计算设计。 在深度学习训练、科学模拟等前沿领域,H100 凭借其卓越的并行计算能力和高效的显存管理能力,为各类复杂计算任务提供了强大的硬件支持。 为降低企业算力使用门槛,PPIO 推出 H100 显卡专项优惠计划,按需租用 H100 单卡低至 12.9 元/时,长期租用更可享单卡 9.9 元/时的超值价格,让高性能计算触手可及。 H100 性能一览 H100 基于 Hopper 架构,采用台积电 4nm 制程,相较前代 A100(Ampere 架构,7nm),在能效比、计算密度上提升巨大,主要特性如下: * 架构:Hopper * CUDA核心数:

By Saiki
我在PPIO WAIC展台,亲历Agentic AI的现在与未来

我在PPIO WAIC展台,亲历Agentic AI的现在与未来

7 月 26 日至 29 日,2025 世界人工智能大会(WAIC)在上海世博展览馆盛大召开。作为中国领先的分布式云计算服务商,PPIO 携 AI 智能体平台全产品矩阵亮相 H2-D125 展位,吸引数十万名开发者、企业客户及行业伙伴驻足参观。 一、三大核心展项 解锁Agentic AI无限潜能 在本届 WAIC 上,PPIO 围绕“开发者友好、企业可落地”构建三大核心展区: Agent沙箱:作为国内首款兼容 E2B 接口的Agent沙箱,该产品是专为 Agent 执行任务设计的云端运行环境,为 Agent 赋予安全可靠、高效敏捷的“手和脚”。展台前,来自国内外的开发者围绕安全性、高频调用等问题,与技术团队展开深入交流,对该展项表现出浓厚兴趣。 模型服务:PPIO

By Saiki
一文看懂Agent的9种“记忆系统” | AI专栏

technology

一文看懂Agent的9种“记忆系统” | AI专栏

对 AI Agent 来说,“记忆”指的是它在多轮交互中保留信息、上下文、用户偏好、任务细节的能力。就像一个助理需要记住老板昨天布置的任务一样,AI Agent 也必须“有记性”,才能真正完成连续性的任务。 但 AI 并不天然拥有记忆,它只有 “上下文窗口” —— 就是我们每次和模型交互时,把前面的对话再“重新发一遍”,它才“看得见过去”。 问题来了:上下文窗口有长度限制,信息多了就塞不下;重复发送也会导致 token 成本高昂。 所以,研究者和开发者们就发明了很多不同的“记忆策略”,来让 Agent 更聪明、更节省资源。 AI 工程师 Fareed Khan 总结了 9 种主流 AI Agent Memory 技术方式,以及这些技术各自的优点和缺点。

By Saiki