News

@开发者们：PPIO上线代码模型Qwen3-Coder，挑战Claude Sonnet4

Saiki

23 Jul 2025 — 5 min read

今天，PPIO 上线两款 Qwen3 系列的最新模型：

Qwen3-235B-A22B-FP8 非思考模式（Non-thinking）的更新版本—— Qwen3-235B-A22B-Instruct-2507。这是一个通用模型，放弃了此前 Qwen3 的混合思考模式，只保留了非思考模式。
Qwen3-Coder-480B-A35B-Instruct，这是迄今为止 Qwen 最具代理能力的代码模型。

这两款模型在测试基准表现出色，分别超越了 Kimi-K2、DeepSeek-V3，代码能力可以与 Claude Sonnet4 媲美。

目前，两款模型已上线 PPIO，前往 PPIO 官网或点击文末阅读原文即可体验，新用户填写邀请码【LYYQD1】可得 15 元代金券。

快速体验入口：

https://ppio.com/llm/qwen-qwen3-235b-a22b-instruct-2507

https://ppio.com/llm/qwen-qwen3-coder-480b-a35b-instruct

# 01 模型特点

Qwen3-235B-A22B-Instruct-2507 模型的通用能力显著提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面，在GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent能力）等众多测评中表现出色，官方称超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。

此外，本次更新的 Qwen3 模型，还增强了以下关键性能：

（1）在多语言的长尾知识覆盖方面，模型取得显著进步。

（2）在主观及开放性任务中，模型显著增强了对用户偏好的契合能力，能够提供更有用的回复，生成更高质量的文本。

（3）长文本提升到 256K，上下文理解能力进一步增强。

代码模型 Qwen3-Coder 拥有多个尺寸，本次上线的最强大的版本 Qwen3-Coder-480B-A35B-Instruct 是一个 480B 参数激活 35B 参数的 MoE 模型，原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token，拥有卓越的代码和 Agent 能力。

Qwen3-Coder-480B-A35B-Instruct 在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 上取得了开源模型的 SOTA 效果，可以与 Claude Sonnet4 媲美。

# 02 模型表现

我们通过几个案例来测试一下 PPIO 上线的两款模型的能力。

首先是 Qwen3-235B-A22B-Instruct-2507-FP8 的通用能力。

文本生成：

提问：你是谁？用王家卫的风格评价一下你自己。

逻辑推理：

提问：未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是？

然后是 Qwen3-Coder-480B-A35B-Instruct 的代码能力。

提问：创建一个红白机风格的贪吃蛇游戏。

最终效果如下：

提问：创建一个3D HTML银河星系，其中包括附近和遥远的星系

最终效果如下：

如果你是开发者，可以前往 PPIO 模型服务用户指南，查看详细接入教程：

https://ppio.com/docs/model/overview

PPIO 致力于为企业及开发者提供高性能的模型 API 服务，目前已上线 DeepSeek R1/V3、Qwen3、baidu/ernie-4.5 等系列模型，仅需一行代码即可调用。并且，经过长期实践，PPIO 已经实现大模型推理的 10 倍 + 降本，实现推理效率与资源使用的动态平衡。

如何保障AI代码安全运行？深入拆解PPIO沙箱五大Agent实战场景

AI 写出的代码，你敢直接跑在生产环境吗？代码执行失控、用户数据泄露、环境冷启动拖慢体验……这些不是假设，而是每一个 Agent 开发者迟早会踩的坑。PPIO 沙箱是一款专为 Agent 场景设计的新一代运行时基础设施，提供了一个安全隔离的云端沙箱环境来执行 AI 生成的代码。从 Vibe Coding 到自动化测试，五个真实场景告诉你：一个好的沙箱，是 Agent 从 Demo 走向生产的最后一块拼图。场景一：Vibe Coding Vibe Coding 的核心体验是“生成即运行”——用户希望 Agent 写出代码后立刻看到执行结果，并根据结果继续迭代。但如果每次执行都要拉起一个新的空白环境，依赖重新安装、项目重新初始化，等待时间会严重割裂体验，等待期间计算资源不释放的话也会造成大量的成本浪费。多用户同时使用时，还要保证各自的代码执行环境完全隔离，不能互相干扰。PPIO 沙箱为每个用户提供独立的持久化沙箱。亚秒级冷启动保证环境随时就绪；

创建Agent云沙箱，为什么传统容器和云主机不够用？

你用 AI 写出的代码，敢直接跑在生产环境吗？答案往往是否定的。这就是沙箱（Sandbox）存在的意义——给 AI 安装一个可控的安全围栏，无论 AI 怎么折腾，也始终控制在沙箱的范围内。过去两年 Agent 的爆发催生了大量的沙箱需求。但问题是，传统的容器、云主机等沙箱创建方案都不是专门为 Agent 任务需求而设计的。能用，但不够好。在此背景下，PPIO 推出了国内第一个真正为 Agent 量身定制的沙箱，一举满足 Agent 任务对沙箱的安全性、完整性、低成本、开箱即用等专属需求。 PPIO 沙箱为什么能做到？本文从技术角度深入拆解。 1、传统技术方案的三个矛盾首先看一下 Agent 执行任务的具体需求。Manus 在他们关于沙箱的技术文章里对这件事描述得很直接： “最强大的莫过于一台真正的云电脑——它拥有完整的能力：网络、文件系统、

PPIO上线DeepSeek-V4预览版

今天，PPIO 已上线备受关注的 DeepSeek-V4 新模型。 DeepSeek-V4 预览版包含两个 MoE 模型：DeepSeek-V4-Pro（1.6T 总参数/49B 激活）和 DeepSeek-V4-Flash（284B/13B 激活），均支持 100 万 token 上下文。 DeepSeek-V4 在架构创新和上下文效率上作出了新的突破，在 Agent 能力、世界知识和推理性能上做到了国内与开源领域最强模型。 DeepSeek-V4-Pro 大幅缩小了与顶级闭源模型的差距，Agent 能力优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。 DeepSeek-V4-Flash 能够提供更加快捷、

新品内测｜延迟从500ms降至50ms！PPIO Sandbox TURN发布，彻底打通Agent实时交互网络

PPIO Sandbox TURN，打通 Agent Sandbox实时通信通路。进入 Agent 时代，云沙箱（Sandbox）已成为智能体执行代码、调用工具、操作浏览器的基础设施。然而，当你的 Agent 试图进行音视频处理、远程桌面操作或人机实时协同等“延迟敏感型”任务时，往往会遭遇滑铁卢：画面撕裂、操作迟钝、哪怕在同城也卡成 PPT。不是带宽不够，而是底层的网络协议走错了路。PPIO Sandbox TURN 实时通信服务正式开启内测，专为实时类 Agent 应用优化，一举将端到端延迟从 300-500ms 暴降至 50-100ms。挑战：沙箱的网络层不是天生为实时交互而设计标准云沙箱的网络层并非天生为实时交互类请求而设计，很难满足延迟敏感型 Agent 场景的需求。大多数云沙箱的网络架构是为 HTTP 服务场景优化的——流量走 TCP（