News

PPIO 上线 GLM-4.7-Flash 模板 | 极速部署教程

PPIO

20 Jan 2026 — 3 min read

今天，PPIO 上线智谱最新款轻量级大语言模型 GLM-4.7-Flash。

GLM-4.7-Flash 作为 GLM-4.7 旗舰系列的“极速版”，总参数量为30B，激活参数量为3B，为用户提供了一个兼顾性能与效率的新选择。

该模型面向 Agentic Coding 场景强化了编码能力、长程任务规划与工具协同，并在多个公开基准的当期榜单中取得同尺寸开源模型中的领先表现。在执行复杂智能体任务，GLM-4.7-Flash 在工具调用时指令遵循更强，并大幅提升了 Artifacts 与 Agentic Coding 的前端美感和长程任务完成效率。

现在，你可以通过 PPIO 算力市场的 GLM-4.7-Flash 部署模板，简单几步部署该模型。

项目地址：https://ppio.com/gpu-instance/

#01 GPU 实例+模板，一键部署 GLM-4.7-Flash

step 1: 子模版市场选择对应模板，并使用此模板。

step 2: 按照所需配置点击部署。

step 3: 检查磁盘大小等信息，确认无误后点击部署。

step 4: 稍等一会，实例创建需要一些时间。

step 5: 在实例管理里即可查看到所创建的实例。

#02 如何使用

示例

curl --location --request POST 'http://127.0.0.1:8000/v1/chat/completions' \
> --header 'Content-Type: application/json' \
> --header 'Accept: */*' \
> --header 'Connection: keep-alive' \
> --data-raw '{
>     "model": "zai-org/GLM-4.7-Flash",
>     "messages": [
>         {
>             "role": "system",
>             "content": "you are a helpful assitant."
>         },
>         {
>             "role": "user",
>             "content": "hello"
>         }
>     ],
>     "max_tokens": 20,
>     "stream": false
> }'
{"id":"chatcmpl-943f20f1c3a690ba","object":"chat.completion","created":1768823899,"model":"zai-org/GLM-4.7-Flash","choices":[{"index":0,"message":{"role":"assistant","content":"1.  **Analyze the Input:** The user said \"hello\".\n2.  **Ident","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null,"reasoning_content":null},"logprobs":null,"finish_reason":"length","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":14,"total_tokens":34,"completion_tokens":20,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

PPIO 的算力市场模板致力于帮助企业及个人开发者降低大模型私有化部署的门槛，无需繁琐的环境配置，即可实现高效、安全的模型落地。

目前，PPIO算力市场已上线几十个私有化部署模板，除了 GLM-4.7-Flash，你也可以将 GLM-Image、AutoGLM-Phone-9B、Nemotron Speech ASR、PaddleOCR-VL 等模型快速进行私有化部署。

Qwen3.5重磅发布 PPIO 模型服务平台同步上线

近日，阿里巴巴全新一代大模型千问 Qwen3.5 重磅开源发布，凭借突破性性能登顶全球最强开源模型榜单。 PPIO 模型服务平台在第一时间完成 Qwen3.5-Plus 与 Qwen3.5-397B-A17B 双版本的全面适配与上线，让企业与开发者无需等待，即可率先享受新一代多模态大模型的技术红利。 Qwen3.5 系列模型堪称 “性能与效率的完美平衡体”，总参数3970 亿，激活 170 亿参数即可运转，实现了 “以小胜大” 的技术突破 —— 性能全面超越万亿参数的 Qwen3-Max 模型，同时部署显存占用直降 60%，最大推理吞吐量提升至 19 倍。这一飞跃背后，是其融合线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）的创新架构。作为原生视觉-语言模型，作为原生视觉-语言模型， Qwen3.5-Plus/Qwen3.5-397B-A17B在推理、

PPIO 上线 MiniMax M2.5：体验架构师级编程与高效 Agent 能力

PPIO 上线了 MiniMax M2.5 模型。 MiniMax M2.5 是 MiniMax 发布的最新旗舰模型。据官方介绍，M2.5 在编程、工具调用、搜索及办公等生产力场景中均达到或刷新了行业的 SOTA（State-of-the-art）水平。该模型优化了对复杂任务的拆解能力，大幅提升了运行速度，并凭借极佳的 Token 效率，让无限运行复杂 Agent 在经济上成为可能。现在，你可以到 PPIO 官网体验 MiniMax M2.5 或者调用模型 API。地址： https://ppio.com/llm/minimax-minimax-m2.5 01 模型特征 * 架构师级编程思维，胜任全栈开发 MiniMax

全网首发！PPIO 上线智谱 GLM-5 ，解锁 Agentic 长程执行力

PPIO 正式首发上线智谱 GLM-5 ，该模型为智谱新一代的旗舰基座模型，面向 Agentic Engineering 打造，能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上，GLM-5 取得开源 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程 Agent 任务，是通用 Agent 助手的理想基座。具体特征如下：体验地址： https://ppio.com/llm/zai-org-glm-5 GLM-5 模型的核心特性主要体现在以下两个方面：一、突破性的 Agentic 长程规划与执行能力与以往侧重于短文本生成或单次问答的模型不同，GLM-5 是专为多阶段、长步骤的复杂任务环境而设计的。在实际应用中，处理一个系统级需求往往涉及多个环节的协同。

PPIO上线GLM-OCR：0.9B参数SOTA性能，支持一键部署

PPIO 算力市场首发上线了 GLM-OCR 模型模板。GLM-OCR 以 0.9B 的参数规模，在 OmniDocBench V1.5 基准测试中取得了 94.6 分的 SOTA 表现，并在公式识别、复杂表格解析及信息抽取等高难度场景中展现出显著优势。