派欧算力云全网首发4090D,实测性能可达4090的98%!

派欧算力云全网首发4090D,实测性能可达4090的98%!

NVIDIA 推出为中国市场量身定制的 RTX 4090D  显卡(以下简称“4090D”)。

NVIDIA 对该显卡的参数进行了特别调整。RTX 4090D 的设计严格遵循了 TPP(总处理性能)的限制,配备了14592 个 CUDA 核心,加速频率达到 2.52 GHz,并搭载了 24GB 384bit GDDR6X 显存。

参数可以做简单对比,实际性能却不能简单换算,可能面临模型、推理框架、算力墙、显存墙等多种因素影响,端到端的性能评测是一个非常复杂严谨的事情。

借着这次派欧算力云(www.paigpu.com) 4090D 资源上线,我们也为大家提供一份完整的性能评测报告!

NVIDIA 4090D 规格参数解析

GeForce RTX 4090D采用了 NVIDIA Lovelace 架构5nm 制程工艺, 配备了 14592 个 CUDA 核心、24GB GDDR6X 内存、384 位宽内存总线425W 额定功耗。

与RTX 4090相比,RTX 4090D在核心数量和功耗上有所降低。其中,RTX 4090D 的 CUDA 核心减少了 12.8%,从 16384 个降至 14592 个、128 个流处理器减至 114 个,而功耗也略微下降了5.9%,从450W降至425W。

在其他核心规格上,RTX 4090D 与 RTX 4090 相同。比如,384位的宽内存总线,24GB GDDR6X 显存,以及最高可达2.52GHz的加速频率。唯一的区别是基准频率略有提升,从 2.23 GHz 调整到 2.28GHz,但有点遗憾的是,4090D 并不支持超频。

从性能参数推算,4090D 相当于是发挥了 90% 性能的 4090。

性能评测方法和数据

为了深入了解在实际应用场景中 4090D 的表现,我们选择了当下风靡的 Stable Diffusion (以下简称“SD”)和大语言模型 Llama 对此进行了性能测试。

Stable Diffusion 测试

在 SD 测试中,我们以 4090 为基准,同时结合目前市面上热门的其他显卡,制定了两个指标用于衡量 4090D,分别为“单卡性价比”“性能对比”测试。

SD性能对比方法

在SD_V1.5基础模型,默认采样器,512*512分辨率下,生成每张图的耗时。

SD性价比对比方法

结合算力的时间成本,对比RTX4090与RTX4090D,生成每张图片的价格。

单卡性价比:

访问派欧算力云(www.paigpu.com)对比 4090D 价格

性能对比:

大语言模型推理(Llama2)

在大语言模型的测试中,我们以 4090 的性能作为基准值,分别选用了不同规格的 Llama 模型进行了多轮测试,最终梳理出了以下结果。

LLM性能对比方法

指定输入/输出参数长度下,对比每秒生成的Token数量。

LLM性价比对比方法

结合算力的时间成本,对比RTX4090与RTX4090D,生成每个Token的价格。如每小时算力成本1元,每小时生成Token数为100个,则性价比就是1分钱/Token。

性能对比:

注:Llama-7b 为单卡推理性能,Llama-70b 为八卡推理性能

LLM推理性价比:

评测结论

通过上面的测试数据,我们得出以下结论。

1、在 SD 测试中,4090D 的性能约为 4090 的 98%-99%。

2、在 Llama2-7b 的测试中,4090D 的性能约为 4090 的 96.5%。

3、在 Llama2-70b 的测试中,4090D 的性能约为 4090 的 97%。

试用方法

如果抛开性能,单从机房建设的性价比上来说,在不考虑合规与溢价的条件下,4090D 的整体建设性价比约为 8 卡 4090 服务器的 120%。如今,机器学习、生成式人工智能浪潮席卷全球,不少企业都陷入一卡难求的窘境,此时,选择高性价比的 GPU 云服务受到了越来越多企业的青睐。

派欧算力云全网首发上线,正式上架 NVIDIA GeForce RTX 4090D ,您可以在算力市场一键部署按需计费、弹性伸缩的特性,不仅为您免去了高昂的建设成本和运维成本,更有涵盖多种运行环境和应用场景的海量镜像供您选择,您可以根据自己的需求快速选择并部署,大幅节省环境配置的时间,提高开发效率。

Read more

PPIO发布Agent Runtime:让Agent部署像Serverless一样简单

PPIO发布Agent Runtime:让Agent部署像Serverless一样简单

近期,PPIO 发布了基于 Sandbox(沙箱)自研的新产品:Agent Runtime,一个轻量级的 Agent 运行时框架。 Agent Runtime 是为了顺应 Agent 的专属需求而推出,其定位与 AWS AgentCore Runtime 类似。AgentCore 是 AWS 在 2025 年推出的专为 Agent 设计的基础设施平台,AgentCore Runtime 则是其中一个子产品,是基于 Firecracker 微虚拟机的 Serverless 运行时环境,旨在解决 Agent 低成本、高效率的部署问题。 PPIO Agent Runtime 通过简单易用的 SDK 与强大的沙箱运行环境来简化 Agent 的部署过程。用户无需关心基础设施配置、

By PPIO
当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

当Agent计算规模扩大100倍,我们需要什么样的Agentic Infra?

近期,PPIO Sandbox(沙箱)发布了一个重要功能:沙箱克隆。 沙箱克隆旨在助力提高 Agent 的并行计算能力,也就是经典的“Scale up”规模扩展问题。 今年最流行的 Agent 产品是 Deep Research,它可以看作对单个研究问题持续追踪、推演、迭代直到形成洞察的长链路串行推理过程。 那么,如果将 Deep Research 的能力 Scale up 一百倍会发生什么?像 Manus 这样的 Agent 正在解决这类挑战,并将这种并行计算架构的 Agent 称之为 Wide Research。 从 Agent 的串行计算到并行计算,离不开“沙箱克隆”这一核心技术的助力,这是 PPIO 在 Agentic Infra

By PPIO
PPIO上线Kimi K2 Thinking,兼容Anthropic协议

PPIO上线Kimi K2 Thinking,兼容Anthropic协议

今天,PPIO 上线 Kimi K2 Thinking,这是 Kimi 最新、功能最强大的开源思考模型。 Kimi K2 Thinking 基于 Kimi K2 后训练而来的混合专家模型(MoE),总参数达 1T,激活参数 32B,上下文长度 256K。该模型支持深度思考、Function Call、结构化输出、json_schema、json_object 等功能。 现在,你可以到 PPIO 官网在线体现 Kimi K2 Thinking,也可以将 PPIO 的模型 API 部署到 AI 应用中。 PPIO 在线体验地址: https:

By PPIO
PPIO独家上新GPU实例模板,一键部署Kimi-Linear

PPIO独家上新GPU实例模板,一键部署Kimi-Linear

昨晚,月之暗面发布了混合线性注意力架构新模型 Kimi-Linear,旨在解决大语言模型在长上下文推理中的计算瓶颈。 Kimi-Linear 的核心亮点: * Kimi Delta Attention(KDA),一种通过细粒度门控机制改进门控规则的线性注意力架构。 * 混合架构:采用 3:1 的 KDA 与全局 MLA 比例,在保持甚至超越全注意力质量的同时降低内存占用。 * 卓越性能:在 1.4T Token 的训练规模下,经公平对比,KDA 在长文本与类强化学习基准等多项任务上均优于全注意力。 * 高吞吐:在 1M 上下文中实现最高 6 倍的解码吞吐量,显著缩短单输出 Token 耗时(TPOT)。 今天,PPIO 独家上新 GPU 实例模板,可一键部署 Kimi-Linear-48B-A3B-Instruct 的专属模型。 PPIO 算力市场的

By PPIO