News

派欧算力云全网首发4090D，实测性能可达4090的98%！

Saiki

03 Apr 2024 — 5 min read

NVIDIA 推出为中国市场量身定制的 RTX 4090D 显卡（以下简称“4090D”）。

NVIDIA 对该显卡的参数进行了特别调整。RTX 4090D 的设计严格遵循了 TPP（总处理性能）的限制，配备了14592 个 CUDA 核心，加速频率达到 2.52 GHz，并搭载了 24GB 384bit GDDR6X 显存。

参数可以做简单对比，实际性能却不能简单换算，可能面临模型、推理框架、算力墙、显存墙等多种因素影响，端到端的性能评测是一个非常复杂严谨的事情。

借着这次派欧算力云（www.paigpu.com） 4090D 资源上线，我们也为大家提供一份完整的性能评测报告！

NVIDIA 4090D 规格参数解析

GeForce RTX 4090D采用了 NVIDIA Lovelace 架构，5nm 制程工艺，配备了 14592 个 CUDA 核心、24GB GDDR6X 内存、384 位宽内存总线和 425W 额定功耗。

与RTX 4090相比，RTX 4090D在核心数量和功耗上有所降低。其中，RTX 4090D 的 CUDA 核心减少了 12.8%，从 16384 个降至 14592 个、128 个流处理器减至 114 个，而功耗也略微下降了5.9%，从450W降至425W。

在其他核心规格上，RTX 4090D 与 RTX 4090 相同。比如，384位的宽内存总线，24GB GDDR6X 显存，以及最高可达2.52GHz的加速频率。唯一的区别是基准频率略有提升，从 2.23 GHz 调整到 2.28GHz，但有点遗憾的是，4090D 并不支持超频。

从性能参数推算，4090D 相当于是发挥了 90% 性能的 4090。

性能评测方法和数据

为了深入了解在实际应用场景中 4090D 的表现，我们选择了当下风靡的 Stable Diffusion （以下简称“SD”）和大语言模型 Llama 对此进行了性能测试。

Stable Diffusion 测试

在 SD 测试中，我们以 4090 为基准，同时结合目前市面上热门的其他显卡，制定了两个指标用于衡量 4090D，分别为“单卡性价比”和“性能对比”测试。

SD性能对比方法

在SD_V1.5基础模型，默认采样器，512*512分辨率下，生成每张图的耗时。

SD性价比对比方法

结合算力的时间成本，对比RTX4090与RTX4090D，生成每张图片的价格。

单卡性价比：

性能对比：

大语言模型推理（Llama2）

在大语言模型的测试中，我们以 4090 的性能作为基准值，分别选用了不同规格的 Llama 模型进行了多轮测试，最终梳理出了以下结果。

LLM性能对比方法

指定输入/输出参数长度下，对比每秒生成的Token数量。

LLM性价比对比方法

结合算力的时间成本，对比RTX4090与RTX4090D，生成每个Token的价格。如每小时算力成本1元，每小时生成Token数为100个，则性价比就是1分钱/Token。

性能对比：

LLM推理性价比：

评测结论

通过上面的测试数据，我们得出以下结论。

1、在 SD 测试中，4090D 的性能约为 4090 的 98%-99%。

2、在 Llama2-7b 的测试中，4090D 的性能约为 4090 的 96.5%。

3、在 Llama2-70b 的测试中，4090D 的性能约为 4090 的 97%。

试用方法

如果抛开性能，单从机房建设的性价比上来说，在不考虑合规与溢价的条件下，4090D 的整体建设性价比约为 8 卡 4090 服务器的 120%。如今，机器学习、生成式人工智能浪潮席卷全球，不少企业都陷入一卡难求的窘境，此时，选择高性价比的 GPU 云服务受到了越来越多企业的青睐。

派欧算力云全网首发上线，正式上架 NVIDIA GeForce RTX 4090D ，您可以在算力市场一键部署。按需计费、弹性伸缩的特性，不仅为您免去了高昂的建设成本和运维成本，更有涵盖多种运行环境和应用场景的海量镜像供您选择，您可以根据自己的需求快速选择并部署，大幅节省环境配置的时间，提高开发效率。

如何保障AI代码安全运行？深入拆解PPIO沙箱五大Agent实战场景

AI 写出的代码，你敢直接跑在生产环境吗？代码执行失控、用户数据泄露、环境冷启动拖慢体验……这些不是假设，而是每一个 Agent 开发者迟早会踩的坑。PPIO 沙箱是一款专为 Agent 场景设计的新一代运行时基础设施，提供了一个安全隔离的云端沙箱环境来执行 AI 生成的代码。从 Vibe Coding 到自动化测试，五个真实场景告诉你：一个好的沙箱，是 Agent 从 Demo 走向生产的最后一块拼图。场景一：Vibe Coding Vibe Coding 的核心体验是“生成即运行”——用户希望 Agent 写出代码后立刻看到执行结果，并根据结果继续迭代。但如果每次执行都要拉起一个新的空白环境，依赖重新安装、项目重新初始化，等待时间会严重割裂体验，等待期间计算资源不释放的话也会造成大量的成本浪费。多用户同时使用时，还要保证各自的代码执行环境完全隔离，不能互相干扰。PPIO 沙箱为每个用户提供独立的持久化沙箱。亚秒级冷启动保证环境随时就绪；

创建Agent云沙箱，为什么传统容器和云主机不够用？

你用 AI 写出的代码，敢直接跑在生产环境吗？答案往往是否定的。这就是沙箱（Sandbox）存在的意义——给 AI 安装一个可控的安全围栏，无论 AI 怎么折腾，也始终控制在沙箱的范围内。过去两年 Agent 的爆发催生了大量的沙箱需求。但问题是，传统的容器、云主机等沙箱创建方案都不是专门为 Agent 任务需求而设计的。能用，但不够好。在此背景下，PPIO 推出了国内第一个真正为 Agent 量身定制的沙箱，一举满足 Agent 任务对沙箱的安全性、完整性、低成本、开箱即用等专属需求。 PPIO 沙箱为什么能做到？本文从技术角度深入拆解。 1、传统技术方案的三个矛盾首先看一下 Agent 执行任务的具体需求。Manus 在他们关于沙箱的技术文章里对这件事描述得很直接： “最强大的莫过于一台真正的云电脑——它拥有完整的能力：网络、文件系统、

PPIO上线DeepSeek-V4预览版

今天，PPIO 已上线备受关注的 DeepSeek-V4 新模型。 DeepSeek-V4 预览版包含两个 MoE 模型：DeepSeek-V4-Pro（1.6T 总参数/49B 激活）和 DeepSeek-V4-Flash（284B/13B 激活），均支持 100 万 token 上下文。 DeepSeek-V4 在架构创新和上下文效率上作出了新的突破，在 Agent 能力、世界知识和推理性能上做到了国内与开源领域最强模型。 DeepSeek-V4-Pro 大幅缩小了与顶级闭源模型的差距，Agent 能力优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。 DeepSeek-V4-Flash 能够提供更加快捷、

新品内测｜延迟从500ms降至50ms！PPIO Sandbox TURN发布，彻底打通Agent实时交互网络

PPIO Sandbox TURN，打通 Agent Sandbox实时通信通路。进入 Agent 时代，云沙箱（Sandbox）已成为智能体执行代码、调用工具、操作浏览器的基础设施。然而，当你的 Agent 试图进行音视频处理、远程桌面操作或人机实时协同等“延迟敏感型”任务时，往往会遭遇滑铁卢：画面撕裂、操作迟钝、哪怕在同城也卡成 PPT。不是带宽不够，而是底层的网络协议走错了路。PPIO Sandbox TURN 实时通信服务正式开启内测，专为实时类 Agent 应用优化，一举将端到端延迟从 300-500ms 暴降至 50-100ms。挑战：沙箱的网络层不是天生为实时交互而设计标准云沙箱的网络层并非天生为实时交互类请求而设计，很难满足延迟敏感型 Agent 场景的需求。大多数云沙箱的网络架构是为 HTTP 服务场景优化的——流量走 TCP（