geforce rtx 4090 advanced，nvidia rtx 4090猛禽评测

来源：头条浏览：0 2022-12-07 10:58:01

1前言

在2022年秋季GTC大会上最新一代GeForceRTX40系列台式机显卡发布后不到一个月，NVIDIA正式解禁了GeForceRTX4090FounderEdition旗舰显卡的性能

在介绍nvidiageforcertx 4090 founder edition显卡的性能之前，请先详细了解一下这次的GeForceRTX40系列为我们带来了什么改进。

GeForceRTX4090【建议零售价12999元起】GeForceRTX408016GB【建议零售价各9499元起】

GeForceRTX408012GB【建议零售价7199元起】此次NVIDIA限量发售GeForceRTX4090FE版，将于北京时间10月12日晚9点在京东发售，为喜爱FE版的发烧级玩家带来无与伦比的体验您可以购买NVIDIAFE和领先的显卡供应商的RTX4090GPU标准版和超频版。【点击购买】

技术说明：体系结构的优点

Turing、Ampere两代架构的核心都是以人物命名的。前者是计算机科学之父——艾伦马西森图灵；后者是“电力中的牛顿”——安德烈玛丽安培，电流的国际单位安培因其姓而得名。 AdaLovelace决定了非凡的人。度娘果然是有着“数字女王”之称的阿达罗芙丝，编写了历史上第一个计算机程序，也是世界公认的第一个计算机程序员，真是一代比一代牛。 PS :她的父亲是《唐璜》的作者，诗人拜伦吧。

从Turing架构开始，NVIDIA首次在图形卡上增加了加速光线跟踪的RTCore单元和用于AI推理的TensorCore单元。这一革命性的创新使实时光线跟踪成为可能。 Ampere体系结构是一种全面的体系结构改进，除了新一代的第二代RTCore和第三代TensorCore之外，还有更先进的SM单元设计，使图形卡工作效率提高了一倍。另外，来到AdaLovelace架构，是以效率化为大前提的，所以当然引入了最新的第三代RTCores和第四代TensorCores单元，同时也引入了很多新颖的黑科技。从执行效率来说，AdaLovelace架构是前代Ampere架构的2倍以上，光线跟踪能力更是达到了4倍于恐惧的性能。

在讨论核心体系结构之前，请了解GeForceRTX4090、AdaLovelace、TSMC4N、608mm、760亿个晶体管以及两倍的性能功耗比方面的一些关键词。

带几个关键词，查看上述【图形规格参数比较】表，可以方便地阅读上表。最新一代台式机显卡GeForceRTX40系列均采用全新的AdaLovelace体系结构核心，GeForceRTX4090的核心是AD102，是目前AdaLovelace体系结构核心中最高的

GeForceRTX408016GB的核心号为AD103-300，拥有9728个CUDA核心和16GB高速美光GDDR6X显存，显存的位宽也减少到了256位。 GeForceRTX408012GB的规格稍低，核心号码为AD104-400，拥有7680个CUDA核心和12GB兆光GDDR6X显存，显存位宽仅为192位。因为这里是NDA，所以这里不涉及GeForceRTX4080系列的相关信息。

得益于NVIDIA与台湾积体电路制造深度合作的TSMC4N工艺，GeForceRTX4090的核心面积仅为608mm (前代RTX3090Ti628mm )，核心面积更小，最多可容纳760亿个晶体管，为上一代ammc

值得注意的是，工艺的改进，不仅可以有更多的晶体管，核心频率也可以跑得更高，GeForceRTX4090Boost频率达到2520MHz，在核心频率和高规格的双向保证下，前代视频

从GTC2022秋季大会开始，我们发现目前GeForceRTX4090显卡上的AD102-300核心实际上并不是完整的AD102核心。完整的AD102核心必须包含12个GPC、72个TPC、144个SM和12个32位图形内存控制器的384位图形位宽度。

观察上面的GeForceRTX4090体系结构图，可以发现与完整版的AD102核心相比的区别。首先，GeForceRTX4090的核心代码是AD102-300，具有9个完整标准的图形处理群集( GPC，每个群集内置6个TPC )和2个不完整的GPC (每个GPC 5个TPC ) 关于潜在存储器宽度方向是相当完整的——384Bit。

如果仍然不太清楚，现在笔者逐一为AdaLovelace体系结构显卡的配置。

如上所述，在完整的AdaLovelace架构的AD102核心内部有12个GPC，每个完整的GPC包括专用的RasterEngine、两组ROPs共计16个ROP、6个TPC和12个SM单元

2ADA技术解说

一种新的SM流媒体多处理器

AdaLovelace体系结构中最大的亮点之一是新的SM流多处理器，每个SM有128个CUDA内核、1个第三代RTCores、4个第四代TensorCores、4个texture UE

过去的Turing体系结构INT32计算单元与FP32的数量一致，但两者加起来构成了64个CUDA核。但是，Ampere架构开始，左侧的计算单元实现了FP32 INT32的计算单元的同时运行。也就是说，CUDA核心数量达到了128个。

让我们来看看AdaLovelace体系结构的SM。 FP32/INT32的计算单元组合同样实现了每个SM包含128个CUDA的设计，虽然看起来没有什么提高，但GeForceRTX4090拥有128个SM和16384个CUDA内核

缓存的AdaLovelace体系结构也得到了重大改进，首先每个SM单元都有128KB的单独缓存，RTX4090显卡提供了163MBL1/共享内存。其次，核心的l2缓存经过重新设计，完整的AD102核心为96MB的l2缓存，RTX4090显卡有72MB的l2缓存，因此，向AdaLovelace架构核心的显存的位宽

详细内容，其实等11月RTX4080的首次发行就知道是不是这样了。

技术解说：第三代RTCores和第四代TensorCores

我还以为刚才的CUDA数量和超大型L2缓存已经来势汹汹，实现AdaLovelace体系结构最大提升的是第三代RTCores和第四代TensorCores。

第三代RTCores

RTCores用于光线跟踪加速，第三代RTCores的有效光线跟踪计算能力达到191TFLOPS，是上一代产品的2.8倍。

在Ampere体系结构中，第二代RTCores支持边界相交测试( BoxIntersectiontesting )和三角形相交测试，以加快BVH遍历速度并执行射线三角相交测试的计算。光线跟踪处理能力高于第一代Turing架构，但随着环境和物体几何复杂性的持续增加，传统处理方式难以提高更高效、准确反应的现实世界光线特别是光线运动的准确性。

因此，第三代RTCores增加了两个重要的硬件单元： OpacityMicromapEngine和DisplacedMicro-MeshesEngine引擎。 OpacityMicromapEngine主要用于加速alpha通道，可以使alpha测试几何体的光线跟踪速度达到提高2倍。

在传统的光栅渲染中，开发人员使用alpha通道材料来更高效地渲染形状复杂的物体，例如alpha通道的叶子和火焰。但是在光线跟踪的时代，这种传统方法对于光线跟踪波段会有很多无效的计算。例如，每当运动光线多次穿过叶子且光线到达叶子时，它都会调用着色器来确定如何处理交点。在这种情况下，会产生严重的执行成本和等待时间成本。

OpacityMicromapEngine用于直接分析具有不透明度光线交点的不透明度状态

三角形。根据alpha通道的不透明度，它处理三种不同的块状态：透明度和未知度。通过忽略透明度并继续查找下一个块，记录并命中不透明度块，然后将未知块交给着色器来确定处理方法，大部分GPU无需进行着色器调试过程，即可获得更高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine正在加速表面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，AdaLovelace体系结构可以通过使用一个基础三角形移位贴图来创建高度详细的几何网格。所需资源比第二代RTCores更低、更高效。

以NVIDIA展示的14:1珊瑚蟹的制作例来说，这里需要1.7万个微网格、160万个微三角形，在AdaLovelace体系结构中，BVH的制作速度变为7.6倍，存储空间缩小为8.1倍DisplacedMicro-MeshesEngine起着重要的作用，它将一个几何物体按细节划分为密度不同的微网络处理，红色密度超高，细节处理复杂。合适的低密度微网络区域可以释放更多的资源和存储空间，因此，“分布式微消息引擎”可以帮助BVH加速过程，减少构建时间和存储成本。

此外，AdaLovelace体系结构SM中添加了着色器执行重新排序( ShaderExecutionReordering，SER )。这不仅是因为光线跟踪强烈的灯光和阴影渲染处理，而且因为将来光线的移动会变得越来越多，光线变得越来越复杂，需要第三代RTCores和第四代TensorCores。着色器的执行“重新排序”( SER )提高的执行效率将光线跟踪速度提高两倍，更好地利用GPU资源。但是还没有实例，要实现这个功能，需要游戏和开发工具的支持。

第四代TensorCores

TensorCores是为了执行张量/矩阵运算而特别设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores增加了FP8引擎，具有1.32petaflops的张量处理性能，超过了前几代的5倍。

3DLSS3技术和NVENC

技术解说： DLSS3

还是第四代TensorCores太硬了，不知道是什么？提高的意义在哪里？但是，作为TensorCores最经典的APP案例，DLSS应该知道AdaLovelace体系结构支持NVIDIA的最新DLSS3技术。

之前也提到过DLSS技术，其设计之初是为了弥补开启光线跟踪技术后的性能损失，具体来说开启光线跟踪技术后的游戏帧数大幅减少，甚至难以保证游戏的顺利运行。因此，DLSS使用低分辨率内容作为输入，使用AI技术输出高分辨率帧，从而提高光线跟踪的性能。

DLSS3包括三种技术： DLSS帧生成、DLSS超分辨率(也称为DLSS2 )和NVIDIAReflex。 DLSS3可以理解为向DLSS2添加了DLSS帧生成技术；而且，在这两种技术中，DLSS的超分辨率只能在GeForceRTX显卡上使用，NVIDIAReflex可以在GeForce900系列以后的显卡上使用。

实现DLSS帧生成并不简单。必须与AdaLovelace体系结构的GeForceRTX40系列显卡配合使用。 DSS帧生成技术的原理是通过利用AI技术生成更多的帧来提高性能。 DSS使用GeForceRTX40系列GPU中的新光流加速器分析连续帧和运动数据，以创建其他高质量帧，而不影响图像质量和响应速度。

从Ampere体系结构开始，NVIDIA显卡已经支持光流加速器。此外，AdaLovelace架构的光流加速器升级至第二代，提供高达300teraops(tops )，以及安培架构的第一代光流加速器( opticalation ) OFA )更快。为了实现DLSS帧生成，OFA将发挥重要作用，并配合新的执行量分析算法在DLSS3技术框架内实现精确、高性能的帧生成能力。

另外，因为DLSS帧的生成是在GPU上作为后处理执行的，所以即使游戏受到CPU性能的限制，我们也可以从中获得更好的游戏性能的提高。特别是在物理计算密集型游戏和大型场景游戏中，DLSS2使GeForceRTX40系列显卡能够以高达CPU计算的两倍的性能渲染游戏。

最后，DLSS3在游戏生态中被广泛应用，因为DLSS3是基于DLSS2的，并且游戏开发者可以将它快速集成到现有的支持DLSS2或NVIDIAStreamline的游戏中

阅读亮点： NVIDIAReflex

NVIDIAReflex也是DLSS3的一部分，可使GPU和CPU同步，确保最佳响应速度和低系统延迟。

要实现端到端的最小延迟，必须确保游戏、显示器和鼠标三者同时支持并打开Reflex技术。

GeForceRTX40系列显卡与NVIDIAReflex配合使用后，直接实现了1440p分辨率360FPS的体验。这个确实性能有点强。

GTC2022大会采用1440p分辨率的新型g-syniled，包括采用迷你led技术的AOCAG274QGM-AGONPROMiniLED、MSIMEG271QMiniLED、ViewSonicXG272G-2KMiniLED等

但唯一的问题是，一些显示器制造商认为，如果这类产品的参与者很少，这类显示器的工作效率就会下降，或者产品会跌落到内部PASS。 1440p360Hz很棒，但现实是相当辛苦的感觉。

技术说明：双NVIDIA编码器( NVENC ) )。

GeForceRTX40系列显卡还有一个新的升级：双编码器NVENC。第八代NVENC双编码器不仅支持H.264和H.265，还支持开放视频编码格式AV1。

由于AV1是免版税的视频编码格式，上游软件制造商和下游游戏合作伙伴大力推广这种编码格式。此外，许多硬件和软件都支持AV1格式，包括剪辑专业版、DaVinciResolve和AdobePremierePro的流行Voukoder插件，并通过编码预设提供了双核功能

不仅是视频制作软件，AV1格式也将成为播音员、游戏转播的p主们的新宠儿。在保证屏幕最高质量的情况下，AV1编码器效率为提高40%，显卡占有率也较低。包括OBSStudio在内的代软件也将添加对AV1格式的支持。此外，GeForceExperience和OBSStudio最多可录制8K60内容，从而简化游戏录制。

包括我们后来用于测试的游戏录制视频在内，都支持AV1格式，但是双编码器NVENC的资源消耗和配置越来越好。

4RTX 4090 FE公版拆解

NVIDIAGeForceRTX4090FE显卡简介、外观说明

nvidiageforcertx 4090 founders edition外壳真的很大，设计元素也简化了很多。 " nvidiageforcertx4090 "。

整个外包装采用了相当环保的瓦楞纸板。相反，这个包装的耐压比上一代高得多，使用起来相当坚固。 NV可能知道这真的有点重。制作好的包装保护显卡吧。

nvidiageforcertx 4090 founders edition的外观设计与前几代RTX30系列FE旗舰显卡基本相同，而nvidiageforcertx 4090 founders edition的头部设计

下面是正转的12cmm设计，周围被散热片包围着

芬恩的工作还是相当认真的

显卡正面的尾部也带有同样面积的散热片

关于接口，nvidiageforcertx 4090 founders edition仍然保持在主流水平。这是3*DP1.4a 1*HDMI2.1接口。没有我们期待的DP2.0。另外，据NVPDF报道，DP2.0的显示产品无法在短时间内上市。这是否意味着NVIDIAGeForceRTX50将采用新的接口？当然，我想在接口规格上比较激进的朋友，会先推出带有DP2.0接口的显卡。

FoundersEdition显卡的细节做工确实比普通产品质感好。信仰不仅是NVIDIA这个品牌效应，其产品也很多，FE信仰一直在粉丝心中。

FoundersEdition显卡的产品信息、SN码都位于挡板上，但由于是全球发售的产品，所以拥有很多地区的产品和环保认证。

正负设计可以加强机箱内散热通道的形成，但根据NVIDIA提供的数据显示，该散热系统最大气流比上一代显卡多20%，在同噪声条件下气流多15%，真实散热性能相当好

不用担心看了FoundersEditIOn显卡也分不清是什么产品。除了从产品的体积上进行区分外，您还可以在产品装饰条上看到产品型号“RTX4090”，但实际上您还可以在尾部的io接口上看到产品型号。

尾部的侧面片，NVIDIA做了一个磁吸盖，里面有两个可以固定显卡的安装螺丝孔，但产品附件其实没有安装支架。那个安装支架必须自己购买。

在NVIDIAGeForceRTX40时代，所有显卡(包括FE和AIC制造商)都采用最新的12VHPWR接口。笔者建议购买并使用电源制造商提供的原生线材。

不想换电源，也买不起原生模块线的网友们也不用担心。 NVIDIA在FE和AIC的产品上加装4*8PinTO12VHPWR转换电缆进行使用。

nvidiageforcertx 4090基金版显卡分解

与前代Fepublic显卡的拆卸方式一样，背部的金属装饰条可以直接用手提起，慢慢取下金属装饰条。

需要注意的是，IO连接器上的金属板由金属紧固件固定，拆卸时需要注意。

卸下两个金属背板后，可以看到nvidiageforcertx 4090 founderseditionpcb的背面。

芯背是大量的多层陶瓷芯片电容器( MLCC )，一些AIC制造商改用四个POSCAP (导电高分子钽电容器)。

取下后背的四个被固定的后背的螺丝就可以取下PCB。当然，导热垫是粘性的，是油，所以有一定的概率直接附着在PCB上。

从前代RTX30系列显卡来看，Fepublic版PCB采用了异形PCB，但此次的nvidiageforcertx 4090 founderseditionpcb更大更贵，背部采用了PCB板型号： 180-180

NVIDIAGeForceRTX4090的核心号为GA102-300-A1，但由于是来自介质的FE版本，核心中也有“SAMPLE”字样。另外，这个核心是22年25个周期A1版本的核心，也就是6月中旬出来的核心，周期还早。

核心周围为12个美光GDDR6X显存，粒子编号为D8BZC，其规格为512Mb*32Bit，每个2Gb的容量、频率为21Gbps，而且还具有ECC功能； 12个可以构成24gb 384位的显存规格。该粒子首次出现是NVIDIA上一代台式机级旗舰产品GeForceRTX3090Ti显卡。

供电部分置于PCB头尾两端，共23供电设计，其中20相为核心，3相为记忆供电。

细心的网友们一定会发现，PCB的供电电空焊接位置也很多。这样，我们就经常确认将来会有更高规格的GA10x核心问世。

所有供电的DRM操作系统均来自芯源系统( MPS )的MP86957，该芯片也常用于高端显卡，是集成上下通道和驱动的英特尔高性能解决方案，采用单个MP

供电控制采用同一个芯源系统( MPS )的单个MP2891进行，供电控制思路与上图相同，但目前尚未找到MP2891芯片的相关资料。感兴趣的网友可以MPS官方查询相关资料【点击查看】

旁边的us5650q芯片是提供电源的控制芯片

高质量的12VHPWER插座

显卡配备了非常强大的散热系统。除了前后风扇均为12cm的设计，该散热模块的规模往往真的很大，底部有表面镀镍处理的真空室均热板，带有8mm粗热管和超大尺寸两种散热片。热管和散热片都镀有黑化，可以防止长时间使用后的表面氧化问题。

基本上所有的零件都有对应的编号，表明NVIDIA对Fepublic有更严格的质量管理要求。

在显示器和VRM的位置安装导热垫辅助散热。特别是显示屏的位置，均热板上焊接有凹槽的散热片，加强对显示屏位置的散热。

背部的金属背衬也相当仔细，不是普通的压铸处理，而是CNC处理，可以清楚地看到CNC芯片的痕迹。

5测试平台简介

测评平台简介：

经过测试的nvidiageforcertx 4090 founder edition显卡被定位为旗舰级显卡，因此适合深度游戏、视频创作者和专家使用为了避免平台中其他硬件造成的性能瓶颈，我们在此选择了当前旗舰级别的产品。

在这三个附件中，我们优先采用了英特尔目前的旗舰级i9-12900K处理器。该处理器采用16核24线设计，睿频加速最高可达5.20GHz，完全满足游戏玩家和内容创作者的需求。主板方面，选择了高规格的微星MEGZ690ACE战神主板，在能够满足多台高速gen4nvmem.2SSD的同时，具有丰富的扩展性能。

关于内存的发展方向，我们的测试通常也只使用32GB的显存，但是考虑到这次测试的复杂性和8K视频的需要，我们直接来了一套很大的。使用4个KingstonFURYBeastDDR5RGB内存条，在BIOS中读取XMPI文件( DDR5-6000C40 )，同时通过RunmemtestPro5.0稳定性测试，平台内存为ddrrom

也无需为存储系统担心。三星980 prowithheatsink 2tb的固态硬盘作为系统盘，而金牌之星KC30004TB作为游戏和软件磁盘的组合，与主板散热背心相结合，提供硬盘在进行测试之前，已在系统磁盘最新版本的系统上重新安装WINDOWS1121H2。本打算用22H2的，但是这个版本对NV显卡有一定的负面优化效果，所以要求稳定。

显示器方面，我们的镇室神器——爱攻保时捷联名使用了PD32M运动显示器4K144。由于引入了MINI-LED技术，这款显示屏可以看到更高亮度的HDR效果，这款显示屏的色彩表现相当好，还配有144Hz的高刷。但是，这台显示器只支持4KUHD的分辨率。我们用于测试的8K视频是利用NVIDIADSR技术扩展的，在性能上与本机8K分辨率的显示器存在一定差距。

电源方面，使用的是鑫谷刚刚上市的KL-1250GATX3.0电源。它符合最新的ATX3.0标准，并支持PCIe5.0本机接口。它还标配12 vhp wr 16针原生线，可直接为GeForceRTX4090显卡提供600W电源。

12VHPWR界面解说：

目前，GeForceRTX40系列均配备12VHPWR接口，这是一款基于AdaLovelace体系结构的台式机级显卡，因此在使用前，NVIDIA的电源额定功率为12VHPWR接口

此次推出GeForceRTX4090显卡时，NVIDIA为大家配备了4*8Pin转12VHPWR16-pin接口的转换电缆，无论是FE还是AIC厂商的显卡都是标配，方便大家使用但是，尽管该切换连接已经通过了NVIDIA认证，但是最多有30次连接/断开的寿命限制，也就是15次交换次数，真的很少。

这个锅不是制造商的错，也不是NV的错。为了满足超过450W的供电需求，对接口连接端子的要求可以不低。使用次数过多时，接口变松，端子电阻变大，容易引起接口的热熔敷问题。

当然，如果您原本使用的是高功率电源，我们建议您联系经销商或电源制造商，购买双8针12VHPWR模块电缆。这样，就可以更安全地使用单电源600W的电力需求。

当然，与我们的测试平台一样，理想情况下直接使用支持PCIe5.0本机接口的电源。这样，电源就可以根据显卡的电力需求使用600W的大功率输出。

*有关显卡电源接头的详细信息，请单击//DIY.pconline.com.cn/1495/14955385.html

测试前的系统设定

另外，在测试之前，根据NVIDIA的技术指导文件，打开DLSS3功能需要几个步骤。

打开硬件加速的GPU时间表

以全屏模式运行游戏，实现最高性能和最小延迟。

确保在NVIDIA控制面板中将显示器设置为最大刷新率。

建议使用G-SYNCUltimate显示屏进行最佳体验评估。

在主板的SBIOS中打开敏感栏。

6理论性能和内容创建测试

理论性能测试：

在性能方面，我们先来看看具有代表性的3DMARK理论性能测试。 DX11项目( FireStrike系列)和DX12项目( TimeSpy系列)以及光线跟踪项目PortRoyal都显示了类似的性能。 GeForceRTX4090非常强大，基本上大大领先于上一代产品。特别是在分辨率越高或依赖光线跟踪能力的项目中，性能表现都是两倍。

同样，着色器功能、采样器反馈功能和DLSS2功能项目也有显著的性能改进，但请注意，这只是DLSS2的性能。然后，我们还将详细测试DLSS3项目。

*PS:FireStrike和TimeSpy系列项目均为GPU得分，而非项目总分

相同大小、相同大小384位、相同大小1018GB/s的显存带宽。虽然两种显卡的显存读写能力一致，但GeForceRTX4090的显存复制能力却高达2.6倍，是AdaLovelace体系结构核心二级缓存带来的最大优势

由于GeForceRTX4090具有更强大的核心规范，因此在计算能力方面，GeForceRTX4090具有的性能是前几代RTX3090Ti产品的两倍。

视频内容生产力测试

关于视频生产力，我们也先来看看PCMARK10的理论性能测试。 GeForceRTX4090在这个项目上没有什么提高，约13%的人领先于RTX3090Ti。但是从子项目中可以看到，一般的基本功能和生产力这两个项目基本上取决于整个平台的性能，来到游戏的小项目可以看到大约32%左右的大幅提高。

在ULProcyon的理论性能测试中，两种显卡的办公性能基本都不错，但在照片编辑方面其实两者的性能也是相当的。在导出视频编辑时，GeForceRTX4090稍高。

另一方面，PugetBench测试显示了同样的性能。这真的是GeForceRTX4090多媒体的能力吗？笔者对此有点怀疑ADOBE软件版本的问题。 ULProcyon是在PugetBench中调用的相同类型的ADOBE工具包。但是，由于达芬奇使用了支持AV1编码的新DaVinciResolve18.0.2，因此性能的提高更加明显。随后，笔者将对这些软件进行更详细的补充测试。

NVIDIANVENC双编码器专项测试：

在NVIDIANVENC双编码专业测试中，笔者采用了加速av1 andh.265 performance、AIACCELERATEDMAGICMASK、LargeGPUMemory占用和on

总的来说，第八代NVENC双编码器确实为RTX4090带来了更好的性能，在同样的H.265视频输出下，比上一代显卡快得多，而且输出8K30视频时，RTX4090只需46秒即可完成这个后期摸哥哥鱼的时间也大幅度缩短了。

accelerated av1 andh.265 performance

由于NVENC双编码器支持AV1格式，因此比较了H.265和AV1的相同标准的视频输出时间。即使是同样的GeForceRTX4090显卡，4K30的高质量视频的输出时间也是一致的，但是如果输出更高分辨率的8K30的高质量视频，H.265格式的输出时间会缩短几秒钟，但是在容量方面AV1格式的视频更明显

AIACCELERATEDMAGICMASK-RTX4090

在幻方图测试中，AdaLovelace架构的GeForceRTX4090具有更快的呈现时间，17秒完成了整个AIACCELERATEDMAGICMASK的测试。另一方面，上一代旗舰GeForceRTX3090Ti只需37秒即可完成。据说是后期的哥哥

largegpumemorymb _ 8kr3dredcameraclip，playtheclipintheviewer

这个测试参考其实我们在RTX3090Ti最初上市的时候就做过测试。在工程量、特效和滤镜效果不复杂的情况下，实时播放8K视频占有量也不是很高。但是，如果有意增强特殊效果和滤镜效果，显存的占有率会轻易上升。使用相同8KR3DREDCAMERA录制的视频，同一设备上的RTX4090显存占有率较低，约为17GB，但RTX3090Ti显存占有率可达21.5GB。

ON1Resize

同样，ON1Resize软件将原始超高分辨率图像再次放大到200%。通过同样的操作，GeForceRTX4090的处理速度比RTX3090Ti快得多。

专业的内容创建测试

Blender这款免费的三维全功能软件越来越受欢迎，包括建模、实时渲染、三维动画、材质绘制、后期合成、绿屏键、摄像头跟踪、物理特效模拟我们直接使用最新的BlenderBcnchmarkv3.3.0软件对其进行了测试。它包括三个monster、junkshop和classroom测试项目，RTX4090的性能是前代旗舰性能的两倍。

可以看出，OctaneBench是当前流行的GPU渲染基准测试工具，RTX4090也通过其高规格内核提高了GPU渲染性能。这一代的架构提升并不是很大。

SPECviewperf2020v3.0是业界标准的OpenGL图形性能测试分析软件，RTX4090的性能也有了巨大的提升。总的来说，面向专业人士的内容方向，RTX4090与前几代产品相比，性能提升了70%，12999的定价非常值得打造面向专业人士的内容。

7游戏性能测试

游戏性能测试

当然，作为游戏显卡，我相信RTX4090也有很好的性能。在1080p的分辨率下，普通游戏的提升并不多，但在游戏中自带DLSS会提高性能，整体提升约28%。

对于2K和4K游戏，分辨率越高，RTX4090的性能就越好。特别是在4K分辨率下，性能的提高最为明显。另外，大多数3A游戏基本上可以在100FPS以上跑。与PD32M这样的4K144显示器组合游戏真是太爽了。

当然，如果把显示器分辨率提高到8K，打开DLSS超性能文件，基本的3A游戏就有60FPS左右的游戏度。相比之下，RTX3090Ti确实有点无奈，很好地表明了RTX4090显卡是一款真正能玩爽8K游戏的旗舰游戏视频。

8DLSS3性能测试

DLSS3性能测试

——DLSS3是RTX40系列显卡的最大亮点，我们当然会加入到第一个版本评测。但是，现在我们来看看几个支持最新DLSS3技术的游戏。

《超级人类》(superpeople ) :抢先体验版将于10月12日13:00发布，支持DLSS3

《生死轮回》(loopmancer )将于10月12日发布更新版，支持DLSS3

《逆水寒》“抖云庭”( justice‘fuyun court’)新的图形展示将于10月13日发布，支持DLSS3

《微软模拟飞行》 ( microsoftflightsimulator ):XboxInsider计划成员将于10月17日推出测试版，以支持DLSS3

《瘟疫传说：安魂曲》 ( aplaguetale:requiem )将于10月18日发布，支持DLSS3

3DMARKDLSS3功能

NVIDIA单独为我们提供了最新的3DMARK测试版本，包括支持DLSS3技术的DLS功能测试工具。正好结合我们以前测试的DLSS2的成绩，如上图所示，2K分辨率的性能表现DLSS2和DLSS3基本相同，还不错； 4K分辨率开始时，开启DLSS3后帧数的提高变得明显，在8K分辨率下的DLSS3超高性能文件中实现了DLSS22倍的性能提高是不言而喻的。

Cyberpunk2077

Cyberpunk2077游戏也可以使用支持DLSS3的游戏，用同样内置的BENCHMARK进行测试，但是打开DLSS3后，内置帧数计算机会出现很大的误差，所以这里是NVIDIA自己的框架视图

首先，如果Cyberpunk2077游戏具有4K分辨率的超光跟踪设置，则平均帧数仅为43FPS。这是我们测试的一个标准，启动DLSS2功能后，平均帧数达到77FPS，已经可以运行相当多的游戏；但是，在这里也不满足。开启DLSS3后，游戏流畅度达到146FPS。这个提高了很多。同样的情况在2K分辨率文件的比较测试中也发生过，只能说这次的DLSS3真的太强了。

F122

在同一个F122游戏中，4K分辨率下只有TAA设置的游戏平滑度为75，表明RTX4090不开启DLSS功能的游戏性能也很高。但是，开始DLSS3后，无论是质量文件还是性能文件，游戏的流畅度都超过了120FPS，对于赛车游戏来说，这种流畅度真的很爽。

逆水而行

在测试版本的逆水寒游戏中录制了视频给你看。在逆水寒游戏中打开DLSS3后，关闭DLSS后，画质会怎么样？很明显，关闭DLSS后，游戏的帧数就像几个帧数一样是超低帧数，但是打开DLSS3后，整个游戏明显变得顺畅了，整个画面的表现也变好了。感兴趣的用户可以尝试使用上面的插件放大视频并比较图像质量。

UnrealEngine5Lyra

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

最后，我们还测试了使用UnrealEngine5引擎构建的LyraDEMO，该引擎除了最新的DLSS3技术外，还包含NVIDIAReflex。笔者在这里上传了两张照片，展示了LyraDEMO的DLSS3开与关画质的比较，游戏流畅度自然在DLSS3开后上升明显，达到了192FPS，PCL延迟也进一步降低到了50ms的水平。

目前，DLSS3已得到许多世界领先的游戏开发人员的支持，超过35个游戏和APP应用程序宣布将支持该技术。这些措施包括：

《瘟疫传说：安魂曲》 ( aplaguetale:requiem ) )。

《原子之心》 (自动头部) )。

《黑神话：悟空》(blackmyth:Wukong ) ) ) ) ) ) ) )。

《光明记忆：无限》 ( bright memory:infinite ) )。

《切尔诺贝利人》(chernobylite ) )。

《战意》(conqueror'sblade ) )。

《赛博朋克2077》(cyberpunk2077 ) )。

《达喀尔拉力赛》(dakardesertrally ) )。

《火星孤征》(deliverusmars ) )。

《毁灭全人类2:重新探测》(destroyallhumans！ 2-Reprobed )

《消逝的光芒2:人与仁之战》 ( dying light2: stay human ) ) )。

F122

《暗影火炬城》 ( f.I.s.t. forgedinshadowtorch ) )。

寒霜发动机

《杀手3》(Hitman3) )。

《霍格沃茨：遗产》(HogwartsLegacy ) )。

《翼星求生》(Icarus ) )。

《侏罗纪世界：进化2》 ( jurassicworldevolution2)

《逆水寒》(justice ) )。

《生死轮回》(loopmancer ) )。

《星际海盗》(marauders ) )

《漫威蜘蛛侠：重制版》 ( marvel’s spider-man remastered ) )。

《微软模拟飞行》 (微软照明器)。

《午夜猎魂》(midnightghosthunt ) )。

《骑马与砍杀2:霸主》 ( mountblade ii:banner Lord ) ) ) ) ) ) )。

《永劫无间》(Naraka:bladepoint ) )。

NVIDIAOmniverse

NVIDIARacerRTX

《破灭》(Perish ) )

《传送门》 RTX版( PortalwithRTX ) )

Ripout

《潜行者2：切尔诺贝利之心》 ( s.t.a.l.k.e.r.2:heartofchernobyl ) )。

《炼狱神罚》(SCAthe ) )

《超级人类》(superpeople ) )。

《仙剑奇侠传七》(swordandfairy7) )。

《重生边缘》同步

《指环王：咕噜》 ( thelordoftherings:Gollum ) )。

《巫师3：狂猎》 ( the witcher3: wild hunt ) )。

《王权与自由》(throneandliberty ) )。

《幻塔》(toweroffantasy ) )。

Unity

幻发动机45

《战锤40K:暗潮》 ( warhammer 40，000:dark tide ) ) ) ) ) ) ) )。

9超频、功耗总结

超频试验

在超频方面，nvidiageforcertx 4090 founder edition显卡的默认BIOS最高TDP达到600W，但显卡仍存在功耗障碍，在520W左右，今后将提高频率超频试验使用的是MSIAfterburner超频。如果您不太了解如何开始，可以使用AIOC技术。这基本上是所有卡制造商配套的软件中包含的功能，可以实现更简单的自动超频。

先为显卡热身，把限温、风扇转速、电压都开到最高，先看看一次能跑多少分。这里nvidiageforcertx 4090 founder edition显卡的TIMESPY显卡的点数达到了37042，40秒的核心频率为2805MHz，性能有了一定程度的提高。

点核心和图形存储器频率为40秒的核心频率为2850MHz

再慢慢拉高一点，测试中实际尝试了很多频率，这里只给出一个参考频率。 40秒的核心频率为3000MHz，得分进一步提高，此时该核心功耗达到503W。

最后的频率稳定在3060MHz。再高的话真的拉不动了。就这样给我黑色看看。但是，性能很好。显卡分数达到38422，默认频率下得分为36586，分数上升5%，最高功耗达到518W。

电力消耗和散热

功耗和温度测试同样采用Furmark对显卡进行了深烤机测试，两块显卡的最大功耗也在450W以内，但CPD的功耗明显比RTX4090低高一。如您所见，由于RTX4090对PCIe的电力需求较低，基本上来自12VHPWR显卡的电源接口，因此要升级RTX40显卡，需要购买本机模块电缆或支持PCIE5电源接口

关于温度，这次的nvidiageforcertx 4090 founder edition显卡真的可以散热，GPU充满温度稳定后的最高温度为72.3度，内存温度也在80度左右。这个温度表现真的比AIC的非正式散热还要强。这多亏了前后2个12cm的轴流风扇，低温转速低，噪音低，高温转速适中，噪音也少。

总结：

GTC2022大会后，网友们对RTX40系列显卡的评价真是褒贬不一，旗舰级的NVIDIAGeForceRTX4090售价1299元，这个价格只能说是真的香了。

从我们的评测数据来看，GeForceRTX4090在游戏性能、视频制作性能、专业内容制作性能方面都有了巨大的提升，将台式机级旗舰显卡水平提升到了一个全新的水平同时，功耗和温度表现相当理想，在功耗下可以达到比前代旗舰高2倍的功耗比。

其他AdaLovelace体系结构中的所有GeForceRTX40系列显卡都支持NVIDIA第八代NVENC双编码器，并对AV1进行了特殊的优化和支持。在评测上我们做的视频输出测试，NVENC双编码器可以实现8K60直播流。这对直播行业的用户来说，是真的

最后，DLSS3技术、赶牛、DLSS帧生成技术无疑完全消除了CPU制造的游戏性能瓶颈，利用帧生成技术实现了更高的游戏流畅度。这在我们的实测中得到了很好的验证。当然，DLSS3技术需要不断开发和完善，相信越来越多的游戏和APP应用都有这样的顶级技术，到时候是我们玩家享受的时候了。

对于降级的RTX4080系列显卡，我相信在11月份解禁的时候，我们就知道是真的香还是洞了。