日本电子维修技术 显卡<後藤 弘茂>NVIDIA全新构架GPU Geforce RTX




https://pc.watch.impress.co.jp/docs/column/kaigai/1275220.html盗贴不要转。另外文中多有推测内容,实际情况以未发表的白皮书为准。
NVIDIA全新构架GPU Geforce RTX 30 系列解析
向量运算与矩阵运算,哪边才是重点?
NVIDIA刚刚发布了安培架构中图形向的产品GeForce RTX 30系列。其中包含高端产品的RTX 3080/3090(GA102)和中端产品的RTX 3070(GA104)。制程工艺为三星的8nm(由10nm派生而来),GeForce RTX 3080/3090(GA102)拥有280亿个晶体管,数量为消费级GPU中最多的。 但是和安培架构中计算向NVIDIA A100(GA100)的540亿相比还是小巫见大巫了。A100(GA100)是由高成本的7nm工艺制造的,显存也是采用的需要硅中介层(interposer)的HBM2显存。 反观GeForce RTX 3080/3090(GA102)是由成本较低的8nm制造,显存也是采用可以直接在基板上集成的GDDR6X。同样是安培架构,根据市场的不同芯片的制造方法也有着显著的不同。 三星在2019年ARM Techcon上发表的制程工艺技术路线图 同样的,内部构架上两种GPU也有巨大的区别。虽然开发代号同为安培,但计算向的GA100主要着重于提升矩阵运算能力(甚至连名称都改为了Tensor core GPU),而图形向的GA102则是以提升向量运算为重点。一个是以加速深度学习算法为中心的强化矩阵计算的策略,而另外一个则是以图形运算为中心的强化向量计算的策略,可以说两者的发展路线分的很清楚。同时,GA102上搭载了光线追踪加速器RT Core单元,更加明确了GA102为图形计算特别优化的方针路线。 这样设计选择的结果就是GeForce RTX 30系列在图像性能上有了长足的进步。在699美元这个档上,“实惠的高端卡”RTX 3080的性能和上一代Turing架构相同价位产品RTX 2080 SUPER的两倍。向量运算的浮点性能接近3倍,光追性能1.7倍,深度学习推理性能2倍以上! 各种GPU的die size与晶体管数量,其中die size有一部分是推测的

浮点运算性能达到两倍的新型SM设计

NVIDIA的GPU核心是由一个个计算单元聚集成小簇(Streaming Multiprocessor)作为基本单元构成的。在安培构架中,每个SM中由4个执行块(Processing Block)组成。这四个执行块共享贴图单元(TMU)、光线追踪加速器(RT Core)与L1缓存。 每个SM内部都有4个执行块,每个执行块里都有一个命令单元,该单元可以通过SIMT(单指令多线程)的方式将32个线程打包成为一个批次(Warp)交付执行单元进行执行。命令单元在Warp执行的过程中可以进行动态调整,通过交替切换Warp来隐藏执行的延迟。 GA102构架的SM的构成图 GA102构架的SM的概要设计 在执行管线中,可以执行FP32乘积与累加单元(FMA)即CUDA核心由两组16路的SIMT单元与4个SFU组成。FP64单元虽然并不存在于幻灯片中,但理论上应该多少会有一点,当然因为是图形向的产品,就算有也会相当程度的被压制规模。除此之外,当然还有Tensor core和load/store相关的单元。 GA102的构成基本上与前代的图灵类似。只不过,图灵的计算单元是16路的FP32和16路的32bit整数单元(INT32)各一个的构成形式。而在GA102上面,16路的32bit整数单元不仅可以做整型计算,同样也可以执行FP32的乘积与累加运算。因此SM内部的向量浮点运算单元翻倍了,同时向量运算的性能也翻倍了(NVIDIA只将可以进行FP32 FMA的单元算为cuda core)。 顺便说下,想要同时向两个16路的单精度浮点SIMT单元发射指令,并不需要强行在一个warp中让两者同时进行计算。因为一个warp是32线程的所以将32个线程的SIMT指令发射给一个16路SIMT单元的时候,该单元需要2个周期才能完成一个步骤。所以向两个16路单元交替的发射(32线程的warp指令)的话,计算单元就可以满负荷运行。(这段有点绕,我贴下原文,并自己画了个简易的图大家看看。)ちなみに、GA102での2ユニットの16-way FP32 SIMTユニットへの命令発行は、1つのWarpから並列化できる命令を発行する必要はない。Warpは32スレッドであるため、16-wayのSIMTユニットでは1ステップに2サイクルかかる。そのため、2個の16-wayユニットでインターリーブして命令を発行することで、演算ユニットをフルに稼働させることができる。

1.png (89.22 KB, 下载次数: 0)

2020-9-9 21:18 上传


架构改良的RT Core
SM中4个执行块所共享的资源包含贴图单元和RT Core。这种结构是近期发布的高端GPU比较常见的构成。下图是微软的新游戏机XSX的CU构成图。XSX就是基于AMD的RDNA构架然后添加了光线追踪单元而成的。其中也是有多个指令发射单元,以及位于指令发射单元下方的计算单元组,同时贴图单元与光线追踪单位为共享资源。为了解决因为内存访问导致的延迟变化问题,这种调度分离的设计思想是共通的。
XSX的CU构成图 NVIDIA在前代图灵构架中开始添加光线追踪加速器RT Core。GA102属于第二代光线追踪GPU构架了。 所谓的光线追踪技术一般是从假想的视角出发反过来推出光线路径的过程(Ray Generation)。首先通过画面上的像素点发生初始光线,然后让光线在3D空间里面往深处延伸(Traversal),并判断光线是否与3D空间中的物体是否发生了交叉碰撞(Intersection Test)。

3D空间中的物体使用基于树结构的BVH进行组织管理。首先判断是否与树中的包围盒(Bounding box)是否发生交叉,如果发生交叉,再将发生交叉的三角形找出来。 当判定发生交叉后,根据物体的不同接下来将分为生产反射光线或生成折射光线的两种情况,并启动相应的shader进行计算。同时,漫反射发生的时候会继续生成多个光线路径。多次反射的时候也是同样的。 在NVIDIA的RT Core的光线追踪流程中,在BVH中延伸光线并判断是否交错的过程是由硬件执行的。在GA102中,新追加了名为Interpolate tri position的硬件单元。该单元的作用是将一般用于提升运动表现的动作模糊特效也通过硬件光线追踪单元完成。
现在的GPU不仅追加了通用计算的资源,也开始实装各种各类进行专用处理的高速专用硬件。为了提高每瓦性能,提高针对特定领域的专用硬件比率是势在必行的。所谓无论是NVIDIA,还是AMD,甚至是intel在光线追踪这块都是采用硬件单元进行支持的原因就在这里。
同样是安培,但是却大有不同的tensor core GA102同样也搭载了面向深度学习的矩阵运算单元,即tensor core。该单元自伏打架构引进,在图灵中也被采用,同时安培构架中进行了进一步的强化。不过在安培中,计算向的GA100与图形向的GA102,对tensor core的改进方向是不同的。 伏打架构与图灵架构中,每个执行块配备了2个tensor core单元。Tensor core可以执行4x4矩阵与4x4矩阵的半精度浮点内积运算,该计算性能与64个半精度FMA单元相当。所以拥有两个tensor core单元等于每个执行块拥有等效的128个半精度FMA单元,而整个SM就等效于包含了512个半精度FMA单元。 有趣的是,GA102构架中,各执行块中却只有一个tensor core了。目前还没有作出详细说明,但是该tensor core却可以执行8x4与4x4矩阵的半精度内积运算,等效于128个半精度FMA单元。因为只有一个tensor core的缘故,所以单个执行块仍然等效于拥有128个半精度FMA单元,SM整体还是等效512个,没有变化。
安培的tensor core构架推测图。可以进行8x4与4x4的内积运算。
volta/turing的tensor core构架。只能进行4x4矩阵之间的运算,不过一个SM拥有两个该单元。 虽然等效单元数没有变化,但安培构架还是对tensor core进行了其他的改进。从现在公开的资料里面可知,新型tensor core实装了通过剪枝(Pruning)处理对稀疏神经网络的运算进行了加速。所谓的枝剪处理就是对神经网络中重要度比较低的参数进行删除(归零)的技术。该技术是在推理阶段提高性能,降低内存消耗的常用手法。NVIDIA通过硬件的方式实现了枝剪处理,可以消减1/2的数据存储与计算的消耗。因此,在稀疏化后的神经网络上进行推理的话,可以达到以往的两倍性能。
特别针对稀疏神经网络进行优化的新型tensor core
Tensor core的核心也大有不同 同样是安培核心的GA100中tensor core也进行了不同方向的扩展。这边则是翻倍了tensor core中计算单元的数量:GA100的tensor core可以进行8x8矩阵与8x4矩阵之间的内积运算。GA100中在tensor core中投入了相当多的晶体管,这种设计十分重视深度学习(训练)的性能。在这一点上与图形向且注重提升向量运算的GA100是大有不同的。
GA100的tensor core构架图。可以进行8x8与8x4的矩阵内积运算。 GPU全体的cluster构成继承于前代 如下图是GA102整体架构的推测构架图。GA102全体由6个GPC组成。GPC是一种包含渲染后端的组件以及图形计算核心等等功能的集合体,也可以说是一个小型GPU了。GPC中包含由几何转换为像素的光栅化单元,该单元由GPC内部的多组SM所共享。另外还有两个用于处理几何管线的固定功能单元,也是由SM所共享的。 GA102构架全体推测图
GA102核心的6个GPC中,每个GPC推测都含有14个或更多的SM单元。所以,在物理层面上包含的SM总数量为84个。这次发表的GPU中最大配置的GeForce RTX 3090的SM数量为82个,所以这6个GPC中的某一个单元实际上只有12个SM单元。 为了提高良品率应用冗余设计的话,在物理层面可能有着更多被屏蔽的SM被集成在核心中。通过冗余设计,将有缺陷的SM屏蔽的话,可以确实的提高良品率。例如说图灵架构的TU102中实际装载了72个SM,但在2080TI中仅有68个SM被启用了。那些可以同时开启72个SM的SSR核心则被特别挑选出来做成TITAN RTX卖给你。
图灵的构架图
RTX 3080的构架图
RTX 2080 SUPER的构架图
如前文所述,GA102构架中每个SM所搭载的FP32 FMA单元数量为128个。因此在RTX 3090上FP32 FMA单元总数量为10496个。和图灵构架相比,不仅SM数量增加了,而且SM中的FP32 FMA单元数也翻倍了,所以FP32的性能被大幅度的增强,其中RTX 3090的峰值性能达到了36 TFLOPS。 如果再算上价格的话,那么差距就更明显了。虽然GA102的3080被阉割到只有68个SM,但是因为SM架构本身的剧变,FP32单元的数量整体上却变成了8704个。和3080相同价格区间的图灵架构RTX 2080 SUPER却只有3072个单元,3080几乎是他的2.8倍。结果就是相同价格区间里面,向量性能却有着3倍的提升。 GA102派生(阉割)而来的RTX3080
采用带宽高达19Gbps的GDDR6X显存 另一方面,G102的深度学习向矩阵运算性能每SM中包含了等效于512个单元的tensor core计算能力,和前代相同,所以理论性能的提升是和SM数量紧密相关的(仅指半精度计算性能)。GA102将晶体管用在了向量单元上,从而抑制了矩阵单元规模的提升。 所以(在SM数量也没有大变化的情况下)tensor core的半精度性能在RTX 3090上是142T,在RTX 3080上是118T,和TITAN RTX基本上没什么太大差距。只不过GA102的tensor core添加了稀疏神经网络的硬件自动剪枝的能力。因此针对稀疏化后的神经网络而言,实际推理性能达到了2倍以上。例如RTX 3090的推理性能相当于285 T,是图灵的两倍。 光线追踪性能也受益于硬件的强化,虽然数量上还是一个SM一个单元,但性能已经今非昔比了。比如3080的光追性能是34 RT TFLOPS,是2080 SUPER的34T的1.7倍。 GA102上搭载了12个内存/显存控制器。内存界面位宽仍然是384bit。支持的显存颗粒为GDDR6X,GA102是地球上第一支持的。GDDR6X是一种采用PAM4提升传输率的新型DRAM。所以在RTX 3080/RTX 3090上达到了19Gbps的传输率,比起GDDR6的15Gbps有35%的提升,内存带宽终于开始摸到1 TB/sec的大门了。 PAM-4
在RTX 3090中,12个内存界面同时启用可以达到384bit,内存带宽为912 GB/sec。只启用10个的时候内存带宽为320bit,例如RTX 3080,其内存带宽为760GB/s。而在GDDR6时代,12个内存界面同时激活也只有496GB/s的2080 super是无法匹敌的。 在IO方面还实装了最新的PCIE 4.0界面。另外GPU间通讯技术NVLINK这次只有最高端的产品才有。 以上,就是NVIDIA最新投入市场的图形向GPU,GeForce RTX 30系列。NVIDIA在计算向GPU A100上强化了面向深度学习的矩阵运算性能。而在GeForce RTX 30系上,却以提高图形计算性能为目的。NVIDIA现在通过不同的配置将GPU设计进行区分开来,在最大限度保留构架共通部分的前提下,再根据偏好不同设计不同的芯片。在安培这一代上,该战略显得越来越明确。


评论
日文机翻也就看看这种技术文还好,注音基本就是一种外来语,文法也还好
日常自然言语真是毁灭性的

评论
那么……在Turing之前的所有GPU(当然,NV40之后),游戏中的INT32指令是怎么执行的?

评论

fp32单元

评论
更新RT Core的内容。

评论
话说问个问题,AMD GPU的int32是靠什么单元运行的,貌似int32比int24慢很多

评论
看了下原文,他好像认为ga102是6gpc?

评论

那不就是了,,如果FP32单元本来就能执行INT32指令,那现在就是两个FP32单元,为啥还搞得不太一样,一个纯FP32和一个FP32+INT32?
或者说执行效率有差?

评论
树导你这课程越来越高深快看不懂了

评论

fp32单元在执行int32指令的时候整个管线都会停下来等待,所以现在是分割为两个部分,一个fp32单元不停歇,一个fp32/int32交替执行,这样效率就提高了

评论
话说老黄这个32个线程打包成warp的行为是不是从G80开始一直没变?

评论

这样理解的话也就是增加一组执行单元(并且需将INT32只往这里送)来保证另一组执行单元和发射单元持续满载?

评论
更新完了。内容好多,有错误可以指出。另外内容是作者推测,最终结果以白皮书为准。

评论

他说的情况应该是volta/turing之前

volta/turing引入了和fp32单元1:1的int32单元,问题是实际中int32指令量远低于fp32,造成发射单元长期闲置一半(32线程分16 fp32+16 int32)

而这代的初衷是让发射单元尽量不空载,所以把fp32:int32=1:1改成了fp32:(int32+fp32)=1:1,有int32指令的时候还是16 fp32+16 int32,没有int32指令时才是32 fp32

评论
老黄还是没忘本
游戏还是要FP32

评论
SSR核心则被特别挑选出来做成TITAN RTX卖给你

评论

反正他认为ga102是图灵的小改款。

评论
FP32:INT32的比例是一部分问题,
另一部分是Shader性能与纹理性能,几何形能,像素填充率的比例问题。

想当年G80/G92/GT200凭借超高的纹理填充率(差不多1.7倍到4.7倍)把AMD的几代卡打的满地找牙,然后强行污蔑说是因为当时VLIW的架构效率低,我们Nvidia牌标量(伪)架构效率高来体现自己的先进性。
这次怕是Nvidia要自吞苦果了。

评论

当时媒体疯狂炒作G80架构是”MIMD“
整整误导了一代人。。。。。

评论

后藤老贼再次脑壳卡

7GPC都在官方图上了他还六个哈哈

评论

官方给的rtx 3080图确实是6gpc。。。你可以看那个图右下角有nvidia的标志,是来自GeForce RTX 30-Series Tech Sessions的图。

你说的7GPC是die shot,那个迷惑性太大了,因为包含了冗余设计的部分,根本看不懂。

评论

官方3080当然是啊,因为阉割了一组,你看他MC也是320bit,这明显不是完整的核心图


但是后藤写的是GA102,而且他自己画的3080阉割图和官方图的阉割也对不上


后藤再次犯错罢了,还记得skylake吗?


评论

112rop   

评论

从ga102完整版割到3080来有两种,一个是完整割掉一个gpc,一个是每个gpc再割下2组sm。

评论

你再算算。

你的说法和NV的图就对不上。

评论
确实对不上,应该是每组12,有两组只有10个 = ga100-3080。ga102−3090应该也是6gpc不是完整的,每组14,有一组12。

完整的ga102为止,按照die shot,就是7gpc。

评论

原本的CUDA CORE里头分为FP跟INT

20180525113627598.png (29.54 KB, 下载次数: 0)

2020-9-10 16:54 上传


现在分出来做了
老黄的架构图画的并不详细
用sub core来表示才能看的出来
现在的CUDA CORE的意思已经变了,以前是图上所指,现在FP32 ALU也配叫CUDA CORE。




评论

但是按照7gpc算3090感觉也很合理:12x7 - 2 = 82。ROP数量现在和gpc绑定:2x8x7=112。这样满状态应该是14x7=98组sm,有点夸张,泰坦王。如果按12x7的话,这就是史上和次旗舰区别最小的旗舰,图灵好歹差了4组sm。可能真没安培titan了。


评论

而且他那个图应该是早就画好的,rop按照新的说法应该在gpc里面了

评论
今天刚听了nv的人介绍A100,根据他说的a100能独立的切成7个虚拟GPU来看的话,GA100应该是7GPC?然后看了一眼白皮书GA102确实是7个GPC

评论
粗略看了一下,意思是说30系还有巨大潜能? 等新技术推广和游戏的跟进优化?

评论

潜能是挺大的,不过跟游戏关系不大了。

评论

游戏卡肯定关注游戏,3090那种另算。

评论

A100我已经测试过了,不过只跑了计算方面的,没跑这个拆分。

评论

我觉得对于机器学习来说A100是优于RTX A6000的,但是对于高性能计算来说还是A6000更强一些,并且不知道TF32相对于FP32精确度会对模型影响有多大

评论

A100有8个gpc,但好像现在的只开放了7个

评论

是的,看到白皮书写的八个gpc但是开了7个

评论

volta到生命末期才开到84sm,而且对于普通人来说只能算纸上发布。

评论

主要还是看能否用到tensor core。

然后A100是hpc卡,要求不能挑精度。

评论

v100从头到尾都是5120sp和4块hbm。每个阶段的旗舰都切的不多,最后也没出完整版。
a100上来切了1/8的gpc和额外的sm以及一块hbm。算是大刀了。

评论

出了v100s。 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本留学生活 求个大阪合租
·日本留学生活 自家房招租求
·日本留学生活 东京地区出9成新lv钱包
·日本育儿教育 孩子从国内过来如何学习日语
·日本育儿教育 明年四月横滨招月嫂
·日本育儿教育 请问咋让娃突破识字关?感谢分享中文共读和学习经验的妈妈
 ·中文新闻 东区明星迈克尔·格列柯,53 岁,将在第一次出生两年后第二次
·中文新闻 《爱情岛》明星卡米拉·瑟洛和杰米·朱维特在透露即将迎来第三

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...