日本电子维修技术 显卡NVIDIA揭晓Volta架构:发布GV100 GPU及Tesla V100加




来源:http://www.moepc.net/?post=1885
今天在GTC大会上,NVIDIA CEO黄仁勋发布了首款Volta架构的GPU - GV100以及产品 - Tesla V100加速卡。NVIDIA这次用Tesla V100瞄准超高端计算市场,同时准备用非常激进的策略带来GPU深度学习性能的一次飞跃。

img005.jpg (45.99 KB, 下载次数: 2)

2017-5-11 23:50 上传



NVIDIA首次提到Volta架构是在2013年。结果到后来路线图改动,Maxwell→Volta变成了Maxwell→Pascal→Volta —— 且Volta是目前NVIDIA公开的路线图中的最后一款架构。

作为Volta架构的首款产品,NV采取了和去年Pascal相似的策略:用HPC和深度学习等商业领域的产品打头阵,而不是消费级GPU。Volta是面向计算和显示两方面的架构,但今天的发布都针对的是前者。因此今天揭晓的各种功能以及首款Volta GPU的重心都在计算上。

NVIDIA的首款Volta GPU代号为GV100。作为Pascal GP100的继任者,GV100是NV在计算方面的旗舰GPU,负责驱动下代Tesla加速卡。

QQ截图20170511215749.png

在开始之前,在这里要先明确一点:在各个方面上,Volta都是一款全新的架构。虽然内部看起来差不多,但它绝对不是Pascal换12nm工艺加上新核心(Tensor Core),而是完全不同的架构,比如线程执行、线程调度、核心设计、内存控制器、指令集架构等方面。这些只是NV公开的部分,还有很多没有揭晓的秘密。所以今天只能做到浅谈。

从规格上来讲,说实话GV100是一款非常大胆的GPU,我没用过这个词形容过去10年的任何一款GPU。在核心面积和晶体管数量方面,NV已经做到了极限:211亿晶体管,815平方毫米,基于台积电尚未成熟的12nm FFN制程("N"代表NVIDIA,12FFN是专为NVIDIA定制的高性能版本12nm工艺)。

NV的前代巨无霸是610平方毫米的GP100,GV100虽然用了新制程,依然要比它大33%。实际上NV这次直接向着台积电12FFN制程光罩的大小;GV100是台积电所能制造的最大GPU。NV对光罩大小并不陌生,GM200就是台积电28nm制程下所能制造的最大GPU,虽然只有601平方毫米。

为什么要首先谈核心大小?总的来说,核心大小和性能有很大关系。但更重要的是,核心大小标志着NV是如何挑战极限的。这次NV没有提到良率,但都知道这么大的芯片良率肯定会非常差,还是在新的12FFN制程上。这次NV要牺牲很多良率,才能给饥渴的客户以15000刀一颗的价格提供少量的成品。NV的客户就是这么地渴望更强大的GPU,NV把制程用到极限正是如此地艰难。

img001.jpg (79.99 KB, 下载次数: 3)

2017-5-11 23:45 上传



GV100非常强大,包含84个SM,由于GV100是计算用的核心,所以每个SM有64个CUDA核心 - 总共5376个FP32 CUDA核心。同时还有2688个FP64 CUDA核心,以及新的Tensor Core。

Tensor Core是Volta上的新核心,灵活性较差(依然可编程),专为Tensor深度学习操作所设计。基本来说,Tensor Core就是一堆专为处理4x4矩阵操作的ALU;特别是融合乘加,也就是将两个4x4 FP16矩阵相乘,然后把结果加到一个FP16/FP32 4x4矩阵上,生成最终的4x4 FP32矩阵。

img008.jpg (251.85 KB, 下载次数: 3)

2017-5-11 23:39 上传



有了这些Tensor Cores,NV可以用一次操作达成超高的FLOPS数。一个Tensor Core每周期可以执行相当于64 FMA操作(共128FLOPS),1个SM有8个Tensor Core,也就是每个SM 1024FLOPS。作为对比,即便是纯FP16,1个SM里的所有标准CUDA核心也只有256FLOPS。所有如果这些核心能够用上,NV可以达到Pascal的四倍性能。

img006.jpg (42.57 KB, 下载次数: 1)

2017-5-11 23:39 上传



现在还有一些未知因素,包括Tensor Cores到底灵活度如何,核心面积占了多少等。总的来说Tensor Cores会比较死板,面积利用效率会比较高。NV把这么多核心打包成一个核心,不需要增加控制逻辑和其他的辅助硬件, 每个核心分到的晶体管数就会比标准CUDA核心要多。代价是灵活性,因为越灵活需要的芯片面积就越大。这是NV在灵活度和总输出之间有意做出的权衡。

每个SM包含4个材质单元,与GP100相同。一起的还有新的L1缓存/共享内存架构。GP100的1个SM有24KB L1/材质缓存 + 64KB共享内存,而GV100上变成统一的128KB L1数据缓存/共享内存(增加了40KB),可以精确配置L1和共享内存的容量。而寄存器依然还是256KB(4x16K 32bit)

84个SM,和GP100一样,2个SM组成1个TPC;共42个TPC。7个TPC组成1个GPC,一共6个GPC。显存还是用的HBM2,与GP100相同的4 stack。虽然内存频率只提升了25%,Volta还有内存效率的改善,NV称等效带宽提升了50%。在GPC和显存之间的L2缓存也被加强,每个ROP现在有768KB L2,GP100上是512KB。这意味着GV100共有6MB L2。

Volta还带来了新版本的NVLink,之前发布时称为NVLink 2,单向带宽提升5GB/s,来到25GB/s。GV100有6条NVLink,比GP100多2条。至关重要的是,NVLink 2引入了缓存一致性,允许GPU和CPU缓存一致,这在Power 9 + Volta系统上会很重要。

NV也揭晓了Volta上SIMT工作方式的巨大改变。在一个32-thread warp内的CUDA核心现在有了一定的自由度;可以在细粒度级别同步线程,同时保持良好SIMT范式,这意味着更高的总体效率。重要的是,单独的线程现在可以yield,然后再重新调度到一起。这也意味着NV GPU上回归了一部分的硬件调度。

img004.jpg (54.18 KB, 下载次数: 1)

2017-5-11 23:50 上传



作为30亿刀R&D砸出来的项目,GV100是NV目前为止最大的项目所打造的最大的GPU。NV估计首批GV100将在今年Q3出货,而且不便宜 - DGX系统上18000刀一颗 - 但对于那些肯掏钱帮助NV消化风险的客户来说,这是目前为止最强大的GPU。


Tesla V100


首款搭载GV100的产品是Tesla V100。与前辈P100一样,依然不是完整版。基于良率上的考虑,只开了84个SM中的80个。

img003.jpg (131.81 KB, 下载次数: 2)

2017-5-11 23:37 上传




Tesla V100能提供15TFLOP的FP32单精度性能,30TFLOPS的FP16半精度性能,7.5FLOPS的FP64双精度性能,以及惊人的120TLOPS独立Tensor操作量。频率为1455MHz的V100带来了42%的理论FLOPS提升(CUDA核心)。而Tensor操作方面提升会达到6-12倍,取决于操作精度。

V100采用16GB HBM2显存。目前还没有厂商生产8层堆叠,所以4stack的显存就只能这么多。显存频率从P100的1.4Gbps提升到了1.75Gbps。

与P100一样,这次V100也用的是SXM2,针脚应该会更多,体积上相近。

功耗方面,V100 TDP为300W,与前代一致。NV说V100的能效高于P100。

搭载V100的首个出货产品会是NVIDIA DGX-1V,Volta版的DGX,内含8颗V100,价格149000刀,Q3出货,OEM则Q4之前都不会到来。

img007.jpg (77.83 KB, 下载次数: 1)

2017-5-11 23:39 上传



NV也发布了两款PCIe版的V100,一个是250W的完整尺寸卡,一个是更小的全高半长卡,称为"Tesla V100 for Hyperscale Inference",这张150W,专为数据中心推理服务器的高密度配置,估计频率和规格都会有所降低。



评论
哪位大神告诉我大概是那时候能买到啊

评论
明年卖个小核心,后年在卖个大一点的,就这套路,只不过牙膏挤的多点,你想买个显卡用10年不在花钱了,不可能,硬软件互托关系进阶进步

评论

在挤还是牙膏,牙膏也不能当饭吃,在说~一顿饭也不能吃太多啊,什么甜点啊,一般家长都会控制孩子食量的

评论
Titan Xv啥时候出?

评论
7850至今没换
7850之前 基本是15个月就必须换
因为性能基本翻倍
等Vega了
老黄的卡
咱消费能力不够

评论

hbm的卡便宜过吗?

评论
老黄太TM牛了,但这专业卡至少得1W美元以上了

评论
好暴力的规格。。。。AMD最近显卡真的不争气哦。。。这个老黄的尾气都要吃不上了。

评论

别把泰坦不当大核心好不......阉割版泰坦明年会在GV104后面三个月左右出来的。

评论

笑死了,这都挤牙膏,完全不同了好吗

评论

老黄是对极致性能的追求和牙膏厂完全不同!!!

评论

只是视角不同,大众只是一直在买低端牙膏,有大管好牙膏,只是他产品线划分明确不能谁便打价格战

评论

不能把他说的太高尚了,牙膏厂也卖计算卡的

评论

NV一代2年挤40%不算牙膏了,总比牙膏厂1年平均提升不到5%的单核性能强多了

评论

在我看来,他们只是圈钱的手法不同而已

评论

领先必然就能圈钱,NV用300多MM2和200mm2的低功耗核心圈了好几年钱了,中小核心足够和对手刚了,功耗低,对PCB要求也低,整体成本也低。

评论

小核心也能保持每年30~40%的性能增幅,确实没啥脾气

评论


蝴蝶效应的问题,要不是AMD的地幔,就没有DX12,更不会有后来的软硬升级各种刺激消费,这是一盘很大的圈钱棋,都有各自算盘促成的结果,和几年的硬件比反正我也没体会到啥子多大的进步,都在玩跑分,掏钱买跑分是不是?

评论
Tensor单元本质就是经过优化int8整数计算单元,按照NV的架构设计,每个SM里以前主要是FP32计算单元,GP10x里增加FP16和FP64单元,GV10x里增加的int8计算单元。对于AI这种逻辑计算,浮点是大材小用,只需要整数计算单元即可,而整数计算所需的晶体管要比浮点少得多


评论
Tensor单元本质就是经过优化int8整数计算单元,按照NV的架构设计,每个SM里以前主要是FP32计算单元,GP10x里增加FP16和FP64单元,GV10x里增加的int8计算单元。对于AI这种逻辑计算,浮点是大材小用,只需要整数计算单元即可,而整数计算所需的晶体管要比浮点少得多

评论

这应该就是谷歌新一代TPU的设计思路,主要支持少位数的整数运算,这样硬件开销就小,其实也没有太多的黑科技,只是目标不一样。

评论
咱只关心“伏达”游戏显卡的旗舰型号能到个啥程度

评论
年底或者明年,一次性出大核心。把1080 降低到中低端显卡。是不是有点赶尽杀绝了。

评论

不玩游戏当然没啥感觉啊。13-17这几年游戏画质进步很明显啊 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本留学生活 求个大阪合租
·日本留学生活 自家房招租求
·日本留学生活 东京地区出9成新lv钱包
·日本育儿教育 孩子从国内过来如何学习日语
·日本育儿教育 明年四月横滨招月嫂
·日本育儿教育 请问咋让娃突破识字关?感谢分享中文共读和学习经验的妈妈
 ·中文新闻 东区明星迈克尔·格列柯,53 岁,将在第一次出生两年后第二次
·中文新闻 《爱情岛》明星卡米拉·瑟洛和杰米·朱维特在透露即将迎来第三

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...