日本电子维修技术 显卡服务器上深度学习卡 Tesla V100 or RTX 8000?



帮实验室老板买卡,普通服务器用,用不到NVLINK这种。
感觉两者算力是差不多的,RTX8000虽然设计不是用于深度学习,但是不是双精度需求,应该也没问题,显存还多一些(48G),V100目前是32G。

就是不知道有没有什么坑,比如在哪里阉割了一下。
另外好像RTX6000和8000就只有显存区别?

艾特下树导, @我輩樹である 也请懂行的人帮我参谋参谋  谢谢~~








评论

搞错了编辑掉

评论
你要确定你的服务器以后不会用来跑gpu的双精度算法,这个和你老板讲清楚。免得以后服务器被征召产生矛盾。

然后在pcie插槽够的前提下我推荐买rtx titan或rtx2080ti涵道版的显卡。pcie就一条,钱管够就买rtx8000。turing的tensor core和volta的tensorcore稍微不一样的地方就是:
https://www.chiphell.com/thread-1936662-1-1.html

当然现在不推荐买volta,但下一代深度学习专用卡还没出。

评论
更庞大的alu群肯定是有优势的。

评论

目前我们这边主要就是跑跑图像或者NLP的深度学习(还是Python为主)

RTX titan和RTX 2080TI主要是显存比较小嘛,需要比较大的batch_size的时候就是不能算的问题(毕竟是单卡的,不是NVLINK系统),特别是搞图像的。

我找认识的有卡的实验室的人简单跑了下自带的CUDA MatrixMul和MatrixMulCUBLAS,好像RTX8000是不如V100的


[CUDA Bandwidth Test] - Starting...
Running on...

Device 0: Quadro RTX 8000
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        11869.5

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        12795.5

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        540098.6

Result = PASS

[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Quadro RTX 8000" with compute capability 7.5

MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 1568.38 GFlop/s, Time= 0.084 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS

GPU Device 0: "Quadro RTX 8000" with compute capability 7.5

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 5188.90 GFlop/s, Time= 0.038 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS

----------------------------------------

Device 0: Tesla V100-PCIE-32GB
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        11830.2

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        12092.7

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                        302622.8

[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0

MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 2623.85 GFlop/s, Time= 0.050 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS

[Matrix Multiply CUBLAS] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 7689.93 GFlop/s, Time= 0.026 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS


评论

这个差的也太远了,总觉得有问题。。。建议多看几个指标。官方的fp32性能rtx8000是大于tesla v100的。

评论

查了下果然还是v100强一些。还是买v100吧。毕竟hbm2。卡太高端了,触及了我知识的盲区。

timg.jpg (33.65 KB, 下载次数: 0)

2019-5-6 16:27 上传


图里面是rtx titan,但rtx titan和rtx 8000 fp性能是一样的。

或者等一等新的深度学习卡。总觉得现在买发布2年多的卡,就怕下个月老黄掏出新卡。


评论


你只买一张计算卡???还是不NVLink的多卡???

评论

V100肯定强一点,要不老黄卖这么贵没人买的


下一代安培我估计还得半年,不知道后面还有没有展会了,总不能台北电脑展发布吧


评论

年底有一堆的ai会议,或者明年3月的gtc。

评论




安培要是九月之前发表估计最近该有消息了,因此我估计SIGKDD之后的会议才有可能,然而老黄有NIPS/ICCV发布显卡的历史?


明年三月GTC就不说了,再加上出货延迟之类的,现在剁手到能买到新卡,起码能用一年



评论
有大佬回答我就不回答 按照机密哥脾气 加预算搞2台美滋滋      当然很多公司抠门

评论

不NVLINK的多卡

评论

NIPS发显卡。。。

评论

好  主要可能是项目经费快到期了吧。。。能拖就等新卡 否则就v100 谢谢


评论
谢各位大佬

评论

所以 树导 霸王龙 和 rtx 6000 都入了?

评论

眼一闭一睁,半年一年的就过去了。

不过老黄如果还像今年再拖一拖,挤点牙膏,割点韭菜,那就不清楚了。

评论

请问 涵道版 是哪种?

评论



评论
今年年底老黄很大机会公布新一代TESLA芯片的技术信息 至于产品 最快都要明年Q2

评论

嗯 产品估计晚一些

评论

哈哈~~~~~~~~~~~~~

评论

如果记得没错的话,Quadro RTX8000和Geforce RTX Tensor Core的性能是不一样样的,
图灵架构白皮书上Geforce阉割了某些部分(具体是哪忘记掉了)
另外Tensorflow(1.13,还没有试过1.14里面那个计算图重写)用master copy实现混合精度训练的话2080TI的显存有点紧张,甚至出现显存不够导致速度反而下降的情况
另外感觉那些OTES版的2080TI会压不住……

评论
小机子只有2080ti的瑟瑟发抖

评论
server 在用 4 x NVidia V100SXM2 ,单卡显存16g,感觉还行

评论
计算的话别问了,问就上tesla

评论

深度学习和科学计算还是不一样的  主要显存有时候也是尽量选大的
因为不大代表无法运行大模型。。不过够用的话  肯定是tesla好  但v100毕竟是上一代
所以我想知道到底v100上一代目前还能领先多少  或者quadro阉割了啥才来问的。。


评论
看具体用什么软件,需不需要双精度

评论

我很奇怪的一点是,pytorch跑VGG16,用集群的单张32G V100,并没有感觉比本地单张2080Ti块,不知道发生了什么

IMG_6752.png (555.13 KB, 下载次数: 0)

2019-5-9 07:32 上传


请教下为啥Pascal的WORD RNN性能爆表?

评论

会不会是服务器上的硬盘瓶颈了,看看加载1个batch所需要的时间和forward+backward的时间哪个长? 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收
 ·日本留学生活 求个大阪合租
·日本留学生活 自家房招租求
·日本留学生活 东京地区出9成新lv钱包
·日本育儿教育 孩子从国内过来如何学习日语
·日本育儿教育 明年四月横滨招月嫂
·日本育儿教育 请问咋让娃突破识字关?感谢分享中文共读和学习经验的妈妈
 ·中文新闻 东区明星迈克尔·格列柯,53 岁,将在第一次出生两年后第二次
·中文新闻 《爱情岛》明星卡米拉·瑟洛和杰米·朱维特在透露即将迎来第三

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...