日本电子维修技术显卡服务器上深度学习卡 Tesla V100 or RTX 8000?

日期：2021-09-29 栏目：维修经验

帮实验室老板买卡，普通服务器用，用不到NVLINK这种。
感觉两者算力是差不多的，RTX8000虽然设计不是用于深度学习，但是不是双精度需求，应该也没问题，显存还多一些（48G），V100目前是32G。

就是不知道有没有什么坑，比如在哪里阉割了一下。
另外好像RTX6000和8000就只有显存区别？

艾特下树导， @我輩樹である也请懂行的人帮我参谋参谋  谢谢~~

评论

搞错了编辑掉

评论
你要确定你的服务器以后不会用来跑gpu的双精度算法，这个和你老板讲清楚。免得以后服务器被征召产生矛盾。

然后在pcie插槽够的前提下我推荐买rtx titan或rtx2080ti涵道版的显卡。pcie就一条，钱管够就买rtx8000。turing的tensor core和volta的tensorcore稍微不一样的地方就是：
https://www.chiphell.com/thread-1936662-1-1.html

当然现在不推荐买volta，但下一代深度学习专用卡还没出。

评论
更庞大的alu群肯定是有优势的。

评论

目前我们这边主要就是跑跑图像或者NLP的深度学习（还是Python为主）

RTX titan和RTX 2080TI主要是显存比较小嘛，需要比较大的batch_size的时候就是不能算的问题（毕竟是单卡的，不是NVLINK系统），特别是搞图像的。

我找认识的有卡的实验室的人简单跑了下自带的CUDA MatrixMul和MatrixMulCUBLAS，好像RTX8000是不如V100的

[CUDA Bandwidth Test] - Starting...
Running on...

Device 0: Quadro RTX 8000
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      11869.5

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      12795.5

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      540098.6

Result = PASS

[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Quadro RTX 8000" with compute capability 7.5

MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 1568.38 GFlop/s, Time= 0.084 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS

GPU Device 0: "Quadro RTX 8000" with compute capability 7.5

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 5188.90 GFlop/s, Time= 0.038 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS

----------------------------------------

Device 0: Tesla V100-PCIE-32GB
Quick Mode

Host to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      11830.2

Device to Host Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      12092.7

Device to Device Bandwidth, 1 Device(s)
PINNED Memory Transfers
Transfer Size (Bytes)       Bandwidth(MB/s)
33554432                      302622.8

[Matrix Multiply Using CUDA] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0

MatrixA(320,320), MatrixB(640,320)
Computing result using CUDA Kernel...
done
Performance= 2623.85 GFlop/s, Time= 0.050 msec, Size= 131072000 Ops, WorkgroupSize= 1024 threads/block
Checking computed result for correctness: Result = PASS

[Matrix Multiply CUBLAS] - Starting...
GPU Device 0: "Tesla V100-PCIE-32GB" with compute capability 7.0

MatrixA(640,480), MatrixB(480,320), MatrixC(640,320)
Computing result using CUBLAS...done.
Performance= 7689.93 GFlop/s, Time= 0.026 msec, Size= 196608000 Ops
Computing result using host CPU...done.
Comparing CUBLAS Matrix Multiply with CPU results: PASS

评论

这个差的也太远了，总觉得有问题。。。建议多看几个指标。官方的fp32性能rtx8000是大于tesla v100的。

评论

查了下果然还是v100强一些。还是买v100吧。毕竟hbm2。卡太高端了，触及了我知识的盲区。

timg.jpg (33.65 KB, 下载次数: 0)

2019-5-6 16:27 上传

图里面是rtx titan，但rtx titan和rtx 8000 fp性能是一样的。

或者等一等新的深度学习卡。总觉得现在买发布2年多的卡，就怕下个月老黄掏出新卡。

评论

你只买一张计算卡？？？还是不NVLink的多卡？？？

评论

V100肯定强一点，要不老黄卖这么贵没人买的

下一代安培我估计还得半年，不知道后面还有没有展会了，总不能台北电脑展发布吧

评论

年底有一堆的ai会议，或者明年3月的gtc。

评论

安培要是九月之前发表估计最近该有消息了，因此我估计SIGKDD之后的会议才有可能，然而老黄有NIPS/ICCV发布显卡的历史？

明年三月GTC就不说了，再加上出货延迟之类的，现在剁手到能买到新卡，起码能用一年

评论
有大佬回答我就不回答按照机密哥脾气加预算搞2台美滋滋当然很多公司抠门

评论

不NVLINK的多卡

评论

NIPS发显卡。。。

评论

好主要可能是项目经费快到期了吧。。。能拖就等新卡否则就v100 谢谢

评论
谢各位大佬

评论

所以树导霸王龙和 rtx 6000 都入了？

评论

眼一闭一睁，半年一年的就过去了。

不过老黄如果还像今年再拖一拖，挤点牙膏，割点韭菜，那就不清楚了。

评论

请问涵道版是哪种？

评论

评论
今年年底老黄很大机会公布新一代TESLA芯片的技术信息至于产品最快都要明年Q2

评论

嗯产品估计晚一些

评论

哈哈~~~~~~~~~~~~~

评论

如果记得没错的话，Quadro RTX8000和Geforce RTX Tensor Core的性能是不一样样的，
图灵架构白皮书上Geforce阉割了某些部分（具体是哪忘记掉了）
另外Tensorflow（1.13，还没有试过1.14里面那个计算图重写)用master copy实现混合精度训练的话2080TI的显存有点紧张，甚至出现显存不够导致速度反而下降的情况
另外感觉那些OTES版的2080TI会压不住……

评论
小机子只有2080ti的瑟瑟发抖

评论
server 在用 4 x NVidia V100SXM2 ，单卡显存16g，感觉还行

评论
计算的话别问了，问就上tesla

评论

深度学习和科学计算还是不一样的  主要显存有时候也是尽量选大的
因为不大代表无法运行大模型。。不过够用的话  肯定是tesla好  但v100毕竟是上一代
所以我想知道到底v100上一代目前还能领先多少  或者quadro阉割了啥才来问的。。

评论
看具体用什么软件，需不需要双精度

评论

我很奇怪的一点是，pytorch跑VGG16，用集群的单张32G V100，并没有感觉比本地单张2080Ti块，不知道发生了什么

IMG_6752.png (555.13 KB, 下载次数: 0)

2019-5-9 07:32 上传

请教下为啥Pascal的WORD RNN性能爆表？

评论

会不会是服务器上的硬盘瓶颈了，看看加载1个batch所需要的时间和forward+backward的时间哪个长？电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01 电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收
·日本中文新闻日本26年新成人预估仅109万与去年并列历史第二低
·日本中文新闻日本皇居新年参贺突发裸奔事件男子涉公然猥亵被捕
·日本中文新闻印度宣布超越日本成为全球第四大经济体
·日本留学生活在熟悉的城市，遇見不一樣的感受
·日本留学生活求购一些水电燃气话费等公共料金请求书
·日本华人网络交流制造信息垃圾的产业，这种现象在日本尤其普遍。
·日本华人网络交流美军入侵委内瑞拉领空并非零伤亡
·日本华人网络交流年末采购食品，恰时间就能全半价。
·中文新闻马丁·克鲁内斯 (Martin Clunes) 在新剧中变身休·爱德华兹 (Huw Edw
·中文新闻当朋友们讲述他们对他们的阴谋感到震惊以及他们如何向他们隐

维修经验

日本电子维修技术显卡服务器上深度学习卡 Tesla V100 or RTX 8000?

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 显卡服务器上深度学习卡 Tesla V100 or RTX 8000?

相关推荐

日本电子维修技术显卡服务器上深度学习卡 Tesla V100 or RTX 8000?