日本电子维修技术显卡RTX2080TI与机器学习

日期：2021-09-29 栏目：维修经验

学习机器显卡 RTX2080TI

RTX2080TI评测解禁了，大家都在关注游戏性能提升、DLSS之类的（RTX？暂时没有游戏……）
不过这一代卡的相当多的变化能让机器学习受益：
1.更大的显存容量（Geforce系列无缘)
2.支持FP16运算
3.带有TensorCore
4.更高的基础浮点性能
5.NV LINK

tu102_table.jpg (267.1 KB, 下载次数: 0)

2018-9-20 00:26 上传

第一点只有Quadro系列能享受到（Quadro RTX8000最为受益）暂且不谈，第二点对于混合精度训练有帮助，但似乎大部分情况下用FP32训练更流行。不过至少可以拿来实践一下。Tensor Core之前使用的限制条件非常多，不过NV观望上最新的cuDNN7.2的介绍写着“TensorCore acceleration with FP32 inputs and outputs”，暂时不知道详细情况（cudnn-release-notes里写着有7.2.1但是点进去没反应，PDF版里面仅更新到7.1.4，如果有NV的人看到或许可以帮忙反映一下？）。

cudnn72.jpg (120.07 KB, 下载次数: 0)

2018-9-20 00:32 上传

个人认为用TensorCore加速训练还是一个未来的趋势吧，只是当前的软件框架/模型限制了其应用。
基础浮点性能有一定提升(不过代价太大），显存带宽提高但是访问延迟变化情况暂时未知。缩水版的NV-LINK带宽略高于PCI-E，而且可以直连，暂时不知道实际效果如何。

评论

哦这东西终于粗线了啊老黄也是能憋

话说，对比卡里为什么不放TTV？

TensorCore其实是个好东西
如果，老黄能卖的便宜点的话<---这是超级老黄历
据说这一发TensorCore比Tesla V100上的有不少提升？ <---可以认定是我猜的
emm…等树导师测评

评论
让利卡，1w能买到以前2w多才能用的tensor core。

评论

NVIDIA Turing GPU Architecture White Paper里没有写，估计不想强调这方面的性能吧
Turing上的TensorCore多加了INT8和INT4，暂时不知道DL里怎么用

评论

软件框架/模型限制了其应用这个似乎不大对啊

TTV出来之前和刚出来那会确实是软件框架/模型限制了其应用，嘛这个信息就和我上面写的如果老黄能卖的便宜点一样是个超级老黄历了

评论

推理用的。对训练帮助不大。dlss就是靠这个。

评论

老黄不把那1GB显存补齐有点难受
1080TI经常跑起来没问题，过6个小时去看OOM了，继续又能跑（过一段时间依然OOM），发生的时间点完全随机

评论

如果真的按照NV说的“TensorCore acceleration with FP32 inputs and outputs (previously restricted to FP16 input)”训练的时候应该还是有用的吧

评论

可以nvlink，实际你有22g。。

评论

发生的时间点完全随机？

楼主这真的不是你的Batch size调崩了，或者训练数据里有啥有毒的东西混进去了吗

评论

不知道导师能批几张卡……

评论

int8和int4是推理用的，当然是一般情况下。极端的nn还有二值化的（binary）。

fp32和fp16是训练用的。这没问题。
它说输入可以是fp32了，但实际计算应该还是fp16，只是不用自己在输入前手动量化到fp16。

评论

全部预算就压着卡上了，不过还是等进一步的实机测试。

评论

batch size调到显存允许的最大值了
数据里有问题发生频率应该是固定的
然后和当前已经用掉的显存有关系，如果做点别的什么事情用掉一些会立刻发生

评论

呃，其实我的意思是你调的太大了
还有跑这种计算的GPU不要做其他的事情，桌面环境用副卡或者核显跑

评论
fp32矩阵加被阉割了

评论

啊，老黄如此邪恶

评论

可能只是tensor board上的图刷新了一下就GG了……OOM发生在无人操作的情况下
暂时没副卡，AMD也没核显

评论

等妮测评！

评论
看了下，原来是cudnn 7.2增加了自动量化功能。titan v估计也能受益。

评论

有细节么，cuDNN release notes里7.2那一章没内容

评论

进去吧user guide下下来，里面有。

评论

捕获.JPG (204.25 KB, 下载次数: 0)

2018-9-20 01:30 上传

math_type_t添加了一个枚举，允许自动将fp32降到fp16。
CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION
Enables the use of FP32 tensors for both input and output.

评论
sm72应该就是turing。

评论
下载需要注册，我上传了。
https://pan.baidu.com/s/1WmQu2b6YnjdIeHnik9Du0g

评论

多谢。。。

评论
fp16矩阵乘写代码时候难用的一*。赶紧出个自动降精度的cudnn layer出来

评论

是计算速率只有Quadro一半，你看下表格

评论

这真是盲点，看来turing的混合精度运算是阉割过的。。。累加必须是fp32，因为是两个fp16乘积的结果。

评论
别洗了，对普通玩家没用，对有用的玩家，卡基本都是公司提供的

未标题-4.jpg (43.03 KB, 下载次数: 0)

2018-9-20 09:00 上传

莫名其妙在这限制一刀，有点难受啊。
整体flops不会受到影响么

评论

不给你砍光就很好了，毕竟2080ti也有1w

评论
不错！我们这些机器学习码农可以愉快的玩上了

评论

咦你们跑这些玩意的时候中间过程的图片和数据难道不是用CPU存到磁盘上然后用远程的什么东西过去读的嘛？

难道你们都是直接在跑的那个机器上搞一个GUI显示这些的嘛？

评论

我记得我以前的用法也是手动FP32累加的？
是我用歪了？

评论

并不是turing砍了啊，只是消费卡砍了而已... RTX6000累加FP32速度没问题。

摆明了不想让你用消费卡全速training。

评论

手动累加这是多底层的api啊。

说的不是这个意思，turing的混合精度运算中把累加性能砍了一半。这是逼你用fp16累加。

评论

没有多底层啊最多也就到纯酷哒那一层也没法往下了

FP16累加…emmm…为啥我觉得有点危险

评论

穷，没有服务器，挂在本机上的

评论

太邪恶了，这里手动砍一刀,之前还没注意到……

评论

一般都用cudnn或cublas编程，里面的mac（Multiply-And-Accumulate ops）都是直接集成在conv里面的。电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻日本26年新成人预估仅109万与去年并列历史第二低
·日本中文新闻日本皇居新年参贺突发裸奔事件男子涉公然猥亵被捕
·日本中文新闻印度宣布超越日本成为全球第四大经济体
·日本留学生活在熟悉的城市，遇見不一樣的感受
·日本留学生活求购一些水电燃气话费等公共料金请求书
·日本华人网络交流制造信息垃圾的产业，这种现象在日本尤其普遍。
·日本华人网络交流美军入侵委内瑞拉领空并非零伤亡
·日本华人网络交流年末采购食品，恰时间就能全半价。
·中文新闻马丁·克鲁内斯 (Martin Clunes) 在新剧中变身休·爱德华兹 (Huw Edw
·中文新闻当朋友们讲述他们对他们的阴谋感到震惊以及他们如何向他们隐

维修经验

日本电子维修技术显卡RTX2080TI与机器学习

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 显卡RTX2080TI与机器学习

相关推荐

日本电子维修技术显卡RTX2080TI与机器学习