首页/知天下事/正文
2020年最佳人工智能训练GPU选择指南:深度学习显存需求与性能分析

 2025年03月26日  阅读 20

摘要:机器之心报道参与:思、泽南、2020年,何种GPU是人工智能训练的最佳选择呢?本文得出的结论似乎在向我们表明,开发深度学习与“普通人”之间的距离越来越远了。当今业界性能最强的深度学习模型众所周知都会占用巨大显存空间,很多过去性能强劲的GPU如今...

机器之心报道

参与:思、泽南、

2020 年,何种 GPU 是人工智能训练的最佳选择呢?本文得出的结论似乎在向我们表明,开发深度学习与“普通人”之间的距离越来越远了。

当今业界性能最强的深度学习模型众所周知都会占用巨大显存空间,很多过去性能强劲的 GPU 如今可能内存稍显不足。在最新的一篇显卡横向测评文章里,开发者们探讨了哪些 GPU 能够在不出现内存错误的情况下训练模型,同时也探讨了这些 GPU 的 AI 性能。

今年的 GPU 评测与往年相比有很大变化。深度学习技术发展迅猛,以往 12G 内存能应对一切的情况不再存在。2020 年 2 月,要勉强跑通业界性能最佳的模型,至少需花费 2500 美元购买英伟达最新款的 RTX。到今年年底会是什么样难以想象。或许我们应该把目光转向云端 GPU。

一句话总结

- 的 P100

以下这些 GPU 能够训练大多数处于最先进水平(SOTA)的模型,然而并不是所有的模型都可以被这些 GPU 训练。

超大规模的模型在这一级别的 GPU 上进行训练时,通常需要把尺寸调小。这往往意味着会有更低的准确性。

以下 GPU 不太能用作高端 AI 模型的训练:

图像模型测试

为测试当前 GPU 的性能,研究者们对 CV 和 NLP 这两个方向的顶尖模型进行了测试。就处理图像模型而言,基础版 GPU 的处理效果不是很好,Ti 系的处理效果也不是很好,并且两者相互之间差异不大。

相较而言,RTX 具有明显优势,其中最新版的优势最为突出。不难看出,就目前而言,对于 GPU 能处理的批量大小,基本都是以 2 的倍数来提升的。在性能方面,总体来看还是 RTX 系最优。

1. 显存能支持的最大批量大小

如果要训练 HD 模型,显存方面至少需要 24GB。并且,批大小只能是一张图像。这主要是因为输入的图像是高清大图,所以训练所需的显存以及计算量都非常大。

带*符号表示 GPU 显存不足以运行模型

2. 性能(每秒处理的图像数量)

这些都是大模型。其中,连计算最快的神经架构搜索模型,之前一直以算力需求大而闻名。并且,尽管训练所用的数据集是,但其图像分辨率仅为。

深度学习是什么_深度学习是什么_深度学习是什么

带*符号表示 GPU 显存不足以运行模型

语言类模型测试

语言类模型在批量处理量方面,RTX 系表现最优。从性能角度来看,单独比较时,RTX 与其他各款相比有不错的表现。

1. 显存能支持的最大批量大小

前面三个为机器翻译模型,后面三个为预训练语言模型。二者计数方式有所不同,一条可能有几十到几百个。

带*符号表示 GPU 显存不足以运行模型

2. 性能

带*符号表示 GPU 显存不足以运行模型

以 RTX 8000 为基准,向右看齐

上面的性能表格或许不够直观,我们以 RTX 8000 当作基准,把它设定为“1”,接着针对其他 GPU 计算出它们相对于该 GPU 的性能。以下呈现的是不同模型在不同 GPU 上进行训练时的数据吞吐量:

对于所有测试结果,给出了测试模型以及相应的数据集。比如在 CV 中的各种任务方面,采用了某些主流主数据集,如[具体数据集 1]、[具体数据集 2]和[具体数据集 3]等,并且模型直接使用原作者在[相关平台]上开源的代码。在 NLP 中的各种任务时,除了 WMT 英-德数据集之外,其他 GLUE 基准中的数据集也被采用了。

图像识别、分割、检测与生成这些任务,以及机器翻译、语言模型与 GLUE 基准,差不多覆盖了 GPU 使用的绝大多数场景,这样的测试是比较合理的。

2020 年,深度学习需要什么样的 GPU?

旧模型都无法运行,更别提及开发新模型了。看完上述的测试结果后,是否感觉生活突然丧失了梦想呢?除了硬件方面,我们还能从本次测评中观察到近段时间深度学习发展趋势所发生的变化:

有了这些认识,我们就可以愉快地挑选 GPU 了:

GPU 太贵,我选择薅羊毛

现在要训练一个模型,GPU 的显存最少得有 8GB 。而与之对应的价格,着实有些让人望而却步。

深度学习是什么_深度学习是什么_深度学习是什么

很多大企业都推出了面向研究和实验的免费 GPU 计算资源。比如我们熟知的某些企业,它们能提供 K80 或 P100 这样非常不错的 GPU 资源。其中有的还能提供免费 TPU。国内也有免费 GPU,像百度的 AI 平台能提供 V100 这种强劲算力。

这三者各自有其优劣势。它们都需要爬墙上网。其中只能提供最基础的 K80 GPU,其算力不算大。还会提供 T4 和 P100 GPU,算力确实已足够。但有时会中断计算调用,这就需要特殊技巧来解决。

百度 AI 能够提供极为强大的 V100 算力,并且目前有免费算力卡计划,每天的运行环境都能享有 12 小时的 GPU 使用时长。然而,问题是百度 AI 仅能调用某一框架,却无法自由地选择 TF 或者其他的。

薅毛要技巧

很多开发者在使用时,常常会抱怨会时不时地终止,并且抱怨每次结束后所有的包和文件都会被删除。然而实际上,除了爬墙上网这一情况外,其他很多问题都是可以被解决的。

首先一个较大的问题是会出现断的情况。不过小编已经使用过很多次了,大致每次只要能保证页面不关闭,连续运行十多个小时是没有问题的。根据我们的经验,最好在北京时间上午 9 点多的时候开始运行,因为此时北美刚过凌晨 12 点,这样连续运行的时间会更长一些。GPU 如 T4 或 P100,连续运行 10 多个小时是比较划算的。即便面对复杂的模型,也能够进行初步训练。

如果断了该怎么办呢?这就需要考虑加载的问题了。一个非常好的方面是能够与谷歌云硬盘进行互动,也就是说,在训练了一些内容之后,可以将模型保存在云端硬盘中,从而能够实现持久化训练。每当出现中断的情况时,我们可以从云端硬盘读取保存的模型,并继续进行训练。

这两行代码能够把谷歌云硬盘加载至远程实例的“/”目录当中。在此之后,各类模型操作以及数据集操作都可以在这个目录里得以完成。即便出现了连接中断的情况,所有操作的内容依然会被保存在谷歌云盘里。

只要把上面两个小技巧搞定,它的实用性就会很强。当然,如果读者发现分配的 GPU 是 K80,那么可以重新启动几次,也就是进行释放内存和本地文件的重新启动操作,每一次重启都会重新分配 GPU 硬件,此时可以“等到”P100。

此外,开发者探索了更多的秘籍以保证连接不会中断。比如运行一段模拟鼠标点击的代码,这样即便连接中断了,也能够自行重新连接。

function ClickConnect(){
console.log("Working"); 
document.querySelector("colab 工具栏按钮#连接").click() 
}
setInterval(ClickConnect,60000)

AI 算力是真强

P100 已经相当不错啦,它具备 16GB 的显存,用于训练大模型也不存在多大问题,然而 AI 的 V100 更为强大。AI 即便不申请计算卡,每天登录项目也能够获得 12 个 GPU 运算时长,并且连续登录还会有奖励。

AI 类似的编辑界面使用起来很容易,中断运行环境后保存在磁盘里的文件不会被删除,这是它的一个局限之处。不过该平台只能导入框架,所以对于熟悉框架的开发者来说,AI 是最好的免费算力平台。

我们进行了一次尝试,在终端能够安装其他框架,并且进入自带的 IDE 之后,也可以导入新安装的框架。然而,在界面上,会显示只能进行导入这一操作。

最后,看了众多顶级 GPU 的性能对比。同时,也了解了免费 GPU 计算资源的特性。那么,你是不是应该宅在家,去搞一搞那些炫酷的深度学习新模型以及新能力呢?

参考内容:

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/13042.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1