首页/知天下事/正文
深度学习革命与计算机架构的未来:Jeff Dean解析后摩尔定律时代的硬件设计

 2025年02月22日  阅读 8

摘要:[简介]如何结合深度学习和硬件?杰夫·迪恩(JeffDean)是计算机行业的神级人物,也是的人工智能负责人,他发表了一篇自签名的论文“TheDeepandItandChip”,这是一份17页的PDF论文。长篇文章介绍了后摩尔法律时代的机器学习研究...

[简介]如何结合深度学习和硬件?杰夫·迪恩(Jeff Dean)是计算机行业的神级人物,也是的人工智能负责人,他发表了一篇自签名的论文“ The Deep and It and Chip”,这是一份17页的PDF论文。长篇文章介绍了后摩尔法律时代的机器学习研究的进步以及他对发展趋势的未来预测和判断。

概括

在过去的十年中,机器学习,尤其是基于人工神经网络的深度学习方法,已经取得了一系列的重大进展,从而提高了我们在更广泛的领域中建立更准确系统的能力,包括计算机视觉,语音识别,语言,语言翻译和自然语言理解任务。本文是2020年国际固态巡回赛会议()上主题演讲的同伴论文,讨论了机器学习方面的一些进步以及这些进步对我们需要构建的计算设备的影响,尤其是在后摩尔法律时代。它还讨论了一些方法,机器学习还可以帮助巡回设计过程的某些方面。最后,它提供了一个至少一个有趣的方向的草图,朝着稀疏激活的更大多任务模型,并使用比当今机器学习模型更动态,实例和任务的路由。

地址链接:

介绍

在过去的十年中,机器学习(ML),尤其是基于人工神经网络的深度学习方法,已经取得了一系列的重要进步,以提高我们在广泛领域建立更准确系统的能力[等。 2015]。取得重大进展的主要领域包括计算机视觉(等人,2012等,2015,He等人,2016年,Real等人2017,Tan和Le 2019)以及语音识别(等人2012,Chan等。 2016年,语言翻译(2016年)和其他自然语言任务[等人2013年。 2018年。像游戏一样对象[等人,2018年。

作为计算机视觉进展的巨大进展的一个例子,图1显示了挑战的随着时间的进步(斯坦福大学举行的年度比赛[Deng等,2009])。挑战为参与者提供了1,000个类别中的100万颜色图像的培训集,然后使用此数据训练模型以推广到同一类别中的图像评估集。在2010年和2011年,在使用深度学习方法之前,获胜的参赛者使用了手工设计的计算机视觉功能,错误率超过25%。 2012年,亚历克斯(Alex),伊利亚(Ilya)并使用了一个深度神经网络(通常称为“”)在竞争中首先完成,前五名的错误率显着降低至16%[等。 2012]。他们的团队是唯一在2012年使用神经网络的团队。第二年,深度学习计算机愿景革命已经完全启动,团队的参赛作品使用了深度神经网络,占绝大多数的占多数,而获胜的错误率再次下降了至11.7%。我们从一项仔细的研究中学到,在执行这项任务时,如果人类的实践约20小时,人为错误略高于5%,而其他人的练习仅几个小时,则人为错误为12%。 2014]。在2011年至2017年之间,屡获殊荣的错误率从2011年的26%急剧下降到2017年的2.3%。

图1:分类竞赛获胜者的准确性

这些在计算机视觉,语音识别,语言理解和大规模强化学习等基本领域的进步对许多领域产生了巨大影响。我们已经在许多不同的领域和医学领域看到了一系列稳定的结果,并将过去十年中产生的基础研究结果应用于这些问题领域。例如,医学成像诊断任务的有前途的领域包括糖尿病性视网膜病(等人,2016等,2018),乳腺癌病理学(Liu et,2017),肺癌CT扫描解释(ET,2019)和皮肤病学会(ET,2017)。对语言翻译有用的顺序预测方法还有助于准确预测电子病历中的各种不同医疗相关的任务[et al。 2018]。这些早期的迹象指向机器学习在许多健康和卫生保健领域产生重大影响的道路[等。 2019等。 2019]。

通过使用深度学习方法改进的其他领域包括量子化学(ET,2017),地震预测(ET,2018),洪水预测(Nevo ET,2019),基因组学(ET,2018),蛋白质折叠(ET, ,2018年),高能物理学(ET,2014)和农业(ET,2017)。

随着这些重大进展,很明显,ML改变许多不同领域的潜力是巨大的。

摩尔定律,后期定律和机器学习的计算要求

深度学习和人工神经网络背后的许多关键思想和算法早在1960年代,1970年代,1980年代和1990年代就出现了[and 1969等。 1988,1994]。在1980年代末和1990年代初,ML和AI社区发生了狂热,因为人们意识到神经网络可以以有趣的方式解决一些问题,而他们的巨大优势来自于他们接受非常原始的(有时是异质的)。输入数据的能力以及在训练模型执行某些预测任务时自动创建层次表示的能力。但是,当时,计算机还不够强大,无法允许这种方法处理任何小型,几乎玩具大小的问题。当时的一些工作试图使用并行算法扩展神经网络培训的可用计算量[Shaw 1981,Dean 1990],但在大多数情况下,AI和ML社区中的大多数人都专注于神经网络 - 基于方法。转移。在摩尔定律的驱动下,计算性能改善了20多年。直到21世纪后期,计算机才开始变得足够强大,可以在[Deng等人,2009年]上训练大型神经网络,而不是[等人。 2000]和[等。 2009]。特别是GPU卡上的一般计算范式()[等。 2006],由于GPU卡相对于CPU的浮点高度性能,它开始允许神经网络在非常重要的困难问题上显示有趣的结果。

图2:摩尔法律和邮政法律期间的计算绩效

这可能是不幸的,就像我们开始具有足够的计算性能来解决有趣的现实世界问题一样,机器学习的规模和适用性已导致人们对额外的计算资源的巨大需求来处理更大的问题,从而将行业计算为整个整体在一般使用中的CPU性能逐年改善,经历了巨大的放缓。图2显示了这种显着的放缓,我们每1。5年(1985年至2003年)或2年(2003年至2010年)将通用CPU的性能翻了一番,到当前的通用CPU性能预测,每20年每20年都只能翻倍[和2017年] ]。图3显示了一些最近重要的机器学习进度的计算需求急剧增加(请注意,对数Y轴,最佳拟合线表明,这组重要的ML研究的计算需求在3.43个月时翻了一番)[2018]。图4显示了机器学习及其应用领域的戏剧性飙升研究结果,该领域由发表的论文数量来衡量 - 类别,一种流行的论文预印本托管服务,比2018年发表的论文超过32倍,并且是双倍多的两倍。 2009年(每2年)的增长率。现在,每天都有与机器学习有关的100多篇研究论文,这种增长没有放慢速度的迹象。

独自学习的好处_独自学习的好处_独自学习的好处

图3:人工智能及其计算要求的一些重要进展

图4:自2009年以来与机器学习有关的论文

机器学习硬件

在2011年和2012年,的一组研究人员和系统工程师团队建立了一个早期分布式系统,称为支持平行的,分布式的神经网络培训,在那里它们并行化模型和数据。通过许多不同的计算复制品组合了训练,并异步地更新了模型的参数[Dean等。 2012]。这使我们能够在较大的数据集上训练更大的神经网络,到2012年中,我们可以使用基本框架,我们看到语音识别(等人,2012年)和图像分类模型(Le等人,2012年)已显着改善。准确性。但是,这些模型在需要数亿用户的系统设置中使用,因为计算需求很高。信封计算表明,要使用基于CPU的计算设备来部署深层神经网络系统,使我们能够向我们的主要语音识别系统显示出重大的单词错误率,我们需要将数据中心中的计算机数量加倍(有一些大胆,但由于较高的准确性,使用使用的可信假设大大增加)。如果这在经济上是合理的,那仍然需要很多时间,因为它将涉及倒入混凝土,签署风车农场合同,订购和安装大量计算机等,而语音系统只是冰山一角,如我们看到神经网络应用于我们许多核心问题和产品的可能性。这种思维练习使我们考虑为神经网络构建专门的硬件,首先是推理,然后是培训和推理系统。

为什么专门的硬件对于深度学习模型有意义?

深度学习模型具有三个特征,使它们与许多其他类型的通用计算不同。首先,它们对低精确计算非常宽容。其次,除此之外,大多数模型执行的计算仅是少量操作的不同组合,例如矩阵乘法,矢量操作,卷积内核的应用和其他密集的线性代数计算[等。 2011]。此外,在过去40年中开发的许多机制使通用程序能够在现代CPU上以高性能运行,例如分支预测变量,投机性执行,超线程执行处理核心,深度缓存内存层次结构和TLB子系统,用于机器学习计算的机器学习计算是不必要。因此,我们有机会专门为密集的低精度线性代数构建计算硬件,除了在指定程序的级别上编程,这是最线性代数操作不同的组件。这些特征的收敛与观察到的观察到,即针对电信应用的专用数字信号处理器(DSP)的开发始于1980年代。但是,一个关键区别在于,由于深度学习广泛适用于许多领域和领域的大量计算问题,因此,尽管其操作狭窄,但这些硬件仍可用于多种重要的计算,而不是较窄的DSP应用程序。基于我们关于高容量推理应用程序(例如语音识别和图像分类)快速增长的深度神经网络计算需求的思维实验,我们决定开始设计一系列称为处理单元的加速器,以加速深度学习推理和深度学习推理和推理。训练。 。第一个这样的系统称为微控制器设计,设计用于推理加速度[ET,2017]。

为了进行推理(训练模型后,我们希望将经过训练的模型应用于新的投入以进行预测),事实证明,8位整数计算足以对许多重要模型[ET,2017],因为这项研究中的进一步广泛工作社区正在进行中,精确的权重较低以及鼓励权重和/或激活的技术用于进一步推动这一边界。

核心是一个65,536 8位乘法累积矩阵乘法单元,最大吞吐量为92/s(上限)。 TOPS/WATT平均比其同时代人的GPU或CPU快15-30倍,高约30-80倍,能够运行生产神经网络应用程序,代表了数据中心的神经网络推断的95%时间,具有巨大的成本和功率优势[ET,2017]。

低功耗移动设备的推断对于许多用途的机器学习也非常重要。如果您可以在设备上运行机器学习模型(设备本身通常是语音或视觉等区域中模型的原始数据输入的来源),则会有很大的延迟和隐私益处。可以采用相同的设计原理(用于高性能/瓦特/瓦特的低精确线性代数计算的简单设计),并应用于诸如手机之类的较低功率环境。 的Edge TPU是该系统的一个示例,该系统在2W功率范围内提供了4个陀螺仪。对于许多有趣的深度学习用例,我们希望计算机视觉,语音和其他类型的模型可以直接在感觉输入不需要连接的情况下直接运行,因此设备上的计算已经至关重要。这样的例子是对设备的农业应用,例如在木薯领域中间识别疾病,该疾病可能没有可靠的网络连接[等。 2017]。

随着全球机器学习的越来越多及其作为关键计算类型的重要性,剑桥风格的新有趣的机器学习计算加速器的爆炸正在进行中。不仅有XX风险投资的初创公司,还有各种大型成熟的公司,都生产了各种新的芯片和机器学习系统。例如,(获得的)各种设计着重于ML培训。阿里巴巴等其他公司正在设计专注于推理的筹码。一些设计逃避了更大的记忆力DRAM或HBM,专注于非常高性能的设计,足够小,用于模型,其整个参数集和中间值适合SRAM。其他公司专注于包括DRAM或HBM在内的设计,这使它们适合大型型号。例如,有些正在探索完整的芯片级集成。其他公司,例如的Edge TPU,正在建造非常低的功率芯片,以推断手机和分布式传感设备等环境。

与微控制器推理加速器相比,设计定制的机器学习硬件(而不是仅仅是推理)是一项更复杂的工作。原因是整体训练系统无法解决我们要在合理的时间内(例如小时或几天,而不是数周或几个月)解决的许多问题,因为整体系统无法提供足够的计算能力。此外,即使单个芯片可以在合理的时间内提供足够的计算来解决给定的问题,渴望在较大数据集上训练较大模型的愿望,这也意味着我们通常想解决更多的大问题(无论如何,无论如何,多个情况下,需要芯片在并行或分布式系统中使用)。因此,设计训练系统实际上是为了设计一个更大的整体计算机系统,需要考虑单个加速器芯片的设计以及紧密耦合的机器学习超级计算机的高性能互连。 的第二代和第三代TPU,旨在支持培训和推理,而基本的单个设备由四个芯片组成,旨在以一种称为POD的较大配置进行连接。图5显示了一个带有两个内核的单个芯片的框图,每个核心的主计算功率由大型矩阵乘法单元提供,每个循环可以为一对矩阵产生乘法结果。每个芯片具有16GB()或32GB()附加高带宽内存(HBM)。图6显示了的POD的部署,该POD由1024个加速器芯片组成,其中包括8个芯片和相应的服务器,将芯片连接在一起,在环网中连接在一起,提供超过100/s的系统性能峰。

图5:张量处理单元V2()的框图

图6:的POD,由1024个芯片组成,峰值性能> 100/s

用于机器学习的低精度数字格式

并使用定制设计的浮点格式[Wang and 2019],该格式与IEEE 16位格式不同,为机器学习提供了更有用的格式,并支持较便宜的乘数电路。最初是作为一种有损压缩技术开发的,可以帮助机器学习权重和系统中激活的网络通信减少带宽要求,《白皮书》第5.5节(等,2016,第5.5节)简要描述了这项技术。它一直是2015年最常用的浮动格式。从2018年12月开始,英特尔宣布了计划增加对下一代英特尔处理器的支持。

下面的图7显示了IEEE FP32单精度浮点格式的符号,指数和分割,IEEE FP16 浮点格式和格式。

事实证明,深度学习模型中使用的机器学习计算更关注动态范围而不是精度。此外,完整加法器所需的主要区域和力乘数电路的浮点格式为浮点格式(M+1)(m+1)(M+1)(阵列将曼蒂萨()部分的第二部分输入数字乘以曼尼萨()部分。 IEEE FP32,IEEE FP16和格式分别需要576个完整的加法器,121个完整加法器和64个完整加法器。需要更少的电路,可以将其放置在相同的芯片区域和更多的乘数中,因此使用此格式的ML加速器可以具有更高的 / sec和 / 。还是将数据发送到互连织物所需的带宽和能量,从而进一步提高了效率。

独自学习的好处_独自学习的好处_独自学习的好处

快速变化的领域不确定性的挑战

建立机器学习加速器硬件的一个挑战是,ML研究领域的发展很快(从每年发表的研究论文的增长和绝对数量可以看出,如图4所示)。目前启动的芯片设计项目通常需要18到24个月才能完成设计,制造和回收半导体组件,并将其安装到生产数据中心环境中。为了使这些组件在经济上可行,它们通常必须具有至少三年的寿命。因此,建立ML硬件的计算机架构师面临的挑战是预测2至5年内机器学习的快速发展。我们的经验是带来计算机架构师,高级软件系统构建者和机器学习研究人员讨论与协作设计有关的主题,例如“该时间范围内硬件有什么可能? ”和““哪些有趣的研究趋势开始出现,它们对ML硬件有什么影响?”是确保我们设计和构建有用的硬件以加速ML的研究和生产使用的有用方法。

芯片设计的机器学习

具有巨大潜力的一个领域是使用机器学习自动生成高质量的解决方案,解决了设计定制ASIC的整个工作流程中存在的许多不同的NP-HARD优化问题。例如,复杂的ASIC设计的布局和路由目前需要大量的手动布局专家团队,从高级布局到详细的布局进行迭代完善,因为ASIC的整体设计已经实现。由于在安置过程中涉及大量人员,因此一旦完成了最初的高级设计,就无法想象完全不同的布局而不会显着影响芯片项目的进度。但是,放置和路由是一个适合成功解决游戏强化学习方法的人,例如。在放置和路由中,一系列的放置和路由决策会影响一组整体指标,例如芯片区域,时机和线长度。通过强化学习算法(通常在许多不同的ASIC设计)或特定的ASIC设计(以及奖励功能)中学习“玩”此游戏的位置和路线,将各种属性组合为数值奖励功能,并使用大量。与使用现有的电子设计工具进行放置和路由的人类专家团队相比,机器学习计算(以ML加速器的形式),可能有一个系统可以更快,更有效地放置和路由。我们已经在内部探索了这些方法,并取得了初步但有希望的结果。基于ML的自动化系统还支持快速设计空间探索,因为可以轻松调整奖励功能以优化目标优化指标中的不同权衡。

此外,甚至有可能训练机器学习系统以做出一系列决策,从高级合成到实际的低级逻辑表示形式,然后在更自动化的和更自动化的和更自动化的和路由上执行这些低级电路的位置和路由端级的方式以端到端的方式实现了实用的高级设计。如果发生这种情况,可以从几个月到几周大幅度地减少复杂的ASIC设计的时间。这将大大改变设计定制芯片所涉及的权衡,因为当前高水平的非经常性工程成本通常意味着自定义芯片或电路仅用于具有最高容量和最高价值的应用程序。

机器学习的未来发展

将来与现在之间的机器学习模型之间可能存在一些明显的差异。未来的机器学习系统可能会在大规模机器学习加速硬件上运行,并且可以培训单个型号以完成数千甚至数百万个任务。该模型由不同的组件和结构组成,样品之间的数据流可以是动态的,每个样品都是不同的。该模型可以使用类似于“稀疏重量门( - )”的结构,该结构将专家知识和学习路径混合在一起,并且具有强大的能力。但是对于给定的任务或样本,该模型只会激活其中的一些。

图8:描述这个大,稀疏的加权和多任务模型。

在后摩尔法律时代,简单地挤压硬件计算能力可能不一定会使机器学习进展。相反,通过设计专业的机器学习硬件设备,机器学习可以解决现有的硬件设计,制造和操作止痛点。将来的机器学习模型可能会更大,但会继续以多任务处理的方向发展。

综上所述

在过去的十年中,机器学习的进步影响了大量的科学,工程和其他形式的人类活动,这种影响只会变得越来越大。机器学习的专业计算需求和放缓通用CPU的CPU性能改善的结合是计算硬件行业中令人兴奋的时代[和2019年]:我们现在有了一套似乎应用的技术为了跨界,在许多领域中存在很多问题,我们希望可以显着增加模型和数据集的大小,我们可以训练这些模型和数据集,以及的影响这项工作将触及大多数人类。当我们利用大规模的多任务学习系统来扩展到新任务时,我们将创建工具,使我们成为一个社会,共同完成更多任务并促进人类的进步。我们确实生活在一个激动人心的时刻。

参考

方便下载,请遵循“谈话”的官方帐户(单击上面的蓝色“谈话”以遵循)

专门研究

知识,专业和值得信赖的人工智能知识分布,使认知协作更快,更好!欢迎注册并登录以获取5,000多种AI主题干知识材料!

欢迎来到扫描微信加入专家人工智能知识星球组,以获取最新的AI专业知识教程视频材料并与专家进行交流!

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/5649.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1