首页/知天下事/正文
9月11日蚂蚁金服开源ElasticDL项目,TensorFlow 2.0相关特性介绍

 2025年05月08日  阅读 3

摘要:9月11日,Ant开放了该项目,据报道,该项目是该行业的第一个开源系统,基于弹性深度学习的实施。成员此前在公开电子邮件中揭示了2.0计划,他提到这将是2.0的核心功能。2.0尚未正式发布,但是此功能强大的功能已添加到当前可用的新版本中。简而言之,这是一...

9月11日,Ant 开放了该项目,据报道,该项目是该行业的第一个开源系统,基于弹性深度学习的实施。

成员此前在公开电子邮件中揭示了2.0计划,他提到这将是2.0的核心功能。 2.0尚未正式发布,但是此功能强大的功能已添加到当前可用的新版本中。

简而言之,这是一个当务之急,一个类比,开发人员可以在调用计算时直接,直观地获得结果,这使得基于开发的开发更加简单,更清晰。

通过利用其功能,ANT 已完成基于实施弹性深度学习的第一个系统。在11日举行的“ 2019”(GDD 2019)上,蚂蚁金融研究员王Yi宣布该系统是正式开源的。

项目地址是:。

基于2.0并实施弹性深度学习

这个基于模型的开源项目称为“”,这是一个本地深度学习框架。根据引言,它具有四个主要功能:

其中,容错性和弹性调度特征是最独特的。

具有容错性和弹性调度的深入学习可以大大改善集群的整体利用,并大大减少用户在提交工作后等待工作开始的时间(时间)。

Wang (中国开源)介绍了:“这是我们基于实施弹性深度学习而知道的第一个开源系统。具体来说,它基于2.0并实施弹性深度学习。”

群集实用程序从1/N到N/N

在深度学习技术发展的早期阶段,相对较少的人使用计算集群,并且可以通过口头交流来实现计算操作之间的协调。开发人员更关心缩短运行时,即从工作开始到结束的期限。高性能计算技术(HPC)是解决此问题的有效方法,例如优化高性能数学计算以及NCCL以优化GPU之间的通信效率。

随着深度学习技术的大规模应用,当许多工程师和研究人员使用集群时,通过谈判进行协调计划显然是不可行的,因此每个人都开始使用群集管理系统来安排分布式操作。

近年来,它已逐渐成为集群管理的重要工具,并已广泛用于主要的公共云中。因此,使其能够在群集上更好地运行,同时提高使用群集进行深度学习的效率和资源利用(实用程序),这具有很大的实际意义。

关于改善群集资源利用,王Yi给出了一个极端的例子:假设一个集群具有N GPU,而任务仅使用其中一个,现在一个任务占据了一个GPU。如果没有弹性调度机制,则需要所有N GPU等待先前的任务在启动之前结束。这个等待时间可能高达几天甚至几周。在等待期间,集群的实用程序为1/n。在具有弹性调度功能之后,新任务可以立即在N-1 GPU上运行,并且在完成第一个任务后,可以将占用的GPU分配给此任务。在这种情况下,集群的总体效用为100%。

容错和弹性调度都具有良好的性能,其实际意义是有效解决群集实用程序问题。

如何实现?

如前所述,改善集群资源利用率的前提实际上是由“弹性调度”功能带来的,弹性调度取决于容错。

容错意味着该作业不受过程数量变化的影响。在灵活的调度过程中,工作中的过程数量将随着集群状况而增加或减少。因此,这项工作必须容忍故障才能与调度系统合作以实现灵活的调度。

在此过程中,通常由分布式框架实现容错。例如,可以实现的是,当一个过程失效或添加新过程时,该作业将不会被暂停或重新启动,但会继续顺利进行。弹性调度由分布式框架和分布式操作系统(集群管理系统)实施。例如,当一个过程死亡时,分布式框架应通知群集管理系统以弥补新过程。至于群集管理系统是否可以启动,这取决于其余用户和集群的忙碌。

基于

弹性学制可靠吗_什么叫做弹性学制_弹性学习

常用的-FIT API和开发人员只需要调用API来执行分布式培训或预测,但不依赖于实施分布式计算,其实现不在外面。

分布式计算是通过 - 机制完成的,这也带来了容错和弹性调度功能。

所谓的 - 指调用API启动和停止过程的程序,这与该机制相似。这是一个分布式计算框架。用户通过运行Borg客户端开始工作; Borg客户端致电Borg API提交工作并开始流程;这调用Borg API启动其他过程。

在,用户调用的命令行客户端程序开始作业;该客户端程序调用API启动该过程,该过程继续致电API以启动其他进程。

“整个耐故障和弹性调度机制都取决于 - 结构,”王Yi介绍:“如果失败,根据分布式深度学习训练算法的数学特征,您可以确保训练过程继续进行,而无需处理过程。

在这两种情况下,都将调用API,要求其启动附加过程。如果创业公司成功,它将与其他流程合作。该过程的状态(主要是三个任务:待办事项和完成)可以保留在集群的ETCD存储系统中。

“通过这种方式,如果失败,重新启动的过程可以从ETCD继承前一个生命的状态。任何过程都将被要求启动一个新的过程而不是死亡过程。任务是否可以完成取决于剩余的用户和集群的其余资源。”

基于2.0

为什么基于2.0? Wang Yi介绍了这是因为2.0带来了功能。正是试图针对此功能的尝试使开发团队能够实施调度方法,从而支持容忍和弹性调度。

分布式学习需要根据本地培训数据来了解每个过程的计算,以总结这些过程以更新模型。

1.x的执行方法称为模式 - 深度学习计算步骤表示为解释执行的数据结构。其中,计算过程是其中的一部分,因此,为了获得分布式深度学习系统需要入侵执行过程“窃取”。

这种做法要求用户编写一些在编写程序时有助于“窃取”的代码,这增加了程序的复杂性并增加了对程序员的要求。

在由2.0提供的模式下,通过称为磁带的数据结构,它可以以API形式将采集功能暴露给开发人员,并以这种方式实现。

通过这种比较,它实际上反映了基于分布式深度学习的行业不同设计思想。 Wang Yi介绍了当前基于的分布式培训系统可以大致分为四类:

需要修改的工作主要由团队完成。由于它是用C ++编写的,因此在此级别实现了网络通信和同步功能,并且操作效率非常高。而且,从理论上讲,C ++代码可以通过感知是否中断TCP/IP链接来确定该过程是否已悬挂,从而实现了容错。

“但是它应该是无关的,因此不应包括对特定群集管理系统的访问。请重新启动已取消的过程代码,因此实现弹性调度并不容易。” Wang Yi指出了两者之间的区别:“与此相比,通过调用API来实施分布式计算的想法,通信性能通常受到语言性能的限制,并且无法在内部实施“微型操作”。但其优势是群集管理系统API可以自由地称为管理流程。”

显然,2.0带来的新功能用于实现群集管理API的外部直接调用并完成弹性调度。

替代用途

最初是管理无状态应用程序的容器平台,但越来越多的公司正在使用它来运行各种工作量,尤其是运行与机器学习相关的任务。

基于机器学习任务类型,例如模型培训,超参数培训和模型部署,并以容器的方式部署它们,为整个机器学习过程的每个系统提供高可用性和便利性,并可以通过使用它执行各种机器学习任务。

弹性学制可靠吗_什么叫做弹性学制_弹性学习

目前,这是启动分布式作业的主流操作,这可能是开发人员更熟悉的模型。

“具体来说,我们将询问哪些机器计划在分布式作业中运行每个过程,然后将所有其他过程的IP地址和端口的过程告知每个过程,以确保工作中的每个过程都相互了解。”

为什么我们需要让所有流程彼此了解?这是PS-方法所要求的。 (即,基于上述分布式训练系统的比较表的左上角的类型)

Wang Yi : "The 1.x all in a job to 1.x . with each and to a '' to the of the deep . At the of the , it is down into subs; each is for a sub--if any ( by a job), and the . ,天然分布式训练能力不是容忍( - )。

但是,API提供了能力:如果作业失败,您可以重新启动工作并从最近的工作中继续执行。因此可以从错误( - )中恢复。

您可以在其上使用本机分布式计算功能,但是由于后者无法忍受错误,因此不能毫无疑问。不容忍故障也意味着不能有弹性地安排,这正是专业。

连锁

上面介绍的实施机制和实践意义主要由2.0提供的新功能总结,以实现对群集管理API的外部直接调用,从而实现了完整分布式计算的机制,从而实现了可容忍和弹性调度,并最终实现了大大改善的整体利用率的目标。

此外,还有另一个重要的功能 - 易用性。易用性与另一个工具不可分割。

几个月前,Ant 打开了一种机器学习工具,旨在使呼叫AI像编写SQL一样容易。根据报道,具有基本SQL知识的开发人员可以通过将端到端的研发过程从数据到模型中抽象,并与基础引擎和自动优化合作,可以完成大多数机器学习模型培训和预测任务。

通过链接,开发人员可以使用扩展的SQL语法非常简洁地描述整个数据流和AI过程。将SQL程序转换为实现整个端到端的程序,该程序可以调用或实施培训任务。

Wang Yi举了一个例子。在此之前,如果我们想为电子商务网站构建推荐系统,我们需要开发诸如日志收集,在线数据清洁,功能工程,模型培训,验证和预测等模块,并且每个模块都可能需要团队花费数周甚至数月的时间。

出现之后,可以用SQL语言将此过程描述为一个非常简短的程序,可以将其转换为上述数据和AI流。

因为SQL是一种仅描述意图且不描述程序的语言,因此SQL程序通常很短。但是,因此,SQL程序中包含的信息量有限。例如,用户不会通过SQL指定分布式调度和培训算法。 Wang Yi补充说:“这些部分需要根据模型的特征独立确定,这就是为什么它也可以说又提供了易于使用的原因。”

开源的下一个计划

关于开源后的后续发展,王Yi说,该项目目前处于勘探的早期阶段,API仍在进化过程中。他介绍:“此开源版本不包括自动选择分布策略和算法的代码。与实施分布式计算的实施相比,基于2.0模式API的分布式培训性能差距仍然非常不同,”他介绍:“该团队正在与团队合作以开发上述SGD +功能,并希望为所有人提供以上的SGD +功能。

然后,王YI详细介绍了上述两个分布式训练策略,一种在模型中有较大参数(例如分布式)中使用,而在模型参数较小的情况下使用了另一个参数。这也是自动决策分布式培训算法的一个示例。

另一方面,如果用户要提供尽可能少的参数,则AI引擎需要更聪明并提供诸如包括的功能。

Wang Yi叹了口气:“该项目还有很长的路要走。”

拜访客人

Wang Yi目前负责ANT 的AI基础设施工作。他于2007年毕业于大学计算机科学技术系,曾在(中国),腾讯,(美国总部)和百度硅谷研究所工作。在此期间,他在硅谷和北京有创业经验。自加入工作以来,Wang Yi一直专注于AI基础设施工作,并参与并领导了多个核心AI系统的研究和开发。

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/31672.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:粤ICP备80126003-03号