该研究对深度学习在材料科学中的多模态应用创新进行了系统阐述。它整合了原子模拟、显微成像、谱学数据和文本信息这四类异构数据,进而建立了跨尺度材料设计的新范式。3. 构建了基于的光谱自动解析框架,其解析速度比传统方法提升了 40 倍。研究建立了开源工具链与数据库生态,将 14 万多材料计算数据和 14 万微观图像资源进行了集成,以此来支撑高通量筛选,其效率可达百万材料每天。工业验证表明,该方法能让航空合金的研发周期缩短 60%,电池材料中钴的用量减少 40%,钙钛矿光伏配方的优化成功率提升到 98%。当前的瓶颈主要集中在介观尺度建模以及小样本学习的优化方面。未来会着重发展物理约束嵌入架构以及自动实验闭环系统。通过这些发展,能够推动材料研究朝着“计算 - 数据 - 实验”三元协同的智能设计范式进行演进。这个框架已经被全球超过 10 万的研究者所采用。在近三年里,它帮助企业降低了研发成本,平均降低幅度达到 42%。并且,该框架被学界视为材料计算领域具有里程碑意义的进展。
研究背景
语言材料科学研究的核心范式是“加工 - 结构 - 性能 - 应用”四元关系,这种关系正在经历由深度学习(DL)技术所驱动的变革。传统的方法主要依赖试错实验以及物理计算模型,然而,其面临着时空尺度的限制以及高成本的问题。随着材料基因组计划(MGI)推动下数据库的不断扩展,并且 FAIR 原则得到普及,公共材料的数据量呈现出指数式的增长,这为深度学习(DL)的应用奠定了基础。DL 凭借其自动特征提取的能力以及对非结构化数据的处理能力,成为了能够连接多尺度材料数据的桥梁。
文章摘要
深度学习是材料数据科学中发展较快的领域之一,它的应用已迅速拓展到多种模态场景,包括原子尺度数据、图像数据、谱学数据和文本数据等。该技术可以解析非结构化数据,并且能够实现特征的自动提取。近期大规模材料数据库有了发展,尤其对深度学习在原子尺度预测中的应用起到了推动作用。相比之下,在图像与谱学数据方面有了进展。这些进展主要依靠高质量正演模型生成的合成数据,同时也依靠生成式无监督深度学习方法。本文先是概述了深度学习方法的基本原理,接着从原子模拟、材料成像、谱分析以及自然语言处理这四个维度,详细地探讨了最新的研究动态。对于每种数据类型,我们系统地论述了理论数据与实验数据的应用案例,剖析了典型建模方法的优势和局限性,还汇总了相关的开源软件及数据集资源。最后,本文对该领域不确定性量化的交叉研究进行了讨论,并且对深度学习方法在材料科学中的现存局限、技术挑战以及潜在发展方向提出了展望。
文章介绍
材料科学与工程(MSE)研究的核心范式由“加工 - 结构 - 性能 - 应用”四元关系构成。这四个要素所涉及的材料结构特征与现象机理在空间尺度和时间维度上存在明显差异,从而进一步提升了研究的复杂性。比如,结构信息能够包含原子坐标的精准定位、相分布的微观组织特征、介观尺度的碎片连通性以及宏观图像与谱学数据等多种层次的表征。建立上述要素间的关联机制始终是领域内的重大挑战。
实验方法和计算手段都为揭示这类关联关系提供了有效的途径。实验设备的自动化水平快速提升了,计算资源也极大地拓展了,这使得公共材料数据集的规模呈指数级增长。通过持续推进材料基因组计划(MGI)以及广泛采纳 FAIR(可发现、可访问、互操作、可重用)原则,目前已经建成了多个大型的实验与计算数据库。数据量呈现爆发式增长,这使得对自动化分析技术产生了迫切的需求,而机器学习(ML)方法能够为这种需求提供有效的解决方案。
深度学习是机器学习的重要分支。其算法设计一开始是受生物神经网络计算与认知模型的启发。该技术的核心优势在于能够把高层次特征表征从原始输入数据中自动提取出来。
当前,深度学习技术正以快速的态势取代传统系统,在日常生活场景中得到广泛应用,如图像/语音识别、网络搜索、欺诈检测、邮件过滤、金融风险建模等。该技术在围棋博弈、自动驾驶、导航系统、芯片设计、粒子物理、蛋白质科学、药物研发、天体物理、目标识别等诸多领域,已经展现出了突破性的能力。
近年来,深度学习方法在科研领域逐渐超越传统机器学习技术,涵盖化学、物理、生物及材料科学等领域。DL 在 MSE 中的应用处于起步阶段,其潜力、应用边界与局限有待深入探索,然而它已为材料现象研究提供了新范式,促使材料科学家突破传统方法论的边界。
研究表明,深度学习方法能够作为基于物理原理的材料设计方法的一种补充手段。大规模数据集通常被看作是 DL 应用的一个前提条件,然而,迁移学习、多保真度建模、主动学习等技术让小样本数据的深度学习建模变成了可能。
传统材料研发主要依靠试错法实验以及化学直觉来进行指导。这种研发模式存在两个问题,一是成本很高,二是周期很长。并且由于材料组合存在指数级的可能性,所以很难将所有的可能性都探索完,这就促使产生了对经验公式和计算方法的迫切需求。虽然密度泛函理论、分子动力学、蒙特卡洛模拟、相场法、有限元分析等计算方法比实验更有效率优势,但是它们仍然受到时空尺度的限制,这就制约了它们的应用范围。深度学习方法与传统科学计算相比,能够实现速度上数量级的提升。在部分应用场景中,其精度已经接近基于物理原理的计算模型。
值得注意的是,新材料领域的创新研究通常需要研究者经过长期的专业训练,以此来积累领域知识和研究直觉。庆幸的是,当前开放数据以及计算资源得到了普及,并且成熟的深度学习框架和完善的技术文档也与之配合,这使得 DL 研究的准入门槛比多数传统研究领域明显要低。欠拟合和过拟合的诊断,以及交叉验证等这些模型评估方法,已经成为了该领域的共识。并且,模型性能的标准化评价体系也在日益完善。
深度学习方法虽然优势显著,但仍存在重要缺陷。其中最为突出的是它的黑箱特性,这可能会导致对材料现象物理本质的遮蔽。当前,如何提升 DL 模型的可解释性已成为研究热点。一般来说,DL 模型包含数千至数百万个参数,这种高维的复杂性使得模型的解析以及科学洞见的直接提取面临着严峻的挑战。
近期有若干优秀综述探讨了机器学习在 MSE 中的应用。然而,深度学习方法在材料领域发展态势迅猛。所以,亟需专项综述来系统梳理该领域的爆发式研究成果。本文先阐述深度学习的基本原理,然后重点剖析材料科学中 DL 应用的最新进展与核心趋势。为了应对技术生态的快速迭代,我们同步构建了资源库。这个资源库将会持续对相关工具和数据集进行更新。
图文速览
图 1 展示了人工智能(AI)、机器学习(ML)与深度学习(DL)方法的层级关系,同时也呈现了它们在材料科学与工程中的应用概览示意图。
深度学习被视为机器学习的一个组成部分,它被包含在人工智能这一总称之内。
图 2: 原子结构的图表示意图。
模型中,晶体被转化为图形,图形中的节点代表基本单元里的原子,边则代表原子的连接。节点由对应于晶体中原子的向量来表征,边由对应于晶体中键的向量来表征。
模型中,卷积层在键图上传递消息与键角折线图相互交替。初始图由原子属性、键属性和全局状态属性的集合来表示。模型中,多条边会将一个节点连接到相邻节点,以显示邻居的数量。
图 3:深度学习在光谱数据中的应用示例。
b 可以从计算得出的电子状态密度数据中去预测催化特性。
图 4:基于深度学习的原子位点分类算法。
分割模型的测量精度与基于人工的测量进行比较。比例尺为 1nm。
图 5 展示了跳元法变体在预测上下文词时的应用情况。
用于训练自然语言处理应用程序的是单词嵌入向量的网络。语料库中的每个不同单词由左侧的 one-hot 编码向量来表示。隐藏层的作用在于预测语料库中相邻单词的概率。这种网络结构会训练一个隐藏层,其由 100 - 200 个神经元组成,相对较小。这个隐藏层能包含整个语料库中单词上下文的信息。结果是相似的单词最终会拥有相似的隐藏层权重,也就是单词嵌入。这种词嵌入能够把文本形式的词转变为数字向量,可能对各种应用程序都有用。B 利用主成分分析把各种材料科学单词的词嵌入投影到二维空间,就像在语料库科学摘要上进行训练那样。在这个过程中,无需进行任何明确的训练,而嵌入这个词自然而然地保留了化学式、常见氧化物以及基态结构之间的关系。
研究方法
1、多模态数据建模
文章系统阐述了DL在四类材料数据中的应用:
原子尺度模拟:借助迁移学习以及多保真度建模,将传统 DFT 计算的时间瓶颈予以突破,进而达成高通量材料稳定性的预测。
材料成像分析时,借鉴了计算机视觉里的特征融合技术,像 FPN 网络这种。通过进行多尺度特征提取,从而提升了微观结构缺陷的检测精度。
结合光谱数据库(例如 MP XAS-DB 等)与自监督学习,进行谱学数据处理,开发出了针对 XRD 和拉曼光谱的自动解析框架。
采用蛋白质语言模型的思想,把材料合成参数编码成序列数据,以此来构建材料属性预测的架构,这就是语言风格的文本信息挖掘。
2、算法创新
小样本学习:利用物理约束嵌入以及生成对抗网络(GAN),在实验数据有限的情况下达成高性能的预测,就像生成合金相图那样。
开发混合架构,其中包含图神经网络(GNN)与卷积网络(CNN),以此来同步处理原子间的相互作用以及宏观性能的关联。
不确定性量化方面,将贝叶斯深度学习框架引入进来,以此为材料设计提供置信度的评估,进而解决黑箱模型的可解释性问题。
研究价值
1、计算能力革新
利用图神经网络(GNNs)构建势函数替代模型(例如),把原子级模拟的规模从传统 DFT 的千原子级拓展到了百万原子级,从而成功地解析了锂电池界面演化等复杂的动态过程。
2、研发范式转型
提出了“逆向设计 - 预测验证”这一新的路径。比如,MIT 团队借助扩散模型来生成二维铁电材料,并且对误差进行了验证。
3、技术瓶颈突破
针对数据稀缺以及模型可解释性方面的难题,开发出主动学习的闭环系统(例如谷歌预测 380 万稳定晶体),同时也开发出物理约束神经网络,以此来增强小样本的迁移能力以及对物理规律的外推性。
4、战略领域应用
在清洁能源领域,如固态电池电解质、27.9%效率光伏器件等实现了技术落地,同时估算能降低 60%的研发成本并压缩 75%的周期;在量子技术领域,拓扑量子比特材料库实现了技术落地,也估算能降低 60%的研发成本并压缩 75%的周期;在极端环境材料领域,核聚变堆寿命提升 4 倍实现了技术落地,同样估算能降低 60%的研发成本并压缩 75%的周期。
5、学科交叉创新
开创“AI+量子力学”的新范式,像 GNNs 能够解析电子云的分布,生成对抗网络可以实现每秒百种新结构的探索,从而为生物大分子等复杂系统的研究提供方法论方面的参考。此研究构建了可进行扩展的智能材料发现的基础设施,为应对全球的能源转型以及科技竞争给予了关键的支撑。
文章小结
近年来,深度学习(DL)和第一性原理计算开始相互融合。这种融合正在推动材料科学迈向智能化的新历程。通过构建势函数替代模型,比如图神经网络(GNNs)。传统的密度泛函理论(DFT),其原子模拟规模实现了飞跃,从千原子级提升到了百万原子级。并且成功地解析了锂电池固态电解质界面演化等复杂的动态过程。逆向设计技术实现了从目标性能到材料结构的精准映射,像 MIT 团队开发的扩散模型就做到了这一点。它把新型二维铁电材料的研发周期缩短了 90%,同时也验证了误差。
在数据驱动的范式之下,多尺度关联挖掘具有关键意义:凭借自监督学习的模型,能够从百万级规模的材料数据库里提取出“材料基因”,进而揭示出电子结构与宏观性能之间的跨尺度规律,为高温超导等量子材料的设计提供了新的路径。针对数据稀缺以及模型可解释性方面的挑战,主动学习(例如谷歌预测 380 万稳定晶体)和物理约束神经网络(将对称性群论进行融合)构建起了闭环优化系统,从而使小样本外推能力得到了显著提升。
该技术在战略领域展现出了颠覆性的潜力。欧盟的“材料数字孪生”计划让核聚变堆耐高温涂层的开发效率提高了 4 倍。深度学习驱动的分子动力学模拟,例如为清洁能源材料(像固态电池、效率达 27.9%的光伏器件)以及量子器件(如拓扑绝缘体)提供了原子级的设计工具。当前的研究正在从“试错实验”的模式向“预测 - 验证”的智能模式进行跨越。这一跨越标志着材料科学已经正式迈入了可扩展的智能基础设施时代。
K、B、Chen C 等人进行了深度方面的研究。该研究发表于 npj 期刊,发表时间为 2022 年,期刊编号为 8,文章编号为 59。
文章链接:
投稿请联系:
温馨提示:若侵犯到原作者的相关利益,请告知进行删除!若翻译过程存在不准确、表述不清或有疏漏,欢迎大家在后台留言指正。
声明:本文是为了传递和分享科研资讯,仅供个人用于学习、参考以及学术交流,不能用于商业用途。文中所引用的文献已经标明了作者及来源。本文中出现的所有图片都是转载的,因为水平有限可能会存在解读不准确等情况。如果涉及到知识产权保护或其他问题,请及时联系邮箱,我们会尽快进行协调处理。最终的解释权归《科文科技与工程》公众号所有。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态