https://onlinelibrary.wiley.com/doi/10.1002/inf2.12094#

摘要

随着现代社会的发展,对能源的需求在全球范围内变得越来越重要。因此,迫切需要探索用于可再生能源技术的新型材料。由于实验周期长、成本高,传统方法难以满足材料科学的要求。如今,机器学习 (ML) 作为一种新的研究范式正在兴起,以彻底改变材料发现。在这篇综述中,我们简要介绍了机器学习的基本过程和材料科学中的常用算法,特别关注机器学习在能源相关领域的性能预测和材料开发中的最新进展,包括催化、电池、太阳能电池和气体捕获。此外,还涉及机器学习对实验的贡献。

1 介绍

如今,21 世纪的许多挑战包括低碳能源和可持续性,主要是与材料相关的问题。为实现人类社会的可持续发展,迫切需要具有特定化学和物理特性的材料以进行高效的能量存储和转换。

如图1所示,长期以来,新材料的发现依赖于试错过程,时间长,成本高,无法满足更先进材料的需求。由于理论和计算化学的发展,量子力学(QM)和分子力学成为在实验前获得定量结构-性质关系的成熟方法。随着高性能计算的快速进步,高通量计算筛选具有极其加快了材料科学的探索,使其能够计算出数千种化合物的性质。密度泛函理论 (DFT)已广泛用于材料的结构和性能计算,并加速材料数据库的开发,包括Materials project(MP)数据库、AFLOWLIB 联盟、开放量子材料数据库(OQMD)和 MaterialGo (MG)。借助最先进的超级计算机和算法,研究人员可以基于 QM 方法计算具有数千个相互作用的离子和电子的化合物。然而,基于 QM 的方法的高计算成本限制了对大规模复杂系统的应用。此外,通过 QM 方法穷尽所有可能的系统是不现实的。

图1 开发加速新材料发现的方法

随着材料基因组计划(MGI)的推进,材料大数据时代即将到来,材料特性的收集和材料数据库的建设也越来越多。大数据的有效管理和利用是加速材料设计的关键基础。如今,快速有效地评估和分析大数据以发现潜规则在当前的材料科学中具有挑战性。

人工智能(AI)的出现为科学与工程领域的突破提供了新的契机。人工智能与大数据的结合被誉为“科学的第四范式”。机器学习 (ML) 是人工智能的核心,是使计算机智能化的基础。目前,机器学习的进步已经在各个领域产生了巨大的影响,因为机器学习是发现隐藏在高维数据背后的统计规律的强大工具。最近,随着材料数据库的快速增长以及 ML 工具包(例如 TensorFlow、Pytorch和 scikit-learn)的逐渐普及和工作流工具包如Atomate等的开发,算法的进步,ML也越来越多地用于材料科学。大数据组合ML技术已经成功地在能量存储和转换材料的领域中的许多突破,如催化剂和电池材料。

几个早期的综述已经介绍ML的应用材料科学,包括材料的发现和设计,催化剂和结构预测。最近,关于能量存储和转换材料的 ML 研究迅速增加,但尚未全面总结。因此,在本次综述中,我们将重点关注ML已成功应用的各个方向,并希望推动储能和转换领域的进一步发展。

2. 材料科学中机器学习的基本程序

基于ML技术,计算机可以自动从经验数据(训练数据)中学习,进而确定特征因子与材料特性之间的线性或非线性关系。与传统的硬编码方法(算法由人类专家预编程)不同,ML 方法可以从数据集中学习,获得支配数据集的规则并构建模型进行预测。因此,足够的数据对于机器学习非常重要。特征工程,包括特征提取选择,是从数据中提取输入训练机器学习模型的关键步骤,这是保证机器学习模型适用性和可行性的基础,因为只有相关的特征才能对机器学习的构建有意义。然后将选择 ML 算法来构建模型并从数据中学习。最后,对模型进行评估和优化。

2.1 数据收集

对于 ML 在材料科学中的应用,可以从高通量计算或实验中获得训练数据。然而,这些数据可能不完整、不一致甚至是虚假的;因此,数据清理意味着识别不准确的数据,然后替换、修改或删除它们,这对 ML 模型的准确性起着关键作用。

幸运的是,数据库包含了上个世纪积累的材料,为材料科学中的 ML 带来了极大的便利。无机晶体结构数据库 (ICSD) 37包含超过 210 000 种晶体结构,是使用最广泛的材料数据库之一。Crystallography Open Database (COD) 和 Pauling File 也被广泛用作数据源,分别有超过 400 000 和 330 000 个条目。还有几个计算材料数据库,例如 MPdatabase、 AFLOWLIB 联盟、OQMD和 MG。值得注意的是,MG 中的能带结构是通过 Heyd-Scuseria-Ernzerhof (HSE) 混合函数计算的,可以提高能带结构的精度。此外,还有许多针对特定应用的材料数据库,例如 MaterialsWeb 在线数据库、计算材料存储库、用于二维(2D)材料的Materials Cloud 平台、用于有机光伏材料的哈佛清洁能源项目(CEP)、 和热电材料的热电设计实验室。这些数据库中的数据通常会检查技术错误;然而,在训练 ML 模型之前,仍然应该识别和消除系统或测量误差。

材料数据库的快速访问对于数据收集至关重要。因此,大多数材料数据库都提供了应用程序编程接口(API),例如Materials Project RESTful API,可以让用户以编程方式直接访问MP数据和查询材料信息。

过去,非 ML 专家很难运行 ML 程序并训练模型。如今,机器学习框架的进步,例如 TensorFlow (Python)、Pytorch (python)、scikit-learn (python)、Torch (Lua)、Caffe (Protobuf)、和 Deeplearning4J (JAVA),确保研究人员更轻松地构建高质量的机器学习模型。这些框架的性能在速度和准确度上各不相同,研究人员可以根据需要选择一种。

2.2 特征工程

当有足够的可用数据时,将原始数据转换为一些定量参数,这些没有冗余的参数对的目标属性建模最有影响,决定了 ML 模型的准确性。因此,选择合适的特征选择方法对于获得实用的 ML 模型至关重要。对潜在科学问题和 ML 算法的深入理解是选择合适特征的基础。通常,特征是用结构和属性参数编码的,例如电子属性(带隙、介电常数、功函数、电子密度、电子亲和力等)、结构属性(原子径向分布函数、配置、属性标记材料碎片, Voronoi tessellations等)和磁性。合理选择特征既困难又expensive。在之前的调查中,研究人员选择了不同维度和类型的特征来构建不同的 ML 模型,并采用性能最佳的模型。

随着高性能计算和深度学习的发展,自动化特征工程得到了更广泛的应用。与手动特征工程相比,自动化特征工程效率更高,可重复性更高,并且可以让研究人员更快地构建更好的 ML 模型。对于深度学习,每一层中的函数都可以将输入数据转换成另一个数学表达式作为后一层的输入数据。深度学习为计算机提供了一种自动获取从数据中学习到的特征并将其纳入模型构建过程的方法,可以减少手动特征工程的不完整性。如今,无需特征选择即可处理数千个特征的深度学习被广泛应用于各个领域,例如药物和纳米材料的发现。

然而,数据集通常很小,因此可能很难通过深度学习频繁地自动提取特征。此外,一些特性特征,例如已被广泛用于表示钙钛矿稳定性的 Goldschmidt 容差因子,由于固有的不准确性,对于准确预测并不理想。Bartel 等人报告了一种新的钙钛矿稳定性容差因子 τ,并且这种新容差因子的性能在广泛的钙钛矿中保持一致的更高准确度。此外,不仅限于钙钛矿,τ还可以估计钙钛矿状结构的稳定性。Ekin 等人证明标准 ML 方法无法从小数据建立合适的模型。为了解决数据有限的问题,他们创建了一种结合结构模型和元素模型的迁移学习方法。与仅通过实验和 DFT 计算数据训练的结构模型相比,最终的元素结构 ML 模型在相对较小的数据集下执行可接受的结果。值得注意的是,特征的数量也会影响模型的建立;缺乏特征量不能全面描述材料,冗余特征数会使模型的建立更加复杂。

2.3 机器学习方法

选择合适的 ML 模型也起着关键作用,因为它会显着影响预测性能。没有适用于所有情况的单一最佳方法。机器学习方法根据训练数据的特征(输入数据)和相应标签(输出数据)的数量,可以分为监督学习、半监督学习和无监督学习。对于监督学习,输入数据对应于输出数据。通过使用监督模型,计算机可以找到输入和输出之间的关系,并在给出特定输入值时预测输出值。在半监督学习中,输入数据量大于输出数据量。未标记输入数据和标记输入数据的比率往往很高。模型的质量主要与未标记数据的自动训练有关。对于无监督学习,训练数据的标签是未知的。无监督学习可用于揭示数据的内在规律。

目前,监督学习是材料科学中这些方法中使用最广泛的有效工具。因此,我们将在下面重点介绍监督学习模型。

2.3.1 k-最近邻

k-最近邻 (kNN) 算法是理论上最成熟和最简单的 ML 方法之一。这种方法的基本原理是一个样本由其在特征空间中最近的 k 个邻居中的大多数来识别。如图2所示,对于k = 1,黄色样本将被归类为绿色类的成员。对于k = 3,样本属于红色类,因为红色三角形更多。对于k= 5,样本被识别为绿色类的成员。kNN 可用于分类和回归。特征空间中样本与训练数据的距离是分类的基础。在 n 维实向量空间中,欧几里得距离总是用于更一般的情况,也可以使用闵可夫斯基距离。一旦特征空间中的样本位置可用,就可以计算距离而不需要明确的训练阶段。换句话说,训练数据的generalization被延迟到发生对系统进行查询;因此,kNN 是一种惰性学习方法。正因为如此,如果训练数据集很大,kNN 的预测很耗时,内存占用也很大。此外,训练数据的不平衡也会影响 kNN 的性能。
k的选择没有固定的规则。总是会根据样本的分布选择较小的k值,然后使用交叉验证来优化k的值。
图2 k-最近邻

2.3.2 朴素贝叶斯

朴素贝叶斯分类器是基于贝叶斯定理和特征条件相互独立的假设的一系列分类算法,例如,在图3中,不同颜色的三角形代表的特征与正方形代表的特征无关。样本将被归入估计概率最高的类别。这种方法通常用于预测生物学特性。然而,实际上很难满足特征条件独立的假设,因为特征总是相互关联的。图3代表主要数学原理和朴素贝叶斯分类器的简单示例。人被分为两类$y_1$和$y_2$。每个人有四个主要特征,每个特征的值用不同的颜色(红/黄)表示。$f (x)$ 由朴素贝叶斯算法训练,该模型的输出是使函数具有最大值的类别$y_k$。
图3 数学函数和朴素贝叶斯分类器的简单示例。蓝色和绿色的人形代表两种样本,灰色的是未分类的样本。四个不同的几何图形代表每个样本的主要特征,几何图形的颜色是特征的可选值

2.3.3 决策树

决策树(DT)是包含节点和有向边的ML预测模型。节点包括内部节点和叶节点。内部节点表示特征的区分条件,而叶节点表示不同的类,如图4所示。但是,DT 也有一些限制,例如有时树的非robust。最大的弱点是这种方法可能会创建过于复杂的树,并导致过度拟合。为了避免过拟合和降低树的复杂度,通常使用剪枝,它使用统计方法删除不可靠的分支,以提高新数据分类的速度和能力。
图4 决策树图。圆圈和方块分别表示内部节点和叶节点。不同的颜色代表不同的类别
2001 年,Breiman提出了基于多个 DT 组合成“森林”的分类或回归的随机森林 (RF) 技术。森林中的每棵树都是建立在recursive partitioning的基础上的。当一个新的实例进入时,每个DT都会做出判断。实例将通过多数投票进行分类或计算每个 DT 的平均值以进行回归。RF 可用于有效处理具有大量特征的数据集并减少过拟合。

2.3.4 内核方法

内核方法是一组模式识别算法。使用最广泛的核方法包括支持向量机 (SVM)、高斯过程 (GP)和核岭回归 (KRR)。核函数是映射关系的内积,在这些方法中用于将输入数据转换到更高维空间,降低计算复杂度,甚至使不可能的计算成为可能,如图5所示。
图5 输入数据的内核转换图。更高维的数据空间展示了更直观的数据分类

2.3.5 人工神经网络

人工神经网络 (ANN)也称为神经网络 (NN),是基于生物学中神经网络原理的 ML 和模式识别数学模型。该模型通过理解并抽象大脑的结构和反应机制,基于网络拓扑模拟神经系统处理复杂数据的机制。如图6所示,一个网络包含一个输入层、一个输出层和 n 个隐藏层(n ≥ 1)。每个节点都包含一个特定的输出函数,称为激活函数。两个神经元之间的连接带有一个权重,该权重在训练阶段进行修改,然后将使用测试数据集进行评估。ANN 方法表现出从大规模数据集中捕获非线性复杂关系的强大能力。但是,仍然存在一些限制;人工神经网络通常需要更多的训练数据并且非常耗时。很难理解为什么 ANN 会做出特定的决定,也称为“黑匣子”。此外,人工神经网络容易过拟合,这种方法应该仔细设计。
图6 典型人工神经网络图。黑色、蓝色和红色圆圈分别表示输入、隐藏和输出层。每个圆圈代表一个人工神经元,箭头表示从一个神经元的输出到另一个神经元的输入的连接

2.4 模型验证

一个好的 ML 模型应该具有预测性。它不仅可以拟合已知数据,还可以预测未知数据。为了评估模型,总数据集一般分为两部分:训练集和测试集。训练集用于训练模型,其输出数据是模型已知的,而测试集用于评估模型,对应的输出数据不提交给算法。除了通过从训练集学习获得的 ML 模型的参数外,许多 ML 模型还具有可以手动选择的超参数,例如kNN 中的k值和 RF 中的树数。仅基于训练数据构建的模型可能具有一组过度拟合的超参数。因此,将训练集的一部分作为验证集来优化超参数以获得最佳预测是有帮助和必要的。值得注意的是,测试集应该接近popolation分布;因此,有必要从整个群体中随机抽取测试集。

交叉验证是评估 ML 模型的常用且有效的方法。K折交叉验证是一种广泛使用的交叉验证方法,其中将数据分布到K个单独的折叠中,其中一个折叠作为初始测试集,其他折叠作为初始训练集。然后循环这个过程,直到每个折叠作为测试集一次,如图7所示。 该过程表明每个样本将被构建的模型预测,而无需输入其相应的输出值。因此,如果交叉验证误差较低,则该模型可以有效地预测整个数据集中的所有样本。一种特殊情况是样本数等于K,这种方法称为留一法交叉验证,用于数据量很小的情况。Bootstrapping 方法,采样和替换方法,对小数据集也有效。然而,Bootstrapping 方法改变了数据集的分布,然后潜在地引入了估计偏差。此外,蒙特卡罗交叉验证是一种渐近一致的模型选择方法,并且比留一法交叉验证具有更大的概率来选择具有良好预测能力的模型。
图7 10 折交叉验证的图示

对于分类问题,引入了混淆矩阵,其对角线和非对角线分别表示预测正确和错误的。模型性能可以通过分类精度来评估,分类精度是通过对角线元素的总和除以非对角线元素的总和来计算的。Receiver operating characteristic (ROC) 曲线和 ROC 曲线下面积 (AUC) 也用于评估分类器的准确性。ROC曲线可以很好地分析分布不均匀样本的分类器的分类性能。AUC 的值意味着模型的能力。ROC 曲线通常与precision recall (PR) 曲线结合使用。同时,平均绝对百分比误差(MAPE)、均方根误差(RMSE)、平均绝对误差(AAE)、相关系数($R^2$ ) 和cross-validated counterpart ( $Q^2$ ) 被广泛用于评估回归模型的预测准确性。

3. ML 在储能和转换材料方面的成就

ML 越来越多地用于材料科学,并已被证明是有效的。通过机器学习,可以准确预测特性,并可以设计具有特定功能的新型材料。材料科学与计算机科学之间的差距逐渐缩小。在本节中,我们将介绍 ML 在能源存储和转换材料开发中应用的最新进展。

3.1 理论化学的推广

#####3.1.1 属性预测
由于其优越性,ML方法已被应用于能量存储和转换材料的性能预测,以克服DFT计算的缺点,例如计算资源的高消耗。ML 方法的使用为材料科学领域提供了有效和新颖的工具。已经提出了各种 ML 方法来构建用于快速属性预测的模型。常用的方法,如核方法(包括 SVM、GP 和 KRR)、ANN、DTs 和 RFs,成功地预测了多种系统的各种属性。

预测微观特性

众所周知,带隙是材料最基本但最重要的电子特性之一。虽然传统计算可以提供比较准确的带隙结果,但仍然难以对大量复杂系统进行准确分析。但是,这个问题可以通过 ML 方法有效解决。例如,Dong和同事对比了用卷积神经网络 (CNN) 和 SVM来模拟不同配置的混合石墨烯和 h-BN 。这些系统最多有 6 × 6 个超胞,但仍然存在许多可能的原子配置,并且很难通过传统方法穷尽所有情况。经过训练的 CNN 模型对任何给定结构的带隙都有很高的预测精度,而 SVM 模型显示预测结果与 DFT 计算结果之间的相关性相对较低。

Zhou 等人通过支持向量回归 (SVR) 获得了理想的 ML 模型,用于准确预测无机固体的带隙。有趣的是,这个模型的建立只取决于其组分。所选的成分特征完全依赖实验的数据的训练集带来了出色的准确性,并使模型更加可靠。他们的预测模型消除了由 DFT 计算带隙数据引起的错误。然而,由于难以制备高质量的单晶,实验数据还远远不够。

Lee 等人使用带隙的不同表达,准粒子 (QP) 间隙作为他们的预测属性。QP 间隙和实验带隙之间的差异是微妙的。预测框架由 DFT 计算和 ML 组成,并展示了更好的材料科学实用性。这种策略依赖于大量的数据,从而为完全利用计算数据带来了机会。由非线性 SVR 训练的最终模型显示出 0.24 eV 的低 RMSE,表明该方法具有进一步材料筛选的潜力。其他电子特性,例如态密度能带结构光吸收系数也被报道。

晶体材料的另一个重要微观特性是晶格参数。晶格参数不仅可以识别材料,还可以辅助复合材料的设计。为了构建复合材料的超胞模型,与各种成分的晶格参数相关的晶格失配对产物有很大影响。ML 方法如 SVR、ANN 和线性回归 (LR) 已被用于预测晶体材料的晶格参数。Javed 等人结合数据集生成方法和 SVR 模型,生成了正交 ABO 3钙钛矿的晶格参数的预测模型。此外,与 ANN 学习的模型相比,所得模型在训练数据和测试数据上都显示出更好的预测性能,并且 SVR 模型显示出更好的运行效率。在这项工作中,绝对差异的平均百分比不超过 1%。

ML 方法也已应用于预测分子材料的特性。许多模型可以成功预测热力学特性,例如分子材料的原子化能和形成能。Wang提出了一种降低分子原子化能预测误差的新方法。这种称为堆叠泛化方法的方法由多种算法组成,这些算法属于不同的类型。在这项工作中,作者使用了五种不同的 ML 方法:NN、岭回归 (RR)、RF、极端随机树和梯度提升树来构建几种堆叠泛化方法。受益于独特的框架,堆叠泛化模型具有所有组成算法的优点。值得注意的是,分子晶体也是一种不可忽视的材料。由于各种竞争性非共价分子间相互作用,计算预测对于分子晶体的设计是必要的。Musil 等人报告了一种用于多晶型的高精度属性预测的新型 ML 框架。借助建立在 SOAP(原子位置的平滑)-REMatch 内核上的高斯过程回归 (GPR),该模型可用于预测晶体材料的相对能量以及计算用于预测分子晶体电荷迁移率的转移积分,可以满足高精度,交叉验证的预测证明了这一点。因此,作为设计分子晶体的参考工具,该模型可以使设计更加可靠和经济。

预测宏观特性

除了晶体材料和分子结构的微观性质外,ML方法在宏观性质预测中也发挥着重要作用,如机械性能和其他物理功能。为了有效预测立方钙钛矿的热力学稳定性,Schmidt 应用了 RR、RF、极度随机化的树和神经网络来加速他们的计算。他们将预测精度与元素周期表的信息联系起来。Evans 等人提出的另一项研究讨论了使用梯度提升回归 (GBR) 来预测涉及体积 ( K ) 和剪切 ( G) 模量。根据沸石的结构特征,仅选择结构信息作为特征。两个属性表示 log ( K ) 和 log ( G )的值分别为 ~ 0.102 和 ~ 0.0847,获得了良好的 RMSE 。Kim 等人开发了一个 ML 模型,以改进对复杂系统的介电击穿强度的不令人满意的准确预测。根据他们之前的工作,该模型由钙钛矿材料的大型数据库更新。通过包括能带选择结构再优化动力稳定性测定在内的仔细初步筛选,筛选出209个结构组成数据集。KRR、随机森林回归 (RFR) 和最小绝对收缩和选择算子方法来对由 82 个octet晶体绝缘体钙钛矿的训练集进行训练。通过使用最小绝对收缩和选择算子方法训练的模型,含硼钙钛矿由于其在高电学环境中的优异性能被选中,其中两种材料的击穿场为~2 GV/m,意味着良好实验的可行性。考虑到利用 ML 进行能量特性预测的空白,Elton 等人进一步拓宽了ML方法在预测爆压、爆炸能等分子结构能量特性方面的应用范围。即使在小数据集的情况下,通过 KRR 模型计算的结果的误差也在可接受的范围内。ML 的另一个有意义且成功的例子是结构预测和分类。Pilania 和同事报告了一种新的晶体结构分类方法来拟合相对较小的数据集。此外,模型的准确性通过一种新的材料特性有效地提高了,这种特性称为多余的波恩有效电荷。Musil报告的另一个 ML 分类器可以帮助研究人员了解分子材料的堆积和自组装机制。与启发式分类相比,这种自动分类工具显示出优越性。

属性预测的改进

输入数据特征的准确性、具有足够数据的合适训练集、理想的学习模型和合适的特征是成功的属性预测 ML 框架所必需的。还有许多报告集中在预测 ML 模型的设计优化步骤上。为了获得最好的模型来预测属性,研究人员总是尝试不同的特征搭配和 ML 方法。之前已经探索了许多性质特征,最常用的特征是化学成分、结构、库仑矩阵、化学环境描述和其他复杂的功能。为了选择合适的特征,在基本计算需要的前提下,直观地表示化合物并保持最简洁的表达是必不可少的。在 Seko 等人的工作中,他们开发了一种生成特征集的方法,具有很强的适用性。该程序仅基于材料的成分和结构,可以用来以相同维度形式表示不同元素组成和晶体结构的特征。通过回归方法(KRR 和 GP)和贝叶斯优化,该方法在三个不同数据集上的应用表现出良好的性能。Fan等人报告了一种高级表示“轨道场矩阵(OFM)”,它非常适合数据挖掘。这种新颖的特征表示受到了先前关于中心原子与相邻原子之间的效应产生的特征的研究的启发,它结合了局部结构和中心原子价轨道的信息。OFM 专注于代表价轨道结构的局部环境和价原子构型,它可以用于高精度预测周期晶体材料和分子的性质。

一组好的特征需要与适当的数据结合使用。数据集的大小和类型对于 ML 模型的构建都很重要,需要仔细选择。众所周知,特殊数据集在 ML 模型的成功中起着至关重要的作用。尽管这种观点可能是片面的,但优化数据集的努力对于训练模型是必要的。通常,为了获得普遍的训练结果,随机和独立的数据是有利的。但是,这种无目的的选择可能会将最终模型引向错误的方向。勃朗宁和同事努力优化用于分子特性预测的 ML 模型的训练集。应用遗传算法 (GA) 从多个父子群体迭代中创建最佳训练数据集。结合库仑矩阵表示的使用,由 GA 优化数据集训练的模型比基于随机选择的模型表现出更好的性能。此外,他们指出训练集的大小会影响准确性、相对平均绝对误差 (RMAE) 和优化速度。对于不同的 ML 模型,每个模型对应于不同的数据集优化分布。因此,训练数据集的选择也是一个多方面的问题。

改进属性预测框架必须考虑的最后一个因素是 ML 模型。对于相同的目标预测属性,给定特征和数据集,研究人员总是使用几种不同类型的 ML 算法,并从综合角度比较它们的性能。法伯等人不仅研究了表示选择的影响,还通过样本外误差评估了各种回归模型,例如贝叶斯岭回归 (BR)、LR、RF、KRR 和 NN。他们从匹配的角度说明了ML模型的选择,对不同的分子特性使用最小误差回归或NNs模型评价。例如,对最高振动频率的最佳预测性能是从 RF 模型中获得的,而图卷积 (GC)、门控图网络 (GG) 和 KRR 模型则展示了对他们研究中提到的所有属性的高质量预测。但是,没有模型可以在可接受的精度范围内满足所有预测属性

从上面的讨论中可以看出,许多 ML 方法已经与以各种方式预测的材料特性的研究相结合,并且这些技术得到了改进,具有一些新的特性。各种各样的特性控制着材料的丰富应用,并有助于新材料的设计。因此,ML 方法的使用在材料科学领域,尤其是能量存储和转换材料领域发挥着重要作用。为了对未来的研究有所启发,加速储能与转换材料的发展,我们将在以下部分总结ML在储能与转换材料中应用的成功案例

3.1.2 探索储能与转换材料

催化剂

自 1990 年代以来,机器学习工具,尤其是人工神经网络,已被用于催化领域。这些研究通常侧重于基于实验数据的催化性能与反应条件之间的关系。然后,催化剂的合成条件和相应的组成通常被用作ML模型的特征,以指导合成性能更好的催化剂。实验数据需要高通量实验,耗时、成本高且有限,从而使ML模型具有非一般性。与实验相比,QM 方法可用于获得更大的数据库。最近,研究人员将ML和QM方法结合起来,克服了纯QM方法的局限性,加速了催化剂的准确筛选

例如,QM 方法在计算上很昂贵,因此限制了对大规模复杂系统的应用。使用 ML 开发由 QM 方法获得的数据训练的原子间势是提高数值效率的有效方法。ML 势可以将计算速度提高几个数量级,精度与 QM 方法相当。目前存在用于ML的势如AMP,AENet,PROPhet和TensorMol。还有其他 ML 方案来预测原子势,这些方案通常基于高维神经网络 (HDNN)、GPR 或 KRR。

近年来,对化学反应精确动力学的需求迅速增长。然而,从头分子动力学 (AIMD) 模拟仅限于数百个原子和 ~10 ps 的时间尺度,限制了其适用性。与 QM 方法相比,ML 潜力的低时间成本可以在更长的时间尺度上将应用扩展到更多更大的系统。Shakouri 等人从使用 RPBE 函数计算的 25 000 个结构的数据集开发了Ru(0001) 表面上$N_2$的高维神经网络势 (HDNNP) 。该方法可以准确描述在Ru(0001)模型表面上$N_2$的耦合和表面原子运动和振动特性。由于反应概率低,需要大量的轨迹。HDNNP 使得执行准经典轨迹 (QCT) 计算成为可能,模拟分子和表面原子运动,以精确计算粘附概率低至 $10 ^{-5}$的反应。重要的是,HDNNP 计算的粘连概率与实验结果一致。

对于复杂的实际催化体系,影响催化性能的因素很多。例如,溶剂环境起着催化的主要作用。结合第一原理计算和Monte Carlo模拟与NN势,Artrith等人研究了含有几千原子的水中的CO2还原的Au / Cu的纳米粒子的平衡结构和组分。神经网络电位也被用于研究铜表面界面水的结构和动力学特性

此外,由于模拟的大小,QM方法极难考虑催化剂纳米颗粒或表面的结构、尺寸和组成。ML 势可以解决这个问题。Ouyang 等人使用 NN 势通过盆跳法搜索 Au 纳米团簇的全局最小值。Sun 等人使用 HDNNP在氢气压力下探索 $Pt_{13}$结构,结果表明·低能亚稳态结构对催化性能起主要作用·。该方法可用于系统研究异构体的影响,并考虑反应条件。此外,应用神经网络势来搜索 $Pt _{13}$和 $Pt_9$ 团簇在常温下的全局最小值。除了团簇,NN 电位还用于多组分合金表面,AuPd 合金的预测平均表面成分与报告的实验结果非常吻合。其他合金,例如 NbMoTaW,通过 ML势结合蒙特卡罗模拟进行了研究。对于氧化物,Jacobsen 等人基于 ML势研究了 SnO2(110)-(4 × 1)的表面重构 。结果表明,ML 势能是有意义的,并且可以在进化搜索运行时大大加快搜索速度。在反应条件下对催化剂进行合理建模是重要的基础。这些结果揭示了 ML 势在催化中的价值。

然而,ML势的缺点之一是化学物种和原子坐标的组合空间会随着化学物种的数量迅速增加并导致ML势的复杂性。为了解决这个问题,Artrith 等人提出了一个具有恒定复杂度的描述符。此外,对训练数据的巨大需求,通常是数以千计的构象几何,需要花费大量时间。Chmiela 等人报道了一种梯度域 ML 方法,该方法仅采用原子梯度信息而不是原子能。该方法可以通过仅使用 1000 个几何形状进行训练,以高精度再现中等大小分子的全局势能面。梯度域 ML 模型比 DFT 快三个数量级,支持长时间尺度路径积分分子动力学模拟。

**此外,ML技术可用于预测催化性能并筛选性能良好的催化剂。**一个代表性的例子是使用 ML 技术预测d 带中心,这是一种广泛使用的金属和合金催化描述符。此外,利用经验关系,如 Brønsted-Evans-Polanyi (BEP) 关系,用来描述与反应的活化势垒和焓以及吸附能的标度关系,可以简化计算。因此,吸附能也是评价催化性能的一个重要指标。Ma等人提出了一种 ML 增强化学吸附模型,该模型用ANN来描述吸附质 - 基质的相互作用,误差约为 0.1 eV,并确定了 <100> 封端的 Cu 多金属化合物有前景,用于将 CO 2电还原为 C2物种,具有低过电位和高选择性。Li 等人使用 CO 吸附作为度量标准,提出了 ML 化学吸附模型,用于快速筛选用于电化学 CO 2还原的过渡金属催化剂。由于具有较弱 CO 结合的材料具有较低的势垒,因此采用 CO 结合能作为筛选活性面的描述符。该模型在筛选 <100> 封端的多金属合金方面表现出优异的性能,并预测了几种具有低过电位的有前景的候选者。然后他们进一步报告了一种 ML 框架,可以从 1000 多种合金表面快速筛选用于甲醇电氧化的双金属催化剂。ML 模型使用约 1000 种模型合金进行训练,可以用来描述吸附质/金属相互作用,RMSE 约 0.2 eV 。

结合 NN 模型和 DFT 计算,Ulissi 等人筛选了用于电化学还原 CO 2 的NixGay双金属表面。很难通过纯 DFT 计算来模拟 NixGay表面和吸附配置,因为会形成几种组合物并在降低电位时保持稳定,而每个结构都有数十个暴露面和数百个独特的吸附位点。NN模型的应用可以将计算速度提高一个数量级。结果表明NiGa(210)、NiGa(110)和Ni 5 Ga 3 (021) 将显示出有希望的催化性能,用于将 CO 2电化学还原为 C1 和 C2 产物。

对具有明确定义的单晶表面的表面原子排列进行建模在预测催化性能方面取得了成功。然而,对于高度不均匀的原子配置,包括具有原子级缺陷的纳米粒子,这种方法将受到限制。为了解决这个问题,Jinnouchi 等人提出了一个基于贝叶斯线性回归和 BEP 关系的模型来预测 Rh 1− x Au x合金纳米粒子对NO 分解的催化活性。称为 SOAP的内核 用于贝叶斯线性回归,以基于三维原子分布之间的重叠积分来评估两个局部原子配置之间的相似性。该模型可以用单晶的 DFT 数据预测合金纳米颗粒上催化反应的能量学,并可以提供有关活性位点结构以及与尺寸和组分相关的催化性能的详细信息。最近,Jäger 等人评估了 SOAP、多体张量表示 (MBTR)和原子中心对称函数 (ACSF)的性能用于预测纳米团簇表面的氢吸附自由能,以评估析氢反应(HER)催化性能。结果表明 SOAP 的性能明显更好,是吸附能预测的不错选择。此外,涉及不同施加电位下的吸附物和覆盖物的表面相图对于电催化是必不可少的。通过 GPR 模型,Ulissi 等人预测了 IrO 2 (110) 表面的可能吸附物的自由能。通过使用该模型,可以重建 IrO2 (110) 表面吸附 H、OH 和 O的Pourbaix 图。

这些研究表明,与纯 QM 计算相比,ML 模型与 QM 方法相结合,可以以更低的时间消耗彻底筛选大型催化剂空间。最近,Ahneman 等人使用高通量实验数据代替 QM 数据来训练 RF 算法。ML模型成功应用于预测CN交叉偶联过程中对异恶唑具有高耐受性的特定钯催化剂。结果证明了ML在复杂分子合成中的价值。

中间体和限速过渡态(TS)对于催化剂的设计也非常重要。稳定的反应物、产物和中间体位于势能面 (PES) 的局部或全局最小值,而 TS 位于 PES 的一阶鞍点上。有几种常用的计算算法来搜索 TS,例如爬图像轻推弹力带 (CINEB)、二聚体法、单端生长串法和力反转法。一旦获得 TS,就可以计算活化势垒。但是,由于 PES 的复杂性,搜索 TS 非常耗时。ML 技术可用于加速 TS 搜索和活化势垒的预测。Peterson报告了一个由 DFT 训练的 NN 模型,以减少需要从头计算来定位鞍点的中间体数量,从而大大加快了对鞍点的搜索。除了 NN,Koistinen 等人还使用 GPR 来加速 NEB 计算以找到最小能量路径。该模型可以将必要的能量和力评估数量减少一半,并且已经在涉及固体表面七聚体岛的 13 次重排转变的基准中进行了评估。

Takahashi 等人揭示了基于 788 个激活能来确定激活能的描述符,这些激活能是用 ML 模型的第一性原理计算构建的。在交叉验证期间,可以立即高精度地预测活化能。Choi 等人使用热力学和结构特性作为输入特征来建立用于预测气相反应活化能的 ML 模型。结果表明,树提升算法表现出优异的性能和低错误率。但化学键数变化大于4的反应由于反应机理复杂,误差较大。

ML 技术还可以通过降低反应网络的复杂性来研究反应机制。对于简单的反应网络,例如合成气在 Rh(111) 上的反应将拥有数百个反应和 2000 多个潜在途径,如图8所示。 QM 方法可用于研究反应机制,但由于计算成本高,这是不切实际的。Ulissi 等人提出了基于 GPR 和 DFT 计算的 ML 框架,以准确快速地预测在实验相关的热条件下合成气在 Rh(111) 上的反应网络(图8)。根据中间体的一些 DFT 计算,然后使用 GPR 方案来预测中间体的自由能。用线性标度关系预测 TS 的焓以估计活化能,并应用简单的分类器来确定限速步骤。然后使用 CINEB 来评估最可能的反应机制的 TS 能量。最后,可以确定对特定产品最可能的反应网络。
图8 (A) 合成气 (CO + H 2 ) 生成 CO 2 的反应网络。(B) 合成气对 Rh(111) 反应性的reduced网络。绿色、灰色、红色和白色球分别代表 Rh、C、O 和 H 原子
除了多相催化剂外,ML 技术还可用于研究均相催化剂。一个例子是 Burello 等人应用神经网络模型来搜索 Heck 交叉偶联催化剂,其中定义了一组空间和电子描述符。该模型用于高精度预测 60 000 种虚拟催化剂和反应条件组合的催化性能。

锂离子电池

目前,锂离子电池(LIBs)由于工作电压高、能量容量大、循环寿命长和自放电低等优点成为商业上成功的储能装置。阴极、电解质和阳极是 LIB 的主要成分。Li在阳极被氧化为 Li +并通过电解质移动到阴极。电解质应该是离子导体和电子绝缘体。对于液体电解质,电解质/电极界面处Li + 的溶剂化和脱溶剂对 Li +传输起着重要作用。因此,溶剂对 Li +的配位能是一个关键参数。此外,电解质的熔点对于低温下的快速传输极为重要。Sodeyama 等人通过使用三种信息技术,包括线性回归穷举搜索 (ES-LiR)、多元线性回归 (MLR) 和最小绝对收缩和选择算子,预测了液体电解质的配位能和熔点。结果表明 ES-LiR 具有最准确的估计。

近年来,各种电解液添加剂被报道并广泛应用于改善电池性能,如提高电解液的离子电导率、降低不可逆容量和气体产生、提高电解液的热稳定性以及保护正极材料免于溶解和过充。因此,电解质添加剂的开发也很重要。氧化还原电位是评估材料是否可用作电解质添加剂的关键指标。冈本等人根据从头分子轨道计算计算出的 149 个代表性分子的氧化还原电位建立回归模型。使用组成元素和配位数构建特征,GBR在预测氧化还原电位方面表现出良好的性能。

传统的液态有机电解质由于易燃性和挥发性而存在潜在的安全问题。新型固体电解质的设计很重要,因为它们通常不易燃,因此比液体电解质更安全。然而,离子电导率不足限制了固体电解质的应用,探索具有高离子电导率的固体电解质受到越来越多的关注。Jalem 等人提出了一个神经网络模型来预测橄榄石型 LiMXO 4固体电解质(M:主族元素,X:XIV 和 XV 族)的 Li 扩散势垒和内聚能。然后他们进一步使用神经网络模型来研究 LiMTO 4 F 钙钛矿系统进行 M 和 T 位点化学取代(M 3+-T 5+和 M 2+ -T 6+对,M:非过渡金属)的结构和Li输运性质。预测了几种潜在的固体电解质候选者,LiMgSeO 4 F的锂迁移能量仅为 0.11 eV。最近,他们提出了一种结合贝叶斯采样的GP模型,以加速对低离子迁移能化合物的探索。

Fujimura 等人使用从理论和实验数据集学习的 ML 技术来预测 LISICON 型材料在 373 K 下的电导率。然后使用 SVR 评估石榴石结构氧化物的传输特性,揭示成分-结构-离子电导率关系。了解 Li 扩散机制至关重要,Chen 等人报告了一种基于密度的聚类方法,通过使用 Li 7 La 3 Zr 2 O 12(LLZO) 的分子动力学来计算轨迹。这是一种无监督学习方法,可以识别点阵位点,给出位点类型并识别Li跳跃事件。结果表明,低空位浓度限制了锂在 LLZO 中的扩散,并且取代具有较高价数的阳离子可以增加空位浓度,与实验观察一致。

**高通量筛选方法已被用于探索理想的固体电解质。**对于小的训练数据,Ekin 等人揭示了一种迁移学习方法来筛选潜在的固体锂离子导体。为了减少 DFT 计算的消耗,Sokseiha 和同事提出了一种与高离子电导率相关的新预测器,可用于高通量筛选。他们使用这种新颖的方法成功地预测了新的锂离子导体。结合基于材料数据库的 ML 和高通量筛选,可以有效地探索新材料。森德克等人提出了一种大规模计算筛选框架,以从 MP 数据库中识别出有希望的 LIB 固态电解质候选者。在此框架下,筛选出 12 831 种含锂候选材料。选择结构和化学稳定性、离子和电子电导率以及成本作为筛选标准。基于文献报道的实验测量,使用逻辑回归建立的离子电导率分类模型以评估锂传导。经过MP数据库筛选,得到了21个稳定性强、电子电导率低、离子电导率高、成本低的最佳候选。为了进一步探索固态电解质,他们应用 DFT 分子动力学 (DFT-MD) 模拟来验证从先前工作中筛选出的提名结构中最具潜力的材料。此外,他们比较了 ML 引导搜索、随机选择和人工工作之间的功效,结果表明基于 ML 的模型具有明显的优越性。

除了电解质之外,电极材料在 LIB 中也很重要。晶系对硅酸锂正极的物理和化学性质有主要影响。Shandiz 等人预测了三种类型的晶体系统,包括单斜晶系、斜方晶系和三斜晶系,正极材料具有 Li─Si─(Mn,Fe,Co)─O 成分。RF 和极其随机树表现出很高的准确性。Eremin 等人采用岭回归预测 LiNiO 2 (LNO) 和 LiNi 0.8 Co 0.15 Al 0.05 O 2(NCA) 正极材料的能量。ML 结果表明锂层的拓扑结构以及锂和掺杂剂在 NCA 中的相对分布是能量平衡估计中最重要的描述符。此外,ML方法也已应用于预测其他金属离子电池电极材料的电位

有机电极材料仅含有轻和丰富的元素,由于其低成本和高能量密度,可用作传统无机材料的替代品。Allam 等人结合 DFT 和 ML,建立了一种高通量筛选方法来预测碳基分子电极材料的氧化还原电位。电子特性和结构信息都被选为 ML 模型的输入变量。预测的氧化还原电位与 DFT 结果非常吻合,表明准确性很高。

**准确预测LIBs的寿命对于加速LIBs的发展具有重要意义。**然而,由于复杂的老化机制和工作条件,它仍然是一个挑战。通过使用 ML 方法,Severson 等人开发了一种数据驱动模型,该模型可以根据早期循环数据准确预测商用磷酸铁锂/石墨电池的寿命,而无需事先了解降解机制。建立了在快速充电条件下循环的 124 个商业电池的数据集,循环寿命为 150 至 2300 次循环。最好的模型在预测前 100 次循环的循环寿命时达到 9.1% 的低测试误差,在前 5 次循环中预测循环寿命为 4.9%,用于将循环寿命分为低寿命组和高寿命组。这项工作为理解和开发 LIB 提供了一种很有前景的方法。

此外,ML 方法通过先进的数据提取和收集技术促进 LIB 的开发。机器编写的第一本书于2019年由Springer出版,帮助研究人员快速、轻松地了解LIBs领域的当前前沿。此外,它提供了一种解决收集过多数据问题的新方法。

太阳能电池

光伏太阳能转换被认为是解决全球能源危机和环境污染最有前途的方法之一。钙钛矿因其高太阳能吸收率、易于制造和低非辐射载流子复合率而在太阳能电池领域引起广泛关注。然而,两个明显的挑战限制了大规模的商业应用。一是铅元素的毒性,二是环境稳定性差。因此,寻找具有高功率转换效率(PCE)的稳定且环保的钙钛矿非常重要。转换效率取决于多种因素,但带隙被广泛用作筛选标准。使用 QM 方法准确计算带隙非常耗时,这对于高通量研究来说是不切实际的。ML 方法可能是一个很有前途的替代方案。皮拉尼亚等人展示了一个 ML 框架,可以有效准确地预测双钙钛矿的带隙。评估了超过 120 万个特征,并将组成原子种类的最低占据Kohn-Sham 能级元素电负性确定为最重要的预测因子。然后他们提出了一个多保真共克里金统计 ML 模型来预测双钙钛矿的带隙。带隙是用低保真度 (Perdew-Burke-Ernzerhoff, PBE) 和高保真度 (HSE) 计算的。HSE 带隙是通过考虑组合数据集中不同数量的 PBE 带隙来预测的。结果表明,预测精度随着训练集中 HSE 和 PBE 带隙数量的增加而增加。

**高通量筛选可有效加速钙钛矿的发展。**Allam 等人报道了一种高通量筛选方法来搜索 ABX 3无机 2D 钙钛矿。神经网络模型用于评估参数对带隙的重要性。结果表明,阴离子的氧化态、钙钛矿层数和阳离子的离子半径是影响带隙的最重要因素。高桥等人基于 18 个物理描述符构建了一个 RF 模型来预测钙钛矿的带隙。该模型用于预测具有理想太阳光吸收带隙范围的未被发现的钙钛矿,并获得了 9328 个钙钛矿。然后进行 DFT 计算以评估稳定性。最后,揭示了具有理想带隙的 10 种热力学稳定的未发现钙钛矿。Lu 等人开发了一种高通量框架来筛选具有高 PCE 和可持续空气稳定性的稳定无铅混合有机-无机钙钛矿 (HOIP),如图9所示。为了实现这一目标,他们构建了一个基于 GBR 的 ML 模型,其中包含 212 个报告的带隙值作为训练数据,以预测 5158 个未探索的带隙。然后还用AIMD评估稳定性。最后,获得了六个正交无铅 HOIP,具有理想的太阳能电池带隙和优异的室温热稳定性。
图9 HOIP 的高通量筛选框架

除了带隙之外,钙钛矿的稳定性还可以通过使用 ML 技术来计算。通常,材料的稳定性可以通过凸包(E hull)上方的能量来评估。Li 等人建立了一个 ML 模型来预测钙钛矿氧化物的E壳,该模型从 1900 多个 DFT 计算的钙钛矿氧化物中学习。然后该模型用于预测 15 种新型钙钛矿化合物。Schmidt 等人应用几种 ML 算法来预测立方钙钛矿 ABX 3的E壳,包括岭回归、RF、极度随机化的树和神经网络。结果表明,对于 230 000 个钙钛矿,极度随机化的树表现出最低的平均绝对误差 (MAE),并获得了大约 500 个热力学稳定的未报告结构。此外,仅基于离子半径和鲍林电负性这两个描述符的深度神经网络可用于预测低 MAE的 ABO 3钙钛矿和石榴石的形成能。最近,ML 技术也被用于对太阳能电池的钙钛矿进行识别和分类,进一步加速了钙钛矿太阳能电池的发展。

除了钙钛矿外,有机太阳能电池由于其易于制造、成本低、重量轻和面积大而受到广泛研究。由于活性层中良好的激子解离和电荷载流子传输,施主/受主体异质结结构被认为是实现高太阳能电池性能的最有效策略之一。因此,供体和受体的最高占据分子轨道(HOMO)和最低未占据分子轨道(LUMO)极为重要。Pereira 等人使用超过 88 000 个分子训练了 ML 模型,以分别以 0.15 和 0.16 eV 的精度估计 HOMO 和 LUMO 能量。然后 Jørgensen 等人报告了一种基于语法变分自动编码器模型筛选了供体-受体聚合物。该模型使用从 DFT 计算获得的 3989 个单体的数据集进行训练,可以预测未知分子的 LUMO 和最低光跃迁能,而无需了解原子位置,MAE 分别为 43 和 74 meV。此外,还应用了深度张量神经网络模型并表现出更高的预测精度,但需要通过 DFT 计算出的原子位置作为输入。

PCE是太阳能电池的一个极其重要的参数。Troisi 和同事使用各种 ML 方法,包括 RF、GBR 和 NN,通过使用有机材料的 13 种微观特性作为特征来预测 PCE。在这些模型中,GBR 表现出令人印象深刻的性能,Person 系数为 0.79。最近,他们使用 kNN 和 KRR 模型来预测有机太阳能电池的光伏效率。当同时考虑电子和结构参数作为输入时,KRR 模型可以提供良好的预测能力,Person 系数约为 0.7。通过使用包括分子量、PCE 和电子特性在内的 1000 个实验参数作为训练数据,Nagasawa 等人建立 RF 和 NN 模型来预测有机太阳能电池的 PCE。结果表明,RF 模型表现出更好的性能,因此被进一步用于共轭聚合物的设计、合成和表征。

目前的受体材料一般为富勒烯衍生物,成本高,功能化困难。为了克服这些缺点,Lopez 等人报告了一个自动化工作流程,用分子力学探索每个候选者的构象空间。使用 QM 技术计算分子的电子结构,并采用 GP 将计算的 HOMO 和 LUMO 校准到实验确定的值。该工作流程用于筛选 51 000 多个分子,以识别潜在的非富勒烯受体材料。

如果可以改善 PCE,金属氧化物是太阳能电池的另一种选择。Yosipof 等人开发了一个数据挖掘和机器学习工作流程来分析基于钛和铜氧化物的两个太阳能电池库。该工作流程可以有效地突出对光伏特性影响最大的描述符,并表现出良好的预测能力。

CO 2捕获

人为CO2排放是全球气候变化的关键因素。开发用于从大气中捕获和封存CO 2的材料是 21 世纪的重大挑战之一。具有大孔体积、超高表面积和可调孔隙率的金属有机骨架 (MOF) 可为 CO 2捕获提供丰富的吸附位点。非常多样的金属离子或簇与有机配体的组合是可取的,并且可以导致无数组合。因此,通过 QM 计算或实验来评估每个 MOF 是不可行的。

Woo 及其同事在基于 ML的 CO2捕获领域做出了努力。他们报告了 MOF 气体吸附的大规模定量结构-性能关系 (QSPR) 分析。已经研究了包括甲烷、N 2和CO 2的气体吸附能力。引入了原子性质加权径向分布函数 (AP-RDF) 来捕捉化学和几何特征。非线性回归模型(例如 SVM)可以很好地预测不同压力下的绝对 CO 2捕获值。QSPR 由 32 450 个 MOF 的数据库训练,然后用于筛选 292 050 个 MOF。该模型可以捕获 1000 个顶级 MOF 中的 945 个,表明​​其准确性。最近,他们进一步使用 QSPR 模型来预测MOF 中CO 2工作容量和 CO 2 /H 2选择性。同样,Borboudakis 等人使用 Just Add Data 生成 ML 模型,以100 个 MOF 的实验数据作为训练集来预测MOF的 CO 2和 H 2吸附特性。结果表明,MOFs 的化学性质可以通过 ML 方法进行预测,随着样本量的增加预测精度也随之提高。在另一项工作中,安德森等人训练了六种 ML 算法,包括 SVM、DT、RF、NN、GBR 和 MLR,以研究孔隙化学拓扑特征在改善MOF的 CO 2捕获中的作用。预测结果表明用羟基、硫醇、氨基、氰基或硝基官能化将提高CO 2捕获。

3.2 实验探索成功

多年来困扰实验者的核心问题之一是不可预测的化学反应路线。反应途径的数量如此之多,以至于研究人员需要设置特殊条件来降低分析难度。然而,虽然这些化合物可以成功制备,但其原理仍不清楚。对于可控合成,计算方法辅助实验,早在1969年被采用。与过去不同的是,现代的计算能力足够强大承办的“大数据”学习的目标。因此,辅助实验的新程序更可信。

ML方法对有机材料的成功激发了其他材料的研究热情。尽管早期的尝试是由有机化学家发起的,但计算模拟证明了无机或混合结构的巨大应用潜力。尤其是能量储存和转换材料家族中有大量的无机化合物。能源短缺和环境问题的紧迫性使得实验室的成果需要尽快投入实际应用。计算机预模拟加速了这一期望的实现。但是,一般来说,较大的系统是与实际对象最相似的系统,因此在使用从头算方法等通用计算方法时,很难保持成本和有效性之间的平衡。幸运的是,结合ML和材料科学的技术将助于实现这个目标。

对于考虑实验实现的材料设计,相关算法的研究意图与用于性能预测的ML方法不同。模型设计的出发点应该倾向于辅助实验。钙钛矿作为一种最具潜力的能量转换材料,已经渗透到太阳能电池、催化剂、电池等能源领域。 Balachandran 等人强调了关键因素,材料的稳定性,对于构建有意义的机器学习和实验辅助的主动学习方法至关重要。值得注意的是,他们还使用失败和成功的实验数据来训练他们的 ML 模型。此外,通过分类算法与回归方法相结合的方法,相比于分类划分的限制,该模型显示出优越性。从而保证了该工艺筛选出的候选结构在实验合成和应用的可能性。此外,钙钛矿固溶体这种复杂材料的成功结果显示了 ML 方法的威力。对于另一种新型重要能源材料二维(2D)材料而言,实验制备的成功也是其广泛应用的障碍。使用正和未标记 (PU) ML 方法来解决此问题。考虑到较大的化学搜索空间和许多成功合成的例子,训练模型探索了目前具有较高代表性的材料,二维过渡金属碳化物、碳氮化物和氮化物MXenes。简单元素信息的输入通过主成分分析 (PCA) 进行分类,分离最相关的表示。根据实验数据,对模型进行k折交叉验证,这种验证方法保证了可靠性。还应用了其他经过验证的方法来弥补阳性样本量小的缺点。筛选出 111 个 MAX 结构和 18 个 MXenes,并有可能进行实验制备。

材料表征是实验中不可缺少的部分。计算方法已被用于模拟各种表征技术的图形,如扫描电子显微镜 (SEM)、固态核磁共振 (NMR)、红外光谱 (IR)、X 射线吸收近边光谱 (XANES) )和 X 射线吸收精细结构光谱 (EXAFS)。这些新技术的应用使材料表征进入了一个新时代。此外,与传统的计算方法相比,ML 方法可以提供廉价且高精度的模拟过程。帕鲁佐等人报告了用于模拟固体中化学位移结果的 ML 工作流程,这些结果总是由 NMR 获得。ML 模型基于剑桥结构数据库 (CSD) 的计算数据,即使在训练步骤中没有使用实验移位数据,模型也具有可接受的准确性。在大大缩短计算时间后,计算出一个晶胞中超过1000个原子的大分子晶体。Hu 等人使用 RF 方法来辅助表面增强拉曼光谱 (SERS) 的信号预测,这也弥补了从头算方法在光谱模拟中的缺点。

4. 挑战和前景

以MGI为例,科学技术的飞速发展导致数据的爆发式增长,这为ML进一步突破提供了机会。尤其是结合计算或实验,ML技术在储能和转换材料的开发方面取得了重大成果。ML 在该领域的一个主要应用是揭示结构、性能和性能之间的关系,进一步指导新材料的发现和设计。

此外,与 QM 方法相比,ML 势允许在更长的时间尺度上以更高的精度模拟更大的系统。实验辅助 ML 方法的成功不仅鼓励了该领域的发展,而且这种不完整的成就也对研究人员提出了挑战。特别是,虽然机器学习是基于数据的科学,模型的质量通常取决于数据库的大小,但由于缺乏实验数据库,材料科学迫切需要建立由相对较小的数据库训练的机器学习模型。然而,仍有许多挑战需要面对。

通常,ML 需要非常大量的数据进行学习以保证准确性。但是,在材料科学中,数据大小通常限制在数百甚至数十个。随着MGI的进展,已经建立了几个数据库,但更多的公开数据没有体现在数据库中,甚至更多可以用来训练机器学习模型的“失败数据”也没有被报道。未来,研究人员可以以计算机可读的形式报告数据,以进一步共享数据。该问题的另一个解决方案是允许计算机处理和理解人类语言。自然语言处理是人工智能的一个分支,是不错的选择。文本挖掘技术已广泛应用于化学和材料科学。此外,机器渴望一次性学习的能力,从少数甚至单个标记的例子中学习一个类,它起源于人类,可以解决数据集有限的问题。关键是学会学习,也叫元学习,已经在图像识别中使用了。有几种方法是为元学习开发,值得引入给材料科学有限的数据集。此外,训练数据的质量非常重要。如果材料数据来自不同的出版物,或多或少会带来噪音或偏见。

ML 模型的成功在很大程度上取决于特征的选择。大多数当前的特征选择过程通常由研究人员的经验和直觉决定。它是一种常用的方法来迭代初始特征集,直到性能变得可以接受。但是,人工选择可能会忽略一些有用的特征。自动化特征工程可以帮助非专家用户训练模型并显着减少人为错误。

目前,ML 模型通常是一个连接输入和输出的“黑匣子”,阻碍了物理意义。因此,很难从 ML 模型中提取知识,然后将其概括为一般案例的科学规律。到目前为止,由于多种原因,ML 模型的可解释性也是一个关键挑战。将 ML 模型中的连接权重转换为公式非常困难。此外,模型之外的科学定律可能太复杂而无法理解。许多努力致力于提高 ML 模型的可解释性。开发更多可解释的算法是一种有效的方法。举个例子,Yang 报告了一种可以识别 ANN 变量的方法,并且可以显着阐明黑盒机制。此外,还可以从结果中提取物理意义。例如,Suntivich 等人报道了析氧反应的电催化性能与Eg占有率有关,然后 Zhou 等人揭示Eg占有率的物理意义是其控制了电子电导率

各种 ML 算法已广泛应用于材料科学。没有适合所有问题的单一算法。ML算法的选择取决于数据集的内部相关性、分布和大小、问题的线性或非线性以及其他一些重要因素。例如,对于局部数据相关的情况,kNN 是一种简单而有效的方法,而 RF 和 SVM 可能对非局部问题有效。对于线性问题,线性回归可能是快速且可靠的。此外,还应考虑时间消耗。例如,NN 算法需要很长的训练时间,而 kNN 方法训练速度快但测试速度低。如上所述,由于材料科学中的数据量非常小,ML 在材料科学中的时间消耗目前并不重要。但是,随着 MGI 的发展,数据量会迅速增加,时间消耗将更加重要。因此,机器学习算法的合理选择是机器学习应用的核心。到目前为止,材料科学中的 ML 研究主要依赖于监督学习。除了监督学习,半监督学习、无监督学习和其他新的机器学习方法在材料科学中也有广泛的应用。例如,Tran 等人应用主动学习方法预测CO 2还原和H 2析出的电催化性能。Zhang 等人使用无监督学习开发了一种有用的方法来研究小数据集,并成功地提出了锂电池的潜在固体电解质。Sun 等人应用无监督方法对不同的三元氮化物进行分类。更有效的半监督和无监督学习算法将被开发并广泛应用于材料科学。

随着概率、统计学、计算机和材料科学等多学科领域的发展,ML技术有可能给材料科学带来变革,强大的人工智能将成为材料开发的现实。