Cutting-Edge Applications of Machine Learning in the Electrochemical Reduction of CO 2
The drastic consumption of fossil fuels has led to an increase in atmospheric carbon dioxide levels, triggering global warming and an energy crisis. Converting CO 2into carbon-based fuels is considered an effective way to mitigate the greenhouse gas effect and alleviate the energy crisis. Metal-organic framework materials (MOFs) have attracted attention in the electrochemical conversion of CO 2with their high catalytic activity and excellent stability. However, due to the multiple structures and compositions of MOFs, traditional trial-and-error experimental methods to explore their electrochemical reduction properties become time-consuming and expensive. Therefore, the emergence of machine learning methods provides new ways to predict the electrochemical performance of metal-organic frameworks and screen electro catalysts. The aim of this review is to present in detail the research progress of machine learning methods in predicting the performance of electro catalysts, with a focus on reviewing the application of machine learning in the field of electrochemical reduction of carbon dioxide as well as in the prediction of metal-organic frameworks (MOFs) in electrochemistry and efficiently predicting the catalytic activity and optimal composition of various types of potential materials through high-throughput calculations using key descriptors. Machine learning has great promise and application potential in the field of electrochemical reduction of CO 2by metal-organic frameworks (MOFs). They are expected to advance the field of sustainable energy and environmental protection, offering potentially innovative solutions to address major challenges such as global warming and growing energy demand.
Electrochemical Reduction of CO 2
过量的二氧化碳(CO2)排放,引发了全球气候变暖和能源危机。工业活动排放和燃油车辆尾气是大气中CO2的主要来源
CO2reduction reations |
(V VS RHE) |
|
−1.90 |
|
−0.20 |
|
−0.11 |
|
−0.07 |
|
0.03 |
|
0.17 |
|
0.08 |
|
0.09 |
根据金属有机框架材料(MOFs)在电催化还原二氧化碳领域的最新应用进展,我们发现,MOFs作为催化剂在促进二氧化碳电催化中具有巨大的潜力。此外,我们详细介绍了机器学习的核心概念和方法,并探讨了机器学习在预测和筛选二氧化碳还原电催化剂方面的功能和最新进展。这项研究强调了引入机器学习技术对于MOFs的电催化性能预测和催化剂筛选具有重要的潜力,并对机器学习在二氧化碳还原领域的未来前景进行了展望。
MOFs的高度可调性使其成为优秀的催化剂载体。通过调整金属离子的种类、有机配体的结构以及孔结构,可以创造出具有特定反应活性中心的MOFs,有利于促进CO2的催化转化。这些活性中心可以提供活化CO2的能力,从而实现高效的催化反应。
MOFs的金属离子种类在二氧化碳的电催化还原反应中涉及一种重要的原理,即过渡金属的催化活性。不同金属离子具有不同的电子结构和能级分布,这将直接影响它们与反应底物(如二氧化碳)之间的相互作用,有机配体的功能在于为金属中心提供配位环境,可以调整催化剂的电子状态和配位结构。这些因素直接影响了反应过程中催化剂与反应物之间的相互作用。有机配体的配位键可以与金属离子进行配位,其结构也可以调节MOFs催化活性位点的酸碱性和电子亲和性,从而影响催化反应的速率和选择性。乔世璋等人研究单原子催化剂(SACs)的不同金属离子的电子结构和能级分布在催化反应中起着关键作用,通过调整金属原子和配位结构,实现了高选择性的氧还原反应(ORR)催化,为多电子电催化提供了新的调控机会
因此,通过选择适当的金属离子,选择合适的有机配体的为金属中心提供配位环境。通过调节催化剂的活性和选择性,从而实现更高效和可选择的二氧化碳催化转化。这种调节金属离子种类的策略在设计和优化催化剂的性能方面具有重要的应用价值。
通过调整MOFs的成分和结构,可以实现对特定产物的选择性提高以及反应稳定性的增强。这种优化可以通过设计具有特定孔结构和功能基团的MOFs来实现,从而实现所需的反应路径和产物分布。金属有机框架(MOFs) 是由金属离子或簇团与有机配体构建而成的晶体材料。它们的成分可以通过选择不同的金属离子和有机配体来实现精确的调控。例如,庞欢教授研究发现在储能方面,MOFs的成分可控性使其具备优势,可以根据需要设计具有特定性能和功能的材料。在电池和超级电容器等能量存储领域具有重要应用潜力,并总结了MOF复合材料在多种电池和超级电容器中的应用
MOFs作为相对新颖的材料,为电催化CO2转化领域带来了新的催化机制的探索。其独特的结构和电子性质可能引发新的催化途径,从而为CO2转化提供更多创新思路。
在经典的机器学习流程中,首要步骤是从原始数据中识别出独立的变量。近年来,一些数据库已经建立并积累了过去一个世纪的大量材料数据,这为机器学习提供了丰富的原始信息,从而极大地促进了机器学习的发展。当前,关于金属有机框架(MOFs)的数据库基本上可以分为两类,一类是由实验合成的MOFs (eMOFs)组成的数据库,另一类是由计算机合成的MOFs (hMOFs)组成的数据库。不过,许多研究者目前仍然采取手动从文献中搜集所需的相关数据点,以创建适合自己研究需求的数据集。
在收集充足数据后,将原始数据转化为所需的定量参数成为构建精确预测目标性质模型的关键步骤。特征工程是机器学习的一个过程,选择与所关注性质特点相关的输入参数(特征)。对于催化材料,特征与晶体结构、元素组成和电子性质有关,这些特征可用于揭示和预测活性、稳定性和选择性等指定性质。为了预测材料性质,将特征转化为适用于机器学习算法的值(描述符)是必要的,通常以数字、向量、矩阵或字符字符串形式呈现。这些描述符应具备通用性和有效性。重要的描述符包括电催化剂在电催化二氧化碳反应中的性能,它反映了催化剂与反应物之间的关系。由于特征用于构建多种机器学习模型,因此找到适当的特征选择方法对于获得准确且高效的模型至关重要。在先前的研究中,研究人员通过选择不同维度和类型的特征构建了多样的机器学习模型。
良好的机器学习方法应该在尽可能少的计算资源下,能够快速准确的预测广泛覆盖的材料的性能。因此选择合适的机器学习模型对于获得更为合理的预测结果具有重要作用。目前,一些广泛应用于催化剂的性能的预测和筛选的流行方法包括线性回归(linear regression, LR),决策树(Decision Tree, DT)、集成算法(Ensemble Algorithm, EA)、支持向量机(Support Vector Machine, SVM)以及人工神经网络(Artificial Neural Network, ANN)。
(1) 线性回归(linear regression, LR)
线性回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。具体目标如
(2) 决策树(Decision Tree, DT)
此算法主要是指决策树进行创建中进行树分裂(划分数据集)的时候选取最优特征的算法,他的主要目的就是要选取一个特征能够将分开的数据集尽量的规整,也就是尽可能的纯。最大的原则就是:将无序的数据变得更加有序,如
(3) 集成学习算法(Ensemble Algorithm, EA)
通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长,能在机器学习算法中拥有较高的准确率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前常见的集成学习算法主要有2种:基于Bagging的算法和基于Boosting的算法,基于Bagging的代表算法有随机森林,而基于Boosting的代表算法则有Adaboost、GBDT、XGBOOST等。
(4) 支持向量机(SVM)
一种用来解决二分类问题的机器学习算法,它通过在样本空间中找到一个划分超平面,将不同类别的样本分开,同时使得两个点集到此平面的最小距离最大,两个点集中的边缘点到此平面的距离最大。如下图所示,图中有方形和圆形两类样本,支持向量机的目标就是找到一条直线,将圆形和方形分开,同时所有圆形和方形到这条直线的距离加起来的值最大。
(5) 人工神经网络(ANN)
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络具有三种层:输入层、隐藏层和输出层
模型验证是确保训练出的模型能够在新数据上具有良好泛化能力的重要步骤。这一过程通常分为两个关键阶段:训练集和测试集划分。首先,通过将数据分成训练集和测试集,模型可以在训练集上学习数据的模式和特征。其次,在测试集上对模型进行评估,模型将对测试集进行预测,预测结果与测试集的真实标签进行比较,从而评估模型的性能。
模型验证的目标是避免过度拟合和高偏差。过度拟合指模型在训练数据上表现很好,但在新数据上表现较差,这是因为模型过于复杂,学习了训练数据中的噪声。而高偏差则表示模型过于简单,未能捕捉数据中的复杂关系,导致在训练和测试数据上都表现不佳。交叉验证是一种常用的验证方法,旨在更准确地评估模型的性能和稳定性。它将数据集分成多个子集,多次进行训练和验证。在每次迭代中,一个子集被作为测试集,其余子集作为训练集,从而保证了每个子集都被用于测试和训练。交叉验证能够有效减少模型性能的随机波动,提供更可靠的评估结果。
验证结果有助于选择最佳模型并优化其性能,以确保在新数据上的准确预测。通过合理的模型验证,可以提高模型的泛化能力,使其在实际应用中能够产生可信赖的预测结果。现有机器学习的基本流程如
Beyza_Yılmaz等人
张宁等人
Hirofumi Hazama等人
李淑媛等
本篇综述旨在详细介绍了机器学习方法在预测电催化剂性能方面的最新研究进展,并侧重于电催化二氧化碳领域中金属有机框架(MOFs)的应用前景。(1) 首先,全面阐述金属有机框架在电催化还原二氧化碳领域的研究进展,MOFs以其可精确设计的反应活性位点、可变金属离子类型、有机配体结构、不饱和配位位点、多孔结构和可调整的组成结构电催化领域中具有巨大潜力。然后,详细解释了机器学习的核心过程,强调了合适机器学习算法的选择对于准确性至关重要。其中涵盖了多种机器学习算法,包括但不限于人工神经网络、k最近邻算法、决策树和核方法。这些算法可用于构建预测模型,以预测MOFs的电催化性能。(2) 综述了机器学习在金属有机框架电催化领域的应用。通过引入机器学习,能够更迅速的理解电催化剂的性能,特别是在不同条件下的性能预测。这有助于加速MOFs新材料的发现和设计过程。并通过研究表明,机器学习模型能够高度准确地预测实验结果,并捕捉到在不同实验条件下的性能变化趋势。这些模型还可用于快速筛选潜在的电催化还原二氧化碳催化剂。(3) 回顾了机器学习在MOFs电催化还原二氧化碳领域的研究,发现之前研究的催化剂大多为过渡金属和合金材料,而MOFs作为潜在的催化剂材料却受到了较少的关注。这可能是因为MOFs的物理性质更为复杂,需要考虑更多的特征,如带隙、电荷转移和配位数等。然而,随着MOFs电催化领域的不断成熟,引入机器学习为该领域带来了巨大的潜力,有望加速对MOFs电催化性能的理解以及所需催化剂的筛选,这将对可持续能源和环境保护产生积极影响。
尽管在将机器学习应用于电催化的自动发现和开发方面取得了显著进展,但仍然存在一些具有挑战性的问题如下。(1) 构建准确且广泛适用的机器学习模型需要大量高质量的数据集,然而获取这些数据集通常具有文献中数据缺失和成本较高的阻碍。比如,已发表的文献中可能包含了构建机器学习模型所需的关键数据,但催化反应的结果不仅受实验参数(如温度、电解液浓度、压力和通入气体的流速)影响,还受其他可能被忽视的条件敏感,如反应器的种类(如H-cell、double-cell等)和搅拌速度。这种差异性可能会导致无法准确的对不同的已发表结果的比较。为了解决这个问题,更加严格地记录实验中的所有相关数据以及使用的器械和材料来标准化实验条件将变得至关重要。(2) 数据的可靠性也是一个重要问题。因此,在将已发表数据添加到训练集之前,由催化剂领域的专家对这些数据进行关键分析和验证显得至关重要。此外,机器学习模型可能存在偏见,因为通常只有评估指标较高的的结果才会被输出,对于性能较差或者无活性的材料也包含在机器学习训练的有用信息中。针对这一问题,未来广泛采用高通量合成方法更全面地探索高效的催化剂,有望解决对无效信息的收集,包括那些可能在传统实验中被忽略的材料和反应。
*通讯作者。