【分子材料发现】——数据集详解Open Catalyst 2022(OC22)

Open Catalyst 2022 Dataset

0 Abstract

    机器学习模型在电催化剂开发中的应用需要大量的训练数据,以确保它们能够在各种材料上使用。目前,氧化物这一类材料缺乏足够的训练数据,这对于氧进化反应(Oxide Evolution Reaction, OER)催化剂的开发至关重要。为了解决这个问题,开发了Open Catalyst 2022(OC22)数据集,该数据集包含了62,331个密度泛函理论(DFT)松弛计算(约9,854,504个单点计算)涵盖了一系列氧化物材料、覆盖度和吸附物。OC22定义了广义的总能量任务,使得能够预测包含吸附能量以外的其他属性;测试了几种图神经网络的基线性能;提供了预定义的数据集划分,为未来的工作建立清晰的基准。在最通用的任务中,GemNet-OC通过微调结合化学性质不同的Open Catalyst 2020数据集(OC20)和OC22数据集,在能量预测上实现了约36%的改进。类似地,在使用联合训练时,在OC20上实现了约19%的总能量预测改进,在OC22上实现了约9%的力预测改进。通过捕获文献中的吸附能和重要的OER标度关系,展示了最佳表现模型的实际效用。预计OC22将为那些寻求在氧化物表面纳入复杂的长程电静力和磁相互作用的模型提供一个重要的基准。数据集和基线模型已经开源,并且提供了一个公共排行榜,以鼓励社区在总能量任务和数据上继续发展。

1 Overview

    OC22旨在补充OC20,后者没有包含任何氧化物材料,并进一步推动催化领域通用机器学习(ML)模型的发展。这个数据集涵盖了氧化物表面的构型复杂性,包括不同的surface termination(表面终止)、adsorbate+slab configuration(吸附构型)和coverage(覆盖),以及non-stoichiometric substitution(非化学计量替代)和vacancy(空位)。为了包含这个数据集中的额外复杂性,还扩展了OC20中的主要任务,将DFT总能量作为一个目标。DFT总能量是一个更通用的属性,它提供了解决不仅需要简单吸附能量的其他应用的潜力。
    OC22旨在提供一个训练数据集,用于构建能够预测氧化物表面上催化反应的通用模型。为了实现这一目标,分四个阶段构建了数据集:(1)bulk selection,(2)surface selection,(3)initial structure generation,以及(4)structure relaxation。数据集包含了19,142个slab system和43,189个adsorbate+slab system。这导致了9,854,504个单点计算,每个计算得到的力和能量数据后来被划分为合适的训练、验证和测试集。在构建数据集时,优先考虑了组成(composition)、表面终止(surface termination)和吸附构型(adsorbate configuration)的多样性,以确保模型能够很好地泛化。由于OC22强调创建一个无偏见和多样化的数据集,OC22结构可能并不总是最稳定或与特定感兴趣的反应路径相关,但OC22对于构建通用模型仍然有意义。

2 Architecture

Table 1

2.1 Bulk Selection

    首先,将体相氧化物材料的范围限定在Material Project中的4,728种一元( A x O y A_xO_y AxOy)和二元( A x B y O z A_xB_yO_z AxByOz)金属氧化物上,其中A和B是金属。在OC22考虑的51种金属中,基于铈的氧化化合物在催化反应中的实用性,以及为了增加基于镥的氧化物的多样性,铈(Ce)和镥(Lu)是唯一考虑的镧系元素。
    对于每个化学体系,考虑了energy above hull的前五个最低能量的bulk material,且这些bulk的原子数少于150个,以在氧化物集合中提供平等的化学分布和多样性。根据这一标准,一些材料可能表现出超过0.1eV/atom的energy above hull(OC20最初使用的阈值)。除了化学多样性外,还包括了具有各种Energy Gap( E G E_G EG)的材料。Table 1列出了OC22数据集中考虑的金属性( E G = 0 e V E_G = 0eV EG=0eV)、半导体性( 0 e V < E G < 3.2 e V 0eV < E_G < 3.2eV 0eV<EG<3.2eV)和绝缘性( E G > 3.2 e V E_G > 3.2eV EG>3.2eV)材料的数量(所有电子性质均来Material Project)。
    OC22对体相氧化物的选择标准优先考虑了化学多样性而非稳定性,所选择的许多材料在电化学上是不稳定的。OC22还忽略了某些化学体系比其他体系有更多的不同体结构的事实。例如,Material Project数据库报告了Ti-O和Mn-Li-O等化学体系超过300条体系结构的记录,而200个化学体系没有记录。

2.2 Surface Selection

Figure 2

    首先,将数据集限制在少于250个原子的slab上,从原始的4,728个体相氧化物集合中随机抽取了4,286个体相氧化物来构建数据集。
    使用Figure 2中显示的过程构建每个slab和adsorbate+slab。给定从bulk数据集中随机选择的一个氧化物,枚举所有可能的surface terminations,最大米勒指数≤3。Figure 2(a)所示,所有slab都以相同的终止表面封顶,不考虑化学计量比。随机选择一个终止面,将其复制到至少8Å的深度和每个横截面方向至少8Å的宽度。接下来,首先识别表面上所有现有的氧晶格位点,然后随机选择一定数量的表面氧原子移除,范围从0(无空位)到所有表面氧原子,这些氧空位可以作为反应(如CO2捕获和OER)的活性位点。在另一个表面上做同样的操作,以保持表面对称性,避免导致发散DFT能量的非物理偶极矩的产生。Table 1总结了整个slab和adsorbate+slab数据集的元素组成、晶体结构、体相带隙和成分数量的分布情况。

2.3 Initial Structure Generation

Figure 3

    为了构建adsorbate+slab system,首先从Figure 3中显示的集合中随机抽取一个adsorbate。这个吸附物集合包括O*、OH*、OH2*、OOH*和O2*,它们是OER(氧进化反应)提出的反应机理中的中间体。为了扩展氧化物上吸附物的可能化学性质,不仅仅局限于OER,OC22还包括了单原子的H*、O*、N*和C*,以及CO*。Table 1显示了数据集中9种抽样adsorbate的分布情况。
    然后确定随机adsorbate在随机构建的slab上的覆盖度。与OC20数据集不同,这里我们允许同一类型的adsorbate在表面上结合超过一个。adsorbate可以结合到三种类型的位点:表面氧、配位不足的表面金属或氧空位。表面上允许的吸附物的最大数量由这三种类型的位点之和限制。同时还确保所有吸附物始终被分隔开,距离大于宿主材料的M-O键,以避免吸附物过度拥挤。
    这项工作中实施了将吸附物放置在上述表面位点上的特定策略,如Figure 3所示。放置策略的第一行展示了所有吸附物都能结合到任何在氧的晶格位置上配位不足的表面金属。这包括在slab生成过程中引入的空位的晶格位置。含有氧的吸附物将始终通过氧原子与金属结合,如OH*、O2*、CO*、H2O*和OOH*所示。还考虑了由于氧二聚体的形成而产生的中间体,这在OER的可能机制之一中发挥作用。在这种构型中,一对单原子氧原子可以吸附在相邻的配位不足的金属上,形成一个1.68Å的二聚体,这比O2*的键长要长。
    第二行展示了特定分子如何在添加氧原子后能够形成新分子,也可以与现有的表面氧结合。例如,单原子吸附物与表面氧结合将形成一个二聚体分子,而CO*和OH*可以分别结合形成CO2*和OOH*。将这些反应纳入数据集将允许探索仅在氧化物上可能的中间表面反应。最后,还允许所有吸附物在表面法线方向上具有四重旋转自由度。在识别吸附物位点后,为表面上的每个吸附物随机选择旋转程度。

2.4 Structure Relaxation

    OC22数据集在计算设置上与OC20数据集有所不同。OC22数据集采用Perdew-Burke-Ernzerhof (PBE),广义梯度近似(GGA)来模拟交换相关效应,这通常被用于模拟氧化物的表面反应。相比之下,OC20数据集使用的是RPBE DFT泛函。OC22还在一些过渡金属氧化物中考虑了强电子相关性,根据Material Project应用Hubbard U校正。Table 1的最后一行显示了使用Hubbard U校正计算的slab和adsorbate+slab的总数。
    与OC20数据集不同,OC22数据集中的所有计算都进行了自旋极化处理,以考虑金属氧化物中的重要自旋态。尽管一些氧化物材料表现出磁性多态性,我们只考虑了每种slab的一种多态性,所有slab都根据Horton等人建议的每种金属的磁矩,初始化为铁磁性或非磁性配置。单个晶体结构的不同磁性状态可以显著改变表面的热力学性质。例如,金红石型 V O 2 VO_2 VO2已被证明具有几种不同的自旋态,其非磁性表面产生的表面能显著低于相同slab的铁磁性表面。
    OC22对slab和adsorbate+slab中的所有原子进行松弛。这不仅会产生更低的DFT能量,还通过确保两个表面都松弛,允许进行更准确的表面能量计算。这与OC20数据集不同,在OC20数据集中,只有adsorbate和表面原子进行了松弛。不能以离子方式收敛的系统被留作备用任务。所有中间结构、能量和力都存储起来,以供未来的训练和评估使用。用于生成所有输入slab和adsorbate+slab的算法是在Python Materials Genomics (pymatgen)的帮助下构建的,可以在Open Catalyst Dataset仓库中找到(https://github.com/Open-Catalyst-Project/Open-Catalyst-Dataset/tree/OC22_dataset)。所有计算都是使用VASP进行的。

3 Task

Figure 4

    OC22数据集的目标是高效地模拟与OER以及其他氧化物应用实际相关的原子系统。一种筛选材料的方法依赖于简单的描述符,如吸附能量和表面能量。这些描述符连同Sabatier原理和表面Pourbaix图可以用来与更复杂的输出如活性和选择性相关联。进行此类研究的主要瓶颈是计算成本高昂的DFT计算,对于OC22来说,这个问题更加严重,因为它的系统比OC20更大、更复杂。OC22再次关注结构松弛,因为它们已经被证明是预测催化剂活性的有用手段。为OC20开发的模型在它们提出的任务上已经取得了很大的进展,在所有的OC20任务中,能量被引用来代表吸附能量。虽然这对筛选目的有利,但这种使用限制了模型只能研究adsorbate+slab组合,而不能单独研究任何一个。在OER的背景下,这尤其成问题,因为典型的发现流程需要探索不同的表面覆盖度和构型。Figure 4展示了OER的典型工作流程,其中在进行吸附计算之前,研究不同的表面终止是必要的。因此提出了修改后的OC20任务的变体,使模型能够在有和没有吸附物的情况下进行研究。
    在所有任务中,结构可以包含surface和adsorbate的组合,或者只是一个孤立的surface(即slab)。surface为各方向的单胞周期,真空层至少为12Å。所有ground truth都是使用DFT计算的。
Table 2

    对于所有任务,能量是参照吸附能量来计算的。下面简要总结OC20的任务:
    结构到能量和力(Structure to Energy and Forces,S2EF)任务根据一个给定的结构,预测能量和每个原子的力;初始结构到松弛能量(Initial Structure to Relaxed Energy, IS2RE)任务给定一个初始结构,并预测松弛后的能量;初始结构到松弛结构(Initial Structure to Relaxed Structure,IS2RS)任务给定一个初始结构,并预测松弛后的结构。每个任务的训练和验证集的大小列在Table 2中。在OC20和OC22的策划中,slab和adsorbate+slab是并行松弛的,adsorbate被放置在未松弛的slab上。OC20在计算吸附能量时做了一个假设,即相应的松弛slab参考与adsorbate+slab的参考值相当。这个假设是可行的,因为大部分的表面是有约束的。
    与OC20不同,在OC22中所有的表面原子都没有约束。这使得研究者能够研究其他表面性质,如表面能量。然而,之前假设clean surface和adsorbate+slab表面是可比的,这一假设不再成立。如果以OC20相同的方式计算吸附能量将会对应一个错误的参考值,导致一个不适定的、噪声的答案。相反,OC22修改了OC20的S2EF和IS2RE任务,将目标改为DFT总能量,而不是吸附能量;对IS2RS任务不做修改,直接使用。

  • Structure to Total Energy and Forces (S2EF-Total)
    S2EF-Total接受一个给定的结构,预测DFT总能量和每个原子的力。与S2EF相比,S2EF-Total只在能量预测上有所不同。S2EF采用DFT总能量,并通过减去clean surface和气相adsorbate的能量来进行参照。S2EF-Total只关注DFT总能量。这两个任务之间的关系如下:
    Δ E S 2 E F = E ^ S 2 E F − T o t a l − E s l a b D F T − E g a s D F T \Delta E_{S2EF} = \hat{E}_{S2EF-Total} - E^{DFT}_{slab} - E^{DFT}_{gas} ΔES2EF=E^S2EFTotalEslabDFTEgasDFT
  • Initial Structure to Total Relaxed Energy (IS2RE-Total)
    IS2RE-Total接受一个给定的结构,并预测松弛后的DFT总能量。与S2EF-Total类似,IS2RE-Total与IS2RE的关系如下:
    Δ E I S 2 R E = E ^ I S 2 R E − T o t a l − E s l a b D F T − E g a s D F T \Delta E_{IS2RE} = \hat{E}_{IS2RE-Total} - E^{DFT}_{slab} - E^{DFT}_{gas} ΔEIS2RE=E^IS2RETotalEslabDFTEgasDFT
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值