AdsorbDiff: Adsorbate Placement via Conditional Denoising Diffusion
paper:https://arxiv.org/abs/2405.03962
code:https://bgithub.xyz/AdeeshKolluru/AdsorbDiff
该论文提出了一种名为AdsorbDiff的新方法,通过条件去噪扩散模型优化吸附物在催化剂表面的位置和取向,显著提升了吸附能计算的效率和准确性。
0. abstract
确定吸附质在吸附基底上的最佳配置对于探索新型催化剂的各种应用至关重要。传统上,寻找能量最低的吸附剂配置需要将吸附质放置到吸附基底上,然后进行优化。之前的方法依赖于启发式方法、针对特定问题的直觉或野蛮方法来指导吸附剂的放置。在这项工作中,我们提出了一种利用去噪扩散进行吸附质放置的新型框架。该模型旨在预测与最低能量配置相对应的最佳吸附质的位置和方向。此外,我们还提出了一个端到端的评估框架,即利用预训练的机器学习力场对扩散预测的吸附剂构型进行优化,最后利用密度泛函理论(DFT)进行评估。我们的研究结果表明,与之前的最佳方法相比,该方法的准确性提高了 5 倍或 3.5 倍。鉴于这一框架和应用的新颖性,我们深入探讨了预训练和模型架构的影响,并进行了大量实验,以强调这种方法的重要性。
1. Introduction
异质催化在开发工业化学品、通过转化器保护环境以及合成替代燃料方面发挥着重要作用。这些化学反应的模型涉及催化基底上的中间吸附质,它决定了催化剂在特定反应中的功效。通过计算发现新型催化剂需要筛选数十亿种候选催化剂,并找到能量最低的构型。
要找到吸附质和基底的最低能量构型,需要在基底的不同位置上进行全局最优(非凸)搜索。传统方法分两步解决这个问题–(1) 启发式地将吸附剂置于某些重要位点上,(2) 使用量子力学计算(如密度泛函理论 (DFT))对每个位点进行优化。 在计算吸附能时,会考虑其中能量最低的吸附位点,吸附能是衡量催化剂性能好坏的热力学描述指标。随着最近用于预测作用力的机器学习方法的进步,使用 ML 力场 (MLFF) 代替密度泛函理论 (DFT) 进行优化已成为可能,从而使这一过程更快、更容易测试许多位点并找到更好的最小值。这些 ML 力场通过 DFT 数据进行训练,以预测与不同 adslab 配置相对应的能量和力。
最近发布的 OC20-Dense 数据集标志着在计算能量最低的 adslab 配置方面取得了重大进展。 这项研究混合采用启发式和随机吸附质吸附的 100 个位点,然后使用密度泛函理论(DFT)对每个位点进行优化,计算吸附能。 研究进一步介绍了 AdsorbML,这是一种以对初始吸附质位置进行粗暴探索为特征的范例。AdsorbML 采用来自 OC20 的预训练机器学习(ML)力场,简化了优化过程,最终确定了能量最低的吸附质-吸附基底(adslab)配置。对照 DFT 单点或完整的 DFT 优化,这些配置的预测准确性得到了严格验证。与单纯依赖 DFT 计算相比,这种混合方法使吸附能计算加速了 2000 倍。
基于图神经网络(GNN)的 ML 架构的最新发展,通过更明确地编码原子的几何信息,大大提高了吸附能预测的准确性。然而,在改进吸附位点预测方面,几乎没有任何工作可以帮助我们摆脱目前使用的 “蛮力 ”方法。
在这项工作中,我们开发了一种用于吸附质放置的新型条件去噪扩散框架。==我们首先在考虑表面周期性边界条件(PBC)的情况下,针对吸附分子在表面上的二维平移和三维刚性旋转空间,构建了一个扩散框架。通过已学习的扩散过程,我们迭代更新吸附分子的质心位置和刚性取向,从而采样得到最稳定的吸附位点。==在最理想的吸附剂位点和方向上执行简单的无条件扩散框架–对应于 OC20-Dense 中 100 个密集采样计算中能量最低的 adslab 配置–会导致丢弃 99% 的 DFT 最佳能量数据。 因此,我们将扩散训练修改为以相对能量为条件(相对于 adslab 组合的密集采样点)。 这就大大提高了扩散训练的准确性和样本效率。在对slab上adsorbate的最佳位置和方向进行采样后,我们进行了类似于 AdsorbML 的 ML 力场 (MLFF) 优化和 DFT 单点验证。这种全面的端到端评估有助于对所学传播模型的实际影响进行稳健的评估。
分子和材料发现中的扩散生成模型以及蛋白质分子对接中的类似问题都取得了重大进展。然而,这是第一项在扩散框架内考虑到吸附质放置问题与吸附基底的所有对称性的工作。直观地说,AdsorbDiff 的反向扩散过程有助于跳过多个最小点,这是因为它采用了基于能量的条件采样,然后利用 DFT 学习的 MLFF 进行局部优化,以找到全局最优。为了促进对这一问题的进一步研究,我们提供了有关 GNN 架构对扩散任务重要性的综合结果,显示了预训练的重要性,并证明了我们的方法在ID和OOD splits方面的成功。
这项工作的贡献概述如下:
- 我们提出的 AdsorbDiff 是一种新颖的条件去噪扩散框架,旨在利用adsorbate和slab相互作用中固有的平移、旋转和周期对称性。此外,该框架还善于通过对相对能量的条件训练来有效预测能量最低的位点。
- 我们在一个全面的端到端评估框架中展示了我们的成果,并与 DFT 相结合,以准确衡量我们的方法在预测最佳吸附能方面的真正能力。
- 我们取得了 31.8% 的成功率,比单点预测 9.1% 的native AdsorbML 基准高出 3.5 倍。另外,我们还证明了 AdsorbML 可以通过多使用 5 倍的位置来达到可比的准确率水平。
- 我们证明,在大规模局部优化数据上进行预训练,可以显著改善全局最优搜索的结果。
- 我们发现,扩散结果对 GNN 架构的依赖性并不明显,而在 DFT 力训练时,同样的架构却出现了明显的差异。
- 我们强调了该模型对以前未见过的adsorbate和slab的泛化能力。
2. Background and Related Work
2.1 Force Fields
能量和力(作为相对于位置的能量梯度)是通过密度泛函理论(DFT)等原子序数量子力学方法计算得出的。可以训练 ML 模型来预测这些能量和力,这些模型被称为 ML 力场 (MLFF)。可以利用这些力场进行结构优化,以获得能量最低的结构。
2.2 Optimization
在吸附能预测方面,我们从优化的adsorbate和slab开始,将adsorbate放在slab上,然后进行优化,以获得能量最低的吸附构型。通常使用 BFGS、L-BFGS、共轭梯度下降等二阶优化器来解决这一优化问题。由于这是一个非凸过程,吸附质放置的初始猜测或优化策略对于找到与全局最优相对应的吸附构型至关重要。AdsorbML(Lan 等人,2023 年)方法首先将启发式和随机初始位置相结合,这是一种寻找更好的最小值的粗暴方法。来自(Schaarschmidt 等人,2022 年)的 “Easy Potential ”训练一个简单的谐波势来猜测初始位置。Learn2Hop(Merchant 等,2021)通过学习优化景观来更好地导航,并能够跳过局部最小值。有一些方法,如 “最小值跳跃”(minima hopping),可以帮助利用力场在整个优化景观中导航(Jung 等人,2023 年),并帮助找到更好的最小值,但这些方法的计算成本可能很高。
2.3 GNNs
消息传递神经网络(MPNN)是一类图神经网络(GNN),可用于各种材料特性预测任务。不同的结构以不同的方式对几何信息进行编码。SchNet (Sch¨utt 等人,2018 年)只对距离进行编码。由于 DimeNet(Gasteiger 等人,2020b;a)加入了三元组,因此包含了更明确的几何特征,从而改进了模型预测。SphereNet (Liu 等人,2021 年)、GemNet (Gasteiger 等人,2021 年;2022 年)通过提供三重和四重信息,明确纳入了完整的几何信息。PaiNN(Sch¨utt 等人,2021 年)结合了方向信息,只对这些特征进行线性运算。NequIP (Batzner et al., 2022)、Allegro (Musaelian et al., 2023)、MACE (Batatia et al., 2022)、SCN (Zitnick et al., 2022)、Equiformer (Liao & Smidt, 2022; Liao et al., 2023)等等差数列模型利用球面谐波来表示几何特征。
2.4 Difussion Models
扩散模型是一类生成模型,在计算机视觉(Dhariwal 和 Nichol,2021 年;Croitoru 等人,2023 年)、语言模型(Gong 等人,2022 年)、时间数据建模以及分子应用(Xu 等人,2022 年;Arts 等人,2023 年;Hoogeboom 等人,2022 年;Jing 等人,2022 年)等不同领域都取得了令人瞩目的成果、 2022;2023;Arts 等人,2023;Hoogeboom 等人,2022;Jing 等人,2022)、蛋白质(Wu 等人,2022;Trippe 等人,2022;Watson 等人,2022;2023)和材料(Xie 等人,2021;Fu 等人,2023;Zeni 等人,2023;Merchant 等人,2023;Yang 等人,2023b)中的应用。
针对扩散模型提出了不同类型的公式,如去噪扩散概率模型(DDPMs)、基于分数的生成模型(SGMs)和随机微分方程(Score SDEs)(Yang 等,2023a)。其中许多公式已被用于解决分子和材料发现方面的问题。例如,CDVAE(Xie 等人,2021 年)采用了噪声条件得分网络(NCSN)的概念,用于吸附基底发现。条件扩散最近也被用于蛋白质(Krishna 等人,2024 年)、催化剂和材料(Zheng 等人,2023 年),以生成具有所需特性的结构。
扩散模型最近也被用于蛋白质的分子对接(Corso 等人,2022 年)。 虽然这个问题在某种程度上类似于在slan上放置adsorbate,但就我们所知,以前还没有在扩散框架内制定吸附质放置方案的工作。AdsorbDiff 在几个关键方面也与分子对接不同–二维平移公式、周期性边界条件、条件去噪公式,以及相对于蛋白质简单力场的 DFT 级精度要求,使得我们的 DFT 端到端评估至关重要。
3. AdsorbDiff
3.1 Overview
【AdsorbDiff 概述: 随机选择吸附剂的初始位置和方向,然后对二维平移、三维刚性旋转进行采样,并考虑周期性边界条件 (PBC),以预测最佳位置和方向。然后,从预测的位置和固定的间隙开始进行 MLFF 优化,直至收敛。最终预测结果会经过约束验证,并在有效结构上进行 DFT 验证,以计算成功率。】
这项研究的目的是提高吸附能计算的效率,吸附能代表了adsorbate在slab上的最低能量构型。这项工作的方法包括将adsorbate初始放置在slab二维表面的随机位置上,然后通过反向扩散来预测最佳吸附位置和方向。利用机器学习力场优化,该结构通过优化器进行迭代更新,直到力收敛到接近 0。随后,对最终构型是否符合定义吸附能所必需的约束条件进行验证。对优化后的结构进行密度泛函理论(DFT)计算,得出预测能量(EPred)。预测能量低于0.1eV或比OC20-Dense 数据中的吸附能量更低即为成功结果,表明模型有能力提供相当或更高的吸附能量估计值(如图 1 所示)。代码采用 MIT 许可开源。
3.2 Adsorbate placement
针对 OC20-Dense 数据集,结合启发式和随机方法,探索了各种adsobate放置策略。具体而言,每种吸附 slab 配置选取了 100 个位点,采用启发式与随机放置相结合的方法。其中,启发式放置策略性地将吸附质的结合位点布置在顶位(on-top site)、空心位(hollow site)或桥位(bridge site)上,并通过指定的间隙距离(interstitial gap)来定义 slab 连接原子与对应吸附质原子之间的间距。此外,通过在 slab 法线方向上对吸附质进行随机旋转,并沿启发式位点所在的表面施加微小的平移扰动,从而引入额外的随机位点。
3.3 Diffusion for adsorbate placement
在本研究中,我们的目标是开发一种扩散模型,用于预测与最低能量状态对应的吸附质取向和位点,该模型性能通过OC20-Dense数据集进行了基准测试验证。
在本研究中,吸附质运动被约束在流形(Mc)内,并采用DiffDock(Corso等人,2022年)所描述的联合作用群(A)。该流形允许吸附质通过平移、旋转和扭转角调整的组合方式,向低能量吸附slab构型演化。需要说明的是,为与基线方法进行公平比较,由于本研究所用吸附质分子尺寸较小,我们在分析中忽略了扭转角的变化。这一处理方式与AdsorbML的方法论保持一致——该基准方法同样未将扭转角的随机性纳入考量。
在我们的研究框架中,我们特别考虑了平行于slab二维平面内的平移运动,同时兼顾周期性边界条件(PBC)。其中z坐标被严格限定为slab的法线方向,扩散过程仅在xy平面坐标范围内进行。因此,吸附质运动由二维平移群T(2)描述,而刚性旋转则通过SO(3)群进行建模。平移操作定义为
A
t
r
:
T
(
2
)
×
R
2
n
→
R
2
n
A_{tr} : T(2) × R^{2n} → R^{2n}
Atr:T(2)×R2n→R2n,其表达式为
A
t
r
(
r
,
x
)
i
=
x
i
+
r
A_{tr}(r,x)_i = x_i + r
Atr(r,x)i=xi+r。这里利用了
T
(
2
)
≅
R
2
T(2) \cong R^2
T(2)≅R2的同构关系,其中
x
i
∈
R
2
x_i ∈ R^2
xi∈R2表示第i个吸附质原子的位置坐标。类似地,旋转操作定义为
A
r
o
t
:
S
O
(
3
)
×
R
3
n
→
R
3
n
A_{rot} : SO(3) × R^{3n} → R^{3n}
Arot:SO(3)×R3n→R3n,其表达式为
A
r
o
t
(
R
,
x
)
i
=
R
(
x
i
−
x
ˉ
)
+
x
ˉ
,其中
x
ˉ
=
1
n
∑
i
x
i
A_{rot}(R,x)_i = R(x_i - x̄) + x̄,其中x̄ = \frac{1}{n}\sum_{i} x_i
Arot(R,x)i=R(xi−xˉ)+xˉ,其中xˉ=n1∑ixi表示吸附质分子的质心位置,该操作描述的是围绕吸附质质心进行的旋转运动。
对于吸附剂的初始坐标,我们在平板上随机选择一个点。在分数坐标中,该点被视为吸附质的质心。然后,我们将分数坐标转换为实数坐标,并执行反向扩散过程,以到达能量最低的位置(如算法 1 所示)。
【
- 采样一个均匀分布的分数坐标p̄^frac,然后通过Hadamard积(⊙)将其转换为实际坐标p̄。
- 调整吸附质的位置,使其中心平移到p̄。
- 采样平移和旋转的噪声: r N r_N rN来自正态分布, R N R_N RN来自SO(3)的均匀分布。
- 应用变换A,结合平移和旋转,生成初始坐标 x N x_N xN。
- 进入循环,从N到1逐步处理,每一步计算时间步t,调整噪声方差Δ σ t r 2 σ_{tr}^2 σtr2,从神经网络 S θ S_θ Sθ获取参数α和β,再采样新的噪声,更新Δr和ΔR,最后应用PBC校正,得到新的坐标 x n − 1 x_{n-1} xn−1。
- 最终返回
x
0
x_0
x0
】
De等人(De Bortoli等,2022)和Corso等人(Corso等,2022)的研究工作证明了扩散模型在黎曼流形上的适用性。在此框架下,评分模型(score model)构建了切空间结构,而测地线随机游走(geodesic random walk)则作为逆向随机微分方程(SDE)的求解器。该评分模型通过去噪评分匹配(denoising score matching,Song & Ermon,2019)进行训练,其核心是学习一个评分函数
s
θ
(
x
)
s_θ(x)
sθ(x),用于近似不同噪声水平下的概率密度梯度
∇
x
p
(
x
)
∇_xp(x)
∇xp(x)(如算法2所示)。
在模型中,平移与旋转的评分函数被作为独立变量处理,其假设前提是整体切空间由各子切空间的直和构成,且忽略扭转角带来的影响。平移和旋转的前向自旋方程定义为
d
x
=
d
σ
2
(
t
)
d
t
d
w
dx=\sqrt{\frac{d\sigma ^2(t)}{dt}dw }
dx=dtdσ2(t)dw,其中,w 代表相应的维纳过程。在T(2)群描述的平移运动中,模型学习的是方差为
σ
2
(
t
)
\sigma ^2(t)
σ2(t)的标准高斯分布所对应的评分函数。对于SO(3)群中的旋转运动,其扩散核由IGSO(3)分布描述,该分布可通过轴-角参数化(axis-angle parameterization)进行采样。具体实现时,需按公式1和公式2所述方法进行采样:首先生成so(3)李代数空间中的单位向量ω’(均匀采样),随后在[0,π]区间内随机生成旋转角ω。该扩散核的评分函数定义如公式3所示。其中旋转矩阵更新运算R′ = R(ω
ω
^
\hatω
ω^)R的计算方法(即将欧拉向量ω
ω
^
\hatω
ω^作用于R得到新旋转矩阵)已由Yim等人(Yim等,2023)在先前研究中确立。为了有效地进行分数计算和采样过程,可以预先计算截断的无穷级数,并插值 p(ω) 的累积分布函数 (CDF)。
方法框架
-
扩散模型设计:
- 对称性建模:吸附物的运动被约束在二维平移(考虑周期性边界条件)和三维旋转的流形上,形成扩散过程。
- 条件去噪:扩散训练时引入相对能量(Relative Energy)作为条件,利用所有DFT优化数据(而非仅最低能量构型),显著提升数据利用率和模型性能。
- 反向扩散过程:通过逐步修正吸附物的位置和取向,跳过局部极小值,逼近全局最优。
-
端到端验证流程:
- 扩散预测 → MLFF优化 → DFT验证。最终通过DFT单点计算验证吸附能是否接近基准值(误差≤0.1 eV视为成功)。
3.4 Conditional denoising diffusion for adsorbate placement
OC 挑战赛集提供了 244 个系统的密集计算吸附能,总共进行了 244 * 100 DFT 优化基准测试。这包括对每种配置进行 100 次不同的随机放置。需要特别说明的是,基础版去噪扩散模型的训练仅基于244种最低能量构型完成。
为了充分利用整个 DFT 优化数据,我们采用了条件扩散模型。在这个模型中,优化位置取决于相对能量,特别是相对于最低能量配置的能量
E
r
e
l
−
i
c
=
E
m
i
n
c
−
E
i
c
E_{rel-i}^c=E_{min}^c-E_i^c
Erel−ic=Eminc−Eic。 这种方法可以更全面地利用现有的 DFT 优化数据。
3.5 Graph Neural Network (GNN) architecture
该机器学习模型的输入为吸附slab构型中所有原子的三维坐标及其对应原子序数,输出则预测每个原子的三维矢量——在力场应用中表征原子受力,在扩散模型中则对应评分函数。为了预测多个分数函数(平移和旋转),需要训练多个输出头,每个输出头预测独立的分数函数。这项工作中使用的所有架构都属于图神经网络(GNN)的消息传递神经网络(MPNN)框架。MPNN 的工作原理是在图中节点之间传递信息,使信息得以反复交换和汇总。MPNN 的关键组成部分包括信息传递、节点状态更新和全局读出。
这里,
h
v
(
t
)
h^{(t)}_v
hv(t)表示迭代 t 时节点 v 的嵌入,
m
u
→
v
(
t
)
m^{(t)}_{u→v}
mu→v(t) 表示迭代 t 时节点 u 向 v 传递的信息,
N
(
v
)
N(v)
N(v)表示v的邻居节点,Update和Aggregate分别是用于更新节点状态和聚合信息的可微函数。
在我们的研究中,我们系统地调查了在扩散模型训练中使用的各种架构,以辨别在这种情况下架构决策的重要性。具体而言,我们选择评估PaiNN、GemNet-OC和EquiformerV2三种模型的性能——这些模型的显著区别在于其对显式几何信息的处理方式以及对旋转对称性的建模方法。我们之所以选择这些架构是因为他们具有不同的特点。此外,我们还采用这些架构作为 OC20 力场评估的基准,从而有助于对力场和扩散领域的架构意义进行比较分析。
4. Results
本节通过实验结果展示AdsorbDiff在加速吸附能搜索及发现更优全局最优解方面的显著成效。具体而言,本研究通过对比实验揭示了条件去噪训练相较于非条件训练及随机吸附质初始化的基线方法的显著优势。该随机基线方法等效于在单一位点(Nsite=1)上运行AdsorbML算法的结果。此外,本研究通过实证分析揭示了预训练策略、模型架构选择以及该方法在新吸附质-基底组合上的泛化能力这三方面的影响。
4.1 Datasets
我们在这项工作中使用了两个公开可用的数据集 OC20-Dense(Lan 等人,2023 年)和 OC20(Chanussot 等人,2021 年)。
- OC20:开放催化剂 2020(OC20)是一个大型数据集,其中包含 46 万种独特吸附构型的收敛 DFT 优化轨迹,涵盖 55 种元素和 74 种吸附质。这些优化都是采用单一启发式布局进行的局部优化。ML 力场模型是根据这些 DFT 轨迹得出的力进行训练的。此外,还利用 OC20 的优化结构对扩散模型进行预训练。
- OC20-Dense:OC20-Dense 数据集是吸附能的 DFT 基准,每个吸附构型在 100 个随机位点上进行密集放置,然后进行 DFT 优化。相对于 OC20,该数据集同时发布(in-distribution)ID和(out-of-distribution)OOD数据。ID 数据包含了 OC20 训练集中的吸附质和吸附基底,但呈现了不同的组合和构型,而 OOD 则引入了 OC20 训练集中没有的新吸附质和/或吸附基底。OC20-Dense ID 和 OOD 的子集被用于“Open Catalyst Challenge 2023”,该挑战是在 NeurIPS 2023 期间的人工智能科学研讨会上举办的。我们将 ID 数据分成 80/20 的比例,用于训练扩散模型和验证采样过程。这些较小的子集使得进行端到端迭代的计算成本更低。
4.2 Metric and constraints
我们的成功指标是通过 DFT 计算出的最终能量来定义的。在实际应用中,该能量(标记为
D
T
o
t
a
l
D
F
T
D^{DFT}_{Total}
DTotalDFT)通过公式
E
A
d
s
o
r
p
t
i
o
n
D
F
T
=
E
T
o
t
a
l
D
F
T
−
E
S
l
a
b
D
F
T
−
E
A
d
s
o
r
b
a
t
e
D
F
T
E^{DFT}_{Adsorption} = E^{DFT}_{Total} − E^{DFT}_{Slab} - E^{DFT}_{Adsorbate}
EAdsorptionDFT=ETotalDFT−ESlabDFT−EAdsorbateDFT 用于计算吸附能,其中
E
S
l
a
b
D
F
T
E^{DFT}_{Slab}
ESlabDFT和
E
A
d
s
o
r
b
a
t
e
D
F
T
E^{DFT}_{Adsorbate}
EAdsorbateDFT分别表示基底与吸附质独立存在时的能量。DFT 成功率 (SR) 的定义是:在 OC20-Dense 数据(如 AdsorbML 中所述)中,DFT 计算的吸附能基准在 0.1 eV 或更低范围内的有效结构百分比。计算成本很高,但很准确。 根据 ML 预测计算出的指标成本低廉,但也不准确,附录 C 将进一步讨论。
由于我们计算的是吸附能,因此在优化过程中,吸附质和吸附基底不得发生变化。因此,这些构型被视为异常情况,主要包括以下四类:(1) 吸附质脱附:吸附质远离基底表面;(2) 吸附质解离:吸附质分子解离为多个碎片;(3) 基底失配/重构:优化过程中基底结构发生完全性重构;(4) 吸附质插层:当任意吸附质原子脱离并嵌入基底内部时。
- Experimental setup
所有展示的结果均基于前一节中定义的 DFT 成功率指标。 在整个扩散过程中,由于 EquiformerV2 在 AdsorbML 中的一流性能,除非另有明确说明,我们都采用了 EquiformerV2 架构。此外,为了优化 MLFF,我们使用了在 OC20 上预先训练好的 GemNetOC,因为它的推理成本较低。有关模型和训练超参数的更多详情,请参阅附录 D。除 OOD 部分外,所有结果均显示在 val ID 分割线上。
4.3 Conditional vs Unconditional diffusion
【图 2 展示了相对能量条件训练(如第 3.4 节所示)相对于无条件扩散训练的重要性。本研究将两种方法均与AdsorbML的基准方案进行对比:该基准方案采用单一位点配置(Nsite=1),即在随机初始化的吸附质位置上执行机器学习力场(MLFF)优化。】
本研究通过图2对比分析揭示了条件训练(基于相对能量,如第3.4节所示)相较于非条件扩散训练的重要性。所有方法均与AdsorbML的基准方案(Nsite=1单一位点配置,即在随机初始化的吸附质位置上执行MLFF优化)进行对比。值得注意的是,非条件训练的表现欠佳,这可能源于其未能充分利用条件训练所提供的额外数据潜力。
4.4 AdsorbDiff vs AdsorbML
AdsorbML采用随机布点方式在体系内进行MLFF优化和DFT能量评估,与基于扩散模型预测吸附位点的AdsorbDiff形成对比。如图3所示,AdsorbDiff在较少位点数量(Nsites)条件下展现出显著优势,但随着Nsites增加,其性能逐渐趋近甚至低于AdsorbML采用的暴力搜索方法。这是由于AdsorbDiff的设计特性导致:该模型通过训练直接预测全局最优解,使得采样位点多样性较低(经计算,AdsorbML在10个Nsites采样点的平均标准差为8.1Å,而AdsorbDiff仅为2.7Å)。正如图4所示,AdsorbML随机布点的高随机性使得MLFF优化后的异常构型更少。
4.5 Impact of pretraining
条件扩散模型的优势在于其训练数据集规模是非条件方法的100倍,这归因于其在单一吸附slab构型中对多个局部最优解的充分利用。训练数据量的大幅提升使得条件扩散模型的成功率显著提高。OC20 IS2RE数据集包含46万种独特吸附slab构型的优化数据,为扩散模型的预训练提供了重要资源支撑。需要特别指出的是,该预训练过程使模型能够学习吸附slab构型的局部最优解,但需注意:模型可能无法捕捉特定构型的全局最优解。
- IS2RS Pretraining (PT) Zero-shot
基于OC20 IS2RE数据预训练的扩散模型,我们在OC20-Dense ID验证集上进行了零样本验证实验。该实验设计能有效评估模型在大量局部最优解数据训练后预测全局最优解的能力。值得注意的是,如图5所示,零样本场景下的DFT计算成功率显著提升。 - IS2RS Pretraining (PT) Conditional
本方法采用第3.4节所述的OC20-Dense数据预训练模型。实验表明,虽然该方法相较零样本学习有2%的性能提升,但其最终收敛结果与直接使用OC20-Dense数据进行条件训练的效果相同。
4.6 Impact of architectures
在OC20数据集的力场评估中,具有丰富几何信息编码能力和多体相互作用建模特性的架构(如eSCN和EquiformerV2),相较于仅编码方向信息并进行线性变换的简单模型(如PaiNN),展现出显著优越的性能。我们通过基准测试评估了三种架构,这些模型在OC20力场平均绝对误差(MAE)指标上呈现递进式性能提升,揭示出它们之间的显著差异。
本次评估专门针对预训练后的零样本测试场景(PT zero-shot),所使用的扩展数据集包含46万例OC20样本。这一设计选择源自GemNet-OC论文(Gasteiger等,2022)的启示:某些架构特性仅在更大数据规模下才能展现出最优性能。
值得注意的是,在扩散任务领域,我们发现这些架构的成功率差异微乎其微(如图6所示),该现象在分子生成任务中亦有体现(Wang等,2023)。这一结果的深层机理在于:扩散模型的评分函数可视为对谐波势能(harmonic potential)的学习(Xie等,2021)。相较于OC20力场评估涉及的从头算DFT计算,谐波势能是更为简化的力场形式,这可能导致较简单的架构就能捕捉本研究中定义的扩散任务的内在复杂性。
4.7 OOD generalization
我们评估了AdsorbDiff在分布外(OOD)场景下的性能表现——即使模型在OC20预训练阶段也未曾接触相关吸附质或基底。从Open Catalyst Challenge 2023定义的200个验证集OOD样本中随机选取50例进行分析。实验结果表明:相较于分布内(ID)情况,OOD场景仅出现3.8%的微小性能下降,且相对AdsorbML(Nsite=1)基线方法始终保持着显著优势。
4.8 Inference cost
在条件扩散模型中,我们的方法将最大迭代步数限定为100步,而吸附质位置优化平均在98步内即可收敛。相比之下,采用最大步数300步和Fmax≤0.01 eV/Å收敛标准(与AdsorbML保持一致)的MLFF优化过程,通常需要约286步才能收敛。因此,在单一位点(Nsite=1)场景下,当扩散模型与MLFF优化使用相同图神经网络架构时,AdsorbDiff的推理成本比AdsorbML高出约34%。不过,这种端到端的机器学习框架仍比传统DFT流程(Lan等,2023)快O(10⁴)数量级。
在第4.6节中,我们证明如PaiNN这类更简单快速的模型,其性能可与EquiformerV2等复杂缓慢模型相媲美。这一发现显著提升了我们基于扩散方法的效率优势——由于MLFF优化需要计算量更大的机器学习架构(详见附录B),相比之下扩散模型的计算负担几乎可以忽略不计。
5 Conclusion
本研究提出了AdsorbDiff——一种新型条件去噪扩散框架,该框架通过巧妙利用吸附质与基底相互作用中的固有对称性,能够高效预测最低能量位点。结合密度泛函理论(DFT)构建的端到端评估体系,为预测最优吸附能的性能提供了可靠验证。值得注意的是,AdsorbDiff在单一位点预测中实现了31.8%的显著成功率,较AdsorbML基线方法(9.1%)提升3.5倍。我们证实了基于大量吸附位点局部最优解进行预训练的优势。有趣的是,扩散模型的性能对图神经网络(GNN)架构选择并不敏感。此外,模型对未见过的吸附质-基底组合展现出卓越的泛化能力,充分体现了其适应性与鲁棒性。
6 Limitations and Future Work
我们的研究结果强调,异常构型会显著降低预测成功率,特别是在多位点预测场景中。尽管已有研究成功采用胡克约束(Hookean constraints)等方法抑制此类异常,但对于较大吸附质分子,如何在保持计算效率的前提下实现这些约束仍具挑战性。解决这一问题将成为未来研究的关键方向。此外,引入扭转角参数预计将带来显著改进,这一策略在处理大尺寸吸附质分子时尤为值得期待。
7 附录
7.1 Background in catalysis
多相催化是化学与工业领域的核心过程。与均相催化(反应物、产物和催化剂处于同一相态)不同,多相催化中的催化剂与反应物或产物存在于不同相态中。这种相态差异不仅限于固、液、气三相组分,还包括不相溶混合物(如油水体系)或任何存在界面的情形。大多数情况下,多相催化涉及固相催化剂与气相反应物的相互作用,其核心过程是催化剂表面发生的分子吸附-反应-脱附循环。热力学、传质与传热过程共同影响着这些反应的速率。多相催化在大规模生产和选择性产物形成中具有关键作用,影响着全球约35%的GDP(Ma & Zaera,2006),并参与了90%化学品的体积产量。
7.1.1 Bulks
催化基底(bulk)是指作为催化反应基础的固体材料,构成了催化剂作用的底层结构。可以将其理解为原子或分子组成的稳定三维晶格框架——这种类基岩的结构为后续相互作用提供了支撑平台。
7.1.2 Slabs
Slab(表面模型)是催化基底材料的特定表层结构,可视为对体相晶格进行切割后暴露的平整表面。其重要性在于能提供大量活性位点供反应物与催化剂相互作用,这些表面结构对整体催化性能具有决定性影响。研究者常通过分析不同晶面取向(如(100)、(111)或(110))来探究原子排布如何影响反应活性。
7.1.3 Adsorbates
吸附质(adsorbate)是指附着于催化剂表面的分子或原子。在多相催化过程中,反应物分子(即吸附质)通过范德华力与催化剂表面(吸附剂)的特定位点结合,包括偶极-偶极相互作用、诱导偶极相互作用和伦敦色散力等。需特别强调的是,吸附质与吸附剂之间不会形成化学键,二者的电子态基本保持不变。吸附作为催化过程的关键步骤,能使反应物精确定位于活性位点附近,为后续反应创造条件。
7.2 Compute details and discussions
AdsorbDiff的实际加速效果如何?
AdsorbML的附表VII(Lan等,2023)对比了不同GNN架构下MLFF优化(原文称为ML-RX)与DFT单点/反应路径(SP/RX)计算成本。数据显示:PaiNN模型在100个Nsites位点上进行300步ML-RX优化的计算成本为60.4 GPU小时(基于32GB NVIDIA V100显卡)。而性能最佳的SCN-MD-Large和GemNet-OC-MD-Large模型成本分别高达1129.2和638.3 GPU小时。值得注意的是,采用PaiNN进行单点位点(Nsite=1)扩散预测的成本(60.4/300=0.2 GPU小时)相比最新模型(如SCN-MD-Large)的单点位点MLFF优化成本(1129.2/100=11.3 GPU小时)几乎可以忽略不计。
为何需要尽量减少MLFF优化次数?
随着MLFF模型规模扩大、复杂度提升且精度增强,其推理成本也相应增加。传统认为"MLFF优化成本相比DFT可完全忽略"的假设对大型模型已不成立。若仅需通过DFT单点计算(SP)进行位点排序,AdsorbML同表数据显示:SCN-MD-Large模型在5个位点的DFT-SP成本为2645.29 CPU小时。考虑到GPU加速使DFT计算速度提升约5倍,DFT单点验证(2645.39/5=529.08 GPU小时)相比ML-RX优化(1129.2 GPU小时)并非真正瓶颈。要实现数十亿次模拟,显著提升ML模拟效率至关重要。
这暗示了未来计算工作流程的一种潜在进展:首先从基于扩散的模拟开始,利用简单且快速的机器学习架构。随后,机器学习力场(MLFF)优化可能会利用针对原子结构的基础模型(Shoghi 等,2023;Batatia 等,2023),最终通过少量密度泛函理论(DFT)计算验证结果。
7.3 Metrics other than DFT Success Rate
我们在端到端框架内使用DFT(密度泛函理论)成功率来呈现所有研究结果,认识到DFT指标相较于纯基于机器学习(ML)的指标更为重要,因为后者可能存在不准确的问题。在本节中,我们提供了关键结果的ML成功率,并将其与DFT成功率进行比较。我们考虑了两种仅通过ML模型跟踪而无需DFT的指标。首先,基于扩散过程中最优位置与预测位置之间距离的成功指标。我们定义,如果平均绝对误差(MAE)距离小于1埃,则预测是成功的。其次,我们在ML预测的能量基础上进行MLFF优化后对其进行评估。需要注意的是,MLFF优化是使用GemNet-OC检查点在OC20 2M数据集上进行预训练的,所有实验均保持一致。
7.4 Model and training hyperparameters
在扩散训练的情况下,为每种架构添加了一个额外的头部,以处理所需的两个向量预测——一个用于平移向量,另一个用于欧拉向量。
7.4.1 EquiformerV2
表 2 中提到的属性定义可在原作品的开源代码中找到https://github.com/Open-Catalyst-Project/ocp/tree/main/ocpmodels/models/equiformer_v2。
7.4.2 GemNet-OC
表 6 中提到的属性定义可以在原作品的开源代码中找到 https://github.com/Open-Catalyst-Project/ocp/tree/main/ocpmodels/models/gemnet_oc。扩散和 MLFF 优化使用了相同的模型架构超参数。
7.4.3 PaiNN
表 3 中提到的属性定义可在原作品的开源代码中找到https://github.com/Open-Catalyst-Project/ocp/tree/main/ocpmodels/models/painn。
7.4.4 MLFF optimization
本研究中所有MLFF优化均采用基于OC20 2M数据集预训练的GemNet-OC模型完成。选择GemNet-OC而非更新的EquiformerV2架构,主要因其推理速度最高可提升8倍,同时保持较好的精度水平。这一选择不会影响研究的定性结论,因为该方法具有模型无关性。
优化采用 L-BFGS 算法(Liu&Nocedal,1989 年)。表 4 列出了 L-BFGS 的超参数。在 MLFF 优化过程中,我们同时移动表面原子和吸附质原子。最大步长为 300 步,最大 F 值为 0.01 eV/Å。所有这些设置在我们的所有运行中都是不变的。
7.4.5 Sampling hyperparameters
我们基于第3.3节所述的随机微分方程(SDE)进行采样,但实验发现常微分方程(ODE) formulation在所有测试中表现更优,因此将其作为默认采样方法。这可能是由于我们的目标是全局最优解搜索,而非仅从极小值分布中采样。采样过程中设定了最大步长限制,并在原子运动收敛时提前终止,相关超参数详见表5。
我们还尝试了噪声条件得分网络(NCSN)(Song & Ermon, 2019)中提出的退火朗之万采样方法,但发现其效果不佳,收敛所需的步骤是原来的10倍,并且在训练数据领域之外泛化能力较差。
7.4.6 Training compute and hyperparameters
所有训练均在2张48GB显存的A6000 GPU上完成。我们采用带线性预热的余弦学习率调度策略,其中条件扩散模型训练耗时47 GPU小时。预训练与微调阶段的最大学习率分别设置为4e-4和1e-4(使用AdamW优化器)。针对每种模型架构,均采用GPU显存可容纳的最大批次规模,整体训练方法保持与各架构原始论文一致。