1. 项目概述当材料筛选遇上机器学习在材料研发的漫长征途中我们常常像是在一片浩瀚的化学元素海洋里寻找一颗特定的珍珠。传统的“试错法”或依赖第一性原理计算如密度泛函理论DFT进行逐一验证不仅耗时耗力成本也高得惊人。想象一下面对动辄数万甚至数十万的候选材料用DFT逐一计算其稳定性、磁性、电子结构等性质所需的计算资源和时间几乎是天文数字。这就是材料高通量筛选High-Throughput Screening, HTP试图解决的痛点通过系统化、自动化的计算流程快速扫描庞大的化学空间筛选出少数有潜力的候选者再交由实验或更精确的计算进行验证。然而即便是高通量DFT计算在面对百万级候选材料时也显得力不从心。这时机器学习ML的介入带来了革命性的变化。它就像一个经验丰富的“材料预言家”通过学习已知材料的结构与性能之间的关系能够以极低的成本预测新材料的性质。但早期的ML模型大多基于简单的成分描述符它们无法区分化学式相同但原子排列不同的异构体这就像只知道菜谱的原料却不知道烹饪步骤很难准确预测最终菜肴的味道。近年来基于晶体图的机器学习模型和通用机器学习原子间势uMLIP的兴起让材料预测进入了新阶段。它们能“看懂”原子的三维排布理解原子间的相互作用从而更准确地预测材料的能量、力、应力乃至更复杂的物理性质。我们的工作正是将这套最前沿的ML工具链——以uMLIP进行快速结构优化结合迁移学习Transfer Learning技术构建高性能的机器学习回归模型MLRM——整合成一个完整、高效的机器学习辅助高通量ML-HTP筛选工作流。我们选择了一个极具挑战性的“试金石”在四元和全d过渡金属Heusler化合物中寻找具有高热力学、动力学和磁学稳定性同时具备高磁各向异性能Eaniso的材料。磁各向异性是决定磁性材料如永磁体、磁存储介质性能的关键但这类材料在自然界中极为稀少传统筛选方法成功率极低。我们的目标就是证明这套ML-HTP工作流不仅能大幅提升筛选效率更能保证极高的预测可靠性为加速功能材料的发现提供一条切实可行的新路径。2. 工作流核心架构与设计思路2.1 为何选择“uMLIP 迁移学习”的组合拳我们的ML-HTP工作流核心由两大模块构成结构优化模块和性质预测模块。其设计思路源于对传统DFT-HTP瓶颈的深刻理解并针对性地引入了最先进的ML解决方案。结构优化从DFT到uMLIP的跨越在传统DFT-HTP中结构优化即寻找材料最稳定的原子构型是第一步也是计算量最大的一步。每个候选结构都需要进行迭代的能量最小化计算。对于磁性材料还需要考虑不同的磁构型计算成本成倍增加。uMLIP的出现改变了游戏规则。它本质上是一个经过海量材料数据训练的神经网络能够像DFT一样输入原子坐标和种类输出系统的总能量、原子受力和应力但其计算速度比DFT快数个数量级。我们本次工作选用的eSEN-30M-OAM模型是在包含3000万种材料构型的超大规模数据集上训练的其对元素周期表的覆盖和预测精度都达到了当前最高水平。用它来替代DFT进行初始结构优化和稳定性初筛可以将百万量级候选材料的初筛时间从“年”缩短到“天”甚至“小时”。注意选择uMLIP时不能只看其在标准测试集上的精度更要关注其在目标材料体系如Heusler化合物上的表现特别是对晶格常数、形成能等关键量的预测误差以及优化过程中陷入局部极小值的倾向。一个“平滑”的能量曲面对于高效找到全局最小能量结构至关重要。性质预测从零训练到迁移学习的进化结构优化之后我们需要预测一系列目标性质局部磁矩{mi}、最小声子频率ωmin用于判断动力学稳定性、居里温度Tc和最终的磁各向异性能Eaniso。训练一个高精度的MLRM通常需要大量高质量数据。例如要准确预测Eaniso这种对电子结构细节极其敏感的性质可能需要成千上万个精确的DFT计算结果这本身又构成了一个数据瓶颈。我们采用的解决方案是冻结迁移学习Frozen Transfer Learning。其核心思想是“站在巨人的肩膀上”。eSEN-30M-OAM这样的uMLIP在预训练时其底层网络已经学会了如何从原子结构和化学环境中提取非常通用且强大的特征表示。我们将这些预训练好的底层网络参数“冻结”即不参与更新只重新训练最顶部的几层网络使其适配我们的特定预测任务如预测Eaniso。这就好比一个已经精通多种语言翻译的专家现在只需要稍加学习就能快速掌握一门新语言的翻译技巧所需的新训练数据量大大减少。这种方法显著提升了小数据集上的模型性能并增强了模型对训练数据中未出现元素的泛化能力。2.2 整体筛选流程一个严苛的多级漏斗我们的筛选流程设计得像一个层层过滤的漏斗确保最终留下的候选材料同时满足多项严苛条件。下图清晰地展示了这一逻辑flowchart TD A[“起始材料池br四元Heusler: 131,544种br全d Heusler: 105,763种”] -- B[“步骤A: uMLIP结构优化br计算形成能(ΔE)与凸包距离(ΔH)”] B -- C{“ΔE 0 eV/atom?”} C --否-- D[“淘汰: 热力学不稳定”] C --是-- E{“ΔH 0.22 eV/atom?”} E --否-- D E --是-- F[“通过初筛的材料”] F -- G[“步骤B: MLRM性质预测br预测磁矩、声子频率、居里温度、磁各向异性”] G -- H{“|c/a -1| 0.01?br(是否为四方相?)”} H --否-- I[“淘汰: 立方相无磁各向异性”] H --是-- J{“∑|mi| 0.1 μB/f.u.?br(是否具有磁性?)”} J --否-- I J --是-- K{“ωmin -10 cm⁻¹?br(是否声子稳定?)”} K --否-- I K --是-- L{“Tc 300 K?br(室温下是否磁稳定?)”} L --否-- I L --是-- M{“|Eaniso| 1 MJ/m³?br(磁各向异性是否够强?)”} M --否-- I M --是-- N[“最终候选材料br四元: 334种br全d: 924种”] N -- O[“步骤C: DFT计算验证”] O -- P[“确认的高性能稳定材料”]生成候选空间基于Heusler化合物的晶体结构规则空间群Fm-3m我们系统枚举了所有可能的四元X, Y为d区过渡金属Z为p区主族元素和全d过渡金属所有位点均为d区元素组合分别得到131,544和105,763种独特的化学成分。uMLIP初筛热力学稳定性使用eSEN-30M-OAM对所有候选结构进行优化计算其形成能ΔE和能量高于凸包的距离ΔH。筛选阈值设为ΔE 0 eV/atom表明该化合物相对于单质更稳定和ΔH 0.22 eV/atom表明其相对于其他可能相是稳定的该阈值基于我们先前DFT-HTP研究确定。此步骤淘汰了绝大多数热力学上不稳定的组合。MLRM性质预测多功能筛选对通过热力学初筛的结构使用基于迁移学习训练的MLRM批量预测其晶体结构判断c/a比值是否显著偏离1即是否为四方相因为立方相磁各向异性为零。磁性计算总绝对磁矩筛选出具有磁性的化合物。动力学稳定性预测最小声子频率ωmin筛选出声学支无虚频即ωmin -10 cm⁻¹允许微小负值作为误差缓冲的稳定结构。磁稳定性预测居里温度Tc筛选出Tc 300 K即室温以上仍保持磁有序的化合物。目标性能预测磁各向异性能Eaniso筛选出|Eaniso| 1 MJ/m³的强各向异性材料。DFT最终验证对ML筛选出的最终候选名单四元334种全d 924种我们动用DFT进行“终极审判”逐一计算上述所有性质以验证ML预测的可靠性。这套流程的精妙之处在于它将计算成本高昂的DFT计算放在了流程的末端且只作用于极少数经ML预筛选的“精英”候选者从而实现了计算资源的最优分配。3. 核心模块深度解析与实操要点3.1 uMLIP选型与性能基准测试为什么是eSEN-30M-OAMuMLIP是整套工作流的基石其精度直接决定了后续所有预测的可靠性。市场上uMLIP模型众多如ALIGNN-FF、CHGNet、MatterSim等如何选择我们进行了一次全面的“擂台赛”。我们选取了2023年以来具有代表性的多个uMLIP模型在一个包含10,000种常规三元Heusler化合物来自我们的HeuslerDB数据库的测试集上进行基准测试。评估的指标包括结构优化精度优化后的晶格常数a、c及c/a比与DFT参考值的相对误差RE。能量预测精度总能量E、形成能ΔE、凸包距离ΔH的绝对误差AE。测试结果汇总于下图等效数据一目了然评估指标表现最佳模型 (误差阈值内占比)关键洞察晶格常数 a (RE 5%)eSEN-30M-OAM, eqV2系列 (~95%)对晶格常数的预测非常精确是可靠结构优化的基础。晶格常数 c (RE 5%)eSEN-30M-OAM, eqV2系列 (~94%)对四方畸变c轴的预测同样出色这对识别四方相至关重要。c/a 比值 (RE 5%)eSEN-30M-OAM, eqV2系列 (~92%)能准确区分立方相和四方相误判率极低。形成能 ΔE (AE 0.05 eV/atom)eSEN-30M-OAM, eqV2系列 (~96.5%)能量预测精度高保证了热力学稳定性筛选的可靠性。凸包距离 ΔH (AE 0.05 eV/atom)eSEN-30M-OAM, eqV2系列 (~86.5%)虽然误差略大于ΔE但仍在可接受范围足以进行有效初筛。局部极小值数量eSEN-30M-OAM显著少于eqV2-L-OAMeSEN具有更“平滑”的能量曲面优化时更易收敛到全局极小计算效率更高。选择eSEN-30M-OAM的核心理由综合精度领先在几乎所有关键指标上都达到或接近最高精度。能量曲面更平滑在从14种不同初始畸变结构开始优化时eSEN找到的独特局部极小值结构数量远少于eqV2模型。这意味着它对于初始结构不那么敏感更容易找到一致的基态这对于高通量自动化流程的稳定性至关重要。收敛速度更快得益于平滑的能量曲面eSEN通常需要更少的优化步骤和更少的初始结构尝试就能收敛进一步降低了计算成本。实操心得在进行大规模筛选前务必在目标材料体系的一个小子集上对候选uMLIP进行基准测试。不要完全依赖论文中报告的在通用测试集如MatBench上的性能。模型在特定化学空间的表现可能有差异。我们的测试发现某些模型在预测Heusler化合物的c/a比时系统性偏差较大这会导致四方相识别错误。3.2 迁移学习构建MLRM如何让小数据发挥大作用训练预测Eaniso、Tc等复杂性质的MLRM最大的挑战是数据稀缺。我们为Eaniso收集了约6000个DFT数据点对于深度学习模型而言并不算多。冻结迁移学习技术在此发挥了关键作用。具体实施步骤基模型选择我们采用预训练的eSEN-30M-OAM uMLIP作为基模型。该模型的嵌入层和前几层网络已经编码了丰富的原子和化学键的通用知识。网络架构移植将基模型的嵌入层和前n层网络参数直接复制到我们的MLRM中并将这些层“冻结”设置requires_gradFalse在训练过程中它们的权重不会更新。输出层重构移除uMLIP原本的能量/力输出头根据预测任务构建新的输出层。例如预测Eaniso是一个标量回归任务我们接一个全连接层预测局部磁矩{mi}每个磁性原子一个标量则对应多个输出神经元。微调训练仅使用我们有限的Heusler化合物数据集训练剩余未冻结的层和新添加的输出层。我们系统测试了冻结不同层数n从0到9对模型性能的影响。结果发现冻结前7层TL-uMLIP-7时模型在ωmin、Tc和Eaniso预测任务上均达到最佳性能R²分数最高。冻结层数太少如n0模型无法充分利用预训练知识冻结层数太多如n9模型可调参数过少难以适应新任务。这个“甜蜜点”需要针对具体任务和数据集进行实验确定。泛化能力验证我们设计了“组别划分”测试来模拟真实发现场景在训练时完全排除某几个元素如Sc, Ti, V然后测试模型对包含这些“未见”元素的化合物的预测能力。结果显示采用冻结迁移学习的模型其性能下降远小于从零开始训练的模型。这证明预训练知识赋予了模型强大的外推能力这对于探索包含新元素组合的材料空间无比重要。3.3 局部磁矩预测攻克磁性筛选的难关准确预测材料的磁性是筛选磁性功能材料的前提。许多高通量研究仅预测总磁矩但这会漏掉反铁磁或亚铁磁等总磁矩很小甚至为零的体系。我们的目标是预测每个原子位点的局部磁矩{mi}这是一个更具挑战性的向量回归问题。模型设计与技巧输出表示对于共线磁构型所有磁矩沿同一轴每个原子的磁矩用一个标量表示其正负号代表方向。损失函数设计一个关键物理事实是将所有磁矩方向反转整体乘-1系统的磁态是等价的。为了确保模型学习到这一对称性我们改进了损失函数。对于每个预测我们计算两个损失一个是预测值{mi}与DFT标签的损失另一个是预测值的相反数{-mi}与DFT标签的损失。最终损失取两者中的较小值。这强制模型不关心磁矩的全局符号只关注相对大小和方向。学习曲线分析我们研究了模型性能随训练数据量增加的变化。结果表明即使只有5000个训练样本模型对化合物是否有磁性的分类准确率已达92%。但要精确预测每个磁矩的大小和符号误差0.1 μB则需要更多的数据。当训练集增至125,000个样本时对磁性化合物子集的预测精度误差0.1 μB的比例从72%提升至82%。这为未来在其他磁性体系应用此方法时需要准备多大规模的数据集提供了重要参考。4. 实战Heusler化合物筛选全流程拆解4.1 数据准备与候选空间生成一切始于数据。我们已有的HeuslerDB数据库包含了几乎所有常规三元Heusler化合物的DFT计算数据这是训练MLRM的宝贵资源。为了扩展搜索空间我们基于Heusler的晶体学规则化学式X₂YZ或XY’Z空间群Fm-3m进行系统枚举。四元Heusler我们固定化学式为 (X₁, X₂)YZ。X₁, X₂, Y 选自d区过渡金属排除Tc和Hg并包含La和Lu因其4f轨道全空或全满磁性行为简单。Z选自p区第13、14、15族的主族元素。考虑原子排列的对称性后共生成131,544种唯一化学成分。全d过渡金属Heusler将Z位点也替换为d区过渡金属及La, Lu化学空间进一步扩大生成105,763种唯一成分。这个枚举过程本身是确定性的确保了搜索的完备性。生成的初始结构为立方相但后续的uMLIP优化会允许其弛豫到能量更低的四方相。4.2 uMLIP结构优化与热力学筛选实操对于超过23万种初始结构使用DFT优化是不可想象的。我们部署eSEN-30M-OAM进行批量优化。关键操作细节初始结构扰动为避免优化陷入错误的局部极小我们对每个化学成分生成14个不同的初始结构。方法是对传统晶胞含2个化学式单元施加应变均匀缩放a, b, c轴±10% ±30%或单独改变c轴±10% ±20% ±30% ±40% ±50%然后转换为原胞1个化学式单元。并行化与作业管理使用Slurm或类似作业调度系统将数十万个优化任务分发到高性能计算集群。每个任务通常只需几分钟在GPU上甚至更快而对应的DFT计算可能需要数小时。能量与稳定性计算优化完成后提取最低能量的结构。利用uMLIP预测该结构的总能量并结合元素和竞争相的能量同样由uMLIP预测或从现有数据库获取计算形成能ΔE和凸包距离ΔH。筛选执行编写自动化脚本根据阈值ΔE 0, ΔH 0.22 eV/atom快速过滤。此步骤将候选池从23万迅速缩减至数万量级。4.3 MLRM性质预测与多级过滤通过热力学筛选的结构被送入MLRM流水线进行并行性质预测。这里每一步都是一个独立的筛选器。四方相识别计算优化后结构的c/a比值。设置阈值 |c/a - 1| 0.01将立方相c/a ≈ 1材料剔除因为其磁各向异性理论上为零。磁性判断使用{mi} MLRM预测局部磁矩并计算总绝对磁矩 Σ|mi|。阈值设为 0.1 μB/f.u.过滤掉非磁或磁性极弱的化合物。声子稳定性检查使用ωmin MLRM预测最小声子频率。阈值设为 -10 cm⁻¹。这是一个较为宽松的阈值用于快速排除明显动力学不稳定的结构同时容忍模型的一定预测误差。居里温度筛选使用Tc MLRM预测居里温度。阈值设为 300 K确保材料在室温下具有铁磁或亚铁磁序。磁各向异性筛选最后使用Eaniso MLRM预测磁各向异性能筛选出 |Eaniso| 1 MJ/m³ 的强各向异性候选者。每一步筛选都大幅减少了候选数量最终我们从超过23万的起点分别得到了334个四元化合物和924个全d化合物作为最终候选。4.4 DFT验证与结果分析ML的预言有多准这是检验ML-HTP工作流可靠性的“终极大考”。我们对所有1258个ML筛选出的候选材料进行了全面的DFT计算验证。验证结果令人振奋结构预测所有ML预测为四方相c/a ≠ 1的候选材料DFT验证100%确认为四方相。uMLIP在晶体结构区分上做到了零误判。热力学稳定性形成能 (ΔE)99.1% (四元) 和 97.8% (全d) 的候选材料经DFT计算确认为ΔE 0。凸包距离 (ΔH)96.4% (四元) 和 98.8% (全d) 的候选材料满足ΔH 0.22 eV/atom。性质预测磁性100%的候选材料被DFT确认具有磁性Σ|mi| 0.1 μB/f.u.。声子稳定性 (ωmin)89.2% (四元) 和 93.1% (全d) 的候选材料满足ωmin -10 cm⁻¹。居里温度 (Tc)81.7% (四元) 和 80.4% (全d) 的候选材料满足Tc 300 K。磁各向异性 (Eaniso)82.0%(四元) 和68.2%(全d) 的候选材料满足 |Eaniso| 1 MJ/m³。这个成功率尤其是对于四元化合物高达82%的Eaniso预测精度远高于传统DFT-HTP盲筛约3-5%的命中率也显著优于使用早期ML模型如ALIGNN的工作流仅24.3%。这强有力地证明了我们集成的先进uMLIP和迁移学习MLRM的有效性。一个有趣的发现全d化合物的Eaniso预测精度68.2%低于四元化合物82.0%。我们分析认为这是因为训练MLRM的数据全部来自常规三元HeuslerZ位是p区元素而全d化合物的Z位引入了训练数据中未出现过的d区元素化学环境。Eaniso对电子结构的细节极其敏感这种“领域偏移”导致了性能下降。这反过来也说明了迁移学习在缓解此类问题上的价值——如果不用迁移学习性能下降会更严重。5. 性能对比、局限性与未来展望5.1 与现有方法的横向对比为了量化我们工作的进步我们与文献中报道的多种方法进行了直接或间接对比vs. 早期成分描述符模型早期基于成分的ML模型在预测Heusler化合物晶格常数a和形成能ΔE时R²分数通常在0.80-0.94和0.80-0.88之间均方根误差RMSE也较大。我们的eSEN-30M-OAM uMLIP在这些指标上达到了0.994和0.995的R²以及0.023 Å和0.029 eV/atom的RMSE精度有质的提升。vs. 早期晶体图模型 (如CGCNN)在预测总磁矩等性质上早期模型R²约0.75-0.93。我们的{mi} MLRM在预测总磁矩时R²达到0.986且能预测更复杂的局部磁矩向量。vs. 混合工作流我们尝试了“混合”工作流用eSEN优化结构但用ALIGNN MLRM预测性质。其Eaniso筛选成功率降至54.0%。反之用ALIGNN优化结构用eSEN MLRM预测性质成功率暴跌至31.3%。这凸显了高精度结构优化是ML-HTP成功的第一基石而先进的MLRM则进一步提升了整体精度。5.2 当前工作流的局限性尽管成果显著但我们的工作流仍有改进空间数据依赖性MLRM的性能尤其是对Eaniso这种敏感性质的预测仍然依赖于高质量DFT训练数据的规模和覆盖面。全d化合物预测精度下降就是一个例证。uMLIP的普适性eSEN-30M-OAM虽强但仍是通用模型。对于某些非常规成键或强电子关联体系其精度可能下降。针对特定材料家族进行微调Fine-tuning可能是下一步方向。筛选阈值的设定我们使用的阈值如ΔH 0.22 eV/atom, ωmin -10 cm⁻¹是基于经验和先前DFT研究。这些阈值并非绝对放松阈值可以扩大候选池但会增加假阳性收紧阈值则相反。需要根据具体应用目标权衡。计算流程的复杂性当前工作流涉及多个步骤和模型需要一定的计算基础设施和脚本编排能力。将其封装成更用户友好的自动化软件包是推广的关键。5.3 给实践者的建议与未来方向基于本次实战经验对于想将ML-HTP应用于其他材料体系的同行我有以下几点建议始于数据忠于数据在开始任何ML预测前尽可能为你关心的体系构建一个高质量、标准化的第一性原理计算数据库。这是所有模型的“燃料”。uMLIP选型要实测不要盲目相信排行榜。务必用你的目标体系数据做一个快速的基准测试比较不同uMLIP在结构优化和能量预测上的表现。善用迁移学习如果你的目标性质数据有限冻结迁移学习几乎是必选项。从一个大而全的预训练uMLIP如eSEN, MACE, CHGNet开始能极大提升小数据场景下的模型性能和泛化能力。设计鲁棒的筛选流程像我们一样采用多级、逐步收紧的筛选漏斗。先用量大、计算快的筛选器如uMLIP优化热力学筛选去掉绝大多数“垃圾”候选再用更精细但计算成本稍高的模型如预测Tc, Eaniso筛选。每一步都要设置合理的、有物理意义的阈值。DFT验证不可或缺ML筛选出的候选名单必须用DFT进行最终验证。这不仅是检验ML工作流可靠性的必要步骤也能为后续的实验研究提供确凿的理论依据。未来这个领域的发展方向可能是多目标与主动学习从单一性质筛选扩展到同时优化多个有时相互冲突的性能指标。结合主动学习让模型智能地建议下一个最值得用DFT计算的材料实现搜索效率的最大化。集成生成模型不仅仅是“筛选”而是利用生成式AI如扩散模型、图生成模型直接“设计”出具有目标性能的全新材料结构。与实验闭环将ML-HTP筛选出的候选材料直接推荐给实验团队进行合成与表征并将实验结果反馈给ML模型形成一个“计算-实验”闭环的迭代优化过程。我们已将本次研究中的核心工具链——用于高通量优化的MLIP-HOT和用于迁移学习的MLIP-FTL软件包开源。希望这套经过实战检验的ML-HTP工作流能成为更多材料研究者手中的利器共同加速功能材料发现的步伐。从二十多万种可能性中精准定位那一千多个希望的种子这正是机器学习赋能材料科学的魅力所在。
机器学习辅助高通量筛选:uMLIP与迁移学习加速功能材料发现
发布时间:2026/5/26 22:12:16
1. 项目概述当材料筛选遇上机器学习在材料研发的漫长征途中我们常常像是在一片浩瀚的化学元素海洋里寻找一颗特定的珍珠。传统的“试错法”或依赖第一性原理计算如密度泛函理论DFT进行逐一验证不仅耗时耗力成本也高得惊人。想象一下面对动辄数万甚至数十万的候选材料用DFT逐一计算其稳定性、磁性、电子结构等性质所需的计算资源和时间几乎是天文数字。这就是材料高通量筛选High-Throughput Screening, HTP试图解决的痛点通过系统化、自动化的计算流程快速扫描庞大的化学空间筛选出少数有潜力的候选者再交由实验或更精确的计算进行验证。然而即便是高通量DFT计算在面对百万级候选材料时也显得力不从心。这时机器学习ML的介入带来了革命性的变化。它就像一个经验丰富的“材料预言家”通过学习已知材料的结构与性能之间的关系能够以极低的成本预测新材料的性质。但早期的ML模型大多基于简单的成分描述符它们无法区分化学式相同但原子排列不同的异构体这就像只知道菜谱的原料却不知道烹饪步骤很难准确预测最终菜肴的味道。近年来基于晶体图的机器学习模型和通用机器学习原子间势uMLIP的兴起让材料预测进入了新阶段。它们能“看懂”原子的三维排布理解原子间的相互作用从而更准确地预测材料的能量、力、应力乃至更复杂的物理性质。我们的工作正是将这套最前沿的ML工具链——以uMLIP进行快速结构优化结合迁移学习Transfer Learning技术构建高性能的机器学习回归模型MLRM——整合成一个完整、高效的机器学习辅助高通量ML-HTP筛选工作流。我们选择了一个极具挑战性的“试金石”在四元和全d过渡金属Heusler化合物中寻找具有高热力学、动力学和磁学稳定性同时具备高磁各向异性能Eaniso的材料。磁各向异性是决定磁性材料如永磁体、磁存储介质性能的关键但这类材料在自然界中极为稀少传统筛选方法成功率极低。我们的目标就是证明这套ML-HTP工作流不仅能大幅提升筛选效率更能保证极高的预测可靠性为加速功能材料的发现提供一条切实可行的新路径。2. 工作流核心架构与设计思路2.1 为何选择“uMLIP 迁移学习”的组合拳我们的ML-HTP工作流核心由两大模块构成结构优化模块和性质预测模块。其设计思路源于对传统DFT-HTP瓶颈的深刻理解并针对性地引入了最先进的ML解决方案。结构优化从DFT到uMLIP的跨越在传统DFT-HTP中结构优化即寻找材料最稳定的原子构型是第一步也是计算量最大的一步。每个候选结构都需要进行迭代的能量最小化计算。对于磁性材料还需要考虑不同的磁构型计算成本成倍增加。uMLIP的出现改变了游戏规则。它本质上是一个经过海量材料数据训练的神经网络能够像DFT一样输入原子坐标和种类输出系统的总能量、原子受力和应力但其计算速度比DFT快数个数量级。我们本次工作选用的eSEN-30M-OAM模型是在包含3000万种材料构型的超大规模数据集上训练的其对元素周期表的覆盖和预测精度都达到了当前最高水平。用它来替代DFT进行初始结构优化和稳定性初筛可以将百万量级候选材料的初筛时间从“年”缩短到“天”甚至“小时”。注意选择uMLIP时不能只看其在标准测试集上的精度更要关注其在目标材料体系如Heusler化合物上的表现特别是对晶格常数、形成能等关键量的预测误差以及优化过程中陷入局部极小值的倾向。一个“平滑”的能量曲面对于高效找到全局最小能量结构至关重要。性质预测从零训练到迁移学习的进化结构优化之后我们需要预测一系列目标性质局部磁矩{mi}、最小声子频率ωmin用于判断动力学稳定性、居里温度Tc和最终的磁各向异性能Eaniso。训练一个高精度的MLRM通常需要大量高质量数据。例如要准确预测Eaniso这种对电子结构细节极其敏感的性质可能需要成千上万个精确的DFT计算结果这本身又构成了一个数据瓶颈。我们采用的解决方案是冻结迁移学习Frozen Transfer Learning。其核心思想是“站在巨人的肩膀上”。eSEN-30M-OAM这样的uMLIP在预训练时其底层网络已经学会了如何从原子结构和化学环境中提取非常通用且强大的特征表示。我们将这些预训练好的底层网络参数“冻结”即不参与更新只重新训练最顶部的几层网络使其适配我们的特定预测任务如预测Eaniso。这就好比一个已经精通多种语言翻译的专家现在只需要稍加学习就能快速掌握一门新语言的翻译技巧所需的新训练数据量大大减少。这种方法显著提升了小数据集上的模型性能并增强了模型对训练数据中未出现元素的泛化能力。2.2 整体筛选流程一个严苛的多级漏斗我们的筛选流程设计得像一个层层过滤的漏斗确保最终留下的候选材料同时满足多项严苛条件。下图清晰地展示了这一逻辑flowchart TD A[“起始材料池br四元Heusler: 131,544种br全d Heusler: 105,763种”] -- B[“步骤A: uMLIP结构优化br计算形成能(ΔE)与凸包距离(ΔH)”] B -- C{“ΔE 0 eV/atom?”} C --否-- D[“淘汰: 热力学不稳定”] C --是-- E{“ΔH 0.22 eV/atom?”} E --否-- D E --是-- F[“通过初筛的材料”] F -- G[“步骤B: MLRM性质预测br预测磁矩、声子频率、居里温度、磁各向异性”] G -- H{“|c/a -1| 0.01?br(是否为四方相?)”} H --否-- I[“淘汰: 立方相无磁各向异性”] H --是-- J{“∑|mi| 0.1 μB/f.u.?br(是否具有磁性?)”} J --否-- I J --是-- K{“ωmin -10 cm⁻¹?br(是否声子稳定?)”} K --否-- I K --是-- L{“Tc 300 K?br(室温下是否磁稳定?)”} L --否-- I L --是-- M{“|Eaniso| 1 MJ/m³?br(磁各向异性是否够强?)”} M --否-- I M --是-- N[“最终候选材料br四元: 334种br全d: 924种”] N -- O[“步骤C: DFT计算验证”] O -- P[“确认的高性能稳定材料”]生成候选空间基于Heusler化合物的晶体结构规则空间群Fm-3m我们系统枚举了所有可能的四元X, Y为d区过渡金属Z为p区主族元素和全d过渡金属所有位点均为d区元素组合分别得到131,544和105,763种独特的化学成分。uMLIP初筛热力学稳定性使用eSEN-30M-OAM对所有候选结构进行优化计算其形成能ΔE和能量高于凸包的距离ΔH。筛选阈值设为ΔE 0 eV/atom表明该化合物相对于单质更稳定和ΔH 0.22 eV/atom表明其相对于其他可能相是稳定的该阈值基于我们先前DFT-HTP研究确定。此步骤淘汰了绝大多数热力学上不稳定的组合。MLRM性质预测多功能筛选对通过热力学初筛的结构使用基于迁移学习训练的MLRM批量预测其晶体结构判断c/a比值是否显著偏离1即是否为四方相因为立方相磁各向异性为零。磁性计算总绝对磁矩筛选出具有磁性的化合物。动力学稳定性预测最小声子频率ωmin筛选出声学支无虚频即ωmin -10 cm⁻¹允许微小负值作为误差缓冲的稳定结构。磁稳定性预测居里温度Tc筛选出Tc 300 K即室温以上仍保持磁有序的化合物。目标性能预测磁各向异性能Eaniso筛选出|Eaniso| 1 MJ/m³的强各向异性材料。DFT最终验证对ML筛选出的最终候选名单四元334种全d 924种我们动用DFT进行“终极审判”逐一计算上述所有性质以验证ML预测的可靠性。这套流程的精妙之处在于它将计算成本高昂的DFT计算放在了流程的末端且只作用于极少数经ML预筛选的“精英”候选者从而实现了计算资源的最优分配。3. 核心模块深度解析与实操要点3.1 uMLIP选型与性能基准测试为什么是eSEN-30M-OAMuMLIP是整套工作流的基石其精度直接决定了后续所有预测的可靠性。市场上uMLIP模型众多如ALIGNN-FF、CHGNet、MatterSim等如何选择我们进行了一次全面的“擂台赛”。我们选取了2023年以来具有代表性的多个uMLIP模型在一个包含10,000种常规三元Heusler化合物来自我们的HeuslerDB数据库的测试集上进行基准测试。评估的指标包括结构优化精度优化后的晶格常数a、c及c/a比与DFT参考值的相对误差RE。能量预测精度总能量E、形成能ΔE、凸包距离ΔH的绝对误差AE。测试结果汇总于下图等效数据一目了然评估指标表现最佳模型 (误差阈值内占比)关键洞察晶格常数 a (RE 5%)eSEN-30M-OAM, eqV2系列 (~95%)对晶格常数的预测非常精确是可靠结构优化的基础。晶格常数 c (RE 5%)eSEN-30M-OAM, eqV2系列 (~94%)对四方畸变c轴的预测同样出色这对识别四方相至关重要。c/a 比值 (RE 5%)eSEN-30M-OAM, eqV2系列 (~92%)能准确区分立方相和四方相误判率极低。形成能 ΔE (AE 0.05 eV/atom)eSEN-30M-OAM, eqV2系列 (~96.5%)能量预测精度高保证了热力学稳定性筛选的可靠性。凸包距离 ΔH (AE 0.05 eV/atom)eSEN-30M-OAM, eqV2系列 (~86.5%)虽然误差略大于ΔE但仍在可接受范围足以进行有效初筛。局部极小值数量eSEN-30M-OAM显著少于eqV2-L-OAMeSEN具有更“平滑”的能量曲面优化时更易收敛到全局极小计算效率更高。选择eSEN-30M-OAM的核心理由综合精度领先在几乎所有关键指标上都达到或接近最高精度。能量曲面更平滑在从14种不同初始畸变结构开始优化时eSEN找到的独特局部极小值结构数量远少于eqV2模型。这意味着它对于初始结构不那么敏感更容易找到一致的基态这对于高通量自动化流程的稳定性至关重要。收敛速度更快得益于平滑的能量曲面eSEN通常需要更少的优化步骤和更少的初始结构尝试就能收敛进一步降低了计算成本。实操心得在进行大规模筛选前务必在目标材料体系的一个小子集上对候选uMLIP进行基准测试。不要完全依赖论文中报告的在通用测试集如MatBench上的性能。模型在特定化学空间的表现可能有差异。我们的测试发现某些模型在预测Heusler化合物的c/a比时系统性偏差较大这会导致四方相识别错误。3.2 迁移学习构建MLRM如何让小数据发挥大作用训练预测Eaniso、Tc等复杂性质的MLRM最大的挑战是数据稀缺。我们为Eaniso收集了约6000个DFT数据点对于深度学习模型而言并不算多。冻结迁移学习技术在此发挥了关键作用。具体实施步骤基模型选择我们采用预训练的eSEN-30M-OAM uMLIP作为基模型。该模型的嵌入层和前几层网络已经编码了丰富的原子和化学键的通用知识。网络架构移植将基模型的嵌入层和前n层网络参数直接复制到我们的MLRM中并将这些层“冻结”设置requires_gradFalse在训练过程中它们的权重不会更新。输出层重构移除uMLIP原本的能量/力输出头根据预测任务构建新的输出层。例如预测Eaniso是一个标量回归任务我们接一个全连接层预测局部磁矩{mi}每个磁性原子一个标量则对应多个输出神经元。微调训练仅使用我们有限的Heusler化合物数据集训练剩余未冻结的层和新添加的输出层。我们系统测试了冻结不同层数n从0到9对模型性能的影响。结果发现冻结前7层TL-uMLIP-7时模型在ωmin、Tc和Eaniso预测任务上均达到最佳性能R²分数最高。冻结层数太少如n0模型无法充分利用预训练知识冻结层数太多如n9模型可调参数过少难以适应新任务。这个“甜蜜点”需要针对具体任务和数据集进行实验确定。泛化能力验证我们设计了“组别划分”测试来模拟真实发现场景在训练时完全排除某几个元素如Sc, Ti, V然后测试模型对包含这些“未见”元素的化合物的预测能力。结果显示采用冻结迁移学习的模型其性能下降远小于从零开始训练的模型。这证明预训练知识赋予了模型强大的外推能力这对于探索包含新元素组合的材料空间无比重要。3.3 局部磁矩预测攻克磁性筛选的难关准确预测材料的磁性是筛选磁性功能材料的前提。许多高通量研究仅预测总磁矩但这会漏掉反铁磁或亚铁磁等总磁矩很小甚至为零的体系。我们的目标是预测每个原子位点的局部磁矩{mi}这是一个更具挑战性的向量回归问题。模型设计与技巧输出表示对于共线磁构型所有磁矩沿同一轴每个原子的磁矩用一个标量表示其正负号代表方向。损失函数设计一个关键物理事实是将所有磁矩方向反转整体乘-1系统的磁态是等价的。为了确保模型学习到这一对称性我们改进了损失函数。对于每个预测我们计算两个损失一个是预测值{mi}与DFT标签的损失另一个是预测值的相反数{-mi}与DFT标签的损失。最终损失取两者中的较小值。这强制模型不关心磁矩的全局符号只关注相对大小和方向。学习曲线分析我们研究了模型性能随训练数据量增加的变化。结果表明即使只有5000个训练样本模型对化合物是否有磁性的分类准确率已达92%。但要精确预测每个磁矩的大小和符号误差0.1 μB则需要更多的数据。当训练集增至125,000个样本时对磁性化合物子集的预测精度误差0.1 μB的比例从72%提升至82%。这为未来在其他磁性体系应用此方法时需要准备多大规模的数据集提供了重要参考。4. 实战Heusler化合物筛选全流程拆解4.1 数据准备与候选空间生成一切始于数据。我们已有的HeuslerDB数据库包含了几乎所有常规三元Heusler化合物的DFT计算数据这是训练MLRM的宝贵资源。为了扩展搜索空间我们基于Heusler的晶体学规则化学式X₂YZ或XY’Z空间群Fm-3m进行系统枚举。四元Heusler我们固定化学式为 (X₁, X₂)YZ。X₁, X₂, Y 选自d区过渡金属排除Tc和Hg并包含La和Lu因其4f轨道全空或全满磁性行为简单。Z选自p区第13、14、15族的主族元素。考虑原子排列的对称性后共生成131,544种唯一化学成分。全d过渡金属Heusler将Z位点也替换为d区过渡金属及La, Lu化学空间进一步扩大生成105,763种唯一成分。这个枚举过程本身是确定性的确保了搜索的完备性。生成的初始结构为立方相但后续的uMLIP优化会允许其弛豫到能量更低的四方相。4.2 uMLIP结构优化与热力学筛选实操对于超过23万种初始结构使用DFT优化是不可想象的。我们部署eSEN-30M-OAM进行批量优化。关键操作细节初始结构扰动为避免优化陷入错误的局部极小我们对每个化学成分生成14个不同的初始结构。方法是对传统晶胞含2个化学式单元施加应变均匀缩放a, b, c轴±10% ±30%或单独改变c轴±10% ±20% ±30% ±40% ±50%然后转换为原胞1个化学式单元。并行化与作业管理使用Slurm或类似作业调度系统将数十万个优化任务分发到高性能计算集群。每个任务通常只需几分钟在GPU上甚至更快而对应的DFT计算可能需要数小时。能量与稳定性计算优化完成后提取最低能量的结构。利用uMLIP预测该结构的总能量并结合元素和竞争相的能量同样由uMLIP预测或从现有数据库获取计算形成能ΔE和凸包距离ΔH。筛选执行编写自动化脚本根据阈值ΔE 0, ΔH 0.22 eV/atom快速过滤。此步骤将候选池从23万迅速缩减至数万量级。4.3 MLRM性质预测与多级过滤通过热力学筛选的结构被送入MLRM流水线进行并行性质预测。这里每一步都是一个独立的筛选器。四方相识别计算优化后结构的c/a比值。设置阈值 |c/a - 1| 0.01将立方相c/a ≈ 1材料剔除因为其磁各向异性理论上为零。磁性判断使用{mi} MLRM预测局部磁矩并计算总绝对磁矩 Σ|mi|。阈值设为 0.1 μB/f.u.过滤掉非磁或磁性极弱的化合物。声子稳定性检查使用ωmin MLRM预测最小声子频率。阈值设为 -10 cm⁻¹。这是一个较为宽松的阈值用于快速排除明显动力学不稳定的结构同时容忍模型的一定预测误差。居里温度筛选使用Tc MLRM预测居里温度。阈值设为 300 K确保材料在室温下具有铁磁或亚铁磁序。磁各向异性筛选最后使用Eaniso MLRM预测磁各向异性能筛选出 |Eaniso| 1 MJ/m³ 的强各向异性候选者。每一步筛选都大幅减少了候选数量最终我们从超过23万的起点分别得到了334个四元化合物和924个全d化合物作为最终候选。4.4 DFT验证与结果分析ML的预言有多准这是检验ML-HTP工作流可靠性的“终极大考”。我们对所有1258个ML筛选出的候选材料进行了全面的DFT计算验证。验证结果令人振奋结构预测所有ML预测为四方相c/a ≠ 1的候选材料DFT验证100%确认为四方相。uMLIP在晶体结构区分上做到了零误判。热力学稳定性形成能 (ΔE)99.1% (四元) 和 97.8% (全d) 的候选材料经DFT计算确认为ΔE 0。凸包距离 (ΔH)96.4% (四元) 和 98.8% (全d) 的候选材料满足ΔH 0.22 eV/atom。性质预测磁性100%的候选材料被DFT确认具有磁性Σ|mi| 0.1 μB/f.u.。声子稳定性 (ωmin)89.2% (四元) 和 93.1% (全d) 的候选材料满足ωmin -10 cm⁻¹。居里温度 (Tc)81.7% (四元) 和 80.4% (全d) 的候选材料满足Tc 300 K。磁各向异性 (Eaniso)82.0%(四元) 和68.2%(全d) 的候选材料满足 |Eaniso| 1 MJ/m³。这个成功率尤其是对于四元化合物高达82%的Eaniso预测精度远高于传统DFT-HTP盲筛约3-5%的命中率也显著优于使用早期ML模型如ALIGNN的工作流仅24.3%。这强有力地证明了我们集成的先进uMLIP和迁移学习MLRM的有效性。一个有趣的发现全d化合物的Eaniso预测精度68.2%低于四元化合物82.0%。我们分析认为这是因为训练MLRM的数据全部来自常规三元HeuslerZ位是p区元素而全d化合物的Z位引入了训练数据中未出现过的d区元素化学环境。Eaniso对电子结构的细节极其敏感这种“领域偏移”导致了性能下降。这反过来也说明了迁移学习在缓解此类问题上的价值——如果不用迁移学习性能下降会更严重。5. 性能对比、局限性与未来展望5.1 与现有方法的横向对比为了量化我们工作的进步我们与文献中报道的多种方法进行了直接或间接对比vs. 早期成分描述符模型早期基于成分的ML模型在预测Heusler化合物晶格常数a和形成能ΔE时R²分数通常在0.80-0.94和0.80-0.88之间均方根误差RMSE也较大。我们的eSEN-30M-OAM uMLIP在这些指标上达到了0.994和0.995的R²以及0.023 Å和0.029 eV/atom的RMSE精度有质的提升。vs. 早期晶体图模型 (如CGCNN)在预测总磁矩等性质上早期模型R²约0.75-0.93。我们的{mi} MLRM在预测总磁矩时R²达到0.986且能预测更复杂的局部磁矩向量。vs. 混合工作流我们尝试了“混合”工作流用eSEN优化结构但用ALIGNN MLRM预测性质。其Eaniso筛选成功率降至54.0%。反之用ALIGNN优化结构用eSEN MLRM预测性质成功率暴跌至31.3%。这凸显了高精度结构优化是ML-HTP成功的第一基石而先进的MLRM则进一步提升了整体精度。5.2 当前工作流的局限性尽管成果显著但我们的工作流仍有改进空间数据依赖性MLRM的性能尤其是对Eaniso这种敏感性质的预测仍然依赖于高质量DFT训练数据的规模和覆盖面。全d化合物预测精度下降就是一个例证。uMLIP的普适性eSEN-30M-OAM虽强但仍是通用模型。对于某些非常规成键或强电子关联体系其精度可能下降。针对特定材料家族进行微调Fine-tuning可能是下一步方向。筛选阈值的设定我们使用的阈值如ΔH 0.22 eV/atom, ωmin -10 cm⁻¹是基于经验和先前DFT研究。这些阈值并非绝对放松阈值可以扩大候选池但会增加假阳性收紧阈值则相反。需要根据具体应用目标权衡。计算流程的复杂性当前工作流涉及多个步骤和模型需要一定的计算基础设施和脚本编排能力。将其封装成更用户友好的自动化软件包是推广的关键。5.3 给实践者的建议与未来方向基于本次实战经验对于想将ML-HTP应用于其他材料体系的同行我有以下几点建议始于数据忠于数据在开始任何ML预测前尽可能为你关心的体系构建一个高质量、标准化的第一性原理计算数据库。这是所有模型的“燃料”。uMLIP选型要实测不要盲目相信排行榜。务必用你的目标体系数据做一个快速的基准测试比较不同uMLIP在结构优化和能量预测上的表现。善用迁移学习如果你的目标性质数据有限冻结迁移学习几乎是必选项。从一个大而全的预训练uMLIP如eSEN, MACE, CHGNet开始能极大提升小数据场景下的模型性能和泛化能力。设计鲁棒的筛选流程像我们一样采用多级、逐步收紧的筛选漏斗。先用量大、计算快的筛选器如uMLIP优化热力学筛选去掉绝大多数“垃圾”候选再用更精细但计算成本稍高的模型如预测Tc, Eaniso筛选。每一步都要设置合理的、有物理意义的阈值。DFT验证不可或缺ML筛选出的候选名单必须用DFT进行最终验证。这不仅是检验ML工作流可靠性的必要步骤也能为后续的实验研究提供确凿的理论依据。未来这个领域的发展方向可能是多目标与主动学习从单一性质筛选扩展到同时优化多个有时相互冲突的性能指标。结合主动学习让模型智能地建议下一个最值得用DFT计算的材料实现搜索效率的最大化。集成生成模型不仅仅是“筛选”而是利用生成式AI如扩散模型、图生成模型直接“设计”出具有目标性能的全新材料结构。与实验闭环将ML-HTP筛选出的候选材料直接推荐给实验团队进行合成与表征并将实验结果反馈给ML模型形成一个“计算-实验”闭环的迭代优化过程。我们已将本次研究中的核心工具链——用于高通量优化的MLIP-HOT和用于迁移学习的MLIP-FTL软件包开源。希望这套经过实战检验的ML-HTP工作流能成为更多材料研究者手中的利器共同加速功能材料发现的步伐。从二十多万种可能性中精准定位那一千多个希望的种子这正是机器学习赋能材料科学的魅力所在。