DeFecT-FF:机器学习力场加速半导体缺陷高通量筛选与建模 1. 项目概述当机器学习力场遇上缺陷物理在薄膜太阳能电池尤其是CdSeTe这类II-VI族半导体材料的研究中有一个核心问题长期困扰着材料科学家和器件工程师缺陷。这些原子尺度上的“不完美”——比如一个缺失的镉原子空位、一个不该存在的铜原子间隙杂质或者一个砷原子取代了碲原子的位置替位缺陷——就像是材料内部的“陷阱”。它们会捕获光生载流子引发非辐射复合直接导致器件的开路电压Voc远低于理论极限严重制约了电池的最终转换效率。要理解并“驯服”这些缺陷传统武器是第一性原理计算特别是精度较高的混合泛函密度泛函理论如HSE06。它能告诉我们缺陷的形成能、电荷态、以及在能带中的能级位置。但问题在于现实世界太复杂了。CdSeTe不是单一材料而是硒Se和碲Te的合金成分x值可以连续变化每种成分下缺陷的种类空位、间隙、替位、复合体、电荷态2, 1, 0, -1, -2以及它们在晶格中可能占据的对称不等价位点组合起来是一个天文数字。用HSE06去逐一优化这些结构一个缺陷可能就要耗费8-9个小时的超级计算机时。想系统性地扫描整个成分-缺陷-电荷空间这几乎是一个“不可能完成的任务”计算资源和时间成本都无法承受。这就是我们开发DeFecT-FF框架的初衷。我们想回答一个核心问题能否用机器学习的力量在保持接近DFT精度的前提下将缺陷筛选和优化的速度提升几个数量级我们的答案是肯定的。DeFecT-FFDefectmodeling withForceFields不是一个单一的模型而是一套结合了晶体图神经网络CGNN、主动学习Active Learning和机器学习力场MLFF的完整工作流。它从海量的、多层次的DFT数据包括快速的PBE和精确的HSE06计算中学习最终能够像经验丰富的计算材料学家一样“秒级”预测任意新缺陷结构的能量和原子受力并驱动快速的几何优化。简单来说DeFecT-FF的目标用户是那些受困于传统DFT计算瓶颈的研究者和工程师。无论你是想快速筛选CdSeTe太阳能电池中最佳的钝化掺杂剂比如比较Cu、As、Cl等还是想探究晶界或位错核心处复杂的缺陷复合行为这个框架都能将原本需要数周甚至数月的探索性计算压缩到几天甚至几小时内完成让你能把宝贵的时间和计算资源聚焦在最关键、最有趣的物理问题上。2. 核心思路拆解为何是“晶体图神经网络主动学习力场”的三重奏要构建一个高效可靠的缺陷建模工具我们不能只做一个“黑箱”预测器。它必须理解材料的晶体结构、化学键合并能处理带电体系的复杂性。DeFecT-FF的设计哲学正是基于对这三个核心挑战的深入思考。2.1 基石用晶体图神经网络理解材料的“社交网络”传统描述材料结构的方法如原子坐标、键长键角列表对于机器学习模型来说并不“友好”。我们需要一种能天然蕴含晶体周期性、对称性和化学环境的表示方法。这就是我们选择晶体图Crystal Graph作为模型输入的原因。你可以把晶体结构想象成一个社交网络。每个原子是一个“节点”原子之间的化学键是“边”。晶体图神经网络我们采用了ALIGNN架构不仅考虑节点原子的特征如元素种类还考虑边键的特征如键长甚至三体相互作用键角。通过多层图卷积模型能够捕捉从短程到长程的原子间相互作用从而对材料的整体能量我们称之为晶体形成能Crystal Formation Energy, CFE做出精准预测。实操心得在构建训练数据集时我们不仅包含了最终的优化结构还纳入了几何优化轨迹中的所有中间构型。这一点至关重要。因为力场训练需要学习能量随原子位置变化的“地形图”而不仅仅是能量最低点。这些中间构型提供了丰富的力能量梯度信息是训练出稳健MLFF的关键。2.2 引擎用主动学习高效探索未知的化学空间Cd/Zn-S/Se/Te的缺陷化学空间广阔无垠。我们不可能也没必要用DFT计算所有可能的缺陷构型。主动学习AL在这里扮演了“智能导航员”的角色。我们的流程是这样的初始化用一个相对较小的、覆盖部分化学空间的DFT数据集PBE级别训练一个ALIGNN模型我们称之为ALIGNN-1。探索与评估用这个模型去预测整个目标空间例如所有CdSexTe1-x合金中的AsTe缺陷中成千上万个未计算构型的能量。同时模型会给出每个预测的不确定性Uncertainty。智能采样我们不会随机选择新点做DFT计算。而是选择那些模型最不确定预测方差最大的构型。这些点通常位于训练数据分布之外或边界是模型知识的“盲区”。迭代增强对这些高不确定性的构型进行DFT计算将得到的新数据加入训练集重新训练模型ALIGNN-2。如此循环模型的预测能力会像滚雪球一样用最少的DFT计算成本快速覆盖并精通整个复杂的化学空间。注意事项主动学习中的“采集函数Acquisition Function”选择是关键。我们测试了多种策略如最大不确定性、预期改进等发现对于缺陷能量预测这种回归任务最大不确定性Maximum Uncertainty策略最为简单有效。它能最直接地标识出模型认知的薄弱环节。2.3 飞跃从能量预测到力场驱动的几何优化ALIGNN能快速预测能量但它是一个“静态”模型。给定一个结构它输出一个能量值。而真正的材料模拟尤其是寻找缺陷的最稳定构型需要几何优化——即根据原子受力不断调整原子位置直至找到能量极小值。这就需要机器学习力场MLFF。我们基于M3GNet架构训练了MLFF模型。与ALIGNN不同MLFF模型的训练目标不仅是总能量还包括每个原子上的受力Forces和体系的应力Stress。一旦模型训练好它就像一个经典力场如Lennard-Jones势一样可以输入原子坐标输出能量和每个原子的受力向量。有了受力的信息我们就可以使用快速的梯度下降算法如FIRE算法进行几何优化。这个过程与DFT优化完全类似但速度要快上千倍。MLFF优化得到的结构其能量和原子排布与DFT优化结果高度一致这为我们后续进行精确的但昂贵的单点HSE06SOC计算提供了近乎完美的初始结构。3. 数据基石构建跨越精度与尺度的DFT数据集任何机器学习模型的性能上限都取决于其训练数据的质量和广度。对于DeFecT-FF我们构建了一个多层次、多尺度的DFT数据库这是整个项目的“燃料库”。3.1 双精度策略PBE的广度与HSE06的深度我们采用了两层数据策略来平衡计算成本与精度需求GGA-PBE层广度这是我们的基础数据集包含了超过10,000个结构。它覆盖了从二元CdTe, CdSe, ZnTe等到三元CdSexTe1-x, CdxZn1-xTe、四元合金的体相、缺陷、界面甚至位错核心结构。所有结构都计算了多种电荷态2, 1, 0, -1, -2。PBE计算相对快速使们能够以可承受的成本生成海量数据用于训练初版的ALIGNN和MLFF模型特别是让模型学习复杂的化学和结构环境。HSE06层深度这是我们的精修数据集。我们从PBE数据集中挑选了最具代表性的构型约5000个用更精确但昂贵百倍的HSE06杂化泛函重新计算其能量。这部分数据有两个关键作用(1) 用于训练高精度的HSE级MLFF模型使其预测能量直接对标“金标准”(2) 作为测试基准验证我们整个工作流的最终精度。3.2 缺陷构型的系统化生成告别“手动猜测”缺陷研究的一个常见陷阱是陷入局部能量极小值。一个缺陷如As替位Te在晶格中可能有多个对称不等价的位置且每个位置经过扰动后可能弛豫到不同的稳定构型。传统研究往往只测试一两个“看起来合理”的构型可能错过真正的基态。在我们的流程中我们利用Doped和ShakeNBreak等工具包对每一种缺陷类型在每个合金成分中系统性地生成至少10个对称不等价位点并对每个初始位点施加至少15种不同的对称性破缺扰动如随机原子抖动、键长拉伸。以CdSe0.5Te0.5中的本征空位缺陷为例这会产生(12种缺陷类型) * (10个位点) * (15种扰动) 1800个初始结构用于MLFF快速筛选。这确保了我们的搜索能够逃离局部极小有更高概率找到全局或近全局的能量最低构型。踩坑实录早期我们尝试用简单的随机位移生成初始结构发现MLFF优化后很多结构会收敛到非常相似的能量。引入基于对称性分析和键畸变的ShakeNBreak方法后构型空间的采样多样性显著提升成功发现了传统DFT弛豫容易错过的一些亚稳态例如Te空位VTe附近形成的Te-Te二聚体这对理解缺陷的电子态至关重要。3.3 关键数据标签不止于总能量对于每个DFT计算的结构我们提取并存储以下关键信息构成训练数据的“标签”总能量Total Energy用于计算晶体形成能CFE和缺陷形成能DFE。原子受力Atomic Forces3N维向量N为原子数是训练MLFF的核心。应力张量Stress Tensor用于考虑晶胞形状的弛豫虽然在本工作中我们主要固定晶胞体积。电荷密度可选用于后续分析电子结构但非MLFF训练必需。晶体形成能CFE的计算公式为CFE [E(supercell) - Σ(n_i * E(element_i))] / N_atoms其中E(supercell)是超胞的总能n_i和E(element_i)分别是元素i的原子数和该元素在标准态下的单原子能量N_atoms是超胞总原子数。CFE是一个归一化的能量便于比较不同大小超胞、不同成分结构的稳定性。4. 模型训练与优化细节决定成败有了高质量的数据下一步就是“教”机器学习模型。这里面的技巧和陷阱直接决定了DeFecT-FF是“玩具”还是“利器”。4.1 ALIGNN模型训练预测能量的“快速评估员”我们首先训练ALIGNN模型来直接预测CFE。这是一个回归任务。我们采用了以下关键设置数据集划分60%训练20%验证20%测试。验证集用于早期停止Early Stopping防止过拟合测试集用于最终评估泛化能力。模型架构使用4层图卷积层和4层线图卷积层以充分捕获原子环境的层次化信息。截断半径设置为6 Å并考虑每个原子最近的12个邻居来构建晶体图。这个范围足以涵盖II-VI族半导体中主要的相互作用。损失函数均方误差MSE损失。优化器AdamW初始学习率0.001并配合学习率调度器。一个重要的发现是单独用体相数据训练的模型在预测缺陷能量时误差很大RMSE 50 meV/atom。而将体相和缺陷数据混合训练的模型对两者的预测误差都很小~1-8 meV/atom。这说明缺陷引入了强烈的局部晶格畸变模型必须“见过”这种畸变才能学会预测它。因此训练数据的多样性比单纯的数量更重要。4.2 M3GNet-MLFF模型训练学习原子间的“推拉”之力训练MLFF比训练能量预测模型更复杂因为目标变量多了很多从1个总能量变为3N16个量3N个力分量1个能量6个应力分量。我们的策略是分电荷态训练我们为每个电荷态q2, 1, 0, -1, -2分别训练了一个MLFF模型。这是因为带电缺陷会显著改变周围的电子密度和原子间相互作用势用一个模型拟合所有电荷态会显著增加难度、降低精度。损失函数加权总损失L w_E * RMSE_E w_F * RMSE_F w_S * RMSE_S。我们设置w_E1, w_F1, w_S0.01。力的误差权重与能量相同因为力的准确性直接决定几何优化的质量应力权重较低因为本工作中晶胞弛豫不是重点。两阶段训练与困难样本挖掘预热阶段用均匀采样训练几十个epoch让模型先学到数据的大致分布。重加权阶段用预热后的模型在训练集上做预测计算每个样本的预测误差能量力。给预测误差大的样本“困难样本”分配更高的采样权重。在后续训练中这些“难学”的构型会被更频繁地抽取到迫使模型重点优化对这些构型的拟合。我们每10-20个epoch更新一次权重。核心技巧这种“困难样本挖掘”策略效果显著。对于缺陷体系某些特定的键合环境如严重扭曲的四面体、缺陷复合体界面在数据集中可能占比较少但能量和力的变化却非常剧烈。均匀采样下模型容易忽略它们导致在这些关键区域预测不准。重加权策略确保了模型不会“偏科”整体预测性能更加均衡可靠。4.3 几何优化MLFF大显身手的舞台训练好的MLFF模型其核心应用就是驱动几何优化。我们使用原子模拟环境ASE中的FIRE优化器收敛标准为平均原子力小于0.01 eV/Å。与传统DFT优化对比DFT-HSE06优化对一个3x3x3超胞~200原子中的缺陷进行优化通常需要50-100个离子步每个离子步需要数十分钟到数小时取决于体系和计算资源。总耗时8-12小时。MLFF优化同样体系每个离子步的能量和力评估是毫秒级的。完成一次优化约100步仅需1-2分钟。这不仅仅是速度的提升更是工作模式的变革。现在我们可以轻松地对一个缺陷的数十甚至上百个初始扰动构型进行快速优化从中找出能量最低的一个然后再对这个最优构型进行单点的、高精度的HSE06计算来确认其电子结构。这个“MLFF预筛选HSE06精修”的两步法将全面探索缺陷构型空间从“不可行”变成了“常规操作”。5. 电荷校正与缺陷形成能计算跨越周期性边界条件的陷阱在周期性边界条件下计算带电缺陷有一个著名的“陷阱”镜像电荷相互作用。你的超胞中心有一个带2电荷的缺陷它的周期性镜像在周围超胞中也是2电荷同性相斥这会人为地抬高体系的量。此外由于引入了均匀背景电荷来保持体系电中性还需要进行势能对齐校正。5.1 Freysoldt校正方案详解我们采用了被广泛验证的Freysoldt方案来进行电荷校正。校正能量E_corr包含两部分E_corr E_image q * ΔV镜像电荷校正E_image这部分校正点电荷与其周期性镜像之间的虚假库仑相互作用。公式为E_image (q^2 * α) / (2 * ε * L)。其中q是缺陷电荷。α是马德隆常数取决于超胞的形状对于立方超胞α≈2.8373。ε是材料的静态介电常数对于CdTeε约10.4。L是超胞的有效长度通常取体积的立方根。 这个公式是解析的计算瞬间完成。它的物理图像是将点电荷嵌入一个连续介电介质中从而屏蔽了长程的库仑发散。势能对齐校正q * ΔV在DFT计算中带电缺陷超胞和中性完美超胞的静电势的绝对值没有直接可比性。我们需要找到一个远离缺陷的“体相”区域在那里缺陷的扰动已经衰减为零。计算该区域在缺陷超胞和完美超胞中的平面平均静电势之差即为ΔV。q * ΔV就是将缺陷电荷置于这个势能偏移中所做的功。5.2 在DeFecT-FF工作流中的集成在DeFecT-FF的自动化流程中电荷校正被无缝集成MLFF优化阶段对于带电缺陷MLFF模型使用经过校正的总能量进行训练和预测。这意味着模型已经内化了电荷校正带来的能量偏移。缺陷形成能计算缺陷形成能E_form的计算公式为E_form(q, E_F) E_defect(q) - E_perfect Σ(n_i * μ_i) q*(E_F E_VBM) E_corrE_defect(q): 带电缺陷超胞的总能MLFF预测并经校正。E_perfect: 完美超胞的总能。Σ(n_i * μ_i): 化学势项。n_i是缺陷形成时从环境中获得正或失去负的原子i的数量μ_i是该原子在特定生长条件下的化学势如Cd-rich或Te-rich。q*(E_F E_VBM): 电子化学势项。E_F是费米能级相对于价带顶VBME_VBM是完美晶体的价带顶绝对能量。E_corr: 上述的Freysoldt校正项。我们的Jupyter notebook工具内置了一个化学势数据库用户只需选择生长条件如Cd-rich工具会自动调用相应的化学势值结合MLFF预测的能量和用户提供的带隙、VBM信息实时绘制出缺陷形成能随费米能级变化的E_form - E_F图。这张图是缺陷热力学的“地图”直接告诉我们哪种缺陷在何种费米能级下最容易形成是深能级还是浅能级。注意事项介电常数ε是校正项中的关键参数。对于合金如CdSexTe1-x其介电常数随成分x变化。在DeFecT-FF中我们采用线性插值Vegard定律来估算合金的介电常数。对于精度要求极高的场合建议使用第一性原理计算或查阅实验值来获得更准确的ε。6. 实战演练以CdSeTe中AsTe缺陷为例让我们通过一个具体案例拆解如何使用DeFecT-FF完整分析一个缺陷。目标研究CdSe0.5Te0.5合金中砷As取代碲Te位点AsTe的缺陷特性。6.1 步骤一构型生成与MLFF快速筛选输入准备用户上传CdSe0.5Te0.5完美晶体的CIF文件到我们的nanoHUB工具。缺陷生成工具自动识别晶格根据用户选择的缺陷类型“As substitution on Te site”枚举出所有对称不等价的Te位点。在一个128原子的2x2x2超胞中这可能产生8-10个初始位点。构型扰动对每个初始AsTe位点使用ShakeNBreak生成15种不同的初始扰动结构共约150个初始构型。MLFF预优化调用训练好的、针对Cd-Se-Te化学空间的MLFF模型q0电荷态并行地对这150个结构进行几何优化。这个过程在CPU集群上大约需要10-15分钟。能量排序收集所有优化后结构的MLFF预测能量CFE进行排序。能量最低的1-3个结构被选为“候选基态构型”。6.2 步骤二DFT精修与电子结构计算DFT结构弛豫将MLFF筛选出的最低能量候选结构用PBE泛函进行严格的DFT几何优化以确保原子受力完全收敛 0.01 eV/Å。此步骤作为对MLFF结果的验证和微调通常只需1-2个离子步就能收敛耗时约1小时。高精度单点能计算将PBE优化后的最终结构固定原子位置使用HSE06SOC自旋轨道耦合泛函进行单点能计算。这一步非常昂贵但只做一次。对于一个~200原子的3x3x3超胞在大型计算集群上可能需要4-6小时。这一步得到了缺陷的“黄金标准”能量。缺陷形成能与能级计算利用HSE06计算得到的完美晶体和缺陷晶体的总能量、价带顶VBM、导带底CBM结合之前提到的公式计算AsTe在不同电荷态1, 0, -1下的形成能E_form。绘制E_form随费米能级E_F变化的曲线。电荷转移能级确定两条不同电荷态的形成能曲线的交点即对应缺陷的电荷转移能级ε(q1/q2)。例如E_form(AsTe^0)和E_form(AsTe^-1)曲线的交点就是 AsTe的 (0/-1) 能级在带隙中的位置。如果这个能级靠近带隙中央它就是有害的深能级复合中心如果靠近能带边缘则是相对无害的浅能级。6.3 结果解读与物理洞察通过上述流程我们可能发现AsTe在CdSe0.5Te0.5中是一个深能级缺陷。其(0/-1)能级位于距价带顶约0.4 eV处。这意味着它会成为有效的电子-空穴复合中心降低少子寿命从而损害电池的开路电压。在富Cd生长条件下AsTe的形成能较低。这意味着在这种工艺条件下As杂质更容易以这种有害的形式掺入晶体。这为工艺优化提供了明确方向可能需要控制Cd/Se/Te的比例或引入其他补偿掺杂如Cl来抑制AsTe的形成。MLFF与HSE06的一致性对比发现MLFF优化出的最低能量构型与HSE06单点计算确认的构型一致且MLFF预测的形成能趋势与HSE06结果高度吻合误差通常在0.1-0.2 eV以内。这证明了MLFF预筛选的可靠性。7. 工具化与社区共享nanoHUB上的DeFecT-FF为了让这项技术惠及更广泛的研究社区而不仅仅是计算专家我们将整个DeFecT-FF工作流封装成了一个基于Jupyter Notebook的交互式网络工具部署在nanoHUB平台上。7.1 工具核心功能用户友好输入晶体结构支持直接上传CIF、POSCAR等标准格式文件或从内置材料数据库中选择。缺陷定义通过下拉菜单选择缺陷类型空位、间隙、替位、复合体和掺杂元素Cu, As, Cl, O等。计算参数设置超胞大小、电荷态列表、化学势条件富Cd、富Te等、以及材料的带隙和VBM信息可从文献或初步计算获得。自动化工作流执行工具后端自动调用部署好的MLFF模型对用户定义的缺陷进行构型枚举、扰动和快速几何优化。优化完成后自动从内置化学势库中读取数据计算缺陷形成能。最终生成并可视化E_form - E_F图并输出包含优化后结构、能量、形成能等信息的CSV报告。结果输出与验证可下载文件优化后的结构文件CIF/POSCAR、详细的能量日志、形成能数据表。重要提示工具界面会明确标注对于器件性能至关重要的缺陷案例建议将MLFF优化的最低能量结构进行最终的、目标性的HSE06(SOC)计算验证。DeFecT-FF的核心价值在于“快速筛选和提出假设”而最高精度的确认仍需依赖传统DFT。7.2 使用场景与限制适合场景高通量初筛快速比较多种掺杂剂、多种合金成分下的缺陷行为。构型间探索系统研究一个特定缺陷所有可能的对称性破缺构型寻找全局能量最低点。教学与演示让学生直观理解缺陷形成能、电荷态、能级等概念。当前限制化学空间目前预训练的模型主要针对Cd/Zn-S/Se/Te体系。对于其他材料体系如钙钛矿、氧化物需要重新生成DFT数据并训练模型。精度边界MLFF的精度上限取决于其训练的DFT数据。对于强电子关联、磁性体系或激发态性质目前框架的预测能力有限。动态过程专注于基态静态缺陷性质。对于缺陷扩散、迁移等动力学过程需要基于MLFF进行分子动力学模拟这属于更进阶的应用。8. 总结与展望加速材料发现的范式转变回顾整个DeFecT-FF项目其最大的价值不在于提出了某个新的算法而在于构建了一个完整、自动化、且切实可用的工作流将机器学习力场从学术论文中的概念变成了材料研究者手边可以随时调用的“计算显微镜”。从个人实践的角度来看这套方法最让我兴奋的几点是第一它改变了研究节奏。以前设计一个计算实验需要反复掂量计算资源一个想法可能要排队数周才能验证。现在利用MLFF的快速筛选一天之内就能完成几十个候选方案的初步评估快速聚焦到最有希望的2-3个方向上然后再投入宝贵的HSE06资源进行精确认证。这极大地提升了科研的探索效率和迭代速度。第二它降低了领域门槛。通过nanoHUB工具即使不熟悉机器学习代码和DFT软件细节的实验组同行也能上传他们的材料结构快速获得缺陷性质的初步分析报告从而更有效地指导他们的合成与表征实验。计算与实验的对话变得更加紧密和高效。第三它指向了一个更智能的未来。DeFecT-FF目前还是一个“被动”的工具需要用户提出问题定义缺陷。未来的方向是将其与逆向设计、贝叶斯优化结合。例如给定一个目标“在CdSeTe中找到一种掺杂剂使其在富Se条件下形成能高在富Cd条件下形成能低且只产生浅能级”让AI自动在庞大的化学和构型空间中搜索满足这些复杂约束的解决方案。这将是材料发现范式的又一次革命。当然这条路还很长。如何将动态性质、非平衡过程、甚至与宏观器件模拟耦合都是充满挑战的前沿。但DeFecT-FF已经迈出了坚实的一步它证明了将物理驱动的第一性原理与数据驱动的机器学习深度融合是解决材料科学中复杂高通量问题的强大路径。对于从事半导体缺陷物理特别是光伏材料研究的同行来说现在正是拿起这个工具开始你们自己的“加速探索”的时候。