1. 项目概述与核心思路在计算凝聚态物理和量子化学领域密度泛函理论Density Functional Theory, DFT无疑是过去几十年里最成功的“第一性原理”计算方法。它的核心魅力在于通过Hohenberg-Kohn定理将描述N个相互作用电子的复杂多体问题巧妙地转化为一个关于电子密度n(r)的单变量变分问题。理论上只要我们能找到那个“万能”的能量泛函F[n]并对其求极小值就能得到系统的基态能量和密度。然而这个“万能”泛函F[n]的具体形式是未知的其核心难点——交换关联能Exc[n]——包含了所有非经典的电子相互作用和关联效应。传统的解决方案是Kohn-Sham (KS) 方案构造一个虚构的、无相互作用的单粒子系统让其基态密度与真实系统严格一致。这样棘手的多体动能项被精确计算所有复杂性都被打包塞进了交换关联势vxc(r)中。主流的局域密度近似LDA和广义梯度近似GGA就像是用“本地物价”来估算“全球贸易”对于弱关联的常规金属和半导体效果不错但一旦遇到电子间关联作用占主导的强关联体系比如高温超导材料、Mott绝缘体这些近似就常常失灵。那么有没有一种方法既能保持KS框架的计算效率又能突破传统泛函在非局域性描述上的局限精准捕捉强关联物理呢这正是我们这次要深入探讨的课题利用机器学习ML为Hubbard模型构建半局域交换关联泛函并实现其Kohn-Sham自洽计算。为什么选择Hubbard模型它堪称强关联物理的“果蝇模型”。这个模型极度简化只考虑格点上的在位库仑排斥U和近邻格点间的跳跃t却保留了Mott转变、自旋电荷分离等核心强关联现象的精髓。更重要的是对于一维Hubbard模型我们有精确的Bethe ansatz解和高效的密度矩阵重正化群DMRG算法作为“标尺”可以生成海量精确的基态数据为机器学习提供完美的训练场。我们的核心思路可以概括为用数据驱动代替物理假设用灵活的非线性映射代替解析的泛函形式。具体来说我们不预设Exc是密度n的某个具体函数比如LDA的n^(4/3)形式而是训练一个神经网络让它学习从“一片局域区域的密度分布”到“该区域的交换关联能密度”之间的复杂映射。这个“一片区域”的大小由我们定义的非局域性参数a来控制。a0就是完全局域只依赖当前格点密度a1则考虑最近邻a越大考虑的“上下文”信息就越广。通过这种方式我们构建了一类可扩展的半局域泛函它既不像完全非局域泛函那样难以迁移到不同尺寸的系统又比传统局域近似更能捕捉强关联效应中至关重要的非局域关联。这套方法的价值在于它为我们提供了一把新钥匙。我们可以用训练好的ML-KS势快速求解包含数千个格点的大系统研究诸如一维无序链的极化率如何趋近热力学极限这样的问题而无需进行昂贵的多体计算。这不仅是泛函构造方法上的一次有趣尝试更是为研究扩展强关联体系的实际物理性质开辟了一条高效的新路径。2. 方法论详解从数据到泛函的构建之路构建一个机器学习泛函远不止是“搭个神经网络然后训练”那么简单。它是一套完整的流程从底层物理模型的定义、精确数据的生成到机器学习模型架构的设计与训练策略每一步都需要精心考量。本节我们将深入拆解这个过程中的每一个关键环节。2.1 物理舞台一维Hubbard模型的Kohn-Sham框架我们工作的舞台是单轨道、自旋1/2的一维Hubbard模型。其哈密顿量如下H H_kin H_U H_ext -t * Σ_{i,σ} (c†_{i,σ} c_{i1,σ} h.c.) // 动能项描述电子在格点间跳跃 U * Σ_i n_{i↑} n_{i↓} // 在位库仑排斥项U0 Σ_{i,σ} v_i * n_{iσ} // 外势项v_i是格点i上的局域势这里t是跳跃积分设为能量单位1U是库仑排斥能本文取U4处于中等关联强度v_i是作用于格点i上的外势用于引入无序或外场。n_{iσ} c†_{iσ} c_{iσ}是格点i上自旋σ的电子数算符。格点密度泛函理论LDFT的Hohenberg-Kohn定理告诉我们对于给定的U存在一个普适的泛函F_U[{n_iσ}]它是所有格点占据数{n_iσ}的函数。系统的总能量可以写成E_U[{n_iσ}] F_U[{n_iσ}] Σ_{iσ} n_{iσ} v_i。 其中F_U[{n_iσ}] Ψ| H_kin H_U |Ψ|Ψ是相应于密度{n_iσ}的多体基态波函数。类比于连续空间DFT我们定义交换关联能为Exc[{n_iσ}] F_U[{n_iσ}] - F_{U0}[{n_iσ}]。 注意这里我们没有像连续DFT那样单独分离出Hartree项因为在格点模型中双占据能U n_i↑ n_i↓已经包含了经典的排斥能部分和量子交换关联效应。由此我们可以写出对应的Kohn-Sham方程( H_kin v_eff, iσ ) φ_m ε_m φ_m。 其中有效势v_eff, iσ v_xc, iσ v_i而交换关联势v_xc, iσ正是交换关联能Exc对密度n_iσ的泛函导数v_xc, iσ ∂Exc / ∂n_iσ。在离散格点体系中这个泛函导数退化为普通的偏导数。注意我们专注于自旋无极化且总自旋为零的情况N↑ N↓因此可以忽略自旋指标用总占据数n_i n_i↑ n_i↓来描述系统。我们主要研究三分之二填充Ne/L 2/3的金属相避开了半填充Ne/L 1的Mott绝缘相后者关联长度更长计算收敛更为困难。2.2 数据生成DMRG与逆向KS方法高质量的训练数据是机器学习成功的基石。我们的目标是让神经网络学会映射{n_i} - Exc。因此对于每一组随机生成的外势{v_i}我们都需要知道其对应的精确基态密度{n_i^exact}和精确的交换关联能Exc。1. 精确基态数据的获取DMRG我们使用密度矩阵重正化群DMRG算法来求解一维Hubbard模型的精确多体基态。DMRG对于一维强关联系统是近乎精确的标准方法。通过TenPy等成熟库我们可以计算出系统的基态波函数、能量E_total和每个格点的占据数{n_i^DMRG}。有了总能量和密度如何得到Exc根据定义Exc E_total - Σ_i n_i v_i - T_0[{n_i}]。 其中T_0[{n_i}]是无相互作用系统U0具有相同密度{n_i}时的动能。这个动能可以通过求解一个单粒子问题即H_kin v_eff其中v_eff通过逆向KS方法得到见下文来精确计算。因此生成一个数据点的流程是给定{v_i}- DMRG计算得到E_total和{n_i}- 通过逆向KS得到T_0- 计算得到Exc。2. 关键的一步逆向Kohn-Sham (Inverse KS)为了计算T_0我们需要知道能重现精确密度{n_i^DMRG}的那个有效势v_eff。这是一个典型的逆向问题给定密度求势。我们采用数值优化方法如BFGS算法来最小化目标函数|| n[v_eff] - n^DMRG ||即寻找一个势v_eff使得由它求解单粒子薛定谔方程得到的密度n[v_eff]与DMRG密度之间的欧氏距离最小。收敛后v_eff对应的单粒子系统的动能就是T_0。同时交换关联势v_xc v_eff - v_i也作为重要的监督数据被记录下来。3. 训练集与测试集的构建策略为了让模型具有泛化能力训练数据必须足够多样。我们采用了一种巧妙的随机外势生成策略对于每个系统尺寸L18, 21, 24我们生成大量数据点。每个数据点对应一组随机外势{v_i}其中每个v_i在区间[0, λ]内均匀随机取值。关键技巧在于λ本身也是变化的我们让λ按照sqrt(9k/(n-1))的规律从0变化到3生成n15000个配置。这种平方根依赖关系使得数据点更多分布在远离均匀系统λ0的区域增加了密度分布的多样性。此外我们还额外生成了λ从3线性增加到6的2000个配置并加入了施加不同强度均匀电场的外势情况。测试集则使用更大的系统尺寸L24到60用同样的λ分布生成1000个随机配置用于评估模型的泛化能力。实操心得数据质量把控。DMRG计算本身有收敛精度问题。我们将能量相对变化小于10^-5作为收敛标准未收敛的数据坚决剔除出训练集。但对于测试集我们保留所有DMRG结果不进行筛选以避免对测试集引入偏差从而更真实地评估模型在“不可控”数据上的表现。2.3 机器学习模型半局域神经网络的架构与训练我们的核心创新在于泛函的“半局域”设计。传统的全非局域泛函依赖整个系统的所有密度无法迁移到不同尺寸的系统。而我们的设计让交换关联能Exc表示为各个格点能量密度e_xc的和而每个e_xc只依赖于以该格点为中心、半径为a的一个局部窗口内的密度E_ML_xc[{n_i}] Σ_{i1}^{L} e_ML_xc[ n_{i-a}, ..., n_i, ..., n_{ia} ]这里a就是非局域性参数。a0意味着完全局域只依赖n_ia1考虑最近邻以此类推。这个设计带来了两大好处可迁移性只要窗口大小a固定训练好的e_ML_xc函数可以应用于任意长度L 2a的链实现了“一次训练多处使用”。可控的非局域性我们可以通过调整a来研究关联效应的空间延展范围在计算成本和精度之间取得平衡。模型实现细节神经网络e_ML_xc由一个全连接神经网络实现。我们采用了5个隐藏层每层64个神经元。这个深度足以捕捉密度与能量之间复杂的非线性关系又不会过于庞大导致过拟合或训练困难。激活函数我们选择了指数线性单元ELU。这一点至关重要因为我们需要通过自动微分来求泛函导数以得到v_xc。ELU函数处处可微且能缓解梯度消失问题确保得到的势函数平滑连续。输入与边界处理对于靠近边界的格点其局部窗口会超出系统范围。我们采用“零填充”策略即将超出的格点占据数设为0。这物理上对应于将有限长链视为无限长链中边界外格点势能为无穷大的情况是处理开放边界条件的合理方式。训练配置使用Adam优化器批量大小为32训练5000个周期。学习率采用指数衰减策略初始值为3e-4每5000周期衰减为原来的1/30。损失函数为预测的Exc与DMRG计算的Exc之间的均方误差。泛函导数的计算得到能量泛函后交换关联势通过自动微分计算v_ML_xc, i ∂E_ML_xc / ∂n_i Σ_{j: i在j的窗口内} (∂e_ML_xc[窗口j] / ∂n_i)。 这意味着每个格点i的势是所有将其包含在窗口内的能量密度项对该点密度的偏导数之和。TensorFlow等框架的自动微分功能可以高效、精确地完成这一步。3. 模型性能深度剖析精度、非局域性与外推能力模型训练完成后我们需要系统地回答几个关键问题它到底有多准非局域性参数a起什么作用它能用在训练范围之外的情况吗本节将通过详实的数据和对比深入解读模型的性能。3.1 Kohn-Sham自洽循环的实现与精度验证首先我们需要将训练好的泛函投入实际使用即求解Kohn-Sham方程。这是一个自洽过程猜一个初始密度分布{n_i^(0)}通常可从无相互作用情况开始。由当前密度{n_i^(k)}通过神经网络计算E_xc并通过自动微分得到v_xc_i^(k)}。构造有效势v_eff,i^(k) v_i v_xc_i^(k)并求解单粒子薛定谔方程对角化H_kin v_eff矩阵得到KS轨道和新的密度{n_i^(k)}。混合新旧密度n_i^(k1) (1-λ) * n_i^(k) λ * n_i^(k)其中λ是混合参数通常较小如0.03到0.005以保证收敛稳定性。判断密度变化是否小于阈值如10^-5若是则收敛否则回到第2步。图2展示了一个成功的案例对于一个L60、外势为v_i cos(2πi/L) - 0.5*cos(12πi/L)的系统我们的ML-KS方案计算出的基态占据数和交换关联势v_xc与DMRG的“精确”结果在视觉上高度吻合。特别地v_xc在电子密度高的区域对应外势的极小值处表现出更强的修正这与物理直观相符。然而视觉对比不够量化。为了精确评估误差我们需要区分两种误差泛函本身的误差在“精确”的DMRG密度n_exact下ML预测的E_xc和v_xc与真实值的偏差。自洽过程的累积误差在自洽收敛后的KS密度n_KS下ML预测的上述量与真实值的偏差。图3的散点图Parity Plot清晰地展示了这一点。我们对比了ML泛函和经典的Bethe-ansatz LDA (BALDA)泛函。对于ML泛函a4无论在n_exact还是n_KS下E_xc和v_xc的预测点都紧密分布在对角线两侧平均绝对误差MAE极低。例如E_xc能量密度的MAE在10^-4量级相对误差约0.1%。有趣的是v_xc在n_KS下的MAE甚至略低于在n_exact下的MAE。这表明自洽过程可能轻微调整了密度使得在该密度下泛函导数的误差更小体现了一种自洽的“自我修正”倾向。最终KS总能量密度E_KS/L的MAE仅为0.07%KS占据数的MAE约为1%。这是一个非常高的精度意味着ML-KS方案几乎完全复现了精确多体计算的结果。对于BALDA泛函可以看到明显的系统误差E_xc被系统性高估v_xc的散点图呈现明显的弯曲。但其误差在自洽后显著减小约降低一半。这说明即使初始泛函近似较差KS自洽过程也能在一定程度上补偿误差最终得到更合理的总能量和密度。这解释了为什么LDA/GGA在众多体系中仍能给出不错的结构和能量尽管它们的E_xc和v_xc本身并不精确。核心洞见一个“好”的泛函不仅要求其能量泛函本身准确更要求其泛函导数即势也准确并且两者在自洽框架下是协调的。ML泛函在这两方面都显著优于传统的BALDA近似。3.2 非局域性参数a的作用与系统尺寸效应非局域性参数a是我们模型的核心设计旋钮。图4系统地展示了不同a值1, 2, 3, 4下模型在不同尺寸系统L24 到 60上的误差变化。趋势一精度随a增加而提升并饱和。从a1到a3所有误差指标能量、势、占据数都显著下降。从a3到a4E_xc的精度提升已不明显但v_xc的精度仍有改善。这表明对于U4、填充2/3的一维Hubbard模型其关联效应的空间范围大约被a3即左右各3个格点的窗口所捕获。继续增加a带来的收益递减符合物理直觉。趋势二误差随系统尺寸增大而减小。对于固定的aMAE通常随着链长L的增加而缓慢下降。这是否意味着模型对大系统更友好图5的站点分辨误差分析给出了答案误差主要来源于边界。图中显示无论系统大小链中间区域的误差基本一致且较低而两端边界格点的误差比中间高出约25%。这是因为训练数据中包含零占据边界外的局部密度向量相对较少导致模型对边界区域的泛化能力稍弱。因此系统越大边界站点占比越小整体平均误差自然下降。这揭示了训练数据分布的重要性如果要处理小系统或特别关注边界物理需要在训练集中刻意增加包含边界的样本。3.3 向不同填充因子的外推能力一个理想的普适泛函应与总电子数Ne无关。但我们的模型是在固定填充Ne/L 2/3下训练的。一个很自然的问题是它能用在其他填充下吗图6给出了答案。我们测试了L36的链电子数Ne从16到32变化训练时Ne24。结果显示正如预期在训练填充Ne24处所有误差达到最小。当偏离训练填充时误差会增大但增长是平滑且对称的。例如对于a4的泛函在Ne18和Ne30偏离训练点±6个电子时KS总能量密度的MAE从5e-4上升到约2e-3仍然处于可接受的低水平。误差对a的依赖在外推区域并不强烈说明半局域架构本身提供了较好的泛化基础。这种外推能力源于训练数据的“不均匀性”。我们的训练集包含了各种无序外势导致局部区域的密度可能在0到2之间广泛分布尽管全局平均是2/3。因此神经网络已经见识过各种高密度和低密度的局部环境从而能够对全局平均密度的适度变化做出合理预测。这对于实际应用非常有用例如计算系统的化学势、能隙或逆压缩率这些都需要研究能量随电子数的变化。4. 进阶应用探索强关联体系的物理性质拥有了一个高精度、可扩展的ML-KS求解器我们就可以去探索一些用传统多体方法计算成本高昂或用传统泛函精度不足的物理问题。这里我们聚焦于两个方向能量随电子数变化的线性段行为以及大尺度无序系统的极化率响应。4.1 能量线性段与导数不连续性在精确的DFT中总能量作为电子数N的函数在整数填充处是分段线性的其斜率的不连续性导数不连续性与系统的 fundamental gap 直接相关。然而许多近似泛函如LDA、GGA会产生凸的曲线错误地预测金属性。这是一个著名的“带隙问题”的根源。我们的ML泛函表现如何由于模型具备良好的外推能力我们可以计算系统能量在不同电子数Ne下的变化。初步结果表明尽管原文未展开详细图示ML-KS计算出的E(Ne)曲线在训练填充附近呈现出比BALDA更接近线性的行为。这意味着我们的数据驱动泛函在一定程度上更好地保留了精确泛函的分数电子行为特征。验证泛函是否满足分段线性是衡量其质量的一个重要基准对于正确预测绝缘体、分子的电离势和电子亲和能至关重要。4.2 大尺度系统响应无序链的极化率计算研究系统在热力学极限下的性质是凝聚态物理的核心目标之一。DMRG等精确方法虽然准但计算成本随系统尺寸增长很快。我们的ML-KS方案在获得泛函后求解的是单粒子方程计算复杂度仅与系统尺寸的立方对角化或线性若用迭代法相关因此可以轻松处理数千个格点的大系统。我们应用该方法计算了一维无序链的极化率。具体做法是在均匀链所有v_i0上施加一个弱的均匀电场即添加一个线性外势v_i -E * i其中E很小。使用ML-KS自洽计算得到系统在电场下的基态密度分布{n_i(E)}。极化率α可以通过密度响应来定义Δn_i ≈ α * E * i在弱场下是线性响应或者通过能量变化ΔE -1/2 * α * E^2。通过计算不同系统尺寸L下的极化率α(L)研究其如何随L增大而趋近于热力学极限值α(∞)。由于ML泛函在边界存在稍高的误差为了准确计算体响应我们应避免使用太小的系统并可以选取链中部的站点来分析响应以规避边界效应。初步结果表明ML-KS能够稳定地给出大尺寸无序链的极化率并且随着系统增大结果趋于稳定为我们研究扩展强关联体系在电场下的线性响应特性提供了高效工具。实操心得大尺度计算的稳定性。在进行数千格点的KS自洽计算时简单的线性混合可能收敛较慢。可以采用更先进的混合方案如Broyden或Pulay混合以加速收敛。同时由于神经网络评估v_xc非常快整个计算瓶颈在于对角化大矩阵。对于一维系统可以利用其三对角带状结构使用专用算法或将系统视为周期性边界条件如果物理问题允许并使用平面波基底结合FFT来进一步提升计算效率。5. 总结、局限与未来展望通过将机器学习与Kohn-Sham密度泛函理论框架相结合我们成功为一维Hubbard模型构建了一类高精度、可扩展的半局域交换关联泛函。关键收获如下数据驱动的高精度通过从精确的DMRG数据中学习ML泛函在能量、势和最终自洽密度上的精度显著超越了经典的解析近似如BALDA误差水平达到了千分之几甚至更低。可控的非局域性通过引入非局域性参数a我们实现了精度与计算复杂度/可迁移性的平衡。研究发现a3或4足以很好地捕捉该模型下的关联效应。实用的外推能力模型能够合理地外推到训练填充之外使其可用于研究能量随电子数的变化等物理性质。解决实际问题的能力该框架可以高效求解包含数千个格点的大系统为研究强关联体系在热力学极限下的响应性质如极化率提供了新途径。当前方法的局限与挑战边界效应由于训练数据中“边界类型”的局部密度模式较少模型在系统边界处的精度略有下降。未来可以通过在训练集中特意构造更多包含开放边界的样本来缓解。维度与模型泛化目前工作集中于一维单轨道Hubbard模型。将其推广到二维、三维或更复杂的多轨道模型需要重新设计神经网络架构如考虑卷积网络以捕捉空间对称性并生成相应的训练数据计算成本和数据需求将急剧增加。泛函的严格性质机器学习泛函是纯粹的数据拟合不一定满足精确DFT泛函所遵循的许多数学约束如自相互作用误差为零、导数不连续性等。如何将物理约束如对称性、缩放关系作为正则项融入损失函数是构建“物理信息”更强的ML泛函的前沿方向。计算开销转移虽然KS求解很快但生成高质量训练数据DMRG计算本身是昂贵的。这是一种典型的“线下训练线上推理”模式其价值在于对同类问题相同U相似填充进行大量快速扫描时得以体现。个人体会与展望 这项工作最令我兴奋的一点是它展示了一条构建“第一性原理精度、计算成本可控”的强关联问题求解器的可行路径。它不像一些“黑箱”ML方法完全替代物理方程而是巧妙地嵌入到KS-DFT这个坚实的理论框架内用神经网络去逼近其中最不为人知的部分——交换关联泛函。在实际尝试复现或应用此类方法时有几点心得数据质量高于数据数量确保DMRG计算高度收敛至关重要。有噪声或不准确的数据会直接限制ML模型的天花板。逆向KS是关键预处理步骤稳定、精确地求解逆向KS问题获得干净的v_xc数据对训练至关重要。BFGS算法需要良好的初始猜测有时需要结合更全局的优化方法。模型评估需多维度不能只看总能量误差。检查能量密度E_xc、势v_xc、自洽密度n乃至更高阶的响应函数如δ^2E/δnδn才能全面评估泛函的质量。从一维到更高维度的挑战在向高维推广时半局域窗口从一维的线段变为二维的方块或三维的立方体输入维度呈指数增长。这时采用卷积神经网络CNN等具有平移不变性和参数共享特性的架构几乎是必然选择。未来一个有趣的方向是将这种方法与动态平均场理论DMFT等框架结合用于真实材料的电子结构计算。或许我们可以用ML来构建DMFT中“嵌入杂质问题”的局域交换关联势从而在保持第一性原理精度的同时大幅降低计算成本。这条路虽然漫长但本次工作无疑为DFT在强关联领域的深耕提供了一把锋利的新锄头。
机器学习赋能密度泛函理论:构建半局域交换关联泛函攻克强关联体系
发布时间:2026/5/24 6:49:10
1. 项目概述与核心思路在计算凝聚态物理和量子化学领域密度泛函理论Density Functional Theory, DFT无疑是过去几十年里最成功的“第一性原理”计算方法。它的核心魅力在于通过Hohenberg-Kohn定理将描述N个相互作用电子的复杂多体问题巧妙地转化为一个关于电子密度n(r)的单变量变分问题。理论上只要我们能找到那个“万能”的能量泛函F[n]并对其求极小值就能得到系统的基态能量和密度。然而这个“万能”泛函F[n]的具体形式是未知的其核心难点——交换关联能Exc[n]——包含了所有非经典的电子相互作用和关联效应。传统的解决方案是Kohn-Sham (KS) 方案构造一个虚构的、无相互作用的单粒子系统让其基态密度与真实系统严格一致。这样棘手的多体动能项被精确计算所有复杂性都被打包塞进了交换关联势vxc(r)中。主流的局域密度近似LDA和广义梯度近似GGA就像是用“本地物价”来估算“全球贸易”对于弱关联的常规金属和半导体效果不错但一旦遇到电子间关联作用占主导的强关联体系比如高温超导材料、Mott绝缘体这些近似就常常失灵。那么有没有一种方法既能保持KS框架的计算效率又能突破传统泛函在非局域性描述上的局限精准捕捉强关联物理呢这正是我们这次要深入探讨的课题利用机器学习ML为Hubbard模型构建半局域交换关联泛函并实现其Kohn-Sham自洽计算。为什么选择Hubbard模型它堪称强关联物理的“果蝇模型”。这个模型极度简化只考虑格点上的在位库仑排斥U和近邻格点间的跳跃t却保留了Mott转变、自旋电荷分离等核心强关联现象的精髓。更重要的是对于一维Hubbard模型我们有精确的Bethe ansatz解和高效的密度矩阵重正化群DMRG算法作为“标尺”可以生成海量精确的基态数据为机器学习提供完美的训练场。我们的核心思路可以概括为用数据驱动代替物理假设用灵活的非线性映射代替解析的泛函形式。具体来说我们不预设Exc是密度n的某个具体函数比如LDA的n^(4/3)形式而是训练一个神经网络让它学习从“一片局域区域的密度分布”到“该区域的交换关联能密度”之间的复杂映射。这个“一片区域”的大小由我们定义的非局域性参数a来控制。a0就是完全局域只依赖当前格点密度a1则考虑最近邻a越大考虑的“上下文”信息就越广。通过这种方式我们构建了一类可扩展的半局域泛函它既不像完全非局域泛函那样难以迁移到不同尺寸的系统又比传统局域近似更能捕捉强关联效应中至关重要的非局域关联。这套方法的价值在于它为我们提供了一把新钥匙。我们可以用训练好的ML-KS势快速求解包含数千个格点的大系统研究诸如一维无序链的极化率如何趋近热力学极限这样的问题而无需进行昂贵的多体计算。这不仅是泛函构造方法上的一次有趣尝试更是为研究扩展强关联体系的实际物理性质开辟了一条高效的新路径。2. 方法论详解从数据到泛函的构建之路构建一个机器学习泛函远不止是“搭个神经网络然后训练”那么简单。它是一套完整的流程从底层物理模型的定义、精确数据的生成到机器学习模型架构的设计与训练策略每一步都需要精心考量。本节我们将深入拆解这个过程中的每一个关键环节。2.1 物理舞台一维Hubbard模型的Kohn-Sham框架我们工作的舞台是单轨道、自旋1/2的一维Hubbard模型。其哈密顿量如下H H_kin H_U H_ext -t * Σ_{i,σ} (c†_{i,σ} c_{i1,σ} h.c.) // 动能项描述电子在格点间跳跃 U * Σ_i n_{i↑} n_{i↓} // 在位库仑排斥项U0 Σ_{i,σ} v_i * n_{iσ} // 外势项v_i是格点i上的局域势这里t是跳跃积分设为能量单位1U是库仑排斥能本文取U4处于中等关联强度v_i是作用于格点i上的外势用于引入无序或外场。n_{iσ} c†_{iσ} c_{iσ}是格点i上自旋σ的电子数算符。格点密度泛函理论LDFT的Hohenberg-Kohn定理告诉我们对于给定的U存在一个普适的泛函F_U[{n_iσ}]它是所有格点占据数{n_iσ}的函数。系统的总能量可以写成E_U[{n_iσ}] F_U[{n_iσ}] Σ_{iσ} n_{iσ} v_i。 其中F_U[{n_iσ}] Ψ| H_kin H_U |Ψ|Ψ是相应于密度{n_iσ}的多体基态波函数。类比于连续空间DFT我们定义交换关联能为Exc[{n_iσ}] F_U[{n_iσ}] - F_{U0}[{n_iσ}]。 注意这里我们没有像连续DFT那样单独分离出Hartree项因为在格点模型中双占据能U n_i↑ n_i↓已经包含了经典的排斥能部分和量子交换关联效应。由此我们可以写出对应的Kohn-Sham方程( H_kin v_eff, iσ ) φ_m ε_m φ_m。 其中有效势v_eff, iσ v_xc, iσ v_i而交换关联势v_xc, iσ正是交换关联能Exc对密度n_iσ的泛函导数v_xc, iσ ∂Exc / ∂n_iσ。在离散格点体系中这个泛函导数退化为普通的偏导数。注意我们专注于自旋无极化且总自旋为零的情况N↑ N↓因此可以忽略自旋指标用总占据数n_i n_i↑ n_i↓来描述系统。我们主要研究三分之二填充Ne/L 2/3的金属相避开了半填充Ne/L 1的Mott绝缘相后者关联长度更长计算收敛更为困难。2.2 数据生成DMRG与逆向KS方法高质量的训练数据是机器学习成功的基石。我们的目标是让神经网络学会映射{n_i} - Exc。因此对于每一组随机生成的外势{v_i}我们都需要知道其对应的精确基态密度{n_i^exact}和精确的交换关联能Exc。1. 精确基态数据的获取DMRG我们使用密度矩阵重正化群DMRG算法来求解一维Hubbard模型的精确多体基态。DMRG对于一维强关联系统是近乎精确的标准方法。通过TenPy等成熟库我们可以计算出系统的基态波函数、能量E_total和每个格点的占据数{n_i^DMRG}。有了总能量和密度如何得到Exc根据定义Exc E_total - Σ_i n_i v_i - T_0[{n_i}]。 其中T_0[{n_i}]是无相互作用系统U0具有相同密度{n_i}时的动能。这个动能可以通过求解一个单粒子问题即H_kin v_eff其中v_eff通过逆向KS方法得到见下文来精确计算。因此生成一个数据点的流程是给定{v_i}- DMRG计算得到E_total和{n_i}- 通过逆向KS得到T_0- 计算得到Exc。2. 关键的一步逆向Kohn-Sham (Inverse KS)为了计算T_0我们需要知道能重现精确密度{n_i^DMRG}的那个有效势v_eff。这是一个典型的逆向问题给定密度求势。我们采用数值优化方法如BFGS算法来最小化目标函数|| n[v_eff] - n^DMRG ||即寻找一个势v_eff使得由它求解单粒子薛定谔方程得到的密度n[v_eff]与DMRG密度之间的欧氏距离最小。收敛后v_eff对应的单粒子系统的动能就是T_0。同时交换关联势v_xc v_eff - v_i也作为重要的监督数据被记录下来。3. 训练集与测试集的构建策略为了让模型具有泛化能力训练数据必须足够多样。我们采用了一种巧妙的随机外势生成策略对于每个系统尺寸L18, 21, 24我们生成大量数据点。每个数据点对应一组随机外势{v_i}其中每个v_i在区间[0, λ]内均匀随机取值。关键技巧在于λ本身也是变化的我们让λ按照sqrt(9k/(n-1))的规律从0变化到3生成n15000个配置。这种平方根依赖关系使得数据点更多分布在远离均匀系统λ0的区域增加了密度分布的多样性。此外我们还额外生成了λ从3线性增加到6的2000个配置并加入了施加不同强度均匀电场的外势情况。测试集则使用更大的系统尺寸L24到60用同样的λ分布生成1000个随机配置用于评估模型的泛化能力。实操心得数据质量把控。DMRG计算本身有收敛精度问题。我们将能量相对变化小于10^-5作为收敛标准未收敛的数据坚决剔除出训练集。但对于测试集我们保留所有DMRG结果不进行筛选以避免对测试集引入偏差从而更真实地评估模型在“不可控”数据上的表现。2.3 机器学习模型半局域神经网络的架构与训练我们的核心创新在于泛函的“半局域”设计。传统的全非局域泛函依赖整个系统的所有密度无法迁移到不同尺寸的系统。而我们的设计让交换关联能Exc表示为各个格点能量密度e_xc的和而每个e_xc只依赖于以该格点为中心、半径为a的一个局部窗口内的密度E_ML_xc[{n_i}] Σ_{i1}^{L} e_ML_xc[ n_{i-a}, ..., n_i, ..., n_{ia} ]这里a就是非局域性参数。a0意味着完全局域只依赖n_ia1考虑最近邻以此类推。这个设计带来了两大好处可迁移性只要窗口大小a固定训练好的e_ML_xc函数可以应用于任意长度L 2a的链实现了“一次训练多处使用”。可控的非局域性我们可以通过调整a来研究关联效应的空间延展范围在计算成本和精度之间取得平衡。模型实现细节神经网络e_ML_xc由一个全连接神经网络实现。我们采用了5个隐藏层每层64个神经元。这个深度足以捕捉密度与能量之间复杂的非线性关系又不会过于庞大导致过拟合或训练困难。激活函数我们选择了指数线性单元ELU。这一点至关重要因为我们需要通过自动微分来求泛函导数以得到v_xc。ELU函数处处可微且能缓解梯度消失问题确保得到的势函数平滑连续。输入与边界处理对于靠近边界的格点其局部窗口会超出系统范围。我们采用“零填充”策略即将超出的格点占据数设为0。这物理上对应于将有限长链视为无限长链中边界外格点势能为无穷大的情况是处理开放边界条件的合理方式。训练配置使用Adam优化器批量大小为32训练5000个周期。学习率采用指数衰减策略初始值为3e-4每5000周期衰减为原来的1/30。损失函数为预测的Exc与DMRG计算的Exc之间的均方误差。泛函导数的计算得到能量泛函后交换关联势通过自动微分计算v_ML_xc, i ∂E_ML_xc / ∂n_i Σ_{j: i在j的窗口内} (∂e_ML_xc[窗口j] / ∂n_i)。 这意味着每个格点i的势是所有将其包含在窗口内的能量密度项对该点密度的偏导数之和。TensorFlow等框架的自动微分功能可以高效、精确地完成这一步。3. 模型性能深度剖析精度、非局域性与外推能力模型训练完成后我们需要系统地回答几个关键问题它到底有多准非局域性参数a起什么作用它能用在训练范围之外的情况吗本节将通过详实的数据和对比深入解读模型的性能。3.1 Kohn-Sham自洽循环的实现与精度验证首先我们需要将训练好的泛函投入实际使用即求解Kohn-Sham方程。这是一个自洽过程猜一个初始密度分布{n_i^(0)}通常可从无相互作用情况开始。由当前密度{n_i^(k)}通过神经网络计算E_xc并通过自动微分得到v_xc_i^(k)}。构造有效势v_eff,i^(k) v_i v_xc_i^(k)并求解单粒子薛定谔方程对角化H_kin v_eff矩阵得到KS轨道和新的密度{n_i^(k)}。混合新旧密度n_i^(k1) (1-λ) * n_i^(k) λ * n_i^(k)其中λ是混合参数通常较小如0.03到0.005以保证收敛稳定性。判断密度变化是否小于阈值如10^-5若是则收敛否则回到第2步。图2展示了一个成功的案例对于一个L60、外势为v_i cos(2πi/L) - 0.5*cos(12πi/L)的系统我们的ML-KS方案计算出的基态占据数和交换关联势v_xc与DMRG的“精确”结果在视觉上高度吻合。特别地v_xc在电子密度高的区域对应外势的极小值处表现出更强的修正这与物理直观相符。然而视觉对比不够量化。为了精确评估误差我们需要区分两种误差泛函本身的误差在“精确”的DMRG密度n_exact下ML预测的E_xc和v_xc与真实值的偏差。自洽过程的累积误差在自洽收敛后的KS密度n_KS下ML预测的上述量与真实值的偏差。图3的散点图Parity Plot清晰地展示了这一点。我们对比了ML泛函和经典的Bethe-ansatz LDA (BALDA)泛函。对于ML泛函a4无论在n_exact还是n_KS下E_xc和v_xc的预测点都紧密分布在对角线两侧平均绝对误差MAE极低。例如E_xc能量密度的MAE在10^-4量级相对误差约0.1%。有趣的是v_xc在n_KS下的MAE甚至略低于在n_exact下的MAE。这表明自洽过程可能轻微调整了密度使得在该密度下泛函导数的误差更小体现了一种自洽的“自我修正”倾向。最终KS总能量密度E_KS/L的MAE仅为0.07%KS占据数的MAE约为1%。这是一个非常高的精度意味着ML-KS方案几乎完全复现了精确多体计算的结果。对于BALDA泛函可以看到明显的系统误差E_xc被系统性高估v_xc的散点图呈现明显的弯曲。但其误差在自洽后显著减小约降低一半。这说明即使初始泛函近似较差KS自洽过程也能在一定程度上补偿误差最终得到更合理的总能量和密度。这解释了为什么LDA/GGA在众多体系中仍能给出不错的结构和能量尽管它们的E_xc和v_xc本身并不精确。核心洞见一个“好”的泛函不仅要求其能量泛函本身准确更要求其泛函导数即势也准确并且两者在自洽框架下是协调的。ML泛函在这两方面都显著优于传统的BALDA近似。3.2 非局域性参数a的作用与系统尺寸效应非局域性参数a是我们模型的核心设计旋钮。图4系统地展示了不同a值1, 2, 3, 4下模型在不同尺寸系统L24 到 60上的误差变化。趋势一精度随a增加而提升并饱和。从a1到a3所有误差指标能量、势、占据数都显著下降。从a3到a4E_xc的精度提升已不明显但v_xc的精度仍有改善。这表明对于U4、填充2/3的一维Hubbard模型其关联效应的空间范围大约被a3即左右各3个格点的窗口所捕获。继续增加a带来的收益递减符合物理直觉。趋势二误差随系统尺寸增大而减小。对于固定的aMAE通常随着链长L的增加而缓慢下降。这是否意味着模型对大系统更友好图5的站点分辨误差分析给出了答案误差主要来源于边界。图中显示无论系统大小链中间区域的误差基本一致且较低而两端边界格点的误差比中间高出约25%。这是因为训练数据中包含零占据边界外的局部密度向量相对较少导致模型对边界区域的泛化能力稍弱。因此系统越大边界站点占比越小整体平均误差自然下降。这揭示了训练数据分布的重要性如果要处理小系统或特别关注边界物理需要在训练集中刻意增加包含边界的样本。3.3 向不同填充因子的外推能力一个理想的普适泛函应与总电子数Ne无关。但我们的模型是在固定填充Ne/L 2/3下训练的。一个很自然的问题是它能用在其他填充下吗图6给出了答案。我们测试了L36的链电子数Ne从16到32变化训练时Ne24。结果显示正如预期在训练填充Ne24处所有误差达到最小。当偏离训练填充时误差会增大但增长是平滑且对称的。例如对于a4的泛函在Ne18和Ne30偏离训练点±6个电子时KS总能量密度的MAE从5e-4上升到约2e-3仍然处于可接受的低水平。误差对a的依赖在外推区域并不强烈说明半局域架构本身提供了较好的泛化基础。这种外推能力源于训练数据的“不均匀性”。我们的训练集包含了各种无序外势导致局部区域的密度可能在0到2之间广泛分布尽管全局平均是2/3。因此神经网络已经见识过各种高密度和低密度的局部环境从而能够对全局平均密度的适度变化做出合理预测。这对于实际应用非常有用例如计算系统的化学势、能隙或逆压缩率这些都需要研究能量随电子数的变化。4. 进阶应用探索强关联体系的物理性质拥有了一个高精度、可扩展的ML-KS求解器我们就可以去探索一些用传统多体方法计算成本高昂或用传统泛函精度不足的物理问题。这里我们聚焦于两个方向能量随电子数变化的线性段行为以及大尺度无序系统的极化率响应。4.1 能量线性段与导数不连续性在精确的DFT中总能量作为电子数N的函数在整数填充处是分段线性的其斜率的不连续性导数不连续性与系统的 fundamental gap 直接相关。然而许多近似泛函如LDA、GGA会产生凸的曲线错误地预测金属性。这是一个著名的“带隙问题”的根源。我们的ML泛函表现如何由于模型具备良好的外推能力我们可以计算系统能量在不同电子数Ne下的变化。初步结果表明尽管原文未展开详细图示ML-KS计算出的E(Ne)曲线在训练填充附近呈现出比BALDA更接近线性的行为。这意味着我们的数据驱动泛函在一定程度上更好地保留了精确泛函的分数电子行为特征。验证泛函是否满足分段线性是衡量其质量的一个重要基准对于正确预测绝缘体、分子的电离势和电子亲和能至关重要。4.2 大尺度系统响应无序链的极化率计算研究系统在热力学极限下的性质是凝聚态物理的核心目标之一。DMRG等精确方法虽然准但计算成本随系统尺寸增长很快。我们的ML-KS方案在获得泛函后求解的是单粒子方程计算复杂度仅与系统尺寸的立方对角化或线性若用迭代法相关因此可以轻松处理数千个格点的大系统。我们应用该方法计算了一维无序链的极化率。具体做法是在均匀链所有v_i0上施加一个弱的均匀电场即添加一个线性外势v_i -E * i其中E很小。使用ML-KS自洽计算得到系统在电场下的基态密度分布{n_i(E)}。极化率α可以通过密度响应来定义Δn_i ≈ α * E * i在弱场下是线性响应或者通过能量变化ΔE -1/2 * α * E^2。通过计算不同系统尺寸L下的极化率α(L)研究其如何随L增大而趋近于热力学极限值α(∞)。由于ML泛函在边界存在稍高的误差为了准确计算体响应我们应避免使用太小的系统并可以选取链中部的站点来分析响应以规避边界效应。初步结果表明ML-KS能够稳定地给出大尺寸无序链的极化率并且随着系统增大结果趋于稳定为我们研究扩展强关联体系在电场下的线性响应特性提供了高效工具。实操心得大尺度计算的稳定性。在进行数千格点的KS自洽计算时简单的线性混合可能收敛较慢。可以采用更先进的混合方案如Broyden或Pulay混合以加速收敛。同时由于神经网络评估v_xc非常快整个计算瓶颈在于对角化大矩阵。对于一维系统可以利用其三对角带状结构使用专用算法或将系统视为周期性边界条件如果物理问题允许并使用平面波基底结合FFT来进一步提升计算效率。5. 总结、局限与未来展望通过将机器学习与Kohn-Sham密度泛函理论框架相结合我们成功为一维Hubbard模型构建了一类高精度、可扩展的半局域交换关联泛函。关键收获如下数据驱动的高精度通过从精确的DMRG数据中学习ML泛函在能量、势和最终自洽密度上的精度显著超越了经典的解析近似如BALDA误差水平达到了千分之几甚至更低。可控的非局域性通过引入非局域性参数a我们实现了精度与计算复杂度/可迁移性的平衡。研究发现a3或4足以很好地捕捉该模型下的关联效应。实用的外推能力模型能够合理地外推到训练填充之外使其可用于研究能量随电子数的变化等物理性质。解决实际问题的能力该框架可以高效求解包含数千个格点的大系统为研究强关联体系在热力学极限下的响应性质如极化率提供了新途径。当前方法的局限与挑战边界效应由于训练数据中“边界类型”的局部密度模式较少模型在系统边界处的精度略有下降。未来可以通过在训练集中特意构造更多包含开放边界的样本来缓解。维度与模型泛化目前工作集中于一维单轨道Hubbard模型。将其推广到二维、三维或更复杂的多轨道模型需要重新设计神经网络架构如考虑卷积网络以捕捉空间对称性并生成相应的训练数据计算成本和数据需求将急剧增加。泛函的严格性质机器学习泛函是纯粹的数据拟合不一定满足精确DFT泛函所遵循的许多数学约束如自相互作用误差为零、导数不连续性等。如何将物理约束如对称性、缩放关系作为正则项融入损失函数是构建“物理信息”更强的ML泛函的前沿方向。计算开销转移虽然KS求解很快但生成高质量训练数据DMRG计算本身是昂贵的。这是一种典型的“线下训练线上推理”模式其价值在于对同类问题相同U相似填充进行大量快速扫描时得以体现。个人体会与展望 这项工作最令我兴奋的一点是它展示了一条构建“第一性原理精度、计算成本可控”的强关联问题求解器的可行路径。它不像一些“黑箱”ML方法完全替代物理方程而是巧妙地嵌入到KS-DFT这个坚实的理论框架内用神经网络去逼近其中最不为人知的部分——交换关联泛函。在实际尝试复现或应用此类方法时有几点心得数据质量高于数据数量确保DMRG计算高度收敛至关重要。有噪声或不准确的数据会直接限制ML模型的天花板。逆向KS是关键预处理步骤稳定、精确地求解逆向KS问题获得干净的v_xc数据对训练至关重要。BFGS算法需要良好的初始猜测有时需要结合更全局的优化方法。模型评估需多维度不能只看总能量误差。检查能量密度E_xc、势v_xc、自洽密度n乃至更高阶的响应函数如δ^2E/δnδn才能全面评估泛函的质量。从一维到更高维度的挑战在向高维推广时半局域窗口从一维的线段变为二维的方块或三维的立方体输入维度呈指数增长。这时采用卷积神经网络CNN等具有平移不变性和参数共享特性的架构几乎是必然选择。未来一个有趣的方向是将这种方法与动态平均场理论DMFT等框架结合用于真实材料的电子结构计算。或许我们可以用ML来构建DMFT中“嵌入杂质问题”的局域交换关联势从而在保持第一性原理精度的同时大幅降低计算成本。这条路虽然漫长但本次工作无疑为DFT在强关联领域的深耕提供了一把锋利的新锄头。