1. 量子玻尔兹曼机梯度估计从理论到实践的深度拆解在量子机器学习的工具箱里参数化量子模型的训练一直是个硬骨头。传统上我们依赖参数平移规则Parameter Shift Rule这类方法来计算梯度但这通常要求生成元是泡利算符并且电路结构相对简单。当模型复杂到像量子玻尔兹曼机QBM这样其状态是参数化哈密顿量的热态时传统的梯度估计方法就有点力不从心了。这时量子玻尔兹曼机梯度估计器QBGE的出现就像是为这个特定难题量身打造的一把钥匙。它不依赖于特定的参数化形式而是通过巧妙的量子电路设计和采样直接估计出目标函数关于参数的梯度。这项技术的核心价值在于它打通了使用随机梯度下降SGD等成熟优化算法来训练量子生成模型的路径使得在量子计算机上学习复杂概率分布比如分子基态能量对应的玻尔兹曼分布从理论设想变成了可操作的工程问题。今天我们就来彻底拆解QBGE的算法原理并一步步推导出它要达到指定精度究竟需要多少样本——也就是它的样本复杂度。无论你是想深入理解量子优化算法的理论细节还是正在为你的量子模型寻找可靠的训练方法这篇文章都将提供一份详实的参考。2. 核心思路如何估计一个热态期望值的梯度要理解QBGE我们首先要明确它要解决的核心数学问题。量子玻尔兹曼机的核心是一个参数化的吉布斯热态 ρ(θ) e^{-G(θ)} / Tr(e^{-G(θ)})其中 G(θ) Σ_j θ_j G_j 是参数化的哈密顿量生成元我们的目标函数通常是某个可观测量 H比如我们关心的系统哈密顿量在这个热态下的期望值f(θ) Tr[H ρ(θ)]。我们的任务是计算这个目标函数的梯度 ∇_θ f(θ)。通过数学推导具体过程涉及热态导数的计算这里给出关键结果梯度向量的第 j 个分量可以表达为两项之差∂_j f(θ) - (1/2) * Tr[ {H, Φ_θ(G_j)} ρ(θ) ] Tr[H ρ(θ)] * Tr[G_j ρ(θ)]这里{ , } 是反对易子Φ_θ(G_j) 是一个与参数 θ 相关的算符变换具体形式与热态的导数有关可以理解为 G_j 在由 G(θ) 生成的演化下的某种平均。这个公式看起来复杂但它揭示了一个重要事实梯度的计算最终可以归结为对若干种特定形式的量子态期望值的估计。注意第一项中的反对易子结构{H, Φ_θ(G_j)}是计算的核心难点。直接计算它需要处理非对易算符的乘积在经典计算机上随着系统规模增大是指数困难的。QBGE的巧妙之处在于它设计了一套量子电路能够通过测量直接得到这个反对易子期望值的无偏估计从而绕开了直接计算的复杂性。因此QBGE的整体策略非常清晰分而治之将梯度分量 ∂_j f(θ) 拆解成两个独立的项进行估计。量子电路作为估计器针对每一项设计特定的量子电路。运行这个电路并测量辅助量子比特测量结果的统计特性比如平均值恰好就是我们想要的期望值的无偏估计量。经典后处理与汇总分别估计出这两项后将它们相加就得到了梯度分量 ∂_j f(θ) 的估计值。对所有参数维度 j 重复此过程就得到了整个梯度向量 ∇_θ f(θ) 的估计。这个思路将复杂的梯度计算问题转化为了多个更基础的量子测量问题而后者是量子计算机天然擅长的事情。2.1 算法基石一个关键的量子原语在深入QBGE的两个子算法之前我们必须理解一个基础的量子计算模块它是整个估计过程的基石。这个模块的目标是估计如下形式的量(1/2) * Tr[ (U_1† U_0 U_0† U_1) ρ ]其中 U_0 和 U_1 是酉算符ρ 是某个量子态。实现这个估计的量子电路如下图所示对应于原文中的图4准备两个寄存器一个辅助控制寄存器初始化为 |0⟩一个系统寄存器初始化为目标态 ρ。对控制寄存器施加一个哈达玛H门使其处于 (|0⟩ |1⟩)/√2 的叠加态。施加一个受控酉操作当控制位为 |0⟩ 时对系统寄存器应用 U_0当控制位为 |1⟩ 时对系统寄存器应用 U_1。再次对控制寄存器施加一个 H 门。在计算基下测量控制寄存器得到结果 b ∈ {0, 1}。这个电路的神奇之处在于测量得到比特 b0 的概率 p_0 恰好包含了我们想要的信息。经过推导可以得到 p_0 [2 Tr( (U_1† U_0 U_0† U_1) ρ )] / 4因此如果我们定义随机变量 X (-1)^b那么 X 的期望值 E[X] p_0*(1) p_1*(-1) 2p_0 - 1 (1/2) * Tr[ (U_1† U_0 U_0† U_1) ρ ]。这意味着我们只需要多次运行这个电路记录测量结果 b计算 (-1)^b 的平均值就能以任意精度逼近我们想要估计的量。这是一个无偏估计量。实操心得这个电路的本质是利用了干涉。控制寄存器的叠加态使得 U_0 和 U_1 的路径发生干涉最后的 H 门和测量将这个干涉信息提取到测量概率中。在实际硬件实现时需要确保受控酉操作的保真度任何操作误差都会直接转化为估计的偏差。3. QBGE算法子流程深度解析有了上面的量子原语我们就可以构建QBGE的两个核心子算法分别用于估计梯度公式中的第一项和第二项。3.1 算法一估计反对易子项第一项是-(1/2) * Tr[ {H, Φ_θ(G_j)} ρ(θ) ]。通过进一步的数学展开利用 H 的局部分解 H Σ_k α_k H_k以及 Φ_θ(G_j) 的积分表示这项可以转化为对如下形式的量的求和与积分- Σ_k α_k ∫ dt p(t) * (1/2) * Tr[ (H_k e^{iG(θ)t} G_j e^{-iG(θ)t} e^{iG(θ)t} G_j e^{-iG(θ)t} H_k) ρ(θ) ]仔细观察括号内的算符结构它正好匹配我们之前介绍的量子原语只要我们令U_0 e^{-iG(θ)t}U_1 H_k e^{-iG(θ)t} G_j那么原语估计的量就是(1/2) * Tr[ (G_j e^{iG(θ)t} H_k e^{-iG(θ)t} e^{iG(θ)t} H_k e^{-iG(θ)t} G_j) ρ(θ) ]经过简单的循环迹运算这正好等于我们需要的(1/2) * Tr[ {H_k, e^{-iG(θ)t} G_j e^{iG(θ)t}} ρ(θ) ]。因此算法一的流程可以概括为确定精度 ε1 和失败概率 δ1。根据 Hoeffding 不等式计算出所需的样本数 N1 ⌈2||α||_1² ln(2/δ1) / ε1²⌉。这里 ||α||_1 是哈密顿量 H 的系数向量的 L1 范数它反映了 H 的“强度”或“复杂度”。进行 N1 次独立实验。每次实验 a. 以概率 α_k / ||α||_1 随机选择一个哈密顿量项索引 k并以概率密度 p(t) 随机采样一个时间参数 t。 b. 准备系统态 ρ(θ)。 c. 运行前述量子原语电路其中 U_0 e^{-iG(θ)t}, U_1 H_k e^{-iG(θ)t} G_j。 d. 测量控制比特得到 b_n计算本次实验的输出值 Y_n^(1) ||α||_1 * (-1)^{b_n 1}。计算所有 Y_n^(1) 的平均值 Y^(1)作为第一项的无偏估计。关键点解析这里采样的必要性在于我们需要对 k 求和和对 t 积分。蒙特卡洛采样将求和与积分转化为随机采样后的求平均这是处理高维求和/积分的标准方法。概率权重 α_k / ||α||_1 和 p(t) 确保了估计的无偏性。p(t)是一个特定的概率分布与 Φ_θ 变换的积分核有关在实际计算中需要能高效采样。3.2 算法二估计乘积期望项第二项Tr[H ρ(θ)] * Tr[G_j ρ(θ)]的估计则直接许多。因为 H Σ_k α_k H_k所以这一项等于 Σ_k α_k * Tr[H_k ρ(θ)] * Tr[G_j ρ(θ)]。算法二的流程如下确定精度 ε2 和失败概率 δ2。计算所需样本数 N2 ⌈2||α||_1² ln(2/δ2) / ε2²⌉。进行 N2 次独立实验。每次实验 a. 以概率 α_k / ||α||_1 随机选择一个索引 k。 b. 制备两份 ρ(θ) 的副本。在第一份上测量 H_k得到结果 h_n ∈ {0, 1}假设 H_k 是局部泡利算符测量结果为本征值 ±1这里映射为 0/1。在第二份上测量 G_j得到结果 g_n ∈ {0, 1}。 c. 计算本次实验的输出值 Y_n^(2) ||α||_1 * (-1)^{h_n g_n}。计算所有 Y_n^(2) 的平均值 Y^(2)作为第二项的无偏估计。为什么这样是有效的因为对于每次实验E[(-1)^{h_n}] Tr[H_k ρ(θ)]E[(-1)^{g_n}] Tr[G_j ρ(θ)]。由于两次测量是独立的所以E[(-1)^{h_n g_n}] E[(-1)^{h_n}] * E[(-1)^{g_n}] Tr[H_k ρ(θ)] * Tr[G_j ρ(θ)]。再对 k 按权重 α_k 取平均就得到了目标值。3.3 QBGE主算法拼装完整梯度有了上面两个“零件”QBGE主算法算法三就水到渠成了对于每一个参数维度 j 1 到 J a. 调用算法一输入参数 j得到第一项的估计 Y_j^(1)。 b. 调用算法二输入参数 j得到第二项的估计 Y_j^(2)。 c. 计算第 j 个梯度分量的估计g_j Y_j^(1) Y_j^(2)。将所有 g_j 组合成梯度向量 g (g_1, ..., g_J)^T 并输出。这个算法最终输出的 g 就是目标函数梯度 ∇_θ f(θ) 的一个无偏估计。4. 集成至优化框架QBM-GSE算法估计梯度本身不是目的目的是为了优化。QBM-GSE算法算法四就是将QBGE嵌入到随机梯度下降框架中用于寻找使得 Tr[H ρ(θ)] 最小的参数 θ这对应于用QBM来近似目标哈密顿量 H 的基态能量。该算法的步骤如下初始化随机初始化参数向量 θ。参数设置根据最终目标精度 ε确定SGD的总迭代步数 M ⌈12ℓΔ / ε²⌉。其中 ℓ 是目标函数的平滑常数Lipschitz常数Δ 是初始函数值与全局最小值的差值的上界。同时将QBGE所需的精度参数设置为 ε1 ε2 ε/(2√(2J))失败概率设置为 δ1 δ2 ε²/(8J||α||_1²)。这些设置是为了确保最终梯度估计的总体误差能满足SGD收敛的要求。SGD循环对于 m 1 到 M a. 在当前参数 θ_m 处调用QBGE算法获得随机梯度估计 g(θ_m)。 b. 按照 SGD 更新规则θ_{m1} θ_m - η * g(θ_m) 更新参数。其中学习率 η 被设定为 1/ℓ这是平滑凸优化中的标准选择之一。输出返回所有迭代中观察到的最小函数值 min_m Tr[H ρ(θ_m)]。这个算法框架清晰地展示了如何将量子梯度估计器与经典的优化流程结合起来。量子部分负责提供带有噪声但无偏的梯度方向经典部分负责按照这个方向更新参数。5. 样本复杂度理论与推导样本复杂度是衡量算法效率的关键指标它回答了“要达到精度 ε平均需要消耗多少资源这里指制备热态 ρ(θ) 的次数”。我们对QBGE和QBM-GSE的样本复杂度进行逐层分析。5.1 子算法的样本复杂度首先分析算法一和算法二的样本复杂度。这两个算法本质都是通过蒙特卡洛采样来估计一个期望值。它们输出的估计量 Y^(1) 和 Y^(2) 都是多个独立同分布随机变量取值范围在 [-||α||_1, ||α||_1]的平均值。根据霍夫丁不等式对于这样的估计量要保证以至少 (1-δ) 的概率使估计误差不超过 ε所需的样本数 N 需满足 N ≥ (2 * R² * ln(2/δ)) / ε² 其中 R 是随机变量取值范围的半径。在这里对于我们的两个算法R ||α||_1。因此我们得到算法一样本复杂度N1 ⌈2 ||α||_1² ln(2/δ1) / ε1²⌉算法二样本复杂度N2 ⌈2 ||α||_1² ln(2/δ2) / ε2²⌉这个结果非常直观要求的精度 ε 越高误差越小需要的样本数呈平方增长要求的置信度越高δ 越小需要的样本数呈对数增长。哈密顿量的“强度” ||α||_1 越大随机变量的波动范围越大也需要更多样本来压制噪声。5.2 QBM-GSE的总样本复杂度QBM-GSE算法的总样本消耗发生在SGD的每一次迭代中。在每一次迭代里为了计算 J 维的梯度向量我们需要对每一个维度 j 调用一次算法一和一次算法二。单次迭代的样本消耗对于每个 j需要 (N1 N2) 个 ρ(θ) 的样本。因此一次完整的梯度估计需要 J * (N1 N2) 个样本。总迭代次数根据非凸随机梯度下降的收敛性理论为了找到一个 ε-稳定点即梯度范数小于 ε 的点所需的迭代次数 M 与目标函数的平滑性常数 ℓ、初始差距 Δ 有关满足 M O(ℓΔ / ε²)。在定理的设定下取 M ⌈12ℓΔ / ε²⌉。精度参数传递在QBM-GSE中我们设定了 ε1 ε2 ε/(2√(2J)) 和 δ1 δ2 ε²/(8J||α||_1²)。这个设定的目的是为了控制最终梯度估计的均方误差使其满足 SGD 收敛定理中对于随机梯度方差的上界要求即文中的条件 2C ≤ ε²。总复杂度计算将上述设定代入 N1 和 N2 的公式并将它们代入总样本数公式 N_total M * J * (N1 N2)经过化简我们得到最终的样本复杂度N_total 2J * ⌈12ℓΔ / ε²⌉ * ⌈ (8J ||α||_1² ln(16J ||α||_1² / ε²)) / ε² ⌉这个结果可以简洁地记为O( J² ||α||_1² ℓΔ / ε⁴ * log(J||α||_1/ε) )。5.3 复杂度结果解读与工程意义这个样本复杂度公式蕴含了丰富的信息对精度 ε 的依赖是 1/ε⁴这是通过SGD优化达到 ε-稳定点的典型代价。其中一次 1/ε² 来自SGD的迭代次数另一次 1/ε² 来自每次迭代中梯度估计所需的样本数由霍夫丁不等式决定。这比经典确定性梯度下降的迭代复杂度通常为 1/ε要差但这是使用随机、无偏梯度估计器所必须付出的代价。对参数维度 J 的依赖是 J²一次梯度估计需要对 J 个参数各做一次估计线性依赖 J而为了控制 J 维梯度向量的总方差每个分量的估计精度需要提高到 ε/√J平方依赖综合起来导致了 J² 的依赖。这提示我们在模型参数非常多时直接使用QBGE可能会面临样本需求激增的问题。与哈密顿量相关的项 ||α||_1² 和 ℓ||α||_1 是目标哈密顿量 H 系数的 L1 范数ℓ 是目标函数的 Lipschitz 常数它与 ||H|| 和生成元 G_j 的范数 max_k ||G_k||² 成正比。这些项反映了问题本身的“难度”。哈密顿量越复杂范数越大、项数越多梯度估计的噪声越大优化曲面越崎岖平滑常数大所需的样本就越多。对数项 log(J||α||_1/ε)这是一个相对温和的代价源于我们要求估计以高概率成功。工程实践中的考量这个理论结果为实际应用提供了重要的指导。它告诉我们对于给定的问题规模J, ||α||_1和目标精度 ε我们大致需要准备多少量子计算资源运行电路的次数。它也揭示了算法在超大规模参数下的潜在瓶颈。在实际中我们通常会采用小批量mini-batch或自适应步长等技巧或者结合问题结构设计更高效的估计方案来尝试突破这种多项式级别的缩放限制。6. 扩展讨论解决QBM学习中的公开问题QBGE的意义不仅在于优化能量更在于它为解决一个长期存在的公开问题提供了钥匙如何高效地训练量子玻尔兹曼机来学习经典数据分布在经典的生成式学习中我们通过最小化负对数似然来训练模型。对于QBM模型给出样本 v 的概率是 P_v(θ) Tr[Λ_v ρ(θ)]其中 Λ_v 是一个与经典数据 v 对应的测量算符例如计算基下的投影算符。负对数似然函数的梯度包含形如Tr[Λ_v ∂_j ρ(θ)] / Tr[Λ_v ρ(θ)]的项。过去的研究认为由于分母的存在和分子计算的复杂性这个梯度可能无法高效估计。QBGE的核心子程序——算法一——恰好能用来估计分子项Tr[Λ_v ∂_j ρ(θ)]经过适当变形。结合一个能估计分母Tr[Λ_v ρ(θ)]的简单电路通常只需在计算基下测量我们就可以分别得到分子和分母的估计值 p 和 q。剩下的关键就是分析用 p/q 来估计真实梯度项Tr[Λ_v ∂_j ρ(θ)] / Tr[Λ_v ρ(θ)]时误差是如何传播的。假设我们已知|p - 分子真实值| ≤ ε1|q - 分母真实值| ≤ ε2并且分母真实值有一个下界 r 0即 Tr[Λ_v ρ(θ)] ≥ r 0这对于满秩的热态通常是成立的同时要求 ε2 r 以保证数值稳定性。那么通过数学推导主要利用三角不等式和不等式放缩可以证明估计误差满足 | p/q - (真实比值) | ≤ [1/(r - ε2)] * (ε2/r) ε1/r这个误差界限由两部分组成一部分来自分母估计误差 ε2 的放大系数 1/(r(r-ε2))另一部分来自分子估计误差 ε1 的缩小系数 1/r。只要我们能以足够高的精度估计分子和分母并且确保模型对数据的概率赋值不会太小即 r 不太接近于零我们就可以高精度地估计出负对数似然的梯度从而使得基于梯度下降训练QBM以学习经典数据分布成为可能。注意事项这里的“高效”依赖于几个假设1生成元 G_j 是局部泡利串这使得相关的量子电路易于实现。2热态 ρ(θ) 的制备需要高效例如通过量子模拟或变分方法。3测量算符 Λ_v 需要能高效实现。如果这些条件满足QBGE就为量子生成模型的实际训练铺平了道路。7. 实现挑战与未来展望尽管QBGE在理论上非常优美但将其应用于实际的量子硬件或模拟器时会面临一系列工程挑战热态制备算法的前提是能够制备参数化的热态 ρ(θ)。对于复杂的哈密顿量 G(θ)精确制备热态本身就是一个难题。可能需要借助变分量子本征求解器VQE的变体、量子-经典混合算法或专用的热态制备子程序。哈密顿量模拟算法一中需要实现时间演化算符 e^{-iG(θ)t}。这要求高效的哈密顿量模拟技术。如果 G(θ) 可以分解为局部项的和则可以利用Trotter-Suzuki分解等方法进行近似模拟但这会引入额外的误差。受控酉操作核心量子原语需要执行受控的e^{-iG(θ)t}、H_k和G_j操作。在近期的含噪声中等规模量子NISQ设备上实现高保真度的多量子比特受控操作是一个重大挑战。采样开销样本复杂度的多项式缩放虽然比指数好但在高精度要求下所需的电路运行次数可能仍然非常庞大。这需要与误差缓解、测量优化等技术结合以充分利用每一次测量的信息。参数化与表达能力如何设计参数化的生成元集合 {G_j}使得对应的QBM能够有效表达目标分布同时保持梯度的可估计性是一个需要结合具体应用领域知识来探索的问题。未来的工作可能会沿着以下几个方向展开一是探索更紧的方差上界或更高效的估计方案来降低样本复杂度二是将算法扩展到估计海森矩阵二阶导数以实现二阶优化方法如牛顿法三是研究在噪声环境下算法的鲁棒性并开发相应的误差缓解协议四是在具体的应用问题如量子化学、组合优化上实现算法原型并评估其实际性能。QBGE为我们提供了一个坚实的理论框架证明了在合理假设下训练量子玻尔兹曼机在原则上是可行的。它将量子计算的优势制备复杂量子态、计算特定期望值与经典优化算法的力量随机梯度下降结合了起来。随着量子硬件和算法的不断进步这类混合量子-经典算法有望在解决经典计算机难以处理的复杂学习与优化问题上展现出独特优势。
量子玻尔兹曼机梯度估计:算法原理、样本复杂度与工程实践
发布时间:2026/5/24 9:01:40
1. 量子玻尔兹曼机梯度估计从理论到实践的深度拆解在量子机器学习的工具箱里参数化量子模型的训练一直是个硬骨头。传统上我们依赖参数平移规则Parameter Shift Rule这类方法来计算梯度但这通常要求生成元是泡利算符并且电路结构相对简单。当模型复杂到像量子玻尔兹曼机QBM这样其状态是参数化哈密顿量的热态时传统的梯度估计方法就有点力不从心了。这时量子玻尔兹曼机梯度估计器QBGE的出现就像是为这个特定难题量身打造的一把钥匙。它不依赖于特定的参数化形式而是通过巧妙的量子电路设计和采样直接估计出目标函数关于参数的梯度。这项技术的核心价值在于它打通了使用随机梯度下降SGD等成熟优化算法来训练量子生成模型的路径使得在量子计算机上学习复杂概率分布比如分子基态能量对应的玻尔兹曼分布从理论设想变成了可操作的工程问题。今天我们就来彻底拆解QBGE的算法原理并一步步推导出它要达到指定精度究竟需要多少样本——也就是它的样本复杂度。无论你是想深入理解量子优化算法的理论细节还是正在为你的量子模型寻找可靠的训练方法这篇文章都将提供一份详实的参考。2. 核心思路如何估计一个热态期望值的梯度要理解QBGE我们首先要明确它要解决的核心数学问题。量子玻尔兹曼机的核心是一个参数化的吉布斯热态 ρ(θ) e^{-G(θ)} / Tr(e^{-G(θ)})其中 G(θ) Σ_j θ_j G_j 是参数化的哈密顿量生成元我们的目标函数通常是某个可观测量 H比如我们关心的系统哈密顿量在这个热态下的期望值f(θ) Tr[H ρ(θ)]。我们的任务是计算这个目标函数的梯度 ∇_θ f(θ)。通过数学推导具体过程涉及热态导数的计算这里给出关键结果梯度向量的第 j 个分量可以表达为两项之差∂_j f(θ) - (1/2) * Tr[ {H, Φ_θ(G_j)} ρ(θ) ] Tr[H ρ(θ)] * Tr[G_j ρ(θ)]这里{ , } 是反对易子Φ_θ(G_j) 是一个与参数 θ 相关的算符变换具体形式与热态的导数有关可以理解为 G_j 在由 G(θ) 生成的演化下的某种平均。这个公式看起来复杂但它揭示了一个重要事实梯度的计算最终可以归结为对若干种特定形式的量子态期望值的估计。注意第一项中的反对易子结构{H, Φ_θ(G_j)}是计算的核心难点。直接计算它需要处理非对易算符的乘积在经典计算机上随着系统规模增大是指数困难的。QBGE的巧妙之处在于它设计了一套量子电路能够通过测量直接得到这个反对易子期望值的无偏估计从而绕开了直接计算的复杂性。因此QBGE的整体策略非常清晰分而治之将梯度分量 ∂_j f(θ) 拆解成两个独立的项进行估计。量子电路作为估计器针对每一项设计特定的量子电路。运行这个电路并测量辅助量子比特测量结果的统计特性比如平均值恰好就是我们想要的期望值的无偏估计量。经典后处理与汇总分别估计出这两项后将它们相加就得到了梯度分量 ∂_j f(θ) 的估计值。对所有参数维度 j 重复此过程就得到了整个梯度向量 ∇_θ f(θ) 的估计。这个思路将复杂的梯度计算问题转化为了多个更基础的量子测量问题而后者是量子计算机天然擅长的事情。2.1 算法基石一个关键的量子原语在深入QBGE的两个子算法之前我们必须理解一个基础的量子计算模块它是整个估计过程的基石。这个模块的目标是估计如下形式的量(1/2) * Tr[ (U_1† U_0 U_0† U_1) ρ ]其中 U_0 和 U_1 是酉算符ρ 是某个量子态。实现这个估计的量子电路如下图所示对应于原文中的图4准备两个寄存器一个辅助控制寄存器初始化为 |0⟩一个系统寄存器初始化为目标态 ρ。对控制寄存器施加一个哈达玛H门使其处于 (|0⟩ |1⟩)/√2 的叠加态。施加一个受控酉操作当控制位为 |0⟩ 时对系统寄存器应用 U_0当控制位为 |1⟩ 时对系统寄存器应用 U_1。再次对控制寄存器施加一个 H 门。在计算基下测量控制寄存器得到结果 b ∈ {0, 1}。这个电路的神奇之处在于测量得到比特 b0 的概率 p_0 恰好包含了我们想要的信息。经过推导可以得到 p_0 [2 Tr( (U_1† U_0 U_0† U_1) ρ )] / 4因此如果我们定义随机变量 X (-1)^b那么 X 的期望值 E[X] p_0*(1) p_1*(-1) 2p_0 - 1 (1/2) * Tr[ (U_1† U_0 U_0† U_1) ρ ]。这意味着我们只需要多次运行这个电路记录测量结果 b计算 (-1)^b 的平均值就能以任意精度逼近我们想要估计的量。这是一个无偏估计量。实操心得这个电路的本质是利用了干涉。控制寄存器的叠加态使得 U_0 和 U_1 的路径发生干涉最后的 H 门和测量将这个干涉信息提取到测量概率中。在实际硬件实现时需要确保受控酉操作的保真度任何操作误差都会直接转化为估计的偏差。3. QBGE算法子流程深度解析有了上面的量子原语我们就可以构建QBGE的两个核心子算法分别用于估计梯度公式中的第一项和第二项。3.1 算法一估计反对易子项第一项是-(1/2) * Tr[ {H, Φ_θ(G_j)} ρ(θ) ]。通过进一步的数学展开利用 H 的局部分解 H Σ_k α_k H_k以及 Φ_θ(G_j) 的积分表示这项可以转化为对如下形式的量的求和与积分- Σ_k α_k ∫ dt p(t) * (1/2) * Tr[ (H_k e^{iG(θ)t} G_j e^{-iG(θ)t} e^{iG(θ)t} G_j e^{-iG(θ)t} H_k) ρ(θ) ]仔细观察括号内的算符结构它正好匹配我们之前介绍的量子原语只要我们令U_0 e^{-iG(θ)t}U_1 H_k e^{-iG(θ)t} G_j那么原语估计的量就是(1/2) * Tr[ (G_j e^{iG(θ)t} H_k e^{-iG(θ)t} e^{iG(θ)t} H_k e^{-iG(θ)t} G_j) ρ(θ) ]经过简单的循环迹运算这正好等于我们需要的(1/2) * Tr[ {H_k, e^{-iG(θ)t} G_j e^{iG(θ)t}} ρ(θ) ]。因此算法一的流程可以概括为确定精度 ε1 和失败概率 δ1。根据 Hoeffding 不等式计算出所需的样本数 N1 ⌈2||α||_1² ln(2/δ1) / ε1²⌉。这里 ||α||_1 是哈密顿量 H 的系数向量的 L1 范数它反映了 H 的“强度”或“复杂度”。进行 N1 次独立实验。每次实验 a. 以概率 α_k / ||α||_1 随机选择一个哈密顿量项索引 k并以概率密度 p(t) 随机采样一个时间参数 t。 b. 准备系统态 ρ(θ)。 c. 运行前述量子原语电路其中 U_0 e^{-iG(θ)t}, U_1 H_k e^{-iG(θ)t} G_j。 d. 测量控制比特得到 b_n计算本次实验的输出值 Y_n^(1) ||α||_1 * (-1)^{b_n 1}。计算所有 Y_n^(1) 的平均值 Y^(1)作为第一项的无偏估计。关键点解析这里采样的必要性在于我们需要对 k 求和和对 t 积分。蒙特卡洛采样将求和与积分转化为随机采样后的求平均这是处理高维求和/积分的标准方法。概率权重 α_k / ||α||_1 和 p(t) 确保了估计的无偏性。p(t)是一个特定的概率分布与 Φ_θ 变换的积分核有关在实际计算中需要能高效采样。3.2 算法二估计乘积期望项第二项Tr[H ρ(θ)] * Tr[G_j ρ(θ)]的估计则直接许多。因为 H Σ_k α_k H_k所以这一项等于 Σ_k α_k * Tr[H_k ρ(θ)] * Tr[G_j ρ(θ)]。算法二的流程如下确定精度 ε2 和失败概率 δ2。计算所需样本数 N2 ⌈2||α||_1² ln(2/δ2) / ε2²⌉。进行 N2 次独立实验。每次实验 a. 以概率 α_k / ||α||_1 随机选择一个索引 k。 b. 制备两份 ρ(θ) 的副本。在第一份上测量 H_k得到结果 h_n ∈ {0, 1}假设 H_k 是局部泡利算符测量结果为本征值 ±1这里映射为 0/1。在第二份上测量 G_j得到结果 g_n ∈ {0, 1}。 c. 计算本次实验的输出值 Y_n^(2) ||α||_1 * (-1)^{h_n g_n}。计算所有 Y_n^(2) 的平均值 Y^(2)作为第二项的无偏估计。为什么这样是有效的因为对于每次实验E[(-1)^{h_n}] Tr[H_k ρ(θ)]E[(-1)^{g_n}] Tr[G_j ρ(θ)]。由于两次测量是独立的所以E[(-1)^{h_n g_n}] E[(-1)^{h_n}] * E[(-1)^{g_n}] Tr[H_k ρ(θ)] * Tr[G_j ρ(θ)]。再对 k 按权重 α_k 取平均就得到了目标值。3.3 QBGE主算法拼装完整梯度有了上面两个“零件”QBGE主算法算法三就水到渠成了对于每一个参数维度 j 1 到 J a. 调用算法一输入参数 j得到第一项的估计 Y_j^(1)。 b. 调用算法二输入参数 j得到第二项的估计 Y_j^(2)。 c. 计算第 j 个梯度分量的估计g_j Y_j^(1) Y_j^(2)。将所有 g_j 组合成梯度向量 g (g_1, ..., g_J)^T 并输出。这个算法最终输出的 g 就是目标函数梯度 ∇_θ f(θ) 的一个无偏估计。4. 集成至优化框架QBM-GSE算法估计梯度本身不是目的目的是为了优化。QBM-GSE算法算法四就是将QBGE嵌入到随机梯度下降框架中用于寻找使得 Tr[H ρ(θ)] 最小的参数 θ这对应于用QBM来近似目标哈密顿量 H 的基态能量。该算法的步骤如下初始化随机初始化参数向量 θ。参数设置根据最终目标精度 ε确定SGD的总迭代步数 M ⌈12ℓΔ / ε²⌉。其中 ℓ 是目标函数的平滑常数Lipschitz常数Δ 是初始函数值与全局最小值的差值的上界。同时将QBGE所需的精度参数设置为 ε1 ε2 ε/(2√(2J))失败概率设置为 δ1 δ2 ε²/(8J||α||_1²)。这些设置是为了确保最终梯度估计的总体误差能满足SGD收敛的要求。SGD循环对于 m 1 到 M a. 在当前参数 θ_m 处调用QBGE算法获得随机梯度估计 g(θ_m)。 b. 按照 SGD 更新规则θ_{m1} θ_m - η * g(θ_m) 更新参数。其中学习率 η 被设定为 1/ℓ这是平滑凸优化中的标准选择之一。输出返回所有迭代中观察到的最小函数值 min_m Tr[H ρ(θ_m)]。这个算法框架清晰地展示了如何将量子梯度估计器与经典的优化流程结合起来。量子部分负责提供带有噪声但无偏的梯度方向经典部分负责按照这个方向更新参数。5. 样本复杂度理论与推导样本复杂度是衡量算法效率的关键指标它回答了“要达到精度 ε平均需要消耗多少资源这里指制备热态 ρ(θ) 的次数”。我们对QBGE和QBM-GSE的样本复杂度进行逐层分析。5.1 子算法的样本复杂度首先分析算法一和算法二的样本复杂度。这两个算法本质都是通过蒙特卡洛采样来估计一个期望值。它们输出的估计量 Y^(1) 和 Y^(2) 都是多个独立同分布随机变量取值范围在 [-||α||_1, ||α||_1]的平均值。根据霍夫丁不等式对于这样的估计量要保证以至少 (1-δ) 的概率使估计误差不超过 ε所需的样本数 N 需满足 N ≥ (2 * R² * ln(2/δ)) / ε² 其中 R 是随机变量取值范围的半径。在这里对于我们的两个算法R ||α||_1。因此我们得到算法一样本复杂度N1 ⌈2 ||α||_1² ln(2/δ1) / ε1²⌉算法二样本复杂度N2 ⌈2 ||α||_1² ln(2/δ2) / ε2²⌉这个结果非常直观要求的精度 ε 越高误差越小需要的样本数呈平方增长要求的置信度越高δ 越小需要的样本数呈对数增长。哈密顿量的“强度” ||α||_1 越大随机变量的波动范围越大也需要更多样本来压制噪声。5.2 QBM-GSE的总样本复杂度QBM-GSE算法的总样本消耗发生在SGD的每一次迭代中。在每一次迭代里为了计算 J 维的梯度向量我们需要对每一个维度 j 调用一次算法一和一次算法二。单次迭代的样本消耗对于每个 j需要 (N1 N2) 个 ρ(θ) 的样本。因此一次完整的梯度估计需要 J * (N1 N2) 个样本。总迭代次数根据非凸随机梯度下降的收敛性理论为了找到一个 ε-稳定点即梯度范数小于 ε 的点所需的迭代次数 M 与目标函数的平滑性常数 ℓ、初始差距 Δ 有关满足 M O(ℓΔ / ε²)。在定理的设定下取 M ⌈12ℓΔ / ε²⌉。精度参数传递在QBM-GSE中我们设定了 ε1 ε2 ε/(2√(2J)) 和 δ1 δ2 ε²/(8J||α||_1²)。这个设定的目的是为了控制最终梯度估计的均方误差使其满足 SGD 收敛定理中对于随机梯度方差的上界要求即文中的条件 2C ≤ ε²。总复杂度计算将上述设定代入 N1 和 N2 的公式并将它们代入总样本数公式 N_total M * J * (N1 N2)经过化简我们得到最终的样本复杂度N_total 2J * ⌈12ℓΔ / ε²⌉ * ⌈ (8J ||α||_1² ln(16J ||α||_1² / ε²)) / ε² ⌉这个结果可以简洁地记为O( J² ||α||_1² ℓΔ / ε⁴ * log(J||α||_1/ε) )。5.3 复杂度结果解读与工程意义这个样本复杂度公式蕴含了丰富的信息对精度 ε 的依赖是 1/ε⁴这是通过SGD优化达到 ε-稳定点的典型代价。其中一次 1/ε² 来自SGD的迭代次数另一次 1/ε² 来自每次迭代中梯度估计所需的样本数由霍夫丁不等式决定。这比经典确定性梯度下降的迭代复杂度通常为 1/ε要差但这是使用随机、无偏梯度估计器所必须付出的代价。对参数维度 J 的依赖是 J²一次梯度估计需要对 J 个参数各做一次估计线性依赖 J而为了控制 J 维梯度向量的总方差每个分量的估计精度需要提高到 ε/√J平方依赖综合起来导致了 J² 的依赖。这提示我们在模型参数非常多时直接使用QBGE可能会面临样本需求激增的问题。与哈密顿量相关的项 ||α||_1² 和 ℓ||α||_1 是目标哈密顿量 H 系数的 L1 范数ℓ 是目标函数的 Lipschitz 常数它与 ||H|| 和生成元 G_j 的范数 max_k ||G_k||² 成正比。这些项反映了问题本身的“难度”。哈密顿量越复杂范数越大、项数越多梯度估计的噪声越大优化曲面越崎岖平滑常数大所需的样本就越多。对数项 log(J||α||_1/ε)这是一个相对温和的代价源于我们要求估计以高概率成功。工程实践中的考量这个理论结果为实际应用提供了重要的指导。它告诉我们对于给定的问题规模J, ||α||_1和目标精度 ε我们大致需要准备多少量子计算资源运行电路的次数。它也揭示了算法在超大规模参数下的潜在瓶颈。在实际中我们通常会采用小批量mini-batch或自适应步长等技巧或者结合问题结构设计更高效的估计方案来尝试突破这种多项式级别的缩放限制。6. 扩展讨论解决QBM学习中的公开问题QBGE的意义不仅在于优化能量更在于它为解决一个长期存在的公开问题提供了钥匙如何高效地训练量子玻尔兹曼机来学习经典数据分布在经典的生成式学习中我们通过最小化负对数似然来训练模型。对于QBM模型给出样本 v 的概率是 P_v(θ) Tr[Λ_v ρ(θ)]其中 Λ_v 是一个与经典数据 v 对应的测量算符例如计算基下的投影算符。负对数似然函数的梯度包含形如Tr[Λ_v ∂_j ρ(θ)] / Tr[Λ_v ρ(θ)]的项。过去的研究认为由于分母的存在和分子计算的复杂性这个梯度可能无法高效估计。QBGE的核心子程序——算法一——恰好能用来估计分子项Tr[Λ_v ∂_j ρ(θ)]经过适当变形。结合一个能估计分母Tr[Λ_v ρ(θ)]的简单电路通常只需在计算基下测量我们就可以分别得到分子和分母的估计值 p 和 q。剩下的关键就是分析用 p/q 来估计真实梯度项Tr[Λ_v ∂_j ρ(θ)] / Tr[Λ_v ρ(θ)]时误差是如何传播的。假设我们已知|p - 分子真实值| ≤ ε1|q - 分母真实值| ≤ ε2并且分母真实值有一个下界 r 0即 Tr[Λ_v ρ(θ)] ≥ r 0这对于满秩的热态通常是成立的同时要求 ε2 r 以保证数值稳定性。那么通过数学推导主要利用三角不等式和不等式放缩可以证明估计误差满足 | p/q - (真实比值) | ≤ [1/(r - ε2)] * (ε2/r) ε1/r这个误差界限由两部分组成一部分来自分母估计误差 ε2 的放大系数 1/(r(r-ε2))另一部分来自分子估计误差 ε1 的缩小系数 1/r。只要我们能以足够高的精度估计分子和分母并且确保模型对数据的概率赋值不会太小即 r 不太接近于零我们就可以高精度地估计出负对数似然的梯度从而使得基于梯度下降训练QBM以学习经典数据分布成为可能。注意事项这里的“高效”依赖于几个假设1生成元 G_j 是局部泡利串这使得相关的量子电路易于实现。2热态 ρ(θ) 的制备需要高效例如通过量子模拟或变分方法。3测量算符 Λ_v 需要能高效实现。如果这些条件满足QBGE就为量子生成模型的实际训练铺平了道路。7. 实现挑战与未来展望尽管QBGE在理论上非常优美但将其应用于实际的量子硬件或模拟器时会面临一系列工程挑战热态制备算法的前提是能够制备参数化的热态 ρ(θ)。对于复杂的哈密顿量 G(θ)精确制备热态本身就是一个难题。可能需要借助变分量子本征求解器VQE的变体、量子-经典混合算法或专用的热态制备子程序。哈密顿量模拟算法一中需要实现时间演化算符 e^{-iG(θ)t}。这要求高效的哈密顿量模拟技术。如果 G(θ) 可以分解为局部项的和则可以利用Trotter-Suzuki分解等方法进行近似模拟但这会引入额外的误差。受控酉操作核心量子原语需要执行受控的e^{-iG(θ)t}、H_k和G_j操作。在近期的含噪声中等规模量子NISQ设备上实现高保真度的多量子比特受控操作是一个重大挑战。采样开销样本复杂度的多项式缩放虽然比指数好但在高精度要求下所需的电路运行次数可能仍然非常庞大。这需要与误差缓解、测量优化等技术结合以充分利用每一次测量的信息。参数化与表达能力如何设计参数化的生成元集合 {G_j}使得对应的QBM能够有效表达目标分布同时保持梯度的可估计性是一个需要结合具体应用领域知识来探索的问题。未来的工作可能会沿着以下几个方向展开一是探索更紧的方差上界或更高效的估计方案来降低样本复杂度二是将算法扩展到估计海森矩阵二阶导数以实现二阶优化方法如牛顿法三是研究在噪声环境下算法的鲁棒性并开发相应的误差缓解协议四是在具体的应用问题如量子化学、组合优化上实现算法原型并评估其实际性能。QBGE为我们提供了一个坚实的理论框架证明了在合理假设下训练量子玻尔兹曼机在原则上是可行的。它将量子计算的优势制备复杂量子态、计算特定期望值与经典优化算法的力量随机梯度下降结合了起来。随着量子硬件和算法的不断进步这类混合量子-经典算法有望在解决经典计算机难以处理的复杂学习与优化问题上展现出独特优势。