摘要大规模预训练语言模型在**回忆训练语料中包含的事实性知识**方面表现出惊人的能力Petroni et al., 2019; Jiang et al., 2020b。本文通过引入**知识神经元**这一概念对事实性知识如何存储在预训练 Transformer 中展开初步研究。具体而言我们以 BERT 模型为对象在填空式完形任务上进行分析。针对一条关系型事实我们提出一种知识归因方法以定位出表达该事实的神经元。实验发现这类知识神经元的激活程度与其对应事实的表达呈**正相关**。在案例研究中我们尝试利用知识神经元**在不进行微调的前提下编辑如更新、删除特定事实知识**。本文研究结果有助于理解预训练 Transformer 内部的知识存储机制。代码开源地址https://github.com/Hunter-DDM/knowledge-neurons。1 引言大规模预训练 Transformer 模型Devlin 等2019Liu 等2019Dong 等2019Clark 等2020Bao 等2020通常在维基百科等包含海量事实性知识的大规模语料上以语言建模为目标进行学习。预训练语言模型通过文本预测天然地充当了一个自由文本形式的知识库Bosselut 等2019。Petroni 等2019与 Jiang 等2020b采用填空式查询任务探测了预训练语言模型中存储的事实性知识。评估结果表明预训练 Transformer 在无需任何微调的情况下就具备很强的事实知识回忆能力。Roberts 等2020通过闭卷问答任务证明模型规模越大所能存储的知识就越多。然而以往大多数工作仅聚焦于评估文本形式知识预测的整体准确率。本文尝试更深入地探究预训练 Transformer研究其内部事实性知识的存储机制。如图 1 所示我们提出一种**知识归因方法**用于定位表达关系型事实的神经元并将这类神经元命名为**知识神经元**。具体而言我们将 Transformer 中的前馈网络模块即双层感知机视作键值记忆结构Geva 等2020。以图 1 中的示例为例隐状态输入第一层线性层后会激活知识神经元随后第二层线性层对对应的记忆向量进行整合。键值记忆的特性Geva 等2020启发我们提出该知识归因方法通过计算每个神经元对知识预测的贡献度在前馈网络中定位知识神经元。 大量分析结果表明所定位的知识神经元的激活程度与知识表达呈**正相关**验证了所提知识归因方法的有效性。第一抑制或增强知识神经元的激活会显著影响对应事实知识的表达。第二我们发现某一事实对应的知识神经元更容易被表达该事实的提示文本激活。第三针对某一事实的知识神经元从开放域文本中检索得到的高激活度提示文本通常会表达该事实而低激活度提示文本则不会表达正确的关系。在案例研究中我们尝试利用知识神经元**在不进行任何微调的前提下**对预训练 Transformer 中的事实性知识进行显式编辑。本文开展了两项初步研究事实更新与关系擦除。在定位知识神经元后我们通过直接修改前馈网络中的对应参数对预训练 Transformer 执行**知识手术**。该编辑方式取得了良好效果且对其他知识仅产生适度影响。 本文贡献总结如下- 提出**知识神经元**概念并设计一种知识归因方法在填空任务中定位表达特定事实知识的知识神经元。- 从定性与定量两方面展开分析证明知识神经元的激活与知识表达呈正相关。- 开展初步探索验证可借助知识神经元在**无需微调**的情况下编辑 Transformer 中的事实知识。2 背景TransformerTransformerVaswani et al., 2017是目前最流行、最有效的自然语言处理架构之一。Transformer 编码器由 **L 个相同的模块堆叠**而成。每个 Transformer 模块主要包含两个组件**自注意力模块**和**前馈网络模块**简称 FFN。 设输入矩阵为 $X \in \mathbb{R}^{n \times d}$两个组件可形式化表示如下23 其中为参数矩阵表示单个注意力头的计算 隐状态由所有注意力头拼接后投影得到为 GELU 激活函数Hendrycks and Gimpel, 2016。 为简化表达我们省略了自注意力中的缩放因子和偏置项。自注意力与 FFN 的联系对比式 (2) 与式 (3) 可以发现FFN 的形式与自注意力十分相似区别仅在于 FFN 使用 GELU 激活而自注意力使用 Softmax。 因此类比自注意力中的**查询‑键‑值QKV机制**可以合理地将 - FFN 的输入看作**查询向量** - FFN 的两层线性层分别看作**键**和**值** 类似的观点在 Geva et al. (2020) 中也有论述。3 知识神经元的识别与 Geva 等人2020的工作类似我们将 Transformer 中的前馈网络FFN视作**键值记忆结构**如图 2 所示。我们假设事实性知识存储在前馈网络的记忆中并由**知识神经元**进行表达。在本节中我们提出一种**知识归因方法**与一套**提纯策略**用于定位这些知识神经元。3.1 知识评估任务我们采用**填空完形任务**来评估预训练模型是否掌握某条事实。遵循 Petroni 等人2019的设定每条关系型事实表示为三元组其中 h 为头实体t 为尾实体r 为二者之间的关系。 给定一条事实预训练模型根据表达该事实、但将尾实体留空的完形查询 x 进行作答。例如对事实 $\langle\text{爱尔兰}, \text{首都}, \text{都柏林}\rangle$对应的查询可以是“爱尔兰的首是____。”我们也将这类查询称为**知识表达提示**。 Petroni 等人2019认为如果模型能预测出正确答案就说明它掌握了该事实。在本文中我们不只检验模型输出还进一步定位**表达该事实知识的特定知识神经元**。3.2 知识归因受 Hao 等人2021启发我们基于**积分梯度**Sundararajan et al., 2017提出一种知识归因方法用于评估每个神经元对知识预测的贡献。本文重点分析**掩码位置**即答案预测位置对应的前馈网络中间神经元。 给定输入提示 x我们首先将模型输出定义为预训练模型预测正确答案的概率(4)其中表示正确答案表示第 l 层前馈网络中的第 i 个中间神经元是为该神经元指定的常量取值。 为计算神经元的归因分数我们将的值从 0 逐步变化到由预训练模型计算得到的原始值并对梯度进行积分(5)其中表示模型输出关于神经元的梯度。直观上随着从 0 变到 1通过积分梯度累计了由神经元取值变化带来的输出概率变化。如果某个神经元对事实表达有重要影响其梯度会较为显著进而得到较大的积分值。因此归因分数可以衡量神经元对事实表达的贡献程度。 直接计算连续积分难以实现我们改用黎曼近似其中近似步数 $m20$。 借助该归因算法我们可以选取归因分数大于阈值 t 的神经元得到一个**粗选知识神经元集合**。3.3 知识神经元提纯为更精准地定位知识神经元我们进一步提出**提纯策略**。粗选集合中除了表达事实知识的“真阳性”知识神经元外还可能包含表达句法、词汇等其他信息的“假阳性”神经元。提纯策略的目标就是滤除这类假阳性神经元。 我们假设对应同一条事实的不同提示会共享同一套**真阳性知识神经元**因为它们表达相同的事实而只要提示足够多样化它们就不会共享假阳性神经元。因此给定多条多样化提示我们可以只保留在这些提示中广泛共有的神经元从而提纯知识神经元集合。 具体而言给定一条关系型事实识别其知识神经元的完整流程如下1. 生成 n 条多样化提示2. 对每条提示计算神经元的知识归因分数3. 对每条提示保留归因分数大于阈值 $t$ 的神经元得到粗选知识神经元集合4. 综合所有粗选集合只保留在超过 $p\%$ 的提示中共同出现的知识神经元。4 实验4.1 实验设置我们在**BERT-base-cased**Devlin et al., 2019上开展实验这是应用最广泛的预训练模型之一。该模型包含 12 层 Transformer 模块隐层维度为 768前馈网络FFN内部隐层维度为 3072。值得注意的是本文方法并不局限于 BERT可轻松扩展到其他预训练模型。 对每条提示文本我们将归因阈值 \(t\) 设为最大归因分数的 0.2 倍。针对每种关系我们先将提纯阈值 \(p\%\)3.3 节初始化为 0.7之后以 0.05 为步长上调或下调直到知识神经元的平均数量落在区间 [2, 5] 内。 实验在 **NVIDIA Tesla V100** GPU 上运行。平均而言对一条包含 9 条提示的关系型事实识别其知识神经元耗时 13.3 秒。4.2 数据集我们基于 **PARAREL** 数据集Elazar et al., 2021通过填空完形任务探究知识神经元。PARAREL 由专家标注构建包含来自 T-REx 数据集ElSahar et al., 2018的 38 种关系对应的多种提示模板。表 1 展示了部分模板示例。 对每条关系型事实我们在提示模板中填入头实体并将尾实体留空以待模型预测。为保证模板多样性我们剔除提示模板少于 4 个的关系最终保留 34 种关系每种关系平均对应 8.63 个不同提示模板。这些模板共为 27738 条关系型事实生成了 253448 条知识表达提示。4.3 归因基准方法本文选用的基准方法以**神经元激活值**作为归因分数即该方法用于衡量神经元对输入的敏感程度。计算完归因分数后我们采用与本文方法相同的流程得到提纯后的知识神经元。为保证公平对比我们使用相同方式为基准方法选取超参数 \(t\) 和 \(p\%\)确保每种关系对应的知识神经元平均数量落在 [2, 5] 区间内。 基于神经元激活的方法是合理的基准其动机源于前馈网络与自注意力机制的类比见第 2 节因为自注意力分数通常被用作强有力的归因基准Kovaleva et al., 2019; Voita et al., 2019; Hao et al., 2021。4.4 知识神经元统计分析图 3 展示了本文知识归因方法所识别出的知识神经元的层分布情况。我们发现大多数与事实相关的神经元分布在预训练 Transformer 的**最顶层**这一结论与 Tenney et al. (2019) 和 Geva et al. (2020) 的发现一致。 表 2 给出了知识神经元的统计结果。平均而言本文方法为每条关系型事实识别出 4.13 个知识神经元基准方法为 3.96 个。二者数量级相近保证了本文后续对比实验的公平性。 我们还计算了不同关系型事实之间知识神经元的交集数量。表 2 展示了事实对之间知识神经元交集的平均数量。对于本文方法1. 具有相同关系的事实对关系内事实对平均共享 1.23 个知识神经元2. 具有不同关系的事实对关系间事实对几乎不共享知识神经元。 与之相对基准方法3. 大多数识别出的神经元会被关系内事实对共享4. 甚至有相当一部分神经元为关系间事实对所共有。知识神经元交集上的差异表明本文方法能够识别出**更具专属特性**的知识神经元。4.5 知识神经元对知识表达的影响在图 4 和图 5 中我们研究了知识神经元对知识表达的影响程度。给定一条关系型事实我们以两种方式操纵其知识神经元 1. **抑制**知识神经元将其激活值置为 0 2. **增强**知识神经元将其激活值翻倍。 随后针对每种关系我们绘制正确答案预测概率在操纵后的平均变化率。作为对比我们同时绘制操纵基准方法识别出的知识神经元所得到的结果。图 4 显示抑制本文方法识别出的知识神经元会使正确概率**持续下降**平均下降 29.03%。相比之下抑制基准方法识别的神经元对正确概率几乎没有影响平均仅下降 1.47%。值得注意的是在 P178开发者关系上操纵基准神经元反而使正确概率反常上升。 如图 5 所示增强本文方法识别的知识神经元时可观察到类似规律正确概率**持续上升**平均提升 31.17%而基准方法甚至使平均正确概率下降 1.27%。 综上本文知识归因方法识别出的知识神经元能够**显著影响知识表达**。需要说明的是上述评估结果会受知识神经元分布的影响。例如如果某一关系对应的知识神经元分布更分散则需要操纵更多的 Top-k 神经元以实现更好的控制效果。本文实验仅作为概念验证更精确的控制将留待未来工作研究。
Knowledge Neurons in Pretrained Transformers
发布时间:2026/5/19 19:02:04
摘要大规模预训练语言模型在**回忆训练语料中包含的事实性知识**方面表现出惊人的能力Petroni et al., 2019; Jiang et al., 2020b。本文通过引入**知识神经元**这一概念对事实性知识如何存储在预训练 Transformer 中展开初步研究。具体而言我们以 BERT 模型为对象在填空式完形任务上进行分析。针对一条关系型事实我们提出一种知识归因方法以定位出表达该事实的神经元。实验发现这类知识神经元的激活程度与其对应事实的表达呈**正相关**。在案例研究中我们尝试利用知识神经元**在不进行微调的前提下编辑如更新、删除特定事实知识**。本文研究结果有助于理解预训练 Transformer 内部的知识存储机制。代码开源地址https://github.com/Hunter-DDM/knowledge-neurons。1 引言大规模预训练 Transformer 模型Devlin 等2019Liu 等2019Dong 等2019Clark 等2020Bao 等2020通常在维基百科等包含海量事实性知识的大规模语料上以语言建模为目标进行学习。预训练语言模型通过文本预测天然地充当了一个自由文本形式的知识库Bosselut 等2019。Petroni 等2019与 Jiang 等2020b采用填空式查询任务探测了预训练语言模型中存储的事实性知识。评估结果表明预训练 Transformer 在无需任何微调的情况下就具备很强的事实知识回忆能力。Roberts 等2020通过闭卷问答任务证明模型规模越大所能存储的知识就越多。然而以往大多数工作仅聚焦于评估文本形式知识预测的整体准确率。本文尝试更深入地探究预训练 Transformer研究其内部事实性知识的存储机制。如图 1 所示我们提出一种**知识归因方法**用于定位表达关系型事实的神经元并将这类神经元命名为**知识神经元**。具体而言我们将 Transformer 中的前馈网络模块即双层感知机视作键值记忆结构Geva 等2020。以图 1 中的示例为例隐状态输入第一层线性层后会激活知识神经元随后第二层线性层对对应的记忆向量进行整合。键值记忆的特性Geva 等2020启发我们提出该知识归因方法通过计算每个神经元对知识预测的贡献度在前馈网络中定位知识神经元。 大量分析结果表明所定位的知识神经元的激活程度与知识表达呈**正相关**验证了所提知识归因方法的有效性。第一抑制或增强知识神经元的激活会显著影响对应事实知识的表达。第二我们发现某一事实对应的知识神经元更容易被表达该事实的提示文本激活。第三针对某一事实的知识神经元从开放域文本中检索得到的高激活度提示文本通常会表达该事实而低激活度提示文本则不会表达正确的关系。在案例研究中我们尝试利用知识神经元**在不进行任何微调的前提下**对预训练 Transformer 中的事实性知识进行显式编辑。本文开展了两项初步研究事实更新与关系擦除。在定位知识神经元后我们通过直接修改前馈网络中的对应参数对预训练 Transformer 执行**知识手术**。该编辑方式取得了良好效果且对其他知识仅产生适度影响。 本文贡献总结如下- 提出**知识神经元**概念并设计一种知识归因方法在填空任务中定位表达特定事实知识的知识神经元。- 从定性与定量两方面展开分析证明知识神经元的激活与知识表达呈正相关。- 开展初步探索验证可借助知识神经元在**无需微调**的情况下编辑 Transformer 中的事实知识。2 背景TransformerTransformerVaswani et al., 2017是目前最流行、最有效的自然语言处理架构之一。Transformer 编码器由 **L 个相同的模块堆叠**而成。每个 Transformer 模块主要包含两个组件**自注意力模块**和**前馈网络模块**简称 FFN。 设输入矩阵为 $X \in \mathbb{R}^{n \times d}$两个组件可形式化表示如下23 其中为参数矩阵表示单个注意力头的计算 隐状态由所有注意力头拼接后投影得到为 GELU 激活函数Hendrycks and Gimpel, 2016。 为简化表达我们省略了自注意力中的缩放因子和偏置项。自注意力与 FFN 的联系对比式 (2) 与式 (3) 可以发现FFN 的形式与自注意力十分相似区别仅在于 FFN 使用 GELU 激活而自注意力使用 Softmax。 因此类比自注意力中的**查询‑键‑值QKV机制**可以合理地将 - FFN 的输入看作**查询向量** - FFN 的两层线性层分别看作**键**和**值** 类似的观点在 Geva et al. (2020) 中也有论述。3 知识神经元的识别与 Geva 等人2020的工作类似我们将 Transformer 中的前馈网络FFN视作**键值记忆结构**如图 2 所示。我们假设事实性知识存储在前馈网络的记忆中并由**知识神经元**进行表达。在本节中我们提出一种**知识归因方法**与一套**提纯策略**用于定位这些知识神经元。3.1 知识评估任务我们采用**填空完形任务**来评估预训练模型是否掌握某条事实。遵循 Petroni 等人2019的设定每条关系型事实表示为三元组其中 h 为头实体t 为尾实体r 为二者之间的关系。 给定一条事实预训练模型根据表达该事实、但将尾实体留空的完形查询 x 进行作答。例如对事实 $\langle\text{爱尔兰}, \text{首都}, \text{都柏林}\rangle$对应的查询可以是“爱尔兰的首是____。”我们也将这类查询称为**知识表达提示**。 Petroni 等人2019认为如果模型能预测出正确答案就说明它掌握了该事实。在本文中我们不只检验模型输出还进一步定位**表达该事实知识的特定知识神经元**。3.2 知识归因受 Hao 等人2021启发我们基于**积分梯度**Sundararajan et al., 2017提出一种知识归因方法用于评估每个神经元对知识预测的贡献。本文重点分析**掩码位置**即答案预测位置对应的前馈网络中间神经元。 给定输入提示 x我们首先将模型输出定义为预训练模型预测正确答案的概率(4)其中表示正确答案表示第 l 层前馈网络中的第 i 个中间神经元是为该神经元指定的常量取值。 为计算神经元的归因分数我们将的值从 0 逐步变化到由预训练模型计算得到的原始值并对梯度进行积分(5)其中表示模型输出关于神经元的梯度。直观上随着从 0 变到 1通过积分梯度累计了由神经元取值变化带来的输出概率变化。如果某个神经元对事实表达有重要影响其梯度会较为显著进而得到较大的积分值。因此归因分数可以衡量神经元对事实表达的贡献程度。 直接计算连续积分难以实现我们改用黎曼近似其中近似步数 $m20$。 借助该归因算法我们可以选取归因分数大于阈值 t 的神经元得到一个**粗选知识神经元集合**。3.3 知识神经元提纯为更精准地定位知识神经元我们进一步提出**提纯策略**。粗选集合中除了表达事实知识的“真阳性”知识神经元外还可能包含表达句法、词汇等其他信息的“假阳性”神经元。提纯策略的目标就是滤除这类假阳性神经元。 我们假设对应同一条事实的不同提示会共享同一套**真阳性知识神经元**因为它们表达相同的事实而只要提示足够多样化它们就不会共享假阳性神经元。因此给定多条多样化提示我们可以只保留在这些提示中广泛共有的神经元从而提纯知识神经元集合。 具体而言给定一条关系型事实识别其知识神经元的完整流程如下1. 生成 n 条多样化提示2. 对每条提示计算神经元的知识归因分数3. 对每条提示保留归因分数大于阈值 $t$ 的神经元得到粗选知识神经元集合4. 综合所有粗选集合只保留在超过 $p\%$ 的提示中共同出现的知识神经元。4 实验4.1 实验设置我们在**BERT-base-cased**Devlin et al., 2019上开展实验这是应用最广泛的预训练模型之一。该模型包含 12 层 Transformer 模块隐层维度为 768前馈网络FFN内部隐层维度为 3072。值得注意的是本文方法并不局限于 BERT可轻松扩展到其他预训练模型。 对每条提示文本我们将归因阈值 \(t\) 设为最大归因分数的 0.2 倍。针对每种关系我们先将提纯阈值 \(p\%\)3.3 节初始化为 0.7之后以 0.05 为步长上调或下调直到知识神经元的平均数量落在区间 [2, 5] 内。 实验在 **NVIDIA Tesla V100** GPU 上运行。平均而言对一条包含 9 条提示的关系型事实识别其知识神经元耗时 13.3 秒。4.2 数据集我们基于 **PARAREL** 数据集Elazar et al., 2021通过填空完形任务探究知识神经元。PARAREL 由专家标注构建包含来自 T-REx 数据集ElSahar et al., 2018的 38 种关系对应的多种提示模板。表 1 展示了部分模板示例。 对每条关系型事实我们在提示模板中填入头实体并将尾实体留空以待模型预测。为保证模板多样性我们剔除提示模板少于 4 个的关系最终保留 34 种关系每种关系平均对应 8.63 个不同提示模板。这些模板共为 27738 条关系型事实生成了 253448 条知识表达提示。4.3 归因基准方法本文选用的基准方法以**神经元激活值**作为归因分数即该方法用于衡量神经元对输入的敏感程度。计算完归因分数后我们采用与本文方法相同的流程得到提纯后的知识神经元。为保证公平对比我们使用相同方式为基准方法选取超参数 \(t\) 和 \(p\%\)确保每种关系对应的知识神经元平均数量落在 [2, 5] 区间内。 基于神经元激活的方法是合理的基准其动机源于前馈网络与自注意力机制的类比见第 2 节因为自注意力分数通常被用作强有力的归因基准Kovaleva et al., 2019; Voita et al., 2019; Hao et al., 2021。4.4 知识神经元统计分析图 3 展示了本文知识归因方法所识别出的知识神经元的层分布情况。我们发现大多数与事实相关的神经元分布在预训练 Transformer 的**最顶层**这一结论与 Tenney et al. (2019) 和 Geva et al. (2020) 的发现一致。 表 2 给出了知识神经元的统计结果。平均而言本文方法为每条关系型事实识别出 4.13 个知识神经元基准方法为 3.96 个。二者数量级相近保证了本文后续对比实验的公平性。 我们还计算了不同关系型事实之间知识神经元的交集数量。表 2 展示了事实对之间知识神经元交集的平均数量。对于本文方法1. 具有相同关系的事实对关系内事实对平均共享 1.23 个知识神经元2. 具有不同关系的事实对关系间事实对几乎不共享知识神经元。 与之相对基准方法3. 大多数识别出的神经元会被关系内事实对共享4. 甚至有相当一部分神经元为关系间事实对所共有。知识神经元交集上的差异表明本文方法能够识别出**更具专属特性**的知识神经元。4.5 知识神经元对知识表达的影响在图 4 和图 5 中我们研究了知识神经元对知识表达的影响程度。给定一条关系型事实我们以两种方式操纵其知识神经元 1. **抑制**知识神经元将其激活值置为 0 2. **增强**知识神经元将其激活值翻倍。 随后针对每种关系我们绘制正确答案预测概率在操纵后的平均变化率。作为对比我们同时绘制操纵基准方法识别出的知识神经元所得到的结果。图 4 显示抑制本文方法识别出的知识神经元会使正确概率**持续下降**平均下降 29.03%。相比之下抑制基准方法识别的神经元对正确概率几乎没有影响平均仅下降 1.47%。值得注意的是在 P178开发者关系上操纵基准神经元反而使正确概率反常上升。 如图 5 所示增强本文方法识别的知识神经元时可观察到类似规律正确概率**持续上升**平均提升 31.17%而基准方法甚至使平均正确概率下降 1.27%。 综上本文知识归因方法识别出的知识神经元能够**显著影响知识表达**。需要说明的是上述评估结果会受知识神经元分布的影响。例如如果某一关系对应的知识神经元分布更分散则需要操纵更多的 Top-k 神经元以实现更好的控制效果。本文实验仅作为概念验证更精确的控制将留待未来工作研究。