Knowledge Neurons in Pretrained Transformers

发布时间：2026/5/19 19:02:04

摘要大规模预训练语言模型在**回忆训练语料中包含的事实性知识**方面表现出惊人的能力Petroni et al., 2019; Jiang et al., 2020b。本文通过引入**知识神经元**这一概念对事实性知识如何存储在预训练 Transformer 中展开初步研究。具体而言我们以 BERT 模型为对象在填空式完形任务上进行分析。针对一条关系型事实我们提出一种知识归因方法以定位出表达该事实的神经元。实验发现这类知识神经元的激活程度与其对应事实的表达呈**正相关**。在案例研究中我们尝试利用知识神经元**在不进行微调的前提下编辑如更新、删除特定事实知识**。本文研究结果有助于理解预训练 Transformer 内部的知识存储机制。代码开源地址https://github.com/Hunter-DDM/knowledge-neurons。1 引言大规模预训练 Transformer 模型Devlin 等2019Liu 等2019Dong 等2019Clark 等2020Bao 等2020通常在维基百科等包含海量事实性知识的大规模语料上以语言建模为目标进行学习。预训练语言模型通过文本预测天然地充当了一个自由文本形式的知识库Bosselut 等2019。Petroni 等2019与 Jiang 等2020b采用填空式查询任务探测了预训练语言模型中存储的事实性知识。评估结果表明预训练 Transformer 在无需任何微调的情况下就具备很强的事实知识回忆能力。Roberts 等2020通过闭卷问答任务证明模型规模越大所能存储的知识就越多。然而以往大多数工作仅聚焦于评估文本形式知识预测的整体准确率。本文尝试更深入地探究预训练 Transformer研究其内部事实性知识的存储机制。如图 1 所示我们提出一种**知识归因方法**用于定位表达关系型事实的神经元并将这类神经元命名为**知识神经元**。具体而言我们将 Transformer 中的前馈网络模块即双层感知机视作键值记忆结构Geva 等2020。以图 1 中的示例为例隐状态输入第一层线性层后会激活知识神经元随后第二层线性层对对应的记忆向量进行整合。键值记忆的特性Geva 等2020启发我们提出该知识归因方法通过计算每个神经元对知识预测的贡献度在前馈网络中定位知识神经元。大量分析结果表明所定位的知识神经元的激活程度与知识表达呈**正相关**验证了所提知识归因方法的有效性。第一抑制或增强知识神经元的激活会显著影响对应事实知识的表达。第二我们发现某一事实对应的知识神经元更容易被表达该事实的提示文本激活。第三针对某一事实的知识神经元从开放域文本中检索得到的高激活度提示文本通常会表达该事实而低激活度提示文本则不会表达正确的关系。在案例研究中我们尝试利用知识神经元**在不进行任何微调的前提下**对预训练 Transformer 中的事实性知识进行显式编辑。本文开展了两项初步研究事实更新与关系擦除。在定位知识神经元后我们通过直接修改前馈网络中的对应参数对预训练 Transformer 执行**知识手术**。该编辑方式取得了良好效果且对其他知识仅产生适度影响。本文贡献总结如下- 提出**知识神经元**概念并设计一种知识归因方法在填空任务中定位表达特定事实知识的知识神经元。- 从定性与定量两方面展开分析证明知识神经元的激活与知识表达呈正相关。- 开展初步探索验证可借助知识神经元在**无需微调**的情况下编辑 Transformer 中的事实知识。2 背景TransformerTransformerVaswani et al., 2017是目前最流行、最有效的自然语言处理架构之一。Transformer 编码器由 **L 个相同的模块堆叠**而成。每个 Transformer 模块主要包含两个组件**自注意力模块**和**前馈网络模块**简称 FFN。设输入矩阵为 $X \in \mathbb{R}^{n \times d}$两个组件可形式化表示如下23 其中为参数矩阵表示单个注意力头的计算隐状态由所有注意力头拼接后投影得到为 GELU 激活函数Hendrycks and Gimpel, 2016。为简化表达我们省略了自注意力中的缩放因子和偏置项。自注意力与 FFN 的联系对比式 (2) 与式 (3) 可以发现FFN 的形式与自注意力十分相似区别仅在于 FFN 使用 GELU 激活而自注意力使用 Softmax。因此类比自注意力中的**查询‑键‑值QKV机制**可以合理地将 - FFN 的输入看作**查询向量** - FFN 的两层线性层分别看作**键**和**值** 类似的观点在 Geva et al. (2020) 中也有论述。3 知识神经元的识别与 Geva 等人2020的工作类似我们将 Transformer 中的前馈网络FFN视作**键值记忆结构**如图 2 所示。我们假设事实性知识存储在前馈网络的记忆中并由**知识神经元**进行表达。在本节中我们提出一种**知识归因方法**与一套**提纯策略**用于定位这些知识神经元。3.1 知识评估任务我们采用**填空完形任务**来评估预训练模型是否掌握某条事实。遵循 Petroni 等人2019的设定每条关系型事实表示为三元组其中 h 为头实体t 为尾实体r 为二者之间的关系。给定一条事实预训练模型根据表达该事实、但将尾实体留空的完形查询 x 进行作答。例如对事实 $\langle\text{爱尔兰}, \text{首都}, \text{都柏林}\rangle$对应的查询可以是“爱尔兰的首是____。”我们也将这类查询称为**知识表达提示**。 Petroni 等人2019认为如果模型能预测出正确答案就说明它掌握了该事实。在本文中我们不只检验模型输出还进一步定位**表达该事实知识的特定知识神经元**。3.2 知识归因受 Hao 等人2021启发我们基于**积分梯度**Sundararajan et al., 2017提出一种知识归因方法用于评估每个神经元对知识预测的贡献。本文重点分析**掩码位置**即答案预测位置对应的前馈网络中间神经元。给定输入提示 x我们首先将模型输出定义为预训练模型预测正确答案的概率(4)其中表示正确答案表示第 l 层前馈网络中的第 i 个中间神经元是为该神经元指定的常量取值。为计算神经元的归因分数我们将的值从 0 逐步变化到由预训练模型计算得到的原始值并对梯度进行积分(5)其中表示模型输出关于神经元的梯度。直观上随着从 0 变到 1通过积分梯度累计了由神经元取值变化带来的输出概率变化。如果某个神经元对事实表达有重要影响其梯度会较为显著进而得到较大的积分值。因此归因分数可以衡量神经元对事实表达的贡献程度。直接计算连续积分难以实现我们改用黎曼近似其中近似步数 $m20$。借助该归因算法我们可以选取归因分数大于阈值 t 的神经元得到一个**粗选知识神经元集合**。3.3 知识神经元提纯为更精准地定位知识神经元我们进一步提出**提纯策略**。粗选集合中除了表达事实知识的“真阳性”知识神经元外还可能包含表达句法、词汇等其他信息的“假阳性”神经元。提纯策略的目标就是滤除这类假阳性神经元。我们假设对应同一条事实的不同提示会共享同一套**真阳性知识神经元**因为它们表达相同的事实而只要提示足够多样化它们就不会共享假阳性神经元。因此给定多条多样化提示我们可以只保留在这些提示中广泛共有的神经元从而提纯知识神经元集合。具体而言给定一条关系型事实识别其知识神经元的完整流程如下1. 生成 n 条多样化提示2. 对每条提示计算神经元的知识归因分数3. 对每条提示保留归因分数大于阈值 $t$ 的神经元得到粗选知识神经元集合4. 综合所有粗选集合只保留在超过 $p\%$ 的提示中共同出现的知识神经元。4 实验4.1 实验设置我们在**BERT-base-cased**Devlin et al., 2019上开展实验这是应用最广泛的预训练模型之一。该模型包含 12 层 Transformer 模块隐层维度为 768前馈网络FFN内部隐层维度为 3072。值得注意的是本文方法并不局限于 BERT可轻松扩展到其他预训练模型。对每条提示文本我们将归因阈值 $t$ 设为最大归因分数的 0.2 倍。针对每种关系我们先将提纯阈值 $p\%$3.3 节初始化为 0.7之后以 0.05 为步长上调或下调直到知识神经元的平均数量落在区间 [2, 5] 内。实验在 **NVIDIA Tesla V100** GPU 上运行。平均而言对一条包含 9 条提示的关系型事实识别其知识神经元耗时 13.3 秒。4.2 数据集我们基于 **PARAREL** 数据集Elazar et al., 2021通过填空完形任务探究知识神经元。PARAREL 由专家标注构建包含来自 T-REx 数据集ElSahar et al., 2018的 38 种关系对应的多种提示模板。表 1 展示了部分模板示例。对每条关系型事实我们在提示模板中填入头实体并将尾实体留空以待模型预测。为保证模板多样性我们剔除提示模板少于 4 个的关系最终保留 34 种关系每种关系平均对应 8.63 个不同提示模板。这些模板共为 27738 条关系型事实生成了 253448 条知识表达提示。4.3 归因基准方法本文选用的基准方法以**神经元激活值**作为归因分数即该方法用于衡量神经元对输入的敏感程度。计算完归因分数后我们采用与本文方法相同的流程得到提纯后的知识神经元。为保证公平对比我们使用相同方式为基准方法选取超参数 $t$ 和 $p\%$确保每种关系对应的知识神经元平均数量落在 [2, 5] 区间内。基于神经元激活的方法是合理的基准其动机源于前馈网络与自注意力机制的类比见第 2 节因为自注意力分数通常被用作强有力的归因基准Kovaleva et al., 2019; Voita et al., 2019; Hao et al., 2021。4.4 知识神经元统计分析图 3 展示了本文知识归因方法所识别出的知识神经元的层分布情况。我们发现大多数与事实相关的神经元分布在预训练 Transformer 的**最顶层**这一结论与 Tenney et al. (2019) 和 Geva et al. (2020) 的发现一致。表 2 给出了知识神经元的统计结果。平均而言本文方法为每条关系型事实识别出 4.13 个知识神经元基准方法为 3.96 个。二者数量级相近保证了本文后续对比实验的公平性。我们还计算了不同关系型事实之间知识神经元的交集数量。表 2 展示了事实对之间知识神经元交集的平均数量。对于本文方法1. 具有相同关系的事实对关系内事实对平均共享 1.23 个知识神经元2. 具有不同关系的事实对关系间事实对几乎不共享知识神经元。与之相对基准方法3. 大多数识别出的神经元会被关系内事实对共享4. 甚至有相当一部分神经元为关系间事实对所共有。知识神经元交集上的差异表明本文方法能够识别出**更具专属特性**的知识神经元。4.5 知识神经元对知识表达的影响在图 4 和图 5 中我们研究了知识神经元对知识表达的影响程度。给定一条关系型事实我们以两种方式操纵其知识神经元 1. **抑制**知识神经元将其激活值置为 0 2. **增强**知识神经元将其激活值翻倍。随后针对每种关系我们绘制正确答案预测概率在操纵后的平均变化率。作为对比我们同时绘制操纵基准方法识别出的知识神经元所得到的结果。图 4 显示抑制本文方法识别出的知识神经元会使正确概率**持续下降**平均下降 29.03%。相比之下抑制基准方法识别的神经元对正确概率几乎没有影响平均仅下降 1.47%。值得注意的是在 P178开发者关系上操纵基准神经元反而使正确概率反常上升。如图 5 所示增强本文方法识别的知识神经元时可观察到类似规律正确概率**持续上升**平均提升 31.17%而基准方法甚至使平均正确概率下降 1.27%。综上本文知识归因方法识别出的知识神经元能够**显著影响知识表达**。需要说明的是上述评估结果会受知识神经元分布的影响。例如如果某一关系对应的知识神经元分布更分散则需要操纵更多的 Top-k 神经元以实现更好的控制效果。本文实验仅作为概念验证更精确的控制将留待未来工作研究。

LaTeX公式转图片终极指南：3分钟学会专业数学公式可视化

LaTeX公式转图片终极指南：3分钟学会专业数学公式可视化【免费下载链接】latex2image-web LaTeX to image converter with web UI using Node.js / Docker 项目地址: https://gitcode.com/gh_mirrors/la/latex2image-web 还在为文档中的数学公式排版而头疼吗…

2026/5/18 19:34:41 阅读更多

UE5场景过曝/白屏排查指南：从后期处理体积到项目设置的实战修复

1. 当UE5场景变成"雪盲症"时该怎么办？ 第一次打开UE5项目看到白茫茫一片的时候，我差点以为显卡烧了。这种场景过曝现象就像在雪山没戴墨镜，所有细节都被强光吞噬。新手遇到这种情况别慌，我整理了从"急救措施"…

2026/5/19 5:06:35 阅读更多

从Shadertoy到Cesium：那些GLSL移植时没人告诉你的分辨率陷阱

GLSL跨平台移植中的分辨率适配陷阱与实战解决方案当我们将Shadertoy上令人惊艳的GLSL效果移植到Cesium等三维引擎时，往往会遇到一个看似简单却影响深远的问题——分辨率适配。这个问题不仅关乎视觉效果还原度，更直接影响着色器在不同设备上的表现一致性…

2026/5/18 8:12:43 阅读更多

htty实战教程：如何用命令行工具快速测试REST API

htty实战教程：如何用命令行工具快速测试REST API 【免费下载链接】htty htty is the HTTP TTY, a console application for interacting with web servers. 项目地址: https://gitcode.com/gh_mirrors/ht/htty htty（HTTP TTY）是一款强…

2026/5/19 19:01:49 阅读更多

5个简单步骤：让苹果触控板在Windows上实现原生级体验的完整指南

5个简单步骤：让苹果触控板在Windows上实现原生级体验的完整指南【免费下载链接】mac-precision-touchpad Windows Precision Touchpad Driver Implementation for Apple MacBook / Magic Trackpad 项目地址: https://gitcode.com/gh_mirrors/ma/mac-precision-to…

2026/5/19 18:59:06 阅读更多

观察 Taotoken 控制台如何清晰展示各模型调用次数与 token 消耗分布

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察 Taotoken 控制台如何清晰展示各模型调用次数与 token 消耗分布对于依赖大模型 API 进行开发的项目而言，清晰地了…

2026/5/19 18:59:06 阅读更多

如何永久保存微信聊天记录？WeChatMsg让你轻松实现数据自主管理

如何永久保存微信聊天记录？WeChatMsg让你轻松实现数据自主管理【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/…

2026/5/19 18:58:06 阅读更多

【免费下载】高效数据处理利器：Matlab读取TDMS文件并存储为mat格式【matlab下载】

高效数据处理利器：Matlab读取TDMS文件并存储为mat格式项目介绍在科学研究和工程应用中，数据的高效存储和处理是至关重要的。TDMS（Technical Data Management Streaming）作为一种常见的数据存储格式，因其占用磁盘空间…

2026/5/19 18:58:06 阅读更多

C语言新手实战：手搓一个《金铲铲之战》五费卡记牌器（附完整源码）

C语言实战：从零构建《金铲铲之战》五费卡追踪系统在自走棋类游戏中，掌握卡池剩余卡牌数量是进阶玩家的必备技能。尤其到了对局后期，五费卡的数量直接影响着阵容强度与胜负走向。本文将带您用C语言实现一个轻量级五费卡追踪工具，不…

2026/5/19 18:57:25 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/18 19:34:27 阅读更多

相关文章