无需数字的算术运算当大语言模型LLM仅依靠矩阵进行计算时其内部会发生什么作者是阿尔瓦罗·比德拉Alvaro Videla。这里提到了螺旋残余标记有图1展示。整数的相位表示螺旋线是傅里叶式数字编码的简化图示向量的一部分追踪圆周上的相位另一部分追踪粗略位置。整数137相位 49.3°余弦值 0.65正弦值 0.76粗略位置 13整数值 0 - 999。问题也随之而来。模型没有“手指”普通人学习算术可能借助身体如用手指计数等后来还会使用算盘等工具。但语言模型只有矩阵标记token输入激活值流动对数几率logit输出。然而向现代语言模型询问算术问题其内部会做出响应。这里给出了工作术语表包括标记Token、向量Vector、激活值Activation等的定义。与人类的对比乔治·莱考夫George Lakoff和拉斐尔·E·努涅斯Rafael E. Núñez在《数学从何而来》中指出人类数学概念源于身体体验。Transformer没有人类学习算术的工具若要学习算术需发明机器原生数字表示方式。人类有多种算术运算方式所以第一个科学问题是模型给出答案的方式。残差流在询问数字来源前需了解模型运行状态。逐标记读取提示信息时模型不会创建整洁变量每个标记位置携带长数字向量提示信息通过Transformer层时向量不断更新。残差流是这些变化累积的运行便签本这使得读出器和补丁操作可行但向量本身不能表明哪个主张正确。下一个标记的约束人类通常从右向左进行算术计算而语言模型需从左到右输出答案。答案呈现和精确计算不是同一问题随着答案变长模型内部数字块读出结果会受影响。单独计数实验也显示出类似压力在进位边界处模型易失败长连续输出时失败更明显。最初的梦想一个诱人的解决方案是调用计算器但Rune项目追求更严格的问题即深入模型内部找到其试图执行的计算让模型自身激活值提供操作和操作数信息。这与标准工具使用不同Rune项目询问工具参数能否来自模型内部状态。该梦想未完全实现但失败促使项目区分了三个方面。主张阶梯以同样的提示“ What is the gcd of 84 and 36?”作为测试案例有五种系统可输出答案区别在于操作和操作数来源以及模型哪部分被改变分别是提示解析器、生成程序、最终标记校正、激活值派生的工具参数、残差即时替换。第一个陷阱早期实验表明后期层写入状态可帮助模型输出数字块但这可能只是测量模型呈现给定值的能力不等同于模型计算出该值。Rune项目必须不断询问模型得出答案的方式规则变得更严格运行时提示必须不透明。过往工作的启示Rune项目并非首次提出螺旋结构想法坎塔姆内尼Kantamneni和泰格马克Tegmark、尼坎金Nikankin及其同事的研究有相关观点。这些工具也并非在此发明Rune项目的贡献是在无解析器来源规则下应用这些想法并报告更强的残差即时替换故事不成立的情况。工具包Rune项目大部分是反复应用的工具包有四种工具以不同方式作用于运行激活向量分别是探测器、稀疏自编码器SAE、补丁操作、引导操作每种工具都有用但不能过度断言。工具包模拟器残差流是模型的运行便签向量这四种工具以不同方式触碰该向量探测器问能否读取信息稀疏自编码器问能否为部分命名补丁操作问部分是否重要引导操作问推动会怎样。混淆这些问题会导致可解释性实验过度断言。可读与可写残差写入实验接近最初编译器设想但测试的单点写入操作未达预期残差干预在准确性上无优势且会干扰周围行为。可读的变量不一定是可写的寄存器机械可解释性注重读取工程需要写入。三个候选方案项目有三个合理方案提示解析可行但超出科学问题范围残差替换过于脆弱激活值派生的工具参数更清晰能说明算术提示可在残差流中留下可恢复结构并驱动计算器路线。工具使用背景现代工具使用系统已能将算术运算路由到外部计算但Rune项目问题更聚焦询问工具参数能否来自模型内部状态运行时边界很重要。幸存的方案重要问题是路由参数来源Rune项目支持激活值派生的无解析器工具参数。该方案在冻结的Llama模型中激活值派生的读出器可在无解析器规则下提供计算器参数在广泛算术/对抗性基准测试中通过测试在DeepMind切片上也有较好结果乘法因样本不足未纳入。还给出了应该触发和不应该触发的情况示例。诚实边界最重要的工程成果是回放边界来源是计算器参数来源的审计轨迹最终回放审计涵盖运行时包并排除禁止字段。独立硬负样本审计显示路由在不应该触发时未触发但这不是普遍安全保证。分辨率预算减法缩放运行发现精确自由生成在6位数字时保持较高水平随数字位数增加精确匹配率下降。螺旋分辨率测试表明表示方式未简单消失但相邻块读出质量变弱。前沿领域当前最终B3路线针对Llama模型项目尝试了多种模型家族一些发现有通用性但最终操作数定位路由未原样转移。最终因果证据有范围下一步要构建特定于模型的操作数定位器等。尽管有局限但Transformer的矩阵中包含算术痕迹。参考文献提及了具身数学、螺旋算术、启发式算术、因果算术机制、外部基准来源、工具路线、稀疏特征词汇表、激活值补丁规范等方面的参考文献。实验追踪给出了代码仓库、文章草稿、螺旋和分辨率工件、最终主张边界、基准测试结果、来源和控制、跨模型证伪、图表生成器等方面的实验追踪信息。
Rune项目揭秘:大语言模型无数字算术运算的机制与挑战
发布时间:2026/6/7 19:17:26
无需数字的算术运算当大语言模型LLM仅依靠矩阵进行计算时其内部会发生什么作者是阿尔瓦罗·比德拉Alvaro Videla。这里提到了螺旋残余标记有图1展示。整数的相位表示螺旋线是傅里叶式数字编码的简化图示向量的一部分追踪圆周上的相位另一部分追踪粗略位置。整数137相位 49.3°余弦值 0.65正弦值 0.76粗略位置 13整数值 0 - 999。问题也随之而来。模型没有“手指”普通人学习算术可能借助身体如用手指计数等后来还会使用算盘等工具。但语言模型只有矩阵标记token输入激活值流动对数几率logit输出。然而向现代语言模型询问算术问题其内部会做出响应。这里给出了工作术语表包括标记Token、向量Vector、激活值Activation等的定义。与人类的对比乔治·莱考夫George Lakoff和拉斐尔·E·努涅斯Rafael E. Núñez在《数学从何而来》中指出人类数学概念源于身体体验。Transformer没有人类学习算术的工具若要学习算术需发明机器原生数字表示方式。人类有多种算术运算方式所以第一个科学问题是模型给出答案的方式。残差流在询问数字来源前需了解模型运行状态。逐标记读取提示信息时模型不会创建整洁变量每个标记位置携带长数字向量提示信息通过Transformer层时向量不断更新。残差流是这些变化累积的运行便签本这使得读出器和补丁操作可行但向量本身不能表明哪个主张正确。下一个标记的约束人类通常从右向左进行算术计算而语言模型需从左到右输出答案。答案呈现和精确计算不是同一问题随着答案变长模型内部数字块读出结果会受影响。单独计数实验也显示出类似压力在进位边界处模型易失败长连续输出时失败更明显。最初的梦想一个诱人的解决方案是调用计算器但Rune项目追求更严格的问题即深入模型内部找到其试图执行的计算让模型自身激活值提供操作和操作数信息。这与标准工具使用不同Rune项目询问工具参数能否来自模型内部状态。该梦想未完全实现但失败促使项目区分了三个方面。主张阶梯以同样的提示“ What is the gcd of 84 and 36?”作为测试案例有五种系统可输出答案区别在于操作和操作数来源以及模型哪部分被改变分别是提示解析器、生成程序、最终标记校正、激活值派生的工具参数、残差即时替换。第一个陷阱早期实验表明后期层写入状态可帮助模型输出数字块但这可能只是测量模型呈现给定值的能力不等同于模型计算出该值。Rune项目必须不断询问模型得出答案的方式规则变得更严格运行时提示必须不透明。过往工作的启示Rune项目并非首次提出螺旋结构想法坎塔姆内尼Kantamneni和泰格马克Tegmark、尼坎金Nikankin及其同事的研究有相关观点。这些工具也并非在此发明Rune项目的贡献是在无解析器来源规则下应用这些想法并报告更强的残差即时替换故事不成立的情况。工具包Rune项目大部分是反复应用的工具包有四种工具以不同方式作用于运行激活向量分别是探测器、稀疏自编码器SAE、补丁操作、引导操作每种工具都有用但不能过度断言。工具包模拟器残差流是模型的运行便签向量这四种工具以不同方式触碰该向量探测器问能否读取信息稀疏自编码器问能否为部分命名补丁操作问部分是否重要引导操作问推动会怎样。混淆这些问题会导致可解释性实验过度断言。可读与可写残差写入实验接近最初编译器设想但测试的单点写入操作未达预期残差干预在准确性上无优势且会干扰周围行为。可读的变量不一定是可写的寄存器机械可解释性注重读取工程需要写入。三个候选方案项目有三个合理方案提示解析可行但超出科学问题范围残差替换过于脆弱激活值派生的工具参数更清晰能说明算术提示可在残差流中留下可恢复结构并驱动计算器路线。工具使用背景现代工具使用系统已能将算术运算路由到外部计算但Rune项目问题更聚焦询问工具参数能否来自模型内部状态运行时边界很重要。幸存的方案重要问题是路由参数来源Rune项目支持激活值派生的无解析器工具参数。该方案在冻结的Llama模型中激活值派生的读出器可在无解析器规则下提供计算器参数在广泛算术/对抗性基准测试中通过测试在DeepMind切片上也有较好结果乘法因样本不足未纳入。还给出了应该触发和不应该触发的情况示例。诚实边界最重要的工程成果是回放边界来源是计算器参数来源的审计轨迹最终回放审计涵盖运行时包并排除禁止字段。独立硬负样本审计显示路由在不应该触发时未触发但这不是普遍安全保证。分辨率预算减法缩放运行发现精确自由生成在6位数字时保持较高水平随数字位数增加精确匹配率下降。螺旋分辨率测试表明表示方式未简单消失但相邻块读出质量变弱。前沿领域当前最终B3路线针对Llama模型项目尝试了多种模型家族一些发现有通用性但最终操作数定位路由未原样转移。最终因果证据有范围下一步要构建特定于模型的操作数定位器等。尽管有局限但Transformer的矩阵中包含算术痕迹。参考文献提及了具身数学、螺旋算术、启发式算术、因果算术机制、外部基准来源、工具路线、稀疏特征词汇表、激活值补丁规范等方面的参考文献。实验追踪给出了代码仓库、文章草稿、螺旋和分辨率工件、最终主张边界、基准测试结果、来源和控制、跨模型证伪、图表生成器等方面的实验追踪信息。