这项由英国谢菲尔德大学计算机科学学院主导的研究发表于2026年6月论文编号为arXiv:2606.28057v1发布于cs.CL领域感兴趣的读者可通过该编号在arXiv平台查阅完整原文。研究团队提出了一种名为MultiHashFormer的全新语言模型框架其核心思路是彻底重新设计AI读懂和生成文字的方式。**一、先从一个日常困惑讲起AI的词典有多大AI就有多重**当你第一次打开一本厚厚的词典会发现里面密密麻麻地列着几十万个词。现代AI语言模型在处理语言时做的事情非常类似——它们维护着一张超级大的词汇对照表把每一个词或词片段都映射到一长串数字上这串数字就是AI真正理解和处理的东西。这张对照表学术上叫做嵌入矩阵。问题在哪里这张表有多少词AI就需要多少存储空间。比如一个常见的英文AI模型可能有32000个词条每个词条对应一个维度很高的数字向量光是这张表就可能占据模型总参数量的相当大一块。更要命的是如果你今天训练的模型只认英文哪天想让它也懂中文就必须把中文词汇全部塞进这张表模型的体积立刻膨胀。这就是研究团队所说的词汇瓶颈——模型的词典越大模型越臃肿而且一旦固定就很难灵活扩展。过去有人想到了一个聪明的办法用哈希hashing来压缩这张表。哈希简单来说就是一种把任意输入转换成固定范围内某个数字的函数类似于把全班同学按生日月份分成12组不管班里有多少人组的数量永远是12。这样就算词汇表有几十万个词也可以把它们压缩映射到少得多的桶bucket里大大节省了空间。然而这里出现了一个致命的麻烦多个词可能被分到同一个桶里就像猫、地图和物理这三个意思完全不同的词碰巧被同一个哈希函数分配到了第40号桶。这在AI领域叫做碰撞collision。对于只需要理解输入的模型比如做文本分类的模型碰撞是可以接受的毕竟模型只需要从输入中提取信息即使几个词共享了同一个数字表示模型还是能大概猜出意思。但对于需要生成文字的模型碰撞就是灾难当模型输出第40号桶时我们根本不知道它究竟想说的是猫、地图还是物理。这就好比你问餐厅服务员要一道菜他只给你一个模糊的编号没有说具体菜名厨房做出来什么就是什么——这显然不行。正是这个根本性的难题让哈希技术此前只能用在理解型编码器模型上始终无法用于生成型解码器模型。MultiHashFormer的核心贡献就是找到了一种优雅的方式绕过这个难题。**二、一把锁配多把钥匙多哈希签名如何消除碰撞**谢菲尔德大学的研究团队提出了一个颇为巧妙的解决思路与其用一个哈希函数把词映射到一个编号不如同时用多个不同的哈希函数把每个词映射到一组编号的组合这个组合称为多哈希签名multi-hash signature。以具体的例子来说假设我们有三个相互独立的哈希函数。猫这个词经过这三个函数分别计算得到的结果是[12, 40, 56]而地图这个词得到的结果是[99, 40, 3]。你会发现这两个词在第二个哈希函数上确实都得到了40发生了局部碰撞。但它们的第一个和第三个数字完全不同所以整体签名[12, 40, 56]和[99, 40, 3]是截然不同的两个组合不会混淆。这就好比是一套组合密码锁。单一密码锁只有一位数字可能有多把不同的钥匙恰好都是数字4打开的是同一把锁傻傻分不清楚。但如果锁有三位数字碰巧三位都一模一样的可能性就极低了更何况还可以增加到四位、五位。MultiHashFormer就是用这种组合编码的思路确保词汇表中每一个词都有且仅有一个独一无二的身份证——多哈希签名。从数学角度看这种方法的容量极为惊人。以论文中的实际配置为例如果使用四个独立哈希函数每个函数有16000个桶那么理论上可以表示的独特签名数量高达16000的四次方大约是65千万亿个——比现有任何语言模型的词汇量都大了不知道多少个数量级。换句话说哪怕人类把所有语言里所有词汇都塞进来也完全不会碰撞。当然实践中为了保证每个词都有唯一签名研究团队还设计了一个迭代重哈希机制。当一个新词的签名不幸与已有词汇重复时系统会自动调整最后一个哈希函数的随机种子直到找到一个没人用过的组合为止。这就像是图书馆在给每本书编图书编号如果新书的编号已经被用了就稍微调整一下编号规则直到找到空缺。**三、从签名到理解哈希编码器的工作原理**拿到了多哈希签名之后模型需要把这组数字编号转换成AI能够处理的连续数字向量dense vector这个过程由模型的哈希编码器Hash Encoder负责。对于签名中的每一个哈希编号系统都有一个独立的嵌入矩阵——你可以把它理解为一本小词典每个桶编号对应一个特定的数字向量。猫这个词的签名是[12, 40, 56]于是系统分别从第一个小词典里查第12号从第二个小词典里查第40号从第三个小词典里查第56号拿到三个数字向量。但问题来了不同词共享桶编号是不可避免的比如猫和地图都在第二个哈希函数下得到了40。这意味着从第二本小词典里查到的第40号向量同时被猫和地图共享了。如何在合并这三个向量时让模型知道到底更该信任哪个哈希函数的结果研究团队的解决方案是一个门控组合嵌入Gated Compositional Embedding机制。简单来说对于每个词系统不是简单地把三个向量平均相加而是让模型自己学会动态地判断每个哈希函数的贡献权重。具体做法是把每个哈希向量先经过一个小型神经网络压缩成一个标量分数再通过归一化处理softmax得到三个权重最后按权重加权求和得到一个综合的向量表示。最后再经过一个线性变换把这个综合向量投影到模型主干的工作空间里。用一个更直觉的比喻来理解三个哈希函数就像是三个来自不同专业背景的鉴定专家。鉴定一件古董时三位专家各自给出意见但每个场合下他们的权威性不同——鉴定陶瓷时更信陶瓷专家鉴定书法时更信书法专家。这个门控机制就是让模型自动学会在不同情况下给不同专家分配不同的发言权重。经过哈希编码器处理后每个词就变成了一个固定维度的数字向量可以交给模型的核心部分——Transformer解码器——进行序列处理了。这部分和普通的大语言模型完全一样Transformer逐词读入这些向量通过注意力机制捕捉上下文关系为每个位置输出一个语境化的隐藏向量contextualized hidden state代表模型对当前词在整段话中的理解。**四、从理解到生成哈希解码器的级联预测**生成文字是MultiHashFormer最有创意的部分也是整个框架能够突破哈希碰撞难题的关键所在。研究团队设计了一个哈希解码器Hash Decoder它的工作方式叫做级联预测Cascaded Predictor。当模型需要预测下一个词时它拿到Transformer输出的隐藏向量开始逐步预测目标词的多哈希签名。以四个哈希函数为例模型首先预测第一个哈希编号然后结合这个预测结果去预测第二个哈希编号再结合前两个结果预测第三个最后预测第四个。这四步是按顺序、逐步细化的每一步的预测都会影响下一步的预测范围。每一步的具体做法是把当前的哈希状态向量一开始就是Transformer输出的隐藏向量乘以对应哈希函数的输出权重矩阵得到一个在所有桶编号上的概率分布即哪个桶编号最有可能是目标词在这一步的哈希结果。在非最后一步时为了让预测可以通过反向传播即AI学习的核心机制进行训练系统不直接取概率最高的桶编号作为硬性决定而是计算一个软嵌入——用每个桶的概率作为权重对所有桶的向量做加权平均得到一个连续的、可微分的综合向量。这个软嵌入代表模型当前对第一步哈希结果的模糊猜测。然后模型把原来的哈希状态向量和这个软嵌入拼接在一起经过一个小型级联混合器Cascade Mixer网络处理更新成新的哈希状态向量再用这个更新后的向量去预测第二步的哈希编号。依此类推直到预测完全部哈希编号整个多哈希签名就完整地生成出来了。这整个过程就像是一场侦探推理侦探模型先根据现场证据上下文推断出凶手目标词身份的第一条线索第一个哈希编号再用这条线索缩小嫌疑人范围进一步推断第二条线索层层排查最终锁定唯一的嫌疑人完整的多哈希签名。每一步推断都建立在前一步的基础上形成一个层层约束、逐步精确的推理链条。得到完整的多哈希签名之后只需要查询事先建立好的签名-词汇对照表就能确定性地还原出具体的词语完全没有歧义。**五、训练时与推理时模型用两种不同的概率视角**MultiHashFormer在训练和实际使用推理时处理概率的方式略有不同这个细节值得单独解释一下因为它保证了模型既能高效学习又不会在生成文字时出错。训练时模型面对的是一个巨大的虚拟词汇空间由所有可能的哈希签名组合构成。实际上人类词汇只占这个巨大空间的极小一部分大量的签名组合对应的根本不是真实的词。训练时模型不限制自己只能预测真实词汇对应的签名组合而是允许预测任何组合并通过将各步哈希编号的概率相乘来计算整体概率。这种解绑的设计大大简化了优化过程让模型能更高效地学习。但推理时如果模型生成了一个不对应任何真实词汇的签名组合就彻底没有意义了。因此推理时模型会明确排除所有无效签名只在真实词汇对应的签名上进行概率归一化。具体做法是对词汇表中的每个词把其多哈希签名各步的预测概率相乘得到这个词的原始得分再对所有词的得分做归一化得到最终的概率分布取概率最高的词作为生成结果。这就好比一场考试训练时老师让你在草稿纸上随意演算不限制格式只要最终答案对就行正式答卷时则只能在规定格式的答题纸上作答乱涂乱写不算数。**六、实验结果这套方案到底效果如何**研究团队把MultiHashFormer在100M1亿、1B10亿和3B30亿参数三种规模下与普通Transformer语言模型进行了系统性对比测试了包括语言建模、常识推理、阅读理解等共10项任务。所有模型都从头开始训练使用英文高质量网页文本数据集FineWeb-Edu遵循计算最优训练规律Chinchilla scaling law1B和3B规模的模型各训练了1000亿个词的数据量。总体来看在1B和3B参数规模下MultiHashFormer配置H4B16K4个哈希函数每函数16384个桶在10项测试中的9项均超过了普通Transformer基线。以LAMBADA任务为例这是一个需要模型预测段落最后一个词的任务考验模型对长距离语境依赖的捕捉能力。在1B规模下普通模型的准确率是30.41%MultiHashFormer H4B16K达到了35.34%提升了将近5个百分点在3B规模下普通模型是28.64%MultiHashFormer则达到37.26%提升超过8个百分点。HellaSwag测试模型是否能判断一段叙述的合理延续上MultiHashFormer同样稳定领先。为了确保这种性能提升不只是因为MultiHashFormer用了更多的参数研究团队还设计了一个额外的对照组在普通Transformer基线上多加几层让它的参数总量与MultiHashFormer相当。结果显示在这个严格的参数匹配条件下MultiHashFormer H3B10K和H4B16K依然在10项测试中的8项超过了对应的加深版普通模型进一步验证了多哈希机制本身带来的实质性改进。不过有一个值得关注的例外在OBQA开卷问答考察常识性百科知识这项任务上桶数较少的配置反而表现更好。研究团队分析认为这可能是因为OBQA的词汇分布非常不均衡有大量罕见的专业词汇桶数太多时这些罕见词汇的嵌入空间过于分散反而难以学好。相反桶数较少时罕见词汇被迫与更多词共享表示这种强迫共享反而有利于泛化。这也提示未来在选择配置时需要根据具体任务的特性做适当调整。在100M这个较小参数规模下MultiHashFormer的表现不如在更大规模上稳定有时反而不如纯粹加深层数的普通模型。研究团队认为原因在于模型太小时隐藏维度的限制、网络深度的不足都会制约MultiHashFormer充分发挥多哈希机制的优势。这说明MultiHashFormer是一种更适合中大规模模型的方案在规模较大时优势越来越显著。**七、稀有词汇的困境与多哈希的独特优势**语言模型有一个长久以来的痛点对罕见词汇的处理能力偏弱。一个普通词汇比如猫在训练数据里出现几百万次模型能学到非常丰富、精准的语义表示但一个生僻词比如某个罕见的专业术语或不常见的网络用语可能只出现几十次模型对它的理解就相当粗浅了词与词之间的语义相似度也难以准确捕捉。研究团队用剑桥稀有词数据集Card-660对1B参数规模的模型进行了专项测试。这个数据集包含了大量罕见词对比如retweeting和RTingsci-fi和science-fictionshit和shxt等并标注了人类对每对词语相似度的判断。测试方法是让模型处理这两个词拿到模型内部的隐藏向量计算两个词对应向量的余弦相似度两个向量方向越接近相似度越高再与人类标注的相似度对比。结果显示MultiHashFormer的两种配置H3B10K和H4B16K在皮尔逊相关系数和斯皮尔曼相关系数这两个统计指标上均优于同等参数规模的普通模型。尤其是倒数第二层而非最后一层的隐藏向量最能体现这一优势因为最后一层受到具体训练任务的影响更大倒数第二层的向量更纯粹地反映了模型对词义的理解。为什么多哈希机制有助于稀有词汇的表示关键在于强迫共享的机制。在普通模型里每个词有一个完全独立的嵌入向量一个罕见词出现次数少它的嵌入向量就没有足够的训练机会变得准确。而在MultiHashFormer里稀有词的多哈希签名中的每个桶编号都与其他很多词包括常见词共享。这意味着即使某个稀有词本身出现次数不多它所在的每个桶的嵌入向量都被大量其他词汇磨得很精准。这种借光效应使得稀有词的表示受益于高频词汇的大量训练信号语义相似的词比如缩写词与其完整形式往往共享更多的桶编号从而在嵌入空间中更加接近。**八、不改一个参数轻松扩展到多语言**MultiHashFormer另一个令人印象深刻的特性是它在扩展词汇时完全不需要增加模型参数。研究团队设计了一个多语言扩展实验来验证这一点。他们先把在英文上预训练好的1B和3B参数模型用阿拉伯语、中文、印地语每种语言2B词和额外的2B英文词进行持续训练continual pre-training同时向词汇表中每种语言各增加5000个新词使词汇总量从32000扩展到48000。对于普通Transformer基线新增词汇意味着嵌入矩阵和输出层权重矩阵都要增加新行1B规模的模型需要额外增加约3100万个参数来容纳15000个新词新词的初始嵌入向量用原词汇表中对应来源词的平均向量初始化。对于MultiHashFormer情况则完全不同新词只需要计算出它们的多哈希签名登记到签名-词汇对照表里其余什么都不用改。哈希桶的嵌入矩阵保持不变门控权重保持不变Transformer主干保持不变解码器也保持不变。参数量零增加模型结构零变化。实验结果显示在22项多语言测试任务中1B规模的MultiHashFormer H4B16K在12项上优于普通Transformer基线3B规模的则在13项上领先。特别值得注意的是MultiHashFormer在英文任务上也没有明显退步这种现象叫做灾难性遗忘说明多语言持续训练并没有破坏模型原有的英文能力。H3B10K和H4B16K两种配置在多语言任务上的表现差异不到1%说明词汇扩展对MultiHashFormer的性能影响非常稳健不依赖于某一特定的参数配置。**九、关于哈希函数数量和桶大小的深入分析**研究团队还系统测试了不同哈希函数数量H和桶大小B组合对模型性能的影响实验均在1B参数规模下进行训练200亿词数据。首先是多哈希必要性的验证。研究团队分别测试了使用单个哈希函数H1和使用四个哈希函数H4的模型在桶大小为4K、8K和16K三种配置下对比LAMBADA任务准确率。结果非常鲜明单哈希函数在桶大小4K时只能达到4.29%的准确率即便把桶扩大到16K也只有14.30%而四个哈希函数在桶大小4K时就已经达到30.27%16K时达到30.91%。多哈希在最小桶配置下的性能提升幅度高达约26个百分点远远超过单纯增大桶数的效果。这清楚地说明多哈希签名消除碰撞的作用是整个框架性能的根本保障光靠增大单个哈希函数的桶数无法替代。其次在固定使用四个哈希函数的条件下研究团队测试了从H3B4K到H4B32K共八种不同配置的性能与参数量权衡。结果显示几乎所有多哈希配置在语言建模和常识推理任务上都稳定超过普通Transformer基线包括嵌入参数量远少于基线的配置如H3B4K、H4B4K、H3B8K。随着H和B的增大嵌入参数量从约10M急剧增长到约102M但性能提升却相对平缓最优配置与最差配置之间的平均得分差距仅约4%。因此H4B16K被确定为最优的平衡点以可接受的参数量获得了最佳的整体性能并被用于1B和3B规模的主实验。研究团队还测试了一种叫做局部敏感哈希LSH的特殊哈希函数。LSH和普通哈希函数不同它的设计目标是让相似的输入比如拼写接近的词映射到相同的桶——这原本被认为可能是有益的因为形近词如retweeting和RT往往语义相近。然而实验结果表明在MultiHashFormer中增加LSH函数的比例并不能持续提升LAMBADA任务的准确率没有明显规律可循。研究团队的解读是模型完全有能力从普通随机哈希函数提供的自由度中端到端地学习出词形相似性不需要额外引入LSH的形态学偏置而且LSH的计算复杂度比普通哈希函数高综合性价比不如普通哈希。**十、为什么多哈希在高难度推理任务上特别有效软极大值瓶颈的理论视角**研究论文的附录中有一段技术性较强但相当重要的理论分析解释了MultiHashFormer为何在LAMBADA和HellaSwag这类高难度任务上表现特别突出。核心概念是softmax瓶颈Softmax Bottleneck。softmax瓶颈是2018年由研究人员提出的一个理论问题。简单来说语言模型在预测下一个词时需要计算所有词的概率最终用一个叫做softmax的操作把分数转换成概率。这个过程可以用矩阵的秩rank来衡量其表达能力——秩越高模型能区分的词汇分布模式越丰富。普通Transformer语言模型的softmax输出的秩被严格限制在隐藏维度d以内。如果真实语言分布需要比d更高的秩才能准确表达模型就永远无法完美拟合这就是瓶颈所在。MultiHashFormer通过多个哈希函数的级联预测将输出分布的秩上界提升到了min(B, H×d)远高于普通模型的d。这意味着MultiHashFormer在理论上具有更强的分布表达能力能够区分更多微妙的词汇选择差异。在LAMBADA这种需要精准预测特定词的任务上或者在HellaSwag这种需要区分叙述是否逻辑连贯的任务上这种更强的表达能力就体现为实质性的性能优势。这个理论分析与实验结果高度吻合MultiHashFormer在这两项任务上的提升幅度最为明显而在考察单纯常识知识记忆的OBQA上提升相对有限甚至某些配置下略逊一筹恰恰与理论预期一致。说到底MultiHashFormer做的事情可以用一句话概括它把词典这个固定的枷锁换成了密码组合让语言模型不再受词汇表大小的束缚同时还能更准确地生成语言、理解稀有词汇、无缝扩展到新语言。这项研究的意义不仅在于当下的性能提升更在于它打开了一扇门。未来的语言模型如果采用类似思路理论上可以在不增加模型体积的情况下自由地吸收新的词汇、新的语言、新的领域知识——这对于需要跨语言、跨领域灵活应用的AI系统来说无疑是一个非常吸引人的方向。当然研究团队也坦诚地指出了当前工作的局限受计算资源限制最大只测试到了30亿参数更大规模比如70亿参数以上的效果尚待验证所有实验只跑了单次随机种子缺乏统计重复性验证。这些都是未来值得进一步探索的方向。归根结底这项来自谢菲尔德大学的研究提供了一种颇具潜力的思路通过重新设计词汇与模型之间的接口可以同时实现更好的性能、更低的参数开销和更强的灵活性。对于任何关心AI语言技术未来走向的人这都是一项值得关注的工作。有兴趣深入了解技术细节的读者可以通过编号arXiv:2606.28057在arXiv平台查阅完整论文研究代码也已在GitHub上开源发布。---QAQ1MultiHashFormer用多少个哈希函数和多大的桶才能达到最好效果A根据研究团队的实验在1B和3B参数规模下使用4个独立哈希函数、每个函数16384个桶的H4B16K配置表现最佳。这个配置在性能和参数量之间取得了最优平衡。测试表明最优和最差配置之间的性能差距仅约4%但参数量却相差约10倍说明H4B16K是性价比最高的选择。Q2MultiHashFormer扩展多语言词汇时真的不需要增加参数吗A确实如此。当MultiHashFormer需要加入新语言词汇时只需为新词计算出对应的多哈希签名并登记到词汇签名对照表中模型的所有参数嵌入矩阵、Transformer主干、哈希编码器和解码器完全不需要改动。相比之下普通Transformer模型每增加15000个新词就需要额外约3100万个参数。实验结果表明MultiHashFormer在多语言任务上的表现仍然与普通模型相当甚至更好。Q3MultiHashFormer在小模型如1亿参数上效果好吗A在100M1亿参数规模下MultiHashFormer的表现不如在更大规模上稳定有时还不及单纯加深层数的普通模型。研究团队认为这是因为小模型的隐藏维度较小、网络较浅限制了多哈希机制发挥优势随着模型规模增大MultiHashFormer的性能优势越来越明显更适合中大规模10亿参数以上的应用场景。
谢菲尔德大学的“词典革命“:一种能理解并生成语言的AI模型
发布时间:2026/7/2 1:41:11
这项由英国谢菲尔德大学计算机科学学院主导的研究发表于2026年6月论文编号为arXiv:2606.28057v1发布于cs.CL领域感兴趣的读者可通过该编号在arXiv平台查阅完整原文。研究团队提出了一种名为MultiHashFormer的全新语言模型框架其核心思路是彻底重新设计AI读懂和生成文字的方式。**一、先从一个日常困惑讲起AI的词典有多大AI就有多重**当你第一次打开一本厚厚的词典会发现里面密密麻麻地列着几十万个词。现代AI语言模型在处理语言时做的事情非常类似——它们维护着一张超级大的词汇对照表把每一个词或词片段都映射到一长串数字上这串数字就是AI真正理解和处理的东西。这张对照表学术上叫做嵌入矩阵。问题在哪里这张表有多少词AI就需要多少存储空间。比如一个常见的英文AI模型可能有32000个词条每个词条对应一个维度很高的数字向量光是这张表就可能占据模型总参数量的相当大一块。更要命的是如果你今天训练的模型只认英文哪天想让它也懂中文就必须把中文词汇全部塞进这张表模型的体积立刻膨胀。这就是研究团队所说的词汇瓶颈——模型的词典越大模型越臃肿而且一旦固定就很难灵活扩展。过去有人想到了一个聪明的办法用哈希hashing来压缩这张表。哈希简单来说就是一种把任意输入转换成固定范围内某个数字的函数类似于把全班同学按生日月份分成12组不管班里有多少人组的数量永远是12。这样就算词汇表有几十万个词也可以把它们压缩映射到少得多的桶bucket里大大节省了空间。然而这里出现了一个致命的麻烦多个词可能被分到同一个桶里就像猫、地图和物理这三个意思完全不同的词碰巧被同一个哈希函数分配到了第40号桶。这在AI领域叫做碰撞collision。对于只需要理解输入的模型比如做文本分类的模型碰撞是可以接受的毕竟模型只需要从输入中提取信息即使几个词共享了同一个数字表示模型还是能大概猜出意思。但对于需要生成文字的模型碰撞就是灾难当模型输出第40号桶时我们根本不知道它究竟想说的是猫、地图还是物理。这就好比你问餐厅服务员要一道菜他只给你一个模糊的编号没有说具体菜名厨房做出来什么就是什么——这显然不行。正是这个根本性的难题让哈希技术此前只能用在理解型编码器模型上始终无法用于生成型解码器模型。MultiHashFormer的核心贡献就是找到了一种优雅的方式绕过这个难题。**二、一把锁配多把钥匙多哈希签名如何消除碰撞**谢菲尔德大学的研究团队提出了一个颇为巧妙的解决思路与其用一个哈希函数把词映射到一个编号不如同时用多个不同的哈希函数把每个词映射到一组编号的组合这个组合称为多哈希签名multi-hash signature。以具体的例子来说假设我们有三个相互独立的哈希函数。猫这个词经过这三个函数分别计算得到的结果是[12, 40, 56]而地图这个词得到的结果是[99, 40, 3]。你会发现这两个词在第二个哈希函数上确实都得到了40发生了局部碰撞。但它们的第一个和第三个数字完全不同所以整体签名[12, 40, 56]和[99, 40, 3]是截然不同的两个组合不会混淆。这就好比是一套组合密码锁。单一密码锁只有一位数字可能有多把不同的钥匙恰好都是数字4打开的是同一把锁傻傻分不清楚。但如果锁有三位数字碰巧三位都一模一样的可能性就极低了更何况还可以增加到四位、五位。MultiHashFormer就是用这种组合编码的思路确保词汇表中每一个词都有且仅有一个独一无二的身份证——多哈希签名。从数学角度看这种方法的容量极为惊人。以论文中的实际配置为例如果使用四个独立哈希函数每个函数有16000个桶那么理论上可以表示的独特签名数量高达16000的四次方大约是65千万亿个——比现有任何语言模型的词汇量都大了不知道多少个数量级。换句话说哪怕人类把所有语言里所有词汇都塞进来也完全不会碰撞。当然实践中为了保证每个词都有唯一签名研究团队还设计了一个迭代重哈希机制。当一个新词的签名不幸与已有词汇重复时系统会自动调整最后一个哈希函数的随机种子直到找到一个没人用过的组合为止。这就像是图书馆在给每本书编图书编号如果新书的编号已经被用了就稍微调整一下编号规则直到找到空缺。**三、从签名到理解哈希编码器的工作原理**拿到了多哈希签名之后模型需要把这组数字编号转换成AI能够处理的连续数字向量dense vector这个过程由模型的哈希编码器Hash Encoder负责。对于签名中的每一个哈希编号系统都有一个独立的嵌入矩阵——你可以把它理解为一本小词典每个桶编号对应一个特定的数字向量。猫这个词的签名是[12, 40, 56]于是系统分别从第一个小词典里查第12号从第二个小词典里查第40号从第三个小词典里查第56号拿到三个数字向量。但问题来了不同词共享桶编号是不可避免的比如猫和地图都在第二个哈希函数下得到了40。这意味着从第二本小词典里查到的第40号向量同时被猫和地图共享了。如何在合并这三个向量时让模型知道到底更该信任哪个哈希函数的结果研究团队的解决方案是一个门控组合嵌入Gated Compositional Embedding机制。简单来说对于每个词系统不是简单地把三个向量平均相加而是让模型自己学会动态地判断每个哈希函数的贡献权重。具体做法是把每个哈希向量先经过一个小型神经网络压缩成一个标量分数再通过归一化处理softmax得到三个权重最后按权重加权求和得到一个综合的向量表示。最后再经过一个线性变换把这个综合向量投影到模型主干的工作空间里。用一个更直觉的比喻来理解三个哈希函数就像是三个来自不同专业背景的鉴定专家。鉴定一件古董时三位专家各自给出意见但每个场合下他们的权威性不同——鉴定陶瓷时更信陶瓷专家鉴定书法时更信书法专家。这个门控机制就是让模型自动学会在不同情况下给不同专家分配不同的发言权重。经过哈希编码器处理后每个词就变成了一个固定维度的数字向量可以交给模型的核心部分——Transformer解码器——进行序列处理了。这部分和普通的大语言模型完全一样Transformer逐词读入这些向量通过注意力机制捕捉上下文关系为每个位置输出一个语境化的隐藏向量contextualized hidden state代表模型对当前词在整段话中的理解。**四、从理解到生成哈希解码器的级联预测**生成文字是MultiHashFormer最有创意的部分也是整个框架能够突破哈希碰撞难题的关键所在。研究团队设计了一个哈希解码器Hash Decoder它的工作方式叫做级联预测Cascaded Predictor。当模型需要预测下一个词时它拿到Transformer输出的隐藏向量开始逐步预测目标词的多哈希签名。以四个哈希函数为例模型首先预测第一个哈希编号然后结合这个预测结果去预测第二个哈希编号再结合前两个结果预测第三个最后预测第四个。这四步是按顺序、逐步细化的每一步的预测都会影响下一步的预测范围。每一步的具体做法是把当前的哈希状态向量一开始就是Transformer输出的隐藏向量乘以对应哈希函数的输出权重矩阵得到一个在所有桶编号上的概率分布即哪个桶编号最有可能是目标词在这一步的哈希结果。在非最后一步时为了让预测可以通过反向传播即AI学习的核心机制进行训练系统不直接取概率最高的桶编号作为硬性决定而是计算一个软嵌入——用每个桶的概率作为权重对所有桶的向量做加权平均得到一个连续的、可微分的综合向量。这个软嵌入代表模型当前对第一步哈希结果的模糊猜测。然后模型把原来的哈希状态向量和这个软嵌入拼接在一起经过一个小型级联混合器Cascade Mixer网络处理更新成新的哈希状态向量再用这个更新后的向量去预测第二步的哈希编号。依此类推直到预测完全部哈希编号整个多哈希签名就完整地生成出来了。这整个过程就像是一场侦探推理侦探模型先根据现场证据上下文推断出凶手目标词身份的第一条线索第一个哈希编号再用这条线索缩小嫌疑人范围进一步推断第二条线索层层排查最终锁定唯一的嫌疑人完整的多哈希签名。每一步推断都建立在前一步的基础上形成一个层层约束、逐步精确的推理链条。得到完整的多哈希签名之后只需要查询事先建立好的签名-词汇对照表就能确定性地还原出具体的词语完全没有歧义。**五、训练时与推理时模型用两种不同的概率视角**MultiHashFormer在训练和实际使用推理时处理概率的方式略有不同这个细节值得单独解释一下因为它保证了模型既能高效学习又不会在生成文字时出错。训练时模型面对的是一个巨大的虚拟词汇空间由所有可能的哈希签名组合构成。实际上人类词汇只占这个巨大空间的极小一部分大量的签名组合对应的根本不是真实的词。训练时模型不限制自己只能预测真实词汇对应的签名组合而是允许预测任何组合并通过将各步哈希编号的概率相乘来计算整体概率。这种解绑的设计大大简化了优化过程让模型能更高效地学习。但推理时如果模型生成了一个不对应任何真实词汇的签名组合就彻底没有意义了。因此推理时模型会明确排除所有无效签名只在真实词汇对应的签名上进行概率归一化。具体做法是对词汇表中的每个词把其多哈希签名各步的预测概率相乘得到这个词的原始得分再对所有词的得分做归一化得到最终的概率分布取概率最高的词作为生成结果。这就好比一场考试训练时老师让你在草稿纸上随意演算不限制格式只要最终答案对就行正式答卷时则只能在规定格式的答题纸上作答乱涂乱写不算数。**六、实验结果这套方案到底效果如何**研究团队把MultiHashFormer在100M1亿、1B10亿和3B30亿参数三种规模下与普通Transformer语言模型进行了系统性对比测试了包括语言建模、常识推理、阅读理解等共10项任务。所有模型都从头开始训练使用英文高质量网页文本数据集FineWeb-Edu遵循计算最优训练规律Chinchilla scaling law1B和3B规模的模型各训练了1000亿个词的数据量。总体来看在1B和3B参数规模下MultiHashFormer配置H4B16K4个哈希函数每函数16384个桶在10项测试中的9项均超过了普通Transformer基线。以LAMBADA任务为例这是一个需要模型预测段落最后一个词的任务考验模型对长距离语境依赖的捕捉能力。在1B规模下普通模型的准确率是30.41%MultiHashFormer H4B16K达到了35.34%提升了将近5个百分点在3B规模下普通模型是28.64%MultiHashFormer则达到37.26%提升超过8个百分点。HellaSwag测试模型是否能判断一段叙述的合理延续上MultiHashFormer同样稳定领先。为了确保这种性能提升不只是因为MultiHashFormer用了更多的参数研究团队还设计了一个额外的对照组在普通Transformer基线上多加几层让它的参数总量与MultiHashFormer相当。结果显示在这个严格的参数匹配条件下MultiHashFormer H3B10K和H4B16K依然在10项测试中的8项超过了对应的加深版普通模型进一步验证了多哈希机制本身带来的实质性改进。不过有一个值得关注的例外在OBQA开卷问答考察常识性百科知识这项任务上桶数较少的配置反而表现更好。研究团队分析认为这可能是因为OBQA的词汇分布非常不均衡有大量罕见的专业词汇桶数太多时这些罕见词汇的嵌入空间过于分散反而难以学好。相反桶数较少时罕见词汇被迫与更多词共享表示这种强迫共享反而有利于泛化。这也提示未来在选择配置时需要根据具体任务的特性做适当调整。在100M这个较小参数规模下MultiHashFormer的表现不如在更大规模上稳定有时反而不如纯粹加深层数的普通模型。研究团队认为原因在于模型太小时隐藏维度的限制、网络深度的不足都会制约MultiHashFormer充分发挥多哈希机制的优势。这说明MultiHashFormer是一种更适合中大规模模型的方案在规模较大时优势越来越显著。**七、稀有词汇的困境与多哈希的独特优势**语言模型有一个长久以来的痛点对罕见词汇的处理能力偏弱。一个普通词汇比如猫在训练数据里出现几百万次模型能学到非常丰富、精准的语义表示但一个生僻词比如某个罕见的专业术语或不常见的网络用语可能只出现几十次模型对它的理解就相当粗浅了词与词之间的语义相似度也难以准确捕捉。研究团队用剑桥稀有词数据集Card-660对1B参数规模的模型进行了专项测试。这个数据集包含了大量罕见词对比如retweeting和RTingsci-fi和science-fictionshit和shxt等并标注了人类对每对词语相似度的判断。测试方法是让模型处理这两个词拿到模型内部的隐藏向量计算两个词对应向量的余弦相似度两个向量方向越接近相似度越高再与人类标注的相似度对比。结果显示MultiHashFormer的两种配置H3B10K和H4B16K在皮尔逊相关系数和斯皮尔曼相关系数这两个统计指标上均优于同等参数规模的普通模型。尤其是倒数第二层而非最后一层的隐藏向量最能体现这一优势因为最后一层受到具体训练任务的影响更大倒数第二层的向量更纯粹地反映了模型对词义的理解。为什么多哈希机制有助于稀有词汇的表示关键在于强迫共享的机制。在普通模型里每个词有一个完全独立的嵌入向量一个罕见词出现次数少它的嵌入向量就没有足够的训练机会变得准确。而在MultiHashFormer里稀有词的多哈希签名中的每个桶编号都与其他很多词包括常见词共享。这意味着即使某个稀有词本身出现次数不多它所在的每个桶的嵌入向量都被大量其他词汇磨得很精准。这种借光效应使得稀有词的表示受益于高频词汇的大量训练信号语义相似的词比如缩写词与其完整形式往往共享更多的桶编号从而在嵌入空间中更加接近。**八、不改一个参数轻松扩展到多语言**MultiHashFormer另一个令人印象深刻的特性是它在扩展词汇时完全不需要增加模型参数。研究团队设计了一个多语言扩展实验来验证这一点。他们先把在英文上预训练好的1B和3B参数模型用阿拉伯语、中文、印地语每种语言2B词和额外的2B英文词进行持续训练continual pre-training同时向词汇表中每种语言各增加5000个新词使词汇总量从32000扩展到48000。对于普通Transformer基线新增词汇意味着嵌入矩阵和输出层权重矩阵都要增加新行1B规模的模型需要额外增加约3100万个参数来容纳15000个新词新词的初始嵌入向量用原词汇表中对应来源词的平均向量初始化。对于MultiHashFormer情况则完全不同新词只需要计算出它们的多哈希签名登记到签名-词汇对照表里其余什么都不用改。哈希桶的嵌入矩阵保持不变门控权重保持不变Transformer主干保持不变解码器也保持不变。参数量零增加模型结构零变化。实验结果显示在22项多语言测试任务中1B规模的MultiHashFormer H4B16K在12项上优于普通Transformer基线3B规模的则在13项上领先。特别值得注意的是MultiHashFormer在英文任务上也没有明显退步这种现象叫做灾难性遗忘说明多语言持续训练并没有破坏模型原有的英文能力。H3B10K和H4B16K两种配置在多语言任务上的表现差异不到1%说明词汇扩展对MultiHashFormer的性能影响非常稳健不依赖于某一特定的参数配置。**九、关于哈希函数数量和桶大小的深入分析**研究团队还系统测试了不同哈希函数数量H和桶大小B组合对模型性能的影响实验均在1B参数规模下进行训练200亿词数据。首先是多哈希必要性的验证。研究团队分别测试了使用单个哈希函数H1和使用四个哈希函数H4的模型在桶大小为4K、8K和16K三种配置下对比LAMBADA任务准确率。结果非常鲜明单哈希函数在桶大小4K时只能达到4.29%的准确率即便把桶扩大到16K也只有14.30%而四个哈希函数在桶大小4K时就已经达到30.27%16K时达到30.91%。多哈希在最小桶配置下的性能提升幅度高达约26个百分点远远超过单纯增大桶数的效果。这清楚地说明多哈希签名消除碰撞的作用是整个框架性能的根本保障光靠增大单个哈希函数的桶数无法替代。其次在固定使用四个哈希函数的条件下研究团队测试了从H3B4K到H4B32K共八种不同配置的性能与参数量权衡。结果显示几乎所有多哈希配置在语言建模和常识推理任务上都稳定超过普通Transformer基线包括嵌入参数量远少于基线的配置如H3B4K、H4B4K、H3B8K。随着H和B的增大嵌入参数量从约10M急剧增长到约102M但性能提升却相对平缓最优配置与最差配置之间的平均得分差距仅约4%。因此H4B16K被确定为最优的平衡点以可接受的参数量获得了最佳的整体性能并被用于1B和3B规模的主实验。研究团队还测试了一种叫做局部敏感哈希LSH的特殊哈希函数。LSH和普通哈希函数不同它的设计目标是让相似的输入比如拼写接近的词映射到相同的桶——这原本被认为可能是有益的因为形近词如retweeting和RT往往语义相近。然而实验结果表明在MultiHashFormer中增加LSH函数的比例并不能持续提升LAMBADA任务的准确率没有明显规律可循。研究团队的解读是模型完全有能力从普通随机哈希函数提供的自由度中端到端地学习出词形相似性不需要额外引入LSH的形态学偏置而且LSH的计算复杂度比普通哈希函数高综合性价比不如普通哈希。**十、为什么多哈希在高难度推理任务上特别有效软极大值瓶颈的理论视角**研究论文的附录中有一段技术性较强但相当重要的理论分析解释了MultiHashFormer为何在LAMBADA和HellaSwag这类高难度任务上表现特别突出。核心概念是softmax瓶颈Softmax Bottleneck。softmax瓶颈是2018年由研究人员提出的一个理论问题。简单来说语言模型在预测下一个词时需要计算所有词的概率最终用一个叫做softmax的操作把分数转换成概率。这个过程可以用矩阵的秩rank来衡量其表达能力——秩越高模型能区分的词汇分布模式越丰富。普通Transformer语言模型的softmax输出的秩被严格限制在隐藏维度d以内。如果真实语言分布需要比d更高的秩才能准确表达模型就永远无法完美拟合这就是瓶颈所在。MultiHashFormer通过多个哈希函数的级联预测将输出分布的秩上界提升到了min(B, H×d)远高于普通模型的d。这意味着MultiHashFormer在理论上具有更强的分布表达能力能够区分更多微妙的词汇选择差异。在LAMBADA这种需要精准预测特定词的任务上或者在HellaSwag这种需要区分叙述是否逻辑连贯的任务上这种更强的表达能力就体现为实质性的性能优势。这个理论分析与实验结果高度吻合MultiHashFormer在这两项任务上的提升幅度最为明显而在考察单纯常识知识记忆的OBQA上提升相对有限甚至某些配置下略逊一筹恰恰与理论预期一致。说到底MultiHashFormer做的事情可以用一句话概括它把词典这个固定的枷锁换成了密码组合让语言模型不再受词汇表大小的束缚同时还能更准确地生成语言、理解稀有词汇、无缝扩展到新语言。这项研究的意义不仅在于当下的性能提升更在于它打开了一扇门。未来的语言模型如果采用类似思路理论上可以在不增加模型体积的情况下自由地吸收新的词汇、新的语言、新的领域知识——这对于需要跨语言、跨领域灵活应用的AI系统来说无疑是一个非常吸引人的方向。当然研究团队也坦诚地指出了当前工作的局限受计算资源限制最大只测试到了30亿参数更大规模比如70亿参数以上的效果尚待验证所有实验只跑了单次随机种子缺乏统计重复性验证。这些都是未来值得进一步探索的方向。归根结底这项来自谢菲尔德大学的研究提供了一种颇具潜力的思路通过重新设计词汇与模型之间的接口可以同时实现更好的性能、更低的参数开销和更强的灵活性。对于任何关心AI语言技术未来走向的人这都是一项值得关注的工作。有兴趣深入了解技术细节的读者可以通过编号arXiv:2606.28057在arXiv平台查阅完整论文研究代码也已在GitHub上开源发布。---QAQ1MultiHashFormer用多少个哈希函数和多大的桶才能达到最好效果A根据研究团队的实验在1B和3B参数规模下使用4个独立哈希函数、每个函数16384个桶的H4B16K配置表现最佳。这个配置在性能和参数量之间取得了最优平衡。测试表明最优和最差配置之间的性能差距仅约4%但参数量却相差约10倍说明H4B16K是性价比最高的选择。Q2MultiHashFormer扩展多语言词汇时真的不需要增加参数吗A确实如此。当MultiHashFormer需要加入新语言词汇时只需为新词计算出对应的多哈希签名并登记到词汇签名对照表中模型的所有参数嵌入矩阵、Transformer主干、哈希编码器和解码器完全不需要改动。相比之下普通Transformer模型每增加15000个新词就需要额外约3100万个参数。实验结果表明MultiHashFormer在多语言任务上的表现仍然与普通模型相当甚至更好。Q3MultiHashFormer在小模型如1亿参数上效果好吗A在100M1亿参数规模下MultiHashFormer的表现不如在更大规模上稳定有时还不及单纯加深层数的普通模型。研究团队认为这是因为小模型的隐藏维度较小、网络较浅限制了多哈希机制发挥优势随着模型规模增大MultiHashFormer的性能优势越来越明显更适合中大规模10亿参数以上的应用场景。