字节跳动与北大突破：大模型微小向量实现训练效率关键性提升

发布时间：2026/6/2 7:38:23

这项由字节跳动Seed团队与北京大学联合开展的研究以预印本形式发布于2026年5月26日论文编号为arXiv:2605.26895。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。每一个现代大语言模型也就是ChatGPT、Llama这类能聊天、能写作的AI的内部都有一种叫做归一化层的结构它就像厨师在把食材下锅之前先统一处理一遍让所有原料大小均匀、状态稳定方便后续操作。这个结构里有两个部分一个是固定的均匀化操作另一个是一组可学习的小数字叫做缩放向量scale vector。前者被研究者们反复研究、讨论而后者——这组小数字——却几乎从没被人认真对待过。毕竟它们的数量实在太少了。以Llama 1B这个模型为例整个模型有超过十亿个参数而所有缩放向量加起来只有80640个占比不到万分之一。这就好比一道大餐里有人只盯着那一小撮装饰用的葱花觉得它可有可无。然而这项研究的出发点正是一个反直觉的疑问这撮葱花真的只是摆设吗研究结果令人意外。缩放向量虽然参数量微乎其微但把它们从模型里拿掉训练效果会显著变差经过精心设计的改进方案还能让模型在同等算力下训练得更好、扩展性更强。这项工作从理论和实验两个维度完整地解释了缩放向量到底在做什么、什么时候该用什么策略、以及如何让它发挥更大的作用。一、那撮葱花拿掉之后菜就不对味了要理解为什么缩放向量重要先要明白它在模型里的位置。现代大语言模型普遍采用一种叫做Pre-Norm的架构Llama就是典型代表每个计算模块在进行核心运算之前都会先经过一个归一化层处理而这个归一化层的输出就是归一化结果乘以缩放向量。从数学上看缩放向量紧接着后面的线性变换矩阵乘法二者可以合并。换句话说缩放向量完全可以被吸收进后面的权重矩阵里在表达能力上不增加任何新东西。这就像一道食谱里葱花的量可以直接折算进酱料配比——单独列出来似乎多此一举。既然如此把它们去掉会怎样研究团队在0.12B规模的Llama模型上做了实验结论出乎意料在相同学习率下有缩放向量的模型从头到尾都比没有的更优最终损失低了约0.028换算成训练效率相当于节省了约40%的训练数据量。即便为去掉缩放向量的模型单独重新调整学习率差距依然存在最终损失仍高出约0.015。这说明缩放向量的价值不在于表达更多而在于训练更快。研究团队用理论分析揭示了背后的机制缩放向量的存在让后面的矩阵权重的训练动态发生了根本性变化产生了一种自我放大的预条件效应。用更通俗的话来说以厨房流水线为比喻矩阵权重是负责切菜的厨师损失函数是最终菜品的评分。没有缩放向量时厨师每次只按照统一节奏切菜有了缩放向量后流水线会根据当前状态自动调速——哪块地方还没切好就在那里加快节奏越切越顺。研究团队从梯度流的角度证明在相同初始状态下有缩放向量的模型训练损失在每一个时间步都严格低于没有的版本这一结论具有严格的数学保障。这个机制还有一个漂亮的守恒律在标准初始化下缩放向量初始为全1矩阵权重初始为接近0的小值系统会始终保持缩放向量的平方减去权重列的平方等于1这个关系从而保证训练全程都有加速效果而不只是某个阶段。二、何时该给葱花加盐何时不该确认了缩放向量有用之后下一个实际问题来了训练大模型时通常会对权重参数施加权重衰减weight decay简称wd也就是定期轻轻压缩参数的幅度防止它们无限膨胀。对缩放向量要不要也这么做这个问题在业界悬而未决。OLMo、nanoGPT、Qwen等主流开源模型的做法各不相同有的加有的不加。研究团队给出了一个系统性的理论框架来回答这个问题关键在于区分两种不同的缩放向量。第一种叫输入端归一化层Input-Norm的缩放向量它紧接着后面的线性变换就像Pre-Norm结构里的情况。正如前面分析的这类缩放向量不增加表达能力只影响优化动态。对这类向量施加权重衰减好处是可以压制它们的幅度增长进而控制训练过程中损失函数的曲率Hessian尖锐度——曲率越高训练越容易不稳定。研究团队用随机梯度下降的随机微分方程分析证明不加权重衰减时缩放向量的期望范数会无界增长导致损失的最大特征值、迹、Frobenius范数等曲率指标都趋于发散而加了权重衰减后这些指标都能保持有界训练因此更稳、更快甚至允许使用更大的学习率。第二种叫输出端归一化层Output-Norm的缩放向量它不直接接线性变换而是直接作用在某个子模块的输出上比如Gemma架构里注意力模块后面额外加的归一化层、以及查询/键归一化Q/K-Norm。这类缩放向量直接决定了输出的幅度因此真实地影响着模型的表达能力。对它们施加权重衰减相当于在压缩这个子模块的发言权与残差主干的相对影响力就会被削弱这通常是有害的。为了验证这套理论研究团队在0.5B的Gemma模型上分别控制两类缩放向量的权重衰减训练了10B和50B个token。结果完全符合预测给输入端缩放向量加权重衰减性能更好给输出端缩放向量去掉权重衰减性能更好。由此他们提出了一条实用原则称为个体化权重衰减IWD对两类缩放向量区别对待不能一刀切。三、三条让葱花更香的改进思路理解了缩放向量的作用机制之后一个自然的问题出现了既然它的价值在于为矩阵训练提供预条件能不能设计得更好让这种加速效果更强研究团队给出了三个方向。第一个方向叫做异构化。在标准的Transformer注意力模块里查询Q、键K、值V三个线性变换共用同一个Pre-Norm层的输出也就是共用同一组缩放向量。类似地前馈网络里的门控投影和上投影也共用一组。但研究团队发现这三个或两个矩阵在训练过程中的动态行为是不同的——以0.12B Llama的第三层为例Q矩阵和V矩阵的Frobenius范数随训练的变化曲线就明显不同。既然各自动态不同用同一组缩放向量来为它们提供预条件就好比一个厨房助手要同时给三个节奏不同的厨师调速肯定有人被拖累。解决方案自然是为每个分支分配独立的缩放向量让Q有自己的一组K有自己的一组V有自己的一组。这样每个分支的预条件都能贴合自己的训练动态实现量身定制的加速。这个改动只增加了O(d)量级的参数d是隐藏维度相对于O(d?)的矩阵参数而言可以忽略不计但带来的优化好处是实质性的。第二个方向叫做位置改进。标准做法里缩放向量总是放在线性变换的输入侧相当于只对输入的每个通道施加了一个乘数影响的是矩阵运算的行方向。研究团队指出这种单侧调节可能不够充分——矩阵运算结束后输出通道的状态依然可能不均衡而标准设计无法直接干预输出侧。他们提出了几种改进方案。其中一种是双侧放置DP在线性变换的输入侧和输出侧各放一组缩放向量从而同时覆盖行方向和列方向的预条件。还有一种更稳定的变体叫双侧归一化放置DNP在输出侧的缩放向量前先插入一次归一化防止双侧乘法引起的数值不稳定。值得注意的是当DNP用在注意力模块的查询和键投影上时它等价于给这两个投影分别加了一个Q/K-Norm这正是Gemma等模型已有的设计而用在其他位置时它引入了额外的归一化。研究团队从理论上证明双侧放置在相同有效状态下的瞬时损失下降速率不低于单侧且在早期训练阶段有严格的量化优势差距以t?的速率快速扩大。第三个方向叫做幅度-方向重参数化。任何一组缩放向量都可以分解为两个部分整体幅度这组向量有多大和方向各个分量之间的相对比例。标准做法里这两者被耦合在一个向量里可能导致梯度在这两个方向上的流动不平衡。研究团队提出了一种分离式参数化称为原始空间重参数化OR把缩放向量写成幅度标量 × 归一化方向向量的形式分别用两个参数控制。这样梯度流对幅度和方向的调整是独立的。理论分析表明这种参数化会在有效参数空间里诱导一个各向异性的预条件算子——沿幅度方向的调整被放大了d倍d是维度数而方向调整保持在O(1)的稳定尺度上。这意味着整体缩放的调整会非常敏捷而每个通道相对比例的精细调整则相对保守两者各司其职。另一种变体是指数空间重参数化ER把乘法关系转化为指数形式处理在对数尺度上分离幅度和方向适合那些天然以乘积形式出现的参数场景。这三个方向背后有一个统一的数学框架。研究团队指出所有这些设计实质上都是在对矩阵的有效参数做一种低秩的乘积重参数化把矩阵W替换为diag(u)·W·diag(v)的形式其中u和v是两个向量分别作用在输出通道和输入通道上。这种结构只用O(d?d?)个额外参数却能调制整个O(d?×d?)维的矩阵空间以极低的成本带来实质性的优化收益。而这种参数变换诱导的预条件算子与Adam、Shampoo等自适应优化器的梯度统计预条件是互补的、机制不同的——前者来自当前模型状态后者来自历史梯度统计两者结合可以带来额外的协同增益。四、实验验证从小模型到大模型一路领先理论再漂亮也需要实验来检验。研究团队将上述四个方向——异构化HG、双侧归一化放置DNP、原始空间重参数化OR、个体化权重衰减IWD——逐步叠加在0.12B Llama模型上一步步验证效果。首先单独引入HG异构化模型性能提升最终损失下降。然后在HG的基础上测试不同的位置设计双侧放置DP带来持续的损失降低而DNP虽然在短期内不如DP但结合后续改进后表现最优。接着叠加OR或ER重参数化两者均有改善其中DNPOR的组合效果最为突出。最后加入IWDDNP引入了输出端归一化层从而使得IWD策略有了用武之地进一步降低了终态损失。四个类别的改进全部带来了清晰的收益与理论预期高度一致。随后研究团队把这四种改进组合成一个统一策略在密集模型Dense和混合专家模型MoE两种架构上从0.12B到2B参数规模系统性地与精心调优的Llama基线进行比较。训练预算约为每个参数密集模型或每个激活参数MoE模型100个token远超Chinchilla最优比例更接近实际工业预训练规模。密集模型方面在0.12B、0.25B、0.5B、0.75B、1B五个规模上改进策略在整个训练过程中始终保持更低的验证损失且差距随训练推进逐渐扩大训练越久优势越明显。拟合的扩展律曲线也显示改进方案的斜率略陡于基线意味着随着模型变大优势可能进一步扩大——在扩展律对比图中改进方案相当于把基线的算力效率提高了约1.22倍。MoE模型同样一致地胜出在所有五个规模0.25B到2B总参数上改进策略比精心调优的基线低0.02以上的终态损失扩展律对比显示约1.25倍的算力效率提升。兼容性方面研究团队还测试了Muon优化器和warmup-stable-decaywsd学习率调度器这两种最近流行的训练配置。在两者下改进策略依然稳定领先基线超过0.015的终态损失且在wsd调度的稳定训练阶段优势持续扩大进入衰减阶段后也没有缩小暗示这套方案对长时间过训练overtraining场景尤为友好。参数和计算开销方面改进策略只引入了O(d)量级的额外参数在1B模型上仅增加约万分之七的参数量。为了排除参数多了自然更强的干扰研究团队专门对比了一个参数总量与改进方案相同的加宽基线通过微调前馈网络宽度实现结果后者几乎没有改善而改进策略带来了0.033的大幅下降从而确认收益来自设计本身而非额外参数。计算层面在1B模型上实测改进策略的训练壁钟时间增加约4%显存增加约1%均可忽略不计。---说到底这项研究做的事情就是把一个几十年来一直被忽视的小零件翻出来认认真真地研究了它到底是什么、为什么有用、什么时候有害、以及如何改进。结论出人意料地扎实这个参数量可以忽略不计的缩放向量是大语言模型训练效率的一个真实但未被充分挖掘的杠杆点。对于普通用户而言这项研究意味着未来基于这套方案训练出来的模型在相同的算力预算下可能表现得更好或者达到同等表现所需的算力和时间更少。在大模型训练成本动辄数百万乃至数千万美元的今天哪怕是几个百分点的效率提升也意味着相当可观的资源节约。研究团队本身也点出了未来值得继续探索的方向这套分析框架目前集中在Llama和Gemma这样的具体架构上如何推广到更广泛的模型设计以及缩放向量的最优设计是否会随模型规模变化而变化都是开放的问题。从这个意义上说这撮葱花的故事还没有讲完。有兴趣深入了解的读者可以通过arXiv编号2605.26895查阅完整论文和附录中详细的数学证明。---QAQ1缩放向量在大语言模型里的作用是什么A缩放向量是归一化层里一组可学习的参数数量极少但作用关键。它并不增加模型的表达能力而是通过影响矩阵权重的训练动态来加快收敛——相当于给后续的矩阵运算提供了一种自适应的加速机制让训练过程更高效。Q2权重衰减对缩放向量有什么影响A这取决于缩放向量的类型。紧接线性变换的输入端缩放向量加权重衰减有助于控制训练曲率、稳定训练而直接作用于模块输出的输出端缩放向量加权重衰减反而会压缩模型的表达能力通常应该避免。一刀切地对所有缩放向量统一处理是不准确的。Q3这篇论文提出的改进方案具体提升了多少效果A在密集模型上改进方案相当于将基线的算力效率提升约1.22倍在混合专家模型上约为1.25倍。在0.12B到2B的所有测试规模上改进策略的终态验证损失均持续低于精心调优的基线且差距随训练时间推进而扩大额外参数和计算开销均可忽略不计。

季节性工厂的产能怎么测？旺季淡季都看才算数

空调厂三月开足马力、十一月停掉三条线；玩具厂七月备货冲刺、春节后车间静如空城；月饼厂一年只有四十天是真正的"满产"状态——这类工厂，如果你只在某个时间点拍一张快照，得出的产能数字几乎一定是错的。天下工厂产业研…

2026/6/2 7:36:22 阅读更多

用电节律能判断工厂开工率吗？天下工厂产业研究院的一次测算实验

工业用电数据是观察制造业景气度的传统工具之一。但落到具体问题——某个工厂这个月到底开了几成产能——单靠公开的用电统计就能回答吗？天下工厂产业研究院对此做过一次系统测算，结论比想象中更有细节，也比想象中更有局限。工业用电为什么能…

2026/6/2 7:36:22 阅读更多

杰理之蓝牙超远距离断开不回连【篇】

解决方法：在earphone.c的文件中补充这一段代码。

2026/6/2 7:36:02 阅读更多

从两层板到四层板：STC无刷电调PCB设计实战与信号完整性分析

从两层板到四层板：STC无刷电调PCB设计实战与信号完整性分析在无刷电机控制领域，PCB设计质量直接决定了电调系统的稳定性和性能上限。许多工程师在初次设计无刷电调时，往往会选择简单的两层板结构以降低成本，但在实际应用中却会遇…

2026/6/2 13:58:12 阅读更多

抖音下载神器：轻松批量保存你喜欢的视频和音乐

抖音下载神器：轻松批量保存你喜欢的视频和音乐【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音…

2026/6/2 13:58:12 阅读更多

并发与并行编程：从核心概念到Go、Java、Python实战应用

1. 项目概述：当“北方威尼斯”遇上并发与并行在软件开发领域，并发与并行是两个既紧密相关又常被混淆的核心概念。它们就像是城市交通系统里的两种不同组织方式。想象一下，你正身处一座被誉为“北方威尼斯”的城市——比如阿姆斯特丹或圣彼得堡…

2026/6/2 13:58:12 阅读更多

别再为向量搜索内存发愁了！Elasticsearch 8.x 的 int8_hnsw 量化实战指南

16GB云服务器如何跑通亿级向量搜索？Elasticsearch int8_hnsw量化实战解析凌晨三点，服务器再次触发OOM告警。看着监控面板上95%的内存占用曲线，作为技术负责人的你清楚知道——这个承载着百万级商品向量数据的语义搜索服务，正在资源…

2026/6/2 13:57:10 阅读更多

利用旧手机与蜂窝网络实现远程电器控制：一个高可靠性的物联网硬件项目实践

1. 项目概述：用一通电话，点亮你的家智能家居听起来很高大上，总觉得需要复杂的网络配置、昂贵的网关和一堆看不懂的协议。但今天我想分享的这个项目，可能会颠覆你的认知：它只需要一部你抽屉里吃灰的旧功能手机、一块自己…

2026/6/2 13:56:09 阅读更多

基于ESP32与NFC的智能窗帘控制系统：从硬件选型到物联网集成

1. 项目概述：当重型阳台遮阳帘遇上物联网与NFC我家阳台的遮阳帘是个大家伙，宽8英尺，重8磅，操作起来得靠一个手摇曲柄。每天为了调节光线和温度，我得手动摇上摇下，实在麻烦。市面上的智能窗帘方案&#xff0…

2026/6/2 13:56:09 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

季节性工厂的产能怎么测？旺季淡季都看才算数

用电节律能判断工厂开工率吗？天下工厂产业研究院的一次测算实验

杰理之蓝牙超远距离断开不回连【篇】

从两层板到四层板：STC无刷电调PCB设计实战与信号完整性分析

抖音下载神器：轻松批量保存你喜欢的视频和音乐

并发与并行编程：从核心概念到Go、Java、Python实战应用

别再为向量搜索内存发愁了！Elasticsearch 8.x 的 int8_hnsw 量化实战指南

利用旧手机与蜂窝网络实现远程电器控制：一个高可靠性的物联网硬件项目实践

基于ESP32与NFC的智能窗帘控制系统：从硬件选型到物联网集成

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因