给AI“升级学新技能“时,它到底悄悄忘掉了多少旧能力? 这项研究由香港中文大学、西湖大学以及德国马克斯·普朗克智能系统研究所的研究人员联合完成以技术报告形式发布于2026年5月27日编号为arXiv:2605.28819v1归属cs.LG领域感兴趣的读者可通过该编号在arXiv平台查阅完整论文。当我们在使用ChatGPT这类AI助手时背后其实有一个几乎所有人都忽略的问题AI学新东西的时候是不是也悄悄忘了旧东西以一个非常直观的场景来理解这件事。假设你雇了一位全能型家教这位家教原本数学、语文、历史、英语样样精通。现在你专门让他每天只练数学竞赛题一个月后他的数学突飞猛进但你再让他辅导孩子写作文却发现他的语文水平已经大不如前。这种情况在AI世界里同样普遍存在而且以往大多数人根本没注意到这个问题。这项研究的核心思路正是从这个被忽视的角落切入的。研究团队将AI训练领域中一种叫做参数高效微调Parameter-Efficient Fine-tuning简称PEFT的技术放在显微镜下仔细审视构建了一个名为PEFT-Arena的评测平台同时测量AI在学新东西时的表现以及它在这个过程中忘掉旧东西的程度。所谓PEFT简单来说就是给AI做定向补习的一套方法。训练一个大型AI模型需要巨额的计算资源就像盖一栋摩天大楼。如果你只想让这栋楼多一个咖啡厅没必要把整栋楼推倒重建只需在某个角落做局部改造就行。PEFT就是这样的局部改造技术只更新模型中一小部分参数却能让AI学会新的专业技能例如医学诊断、数学解题或者法律咨询等。然而研究团队注意到一个令人担忧的现象现有的评估方式几乎只看AI在新专业里考了多少分却从来不检查它原本的综合能力还剩多少。这就像一所学校只公布毕业生的专业成绩却从不提他们在补习专业课期间是否把体育、音乐、社交能力全部丢掉了。这样的评估显然是片面的甚至可能是误导性的。于是研究团队开始追问一个更本质的问题在同样的补习成本下哪种方法能让AI既学好新技能又最少地忘掉旧能力这个问题背后有一个心理学领域早已存在的概念叫做稳定性-可塑性困境意思是学习新事物可塑性和保持已有知识稳定性这两件事天然存在张力两者很难同时做到极致。带着这个问题研究团队做了一项庞大而系统的实验覆盖了目前主流的十余种PEFT方法在数学推理和医学知识两个专业领域里分别测试同时用多个通用能力测试集来衡量AI忘了多少旧东西。实验用的底座模型是两个规模不同的主流大语言模型一个叫Qwen2.5-7B另一个叫Llama3.2-3B-Instruct。---一、给AI补习的方法五花八门但效果差异惊人在正式进入实验结论之前有必要先了解一下这些补习方法到底是什么、有什么区别。这些方法大致可以分成三大类。第一类是以LoRA为代表的加法系。这类方法的思路非常直接原来的AI模型参数一动不动在旁边额外加一层薄薄的、参数数量很少的新结构让这个新结构来承担学习新技能的任务。打个比方就像给一本厚重的教科书贴上一叠便利贴书本身没变便利贴上记的是新内容。LoRA家族里还有很多变体例如AdaLoRA会根据不同部位的重要程度自动分配学习资源DoRA把更新拆解为方向和大小两个部分分开处理PiSSA和MiLoRA则在选择从哪里开始学这个问题上做文章——前者从原模型最重要的部分开始后者从最不重要的部分开始。另外还有VeRA它用一套共享的随机矩阵结合少量可训练的缩放参数把需要调整的参数数量压到极致。KeepLoRA则更进一步它明确要求更新只能发生在原模型不那么核心的方向上试图以此保住原有能力。MiSS则用一种重新设计的单矩阵结构替代LoRA的双矩阵分解。第二类是以OFT正交微调为代表的乘法系。这类方法不是在原有模型旁边加东西而是用一种特殊的旋转变换去改造原有模型的参数。正交这个词听起来很学术但其背后的直觉其实相当优雅就像旋转一块手表不管你把表盘转到什么角度表针之间的相对位置从来不会变。OFT用数学上同样性质的变换来更新模型理论上可以在改变模型行为的同时不破坏原始参数之间的相对结构关系。第三类是以IA?为代表的激活缩放系。这类方法更加轻量它不去修改模型的权重矩阵而是在模型内部某些关键的信号通道上乘以一个可学习的缩放系数就像给调音台上的某些推子调一个倍数整体框架没变只是局部的音量比例调整了一下。这些方法里有的参数只有区区几十万有的则多达几千万差异极大。为了公平比较研究团队特别注意让不同方法的补习成本可训练参数数量尽量接近例如在约2000万参数规模的档次里OFT、LoRA、PiSSA等方法都有各自的代表配置参与比较。训练所用的数据方面数学补习用的是从OpenR1-Math-330k数据集里筛选出的5万条样本医学补习用的是专门整理的2.3万条医学问答样本。训练方式分为两种一种是直接用答案标注进行监督学习SFT类似于背答案另一种是用强化学习让AI自己在尝试中学习RLVR类似于在比赛中成长。测试AI新技能的方面数学用Math-500、AMC23和AIME24三个竞赛级题库医学用了包括MedMCQA、MedQA、PubMedQA、MMLU-Pro等在内的十一个专业测试集。测试AI有没有忘旧东西的方面则用了IFEval测试AI能不能准确执行复杂指令、NQ测试常识和知识和BBH测试逻辑推理三个通用能力集三者的平均分被称为General分数。---二、数据说话补习越猛忘得越多——但有一个方法是例外实验结果出来之后研究团队整理出了一张非常密集的对比表覆盖所有方法在所有测试集上的成绩。把这些数字转换成故事来讲有几条线索最为突出。第一条线索是全面微调Full FT也就是把整个模型所有参数都拿来训练的方法学新技能效果最强但忘旧东西也最严重。以Qwen2.5-7B在数学方向的测试为例Full FT让数学成绩从35.30飙升到50.63涨了15.33分但与此同时通用能力从46.97跌到34.22足足掉了12.74分。在医学方向通用能力同样从46.97跌到34.41。在另一个模型Llama3.2-3B-Instruct上医学微调之后通用能力从53.03猛跌到26.03跌幅高达27分——这相当于原本一个全科优等生变成了一个专科强手其他一塌糊涂。第二条线索是LoRA家族的方法普遍处于学了一些也忘了一些的状态。以Qwen数学方向为例LoRA-r8配置让数学成绩提升了7.17分但通用能力下降了7.75分得失几乎相当。随着LoRA规模增大r16、r32数学成绩继续提升但通用能力的下滑也往往更严重。MiSS在更大规模配置r64时数学成绩提升了11.63分但通用能力下滑了14.20分代价更大。第三条线索也是最值得关注的PiSSA这个方法出现了灾难性的结果。PiSSA从原模型最重要的奇异值方向开始初始化出发点是先学最核心的东西。但实验结果显示PiSSA在Qwen数学微调中通用能力直接从46.97跌到24.78跌幅高达22.19分——不仅是所有PEFT方法里跌幅最大的甚至远超Full FT。更严重的是PiSSA在做数学微调时医学方向的能力也从46.36跌到了26.16相当于在没做任何医学训练的情况下把自己的医学能力也一并损毁了。在Llama模型上PiSSA的数学成绩跌到了0.67几乎丧失了所有能力通用能力也跌至9.74。这说明直接动原模型最核心的骨架代价极为惨重。KeepLoRA试图通过明确约束更新方向来保住旧能力结果确实在通用能力保留上有所改善在Qwen数学方向上通用能力从LoRA-r8的39.22提升到了43.75医学方向的通用能力甚至达到47.09几乎没有下降。然而它的新技能学习效果也大打折扣数学成绩提升仅5.23分远弱于同等参数规模的其他方法而且在Llama模型上的表现并不稳定说明单纯靠限制更新方向来保旧能力并不是全面最优的解决思路。VeRA和IA?这两个极度轻量的方法则走向另一个极端旧能力保留得相当好但新技能学习效果非常有限。VeRA在Qwen数学方向通用能力甚至轻微提升了0.38分但医学方向的专业能力却下滑了17.85分说明它在某些场景下根本学不会新技能。IA?的情况类似数学成绩几乎没有提升-0.17分。在这些比较之中OFT正交微调的表现格外抢眼。以Qwen数学方向为例OFT-b32约1755万参数让数学成绩提升了11.63分而通用能力仅下降了2.60分。这个得失比例在所有方法中是最优的在同等参数规模下同样约2000万参数LoRA-r8的通用能力下降了7.75分MiLoRA-r8下降了9.35分而OFT-b32只下降了2.60分。医学方向上OFT-b32让医学成绩提升了2.27分通用能力仅下降4.57分也优于同档次的其他方法。也就是说OFT在稳定性-可塑性这对矛盾之间找到了目前最好的平衡点它在图上对应的位置最靠近右上角——既学得好又忘得少。---三、强化学习训练与监督学习训练截然不同的遗忘模式上面提到的结果都是在监督学习SFT模式下训练的。研究团队也用强化学习RLVR具体采用GRPO算法做了对照实验结果呈现出一个完全不同的面貌。在RLVR模式下Full FT、OFT-b32和LoRA-r8在Qwen数学方向分别让数学成绩提升了12.27、12.60和11.63分而三者的通用能力分别上升了1.71、1.93和1.30分——不是下降而是上升这意味着在强化学习框架下AI在学好新技能的同时通用能力也得到了小幅提升两者不再是此消彼长的关系。这个现象背后的原因被研究团队解释为强化学习是一种在自己的答案上学习的方式模型不是被动地接受别人给的答案而是自己尝试、评估对错、调整策略。这种更接近真正思考的训练方式产生的更新更像是在原有能力的基础上叠加而不是替换。但是研究团队进一步发现RLVR也不是完全没有代价。当强化学习训练的时间拉得更长从200步延长到500步之后用pass64让AI对同一道题做64次尝试只要有一次答对就算通过这衡量的是AI解题的潜力上限来衡量时可以发现Full FT和LoRA的pass64下降了而OFT的下降幅度更小。这说明长时间的强化学习训练也会出现类似过度补习的问题只是表现形式不同——不是pass1单次作答准确率下降而是模型在多次尝试时的多样性和探索能力被压缩了。这个现象在SFT阶段的终点过冲问题中也有所呼应后面还会详细讲到。---四、拆开模型的骨架看更新的几何形状决定了遗忘多少知道了哪个方法好下一个问题自然是为什么好研究团队没有停留在表面数字上而是深入模型内部从两个角度来理解不同PEFT方法产生的差异。第一个角度是权重空间几何也就是看各个方法是怎么改变模型参数的数值结构的。这里需要一点背景知识任何一个矩阵AI模型的权重本质上都是矩阵都可以用一种叫奇异值分解的数学工具分解成三个部分可以理解为方向A、方向B以及连接这两个方向时各维度的重要程度奇异值越大越重要。原模型在大量数据上训练出来那些大奇异值对应的方向可以理解为模型里最核心的能力载体。研究团队设计了两种衡量指标。第一种叫保留谱测量微调之后的模型在原来这些核心方向上的数值改变了多少改变越小越接近原来说明方法越尊重原有骨架。第二种叫更新能量谱测量新增加的更新量主要集中在原来哪些方向上是专注于不重要的方向还是也大量影响了重要的方向。通过可视化这些谱形研究团队发现了几个规律。PiSSA的保留谱变化最剧烈说明它对原模型核心结构的破坏最严重这与它灾难性的遗忘数字高度吻合。MiSS的保留谱也显示出较大偏差。LoRA的更新能量谱则呈现出尖峰状更新不均匀地集中在某些方向就像把一碗饭只倒在盘子的某一个角落而OFT的谱形相对更平滑、更结构化。研究团队进一步用一个叫波动分数的数值来量化谱形的不规则程度发现波动分数越大通用能力保留越差、遗忘越严重两者之间存在显著的统计相关性。研究团队还设计了一个叫能力条件漂移CSD的指标。这个指标的思路是知道更新量集中在哪些方向是一回事但这些方向有没有被通用能力用到是另一回事。CSD把更新量和通用能力数据在这些方向上的激活强度结合起来计算的是更新对通用能力的实际扰动力度。实验结果显示通用能力侧的CSDCSDG和遗忘程度之间存在正相关——也就是说更新越多地扰动了通用能力用到的方向遗忘就越严重。而OFT虽然在绝对移动量上不小因为旋转本身会移动向量但它的通用-目标比率接近1说明它对通用能力和目标任务的扰动是均衡的没有不成比例地损害通用能力所用的方向。---五、不只是参数改变了表达形状也变了仅仅看权重还不够因为权重的改变最终要通过AI内部的表达也叫激活值来影响能力。研究团队从第二个角度切入直接比较原始模型和微调后模型在处理同样的输入时内部的信号结构是否还是一样的。这里需要引入一个核心概念等距性。一个变换如果是等距的就意味着它改变了位置但没有改变形状就像把一块橡皮泥从桌子这头搬到那头形状没变。如果一个变换是非等距的那就意味着它在搬运的过程中把形状也扭曲了。旋转就是一种典型的等距变换——你把一张桌子转90度桌子上各个点之间的距离关系完全不变。研究团队用三种互补的指标来衡量微调后模型的表达形状有没有被扭曲。第一种叫Procrustes残差它先把微调前后的表达矩阵做最优对齐然后看对齐之后还剩多少差距残差越大说明扭曲越严重不是普通的旋转能解释的。第二种是线性CKA它通过比较表达矩阵的内积结构来衡量两组表达之间的相似度越高说明结构越接近。第三种叫配对Gram扭曲它比较每对样本之间的余弦相似度在微调前后是否保持不变对旋转不敏感只对拉伸、压缩等真正的形状破坏敏感。在Qwen2.5-7B和Llama3.2-3B-Instruct的多个模块位置上包括第9层和第18层的q_proj、k_proj、v_proj和mlp.down_proj研究团队计算了20个SFT微调检查点的这三种指标并与遗忘程度进行相关性分析。结果显示Procrustes残差与遗忘程度的皮尔逊相关系数达到0.711Gram扭曲的相关系数为0.485CKA的相关系数为-0.761负相关因为CKA越高说明越相似遗忘越少。这些数字说明忘掉旧能力这件事在模型内部对应的是通用能力的表达形状被扭曲了而非仅仅是信号发生了移动。从这个角度看OFT的优势得到了进一步解释。研究团队直接对比了不同方法在这三个指标上的数值OFT的Procrustes残差为0.1279远低于LoRA的0.1808、Full FT的0.1640和MiLoRA的0.1635OFT的Gram扭曲为0.1906而其他方法普遍在0.24到0.25之间OFT的CKA为0.9340明显高于其他方法的0.85到0.87。PiSSA依然是最极端的反例Procrustes残差高达0.4376Gram扭曲高达0.8655CKA仅有0.4402而它对应的遗忘分数也是最高的34.56分。换句话说OFT在改变模型行为的同时更好地保持了原始表达的相对形状——不同输入之间的距离关系、角度关系基本没有被破坏模型还能以原来的眼光看待通用能力所覆盖的世界。这正是它遗忘少的根本原因。---六、终点往往走过了头——插值诊断揭示隐藏的甜蜜点研究团队的最后一个核心发现是通过一种叫插值的技术揭示的。插值的思路很简单在原始模型和完整微调后的模型之间画一条路然后沿着这条路每走一小步都测一次成绩看看路途中哪个点是学了足够多但还没忘太多的最佳平衡点。用α来表示沿这条路走了多远α0是起点原模型α1是终点完全微调后的模型。对于加法类方法如LoRA这条路就是把更新量ΔW乘以α对于Full FT也是类似地缩放更新量。实验结果发现对于几乎所有的SFT微调方法终点α1往往不是最优的位置。在通往终点的路上存在一个甜蜜点此时新技能的学习已经达到了相当高的水平而通用能力的损失却还比较小。继续往终点走新技能的提升变得边际递减甚至开始下滑但通用能力却继续劣化。研究团队把这种现象称为SFT终点过冲。这个现象有一个重要的实践含义在实际使用中并不需要把模型训练到完全收敛在路途中的某个早期点使用更新量缩小版的模型往往能在通用能力和专业能力之间找到更好的平衡。研究团队还进一步将训练过程中的实际轨迹每隔若干步保存一次的检查点连成的曲线与插值轨迹做了对比发现两者的形状截然不同实际训练轨迹在目标能力-通用能力坐标系里是向内凹陷的曲线而插值轨迹是向外凸出的曲线。这个差异意味着简单地在训练途中早停并不能达到插值所能找到的甜蜜点。插值和早停是两条本质不同的路早停得到的是训练曲线上的某个点而插值走的是一条完全不同的路径。---七、OFT有自己专属的插值方式——沿着几何正确的路走对于OFT插值需要额外注意一件事。OFT用的是旋转来更新模型旋转是由一个叫Cayley生成元Q矩阵的数学对象控制的。如果直接对OFT的权重矩阵做线性插值就相当于把旋转的旋转运动用直线来近似这条直线会偏离旋转所在的几何曲面就像把弓形的弓弦直接拉直结果既不在弓上也不是原来那个弯。研究团队提出的正确插值方式是对生成元Q做缩放具体来说把Q替换成√α·Q这样得到的旋转强度是原来的α倍而且始终保持在旋转所在的几何曲面上。两种插值方式的差异在实验中非常明显。在Qwen2.5-7B数学SFT的OFT-b32配置下当α0.3时沿√αQ路径插值的模型达到了数学成绩45.77、通用能力48.64而同样α0.3的线性权重插值只有数学成绩43.93、通用能力43.91。两者差距不小证明了走对路在OFT上有实质意义。---八、层与层之间的更新并不均衡——按层松紧调整能进一步改善权衡在深入分析OFT的更新分布时研究团队发现了一个有趣的现象不同层的更新强度差异悬殊。以Qwen2.5-7B的OFT-b32数学SFT为例后面层如第20层到第27层的更新强度是前五层平均强度的约2.7倍。这意味着模型的不同深度部位承受的旋转力度非常不均匀。如果用一个统一的α来缩放所有层就等于所有层都按同一比例缩小旋转但本来就旋转多的后层依然比前层旋转得多层间的不均衡没有得到纠正。研究团队提出了一种按层重新调整的方式对每一层的生成元Q单独选择一个缩放系数使各层的旋转强度更加均衡。他们尝试了两种策略SafeScale用前五层的平均更新强度作为参考把其他层的更新强度拉向这个参考值MinScale用更新强度最小的那层作为参考把所有层都往最低水平收缩。结果显示按层调整之后模型在目标任务和通用能力两方面都有所改善而且不需要做任何额外的训练。以Qwen数学SFT为例原始OFT-b32完全微调版本的数学成绩为46.93、通用能力为44.37SafeScale将数学成绩保持在47.17同时通用能力提升到46.69MinScale则在数学成绩47.83的同时将通用能力提升到46.86。医学方向上这种调整的效果同样明显原始OFT-b32的医学成绩48.63、通用能力42.40SafeScale将其分别提升至50.01和47.61MinScale提升至49.76和47.79。类似的按层调整策略在LoRA和MiSS上也有效。LoRA-r8在MinScale调整后数学成绩从42.47提升到44.93通用能力从39.22提升到43.11MiSS-r8在MinScale调整后数学成绩从43.17提升到44.83通用能力从39.12提升到42.85。这说明按层松紧调整不是OFT的专利对加法类方法同样适用。---说到底这项研究揭示的其实是一个在AI开发界长期被低估的问题让AI变强的方法不止要比谁学得好更要比谁忘得少。就像一个好学生不只是考场上的专科高分选手而是在练好一项技能的同时还能保住自己原有的综合素养——这才是真正意义上的提升。研究团队通过大量细致的实验清晰地展示了不同方法在这道题上的答卷有多大差距而OFT这个依靠旋转而不破坏形状来更新模型的方法在综合权衡上交出了目前最好的成绩单。这对普通用户意味着未来在选择或评价一个经过专业训练的AI时不妨问一句——它的通用能力还在吗而对AI开发者来说这项研究提供了一套完整的诊断工具箱从谱形分析、表达几何检测到插值路径诊断和按层调整每一件工具都指向同一个目标就是让AI在成长的同时不失去自己。这项来自香港中文大学、西湖大学与马克斯·普朗克智能系统研究所的工作论文编号arXiv:2605.28819v1值得所有关心AI质量而不只是AI成绩的人仔细阅读。---QAQ1PEFT方法在训练AI时为什么会导致通用能力下降APEFT方法在更新模型参数时会对原始模型内部的信号结构产生扰动。不同方法的更新方式不同有些会大幅改变模型最核心的参数方向如PiSSA有些则会把更新能量不均衡地集中在某些通用能力也依赖的方向上如LoRA。这种扰动导致模型在新任务上表现更好的同时原来用于处理通用任务的内部表达结构被扭曲能力随之下降。Q2正交微调OFT为什么遗忘旧能力比LoRA少AOFT用的是数学上的旋转来更新模型旋转是一种等距变换改变位置但不改变内部的相对形状。这使得模型在处理通用能力相关输入时内部表达的结构关系不同样本之间的距离、角度得到了比较好的保留。相比之下LoRA是直接在参数上叠加变化量容易破坏原有的结构导致更多遗忘。Q3SFT终点过冲overshoot是什么意思插值能解决这个问题吗ASFT终点过冲是指完全训练到收敛的模型并不是目标能力和通用能力权衡最优的那个版本模型在训练路上的某个中间点通常在训练结束前实际上表现更均衡。插值的做法是在原始模型和最终模型之间画一条路沿路测试每个位置的表现找到那个学了足够多但还没忘太多的甜蜜点。实验证明这个甜蜜点确实存在而且通过按比例缩小更新量就能到达无需重新训练。