️ 温度一降loss 很顺专家却慢慢冻住很多团队做 MoE 训练时最先想动的旋钮就是router temperature。 温度一降路由更尖、单步抖动更小前期loss也更顺。问题是前 5% 训练步顺不代表后面更稳。后面最常见的不是训练崩掉而是头部专家越来越忙尾部专家越来越闲长尾任务和稀有领域样本先退化。图 1前稳后僵更麻烦的是这类问题容易被平均指标遮住。⚠️ 总体loss、吞吐和显存都可能正常先掉的往往是冷门语言、复杂工具调用和稀疏问答。等团队发现模型开始反复依赖那几个老专家时路由偏置往往已被动量和容量限制一起放大很难靠补训救回。 真正被关掉的不是抖动而是探索空间MoE 路由的本质不是简单分流而是在训练早期保留试错空间。✅ 温度降得太快softmax会过早把流量锁进少数高分专家短期像在降噪长期却会冻结分工。头部专家拿到更多梯度分数继续抬高尾部专家样本更少后面即使回调温度模型也不愿重新探索。路由策略前期现象训练后段风险固定高温1.0抖动较大收敛略慢专家活性较高但吞吐不稳快速降到0.2loss很顺负载更集中专家固化长尾样本掉点退火 Entropy Floor前期略有波动分工稳定尾部专家能持续学习图 2路由变尖分工未必更健康不少团队把希望压在aux loss或z-loss上以为继续推均衡损失就能把专家拉开。 但当温度已把候选空间压窄时均衡项通常只是在有限通道里挪流量不是在恢复探索。负载更整齐不代表新专家真学到新模式。️ 更稳的做法是退火温度但保留一层 Entropy Floor更可靠的方案是把温度当成调度器而不是常量。 前段用较高温度保留试错中段再缓慢退火但给每层路由留一条entropy floor平均熵跌破阈值就停降必要时小幅回弹。目标不是绝对均匀而是保住尾部专家的曝光。defrouter_temperature(step,warmup_steps,base_temp,min_temp,entropy,floor):ifstepwarmup_steps:tempbase_tempelse:decaymin((step-warmup_steps)/4000,1.0)tempbase_temp-decay*(base_temp-min_temp)# 熵低于阈值时停止继续尖锐化避免专家过早固化ifentropyfloor:tempmax(temp,min_temp0.15)returntemp图 3退火叠加熵下限更稳实践里更值得盯的不是谁最忙而是活性是否持续收缩。 可以同时记录每层路由熵、专家负载p95/p50、尾部 20% 专家样本占比再和领域切片准确率一起看。一组 32 专家实验里快速降温方案的总体loss只好看了0.03但尾部专家样本占比从18%掉到7%技术问答切片准确率反而回落2.6个点。 发布门槛别只看平均 loss要看专家活性有没有塌MoE 训练危险的地方在于看起来没有坏。 如果发布门槛只看平均loss、困惑度和吞吐快速降温方案很容易过线因为它确实会让训练更安静。但只要把路由熵和专家活性拉进同一面板待上线版本会立刻露出问题。对训练平台来说尾部专家仍在学习才该放行。图 4平均指标与专家活性并排看一个实用门槛是路由熵比基线连续低20%以上同时专家负载p95/p50超过3.0而长尾切片准确率没有回升就不该继续放行。 这会牺牲一点曲线美观却能挡住后期专家固化。更贵的不是多训几小时而是把失去探索能力的版本推上线。 接下来拉开差距的不是谁堆更多专家接下来 3 到 6 个月MoE 训练会拉开差距的不是谁把专家数堆得更大而是谁先把路由调度、活性监控和切片回归连成闭环。 当router temperature不再是静态超参而是能被熵、负载分布和长尾指标共同约束的控制量团队才算把 MoE 从能跑带到能稳学。笔者认为很多 MoE 退化不是容量不够而是训练过程过早相信那几个最会答的专家。 如果现在还只把路由温度当成让曲线更顺的按钮这条线很可能已在牺牲后段泛化。
MoE 训练为什么一降路由温度就开始前期更稳却后期专家固化:从 Router Temperature 到 Entropy Floor 的工程实战
发布时间:2026/5/30 12:26:38
️ 温度一降loss 很顺专家却慢慢冻住很多团队做 MoE 训练时最先想动的旋钮就是router temperature。 温度一降路由更尖、单步抖动更小前期loss也更顺。问题是前 5% 训练步顺不代表后面更稳。后面最常见的不是训练崩掉而是头部专家越来越忙尾部专家越来越闲长尾任务和稀有领域样本先退化。图 1前稳后僵更麻烦的是这类问题容易被平均指标遮住。⚠️ 总体loss、吞吐和显存都可能正常先掉的往往是冷门语言、复杂工具调用和稀疏问答。等团队发现模型开始反复依赖那几个老专家时路由偏置往往已被动量和容量限制一起放大很难靠补训救回。 真正被关掉的不是抖动而是探索空间MoE 路由的本质不是简单分流而是在训练早期保留试错空间。✅ 温度降得太快softmax会过早把流量锁进少数高分专家短期像在降噪长期却会冻结分工。头部专家拿到更多梯度分数继续抬高尾部专家样本更少后面即使回调温度模型也不愿重新探索。路由策略前期现象训练后段风险固定高温1.0抖动较大收敛略慢专家活性较高但吞吐不稳快速降到0.2loss很顺负载更集中专家固化长尾样本掉点退火 Entropy Floor前期略有波动分工稳定尾部专家能持续学习图 2路由变尖分工未必更健康不少团队把希望压在aux loss或z-loss上以为继续推均衡损失就能把专家拉开。 但当温度已把候选空间压窄时均衡项通常只是在有限通道里挪流量不是在恢复探索。负载更整齐不代表新专家真学到新模式。️ 更稳的做法是退火温度但保留一层 Entropy Floor更可靠的方案是把温度当成调度器而不是常量。 前段用较高温度保留试错中段再缓慢退火但给每层路由留一条entropy floor平均熵跌破阈值就停降必要时小幅回弹。目标不是绝对均匀而是保住尾部专家的曝光。defrouter_temperature(step,warmup_steps,base_temp,min_temp,entropy,floor):ifstepwarmup_steps:tempbase_tempelse:decaymin((step-warmup_steps)/4000,1.0)tempbase_temp-decay*(base_temp-min_temp)# 熵低于阈值时停止继续尖锐化避免专家过早固化ifentropyfloor:tempmax(temp,min_temp0.15)returntemp图 3退火叠加熵下限更稳实践里更值得盯的不是谁最忙而是活性是否持续收缩。 可以同时记录每层路由熵、专家负载p95/p50、尾部 20% 专家样本占比再和领域切片准确率一起看。一组 32 专家实验里快速降温方案的总体loss只好看了0.03但尾部专家样本占比从18%掉到7%技术问答切片准确率反而回落2.6个点。 发布门槛别只看平均 loss要看专家活性有没有塌MoE 训练危险的地方在于看起来没有坏。 如果发布门槛只看平均loss、困惑度和吞吐快速降温方案很容易过线因为它确实会让训练更安静。但只要把路由熵和专家活性拉进同一面板待上线版本会立刻露出问题。对训练平台来说尾部专家仍在学习才该放行。图 4平均指标与专家活性并排看一个实用门槛是路由熵比基线连续低20%以上同时专家负载p95/p50超过3.0而长尾切片准确率没有回升就不该继续放行。 这会牺牲一点曲线美观却能挡住后期专家固化。更贵的不是多训几小时而是把失去探索能力的版本推上线。 接下来拉开差距的不是谁堆更多专家接下来 3 到 6 个月MoE 训练会拉开差距的不是谁把专家数堆得更大而是谁先把路由调度、活性监控和切片回归连成闭环。 当router temperature不再是静态超参而是能被熵、负载分布和长尾指标共同约束的控制量团队才算把 MoE 从能跑带到能稳学。笔者认为很多 MoE 退化不是容量不够而是训练过程过早相信那几个最会答的专家。 如果现在还只把路由温度当成让曲线更顺的按钮这条线很可能已在牺牲后段泛化。