标题LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws来源arXiv, 2605.23901v1️文章简介研究问题现有单调幂律缩放法则无法解释大模型在过训练或量化时出现的性能非单调下降U型曲线现象如何建立统一理论框架来刻画这一行为主要贡献论文提出香农缩放律将LLM训练建模为噪声信道信息传输统一解释了单调提升与U型退化现象并在多种扰动下实现高精度拟合与外推。重点思路理论映射基于香农-哈特利定理将模型参数量映射为信道带宽训练Token数映射为信号功率数据噪声、模型交互噪声及不可约噪声构成总噪声定义LLM容量。公式构建推导香农缩放律公式认为Loss与容量成反比。该公式显式捕捉了学习信号与内在噪声的交互指出若信噪比不足盲目扩大规模会放大噪声导致性能崩塌。实验验证在Pythia和OLMo2模型上针对高斯噪声、监督微调SFT及量化三种扰动源进行实验对比传统幂律及近期扰动感知法则评估拟合优度与外推能力。分析总结拟合优势香农缩放律在所有噪声水平下均优于基线方法平均R²超过0.95。特别是在高噪声如低比特量化、高学习率SFT导致的U型损失盆地中传统单调法则失效而本法能准确捕捉性能拐点。外推能力在小规模模型≤6.9B和少量Token≤180B上拟合后能准确预测未见过的12B模型在307B Token下的表现 pooled R²0.847而Chinchilla等基线在外推时彻底崩溃。机制揭示指数分析表明当扰动增强时模型噪声增长速度快于带宽增益导致扩展模型尺寸反而有害且数据噪声累积效应始终存在证实了U型退化的普遍性。个人观点论文跳出经验主义的幂律拟合从信息论第一性原理出发解决了“灾难性过训练”等异常现象的建模难题。
字节:香农视角下的LLM缩放律
发布时间:2026/6/9 11:34:57
标题LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws来源arXiv, 2605.23901v1️文章简介研究问题现有单调幂律缩放法则无法解释大模型在过训练或量化时出现的性能非单调下降U型曲线现象如何建立统一理论框架来刻画这一行为主要贡献论文提出香农缩放律将LLM训练建模为噪声信道信息传输统一解释了单调提升与U型退化现象并在多种扰动下实现高精度拟合与外推。重点思路理论映射基于香农-哈特利定理将模型参数量映射为信道带宽训练Token数映射为信号功率数据噪声、模型交互噪声及不可约噪声构成总噪声定义LLM容量。公式构建推导香农缩放律公式认为Loss与容量成反比。该公式显式捕捉了学习信号与内在噪声的交互指出若信噪比不足盲目扩大规模会放大噪声导致性能崩塌。实验验证在Pythia和OLMo2模型上针对高斯噪声、监督微调SFT及量化三种扰动源进行实验对比传统幂律及近期扰动感知法则评估拟合优度与外推能力。分析总结拟合优势香农缩放律在所有噪声水平下均优于基线方法平均R²超过0.95。特别是在高噪声如低比特量化、高学习率SFT导致的U型损失盆地中传统单调法则失效而本法能准确捕捉性能拐点。外推能力在小规模模型≤6.9B和少量Token≤180B上拟合后能准确预测未见过的12B模型在307B Token下的表现 pooled R²0.847而Chinchilla等基线在外推时彻底崩溃。机制揭示指数分析表明当扰动增强时模型噪声增长速度快于带宽增益导致扩展模型尺寸反而有害且数据噪声累积效应始终存在证实了U型退化的普遍性。个人观点论文跳出经验主义的幂律拟合从信息论第一性原理出发解决了“灾难性过训练”等异常现象的建模难题。