字节：香农视角下的LLM缩放律

发布时间：2026/6/9 11:34:57

标题LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws来源arXiv, 2605.23901v1️文章简介研究问题现有单调幂律缩放法则无法解释大模型在过训练或量化时出现的性能非单调下降U型曲线现象如何建立统一理论框架来刻画这一行为主要贡献论文提出香农缩放律将LLM训练建模为噪声信道信息传输统一解释了单调提升与U型退化现象并在多种扰动下实现高精度拟合与外推。重点思路理论映射基于香农-哈特利定理将模型参数量映射为信道带宽训练Token数映射为信号功率数据噪声、模型交互噪声及不可约噪声构成总噪声定义LLM容量。公式构建推导香农缩放律公式认为Loss与容量成反比。该公式显式捕捉了学习信号与内在噪声的交互指出若信噪比不足盲目扩大规模会放大噪声导致性能崩塌。实验验证在Pythia和OLMo2模型上针对高斯噪声、监督微调SFT及量化三种扰动源进行实验对比传统幂律及近期扰动感知法则评估拟合优度与外推能力。分析总结拟合优势香农缩放律在所有噪声水平下均优于基线方法平均R²超过0.95。特别是在高噪声如低比特量化、高学习率SFT导致的U型损失盆地中传统单调法则失效而本法能准确捕捉性能拐点。外推能力在小规模模型≤6.9B和少量Token≤180B上拟合后能准确预测未见过的12B模型在307B Token下的表现 pooled R²0.847而Chinchilla等基线在外推时彻底崩溃。机制揭示指数分析表明当扰动增强时模型噪声增长速度快于带宽增益导致扩展模型尺寸反而有害且数据噪声累积效应始终存在证实了U型退化的普遍性。个人观点论文跳出经验主义的幂律拟合从信息论第一性原理出发解决了“灾难性过训练”等异常现象的建模难题。

AI 编排框架学习篇（四）| BMAD-METHOD：流程把关 · 0→1

AI 编排框架学习篇（四）| BMAD-METHOD：流程把关 0→11. 一句话定义2. 适用场景3. 它解决了什么问题4. 核心亮点4.1 八角色虚拟敏捷团队4.2 四阶段流程质量门禁4.3 Quick Flow — 小任务的快速通道4.4 Party Mode — 多 Agent 实时协作4.5 跨…

2026/6/9 11:34:57 阅读更多

WorkBuddy 实战入门小技巧——AI 写代码总是跑偏，不是模型不行，是你没让它先读懂需求

用AI写代码，90%的人都在犯同一个错误现在 AIGC、Agent 如此发达的时代，有人用AI写代码，一周做出了完整的后台管理系统。同一时期，另一个人也用AI，改了三天，越改越乱，最后全部回滚，…

2026/6/9 11:34:57 阅读更多

终极免费方案：3分钟掌握Adobe插件安装的跨平台神器

终极免费方案：3分钟掌握Adobe插件安装的跨平台神器【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe插件安装的复杂流程而烦恼吗？ZXPInsta…

2026/6/9 11:32:52 阅读更多

泰坦之旅终极仓库管理神器：TQVaultAE完整指南

泰坦之旅终极仓库管理神器：TQVaultAE完整指南【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 还在为《泰坦之旅》背包空间不足而烦恼吗？每次击败BOSS…

2026/6/9 12:44:57 阅读更多

嵌入式硬件设计入门：从引脚复用到KL26实战配置指南

1. 项目概述：为什么引脚配置是硬件设计的第一道坎做嵌入式硬件设计，尤其是基于ARM Cortex-M这类微控制器的项目，第一步往往不是写代码，而是“看引脚”。很多刚入行的朋友拿到芯片数据手册，面对动辄几十页的引脚定义和复…

2026/6/9 12:44:15 阅读更多

Stremio流媒体平台开发实战：从源码构建到高级功能定制的完整指南

Stremio流媒体平台开发实战：从源码构建到高级功能定制的完整指南【免费下载链接】stremio-web Stremio - Freedom to Stream 项目地址: https://gitcode.com/GitHub_Trending/st/stremio-web Stremio是一款基于React构建的开源流媒体聚合平台，采…

2026/6/9 12:44:15 阅读更多

3步解锁Beyond Compare 5完整功能：从评估限制到专业授权的完整解决方案

3步解锁Beyond Compare 5完整功能：从评估限制到专业授权的完整解决方案【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 你是否曾经面临这样的困境：Beyond Compare 5的强大…

2026/6/9 12:42:11 阅读更多

别再手动点菜单了！用ANSYS APDL命令流一键搞定x_t模型导入与静力分析

ANSYS APDL命令流实战：x_t模型导入与静力分析全流程自动化在工程仿真领域，时间就是竞争力。当我第一次看到同事在30秒内完成从模型导入到结果输出的全过程时，那种震撼至今难忘——而这正是APDL命令流赋予我们的超能力。不同于传统GUI操作的&q…

2026/6/9 12:41:10 阅读更多

终极Windows和Office激活指南：3分钟永久告别弹窗烦恼

终极Windows和Office激活指南：3分钟永久告别弹窗烦恼【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出的激活警告而困扰吗？Office突然变成只读模…

2026/6/9 12:40:29 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…