前OpenAI安全研究VP万字长文扒Scaling Laws:你用的模型可能喂错数据量! 【导语前OpenAI安全研究VP翁荔停更13个月后发表万字新文《Scaling Laws, Carefully》扒了支撑大模型行业数百亿美元投入的Scaling Laws指出当下模型可能喂错数据量背后是不同团队研究结论的差异及诸多技术细节问题。】Scaling Laws框架结论分歧2020年OpenAI研究员Jared Kaplan提出Scaling Laws框架认为在log - log坐标上训练损失随参数量N、数据量D、算力C的增加呈直线下降且模型规模应比数据增长更快如算力涨10倍模型参数涨5.5倍训练数据只涨1.8倍。GPT - 3就是按此训练1750亿参数只喂了3000亿token参数量近数据量6倍。然而2022年DeepMind的Jordan Hoffmann团队重做实验规模更大、方法更细。对比Gopher2800亿参数3000亿token和Chinchilla700亿参数1.4万亿tokenChinchilla参数仅Gopher四分之一但训练数据是四倍多且在所有评测上碾压Gopher。其结论是参数和token最佳比例约为1:20即参数翻一倍训练数据也应翻一倍。Kaplan结论的问题所在翁荔分析Kaplan结论错误原因一是实验规模问题。Kaplan实验最大模型仅15亿参数却将结论外推到万亿参数在log - log空间里小规模区间的微小拟合差异外推几个数量级后会变成系统性预测偏差。二是参数口径问题。Kaplan不算embedding层参数小模型上embedding占比大去掉后显著改变了N和C的关系。2024年Pearce和Song证明把embedding加回去Kaplan的0.73次方自然收敛到Chinchilla的0.5说明其结论只在局部区间成立。Chinchilla代码的隐藏bug2024年Epoch AI团队逐行复现Chinchilla的拟合代码发现两个bug。Bug 1是损失函数实现里取了均值而不是求和L - BFGS - B优化器因loss值太小以为收敛而提前停止未找到真正的全局最优解。Bug 2是两个核心幂律指数α和β被四舍五入到小数点后两位从两位数反推的其他参数误差被指数级放大置信区间窄得离谱看似“显著”实则是假象。Epoch AI修正后的真实值α ≈ 0.3478β ≈ 0.3658再次确认Chinchilla模型和数据等比增长的方向但原论文具体数字需修正。数据墙训练数据的困境此前所有关于Scaling Laws的讨论都基于训练数据无限、不重复的前提但人类生产的高质量文本数据预计2026到2028年就会耗尽只能重复训练。而重复数据的价值指数衰减Muennighoff等人引入“有效数据量”概念同一批数据反复训练边际价值遵循D_eff U*(1 - e^(-R))规律每多一轮收益递减。Lovelace等人2026年的新工作显式建模了过拟合惩罚项发现强weight decay可有效缓解重复训练的过拟合。Scaling Laws敏感的观测性指南翁荔在博客里嵌了交互式模拟器调整拟合精度、噪声水平、拟合区间等参数会发现看似无关紧要的工程选择如loss保留几位小数、噪声在0.001量级都能导致外推预测差出十万八千里。这表明Scaling Laws不是物理定律而是对工程细节高度敏感的观测性指南。编辑观点翁荔的文章深入剖析了Scaling Laws揭示了行业研究中的问题和数据困境为大模型训练提供了更严谨的思考方向对行业发展有重要指导意义。