深度学习优化算法(三)—— 自适应学习率(AdaGrad/RMSProp/Adam/AdamW)(三十五) 1. 定位导航第 34 篇我们解决了"方向"问题(Momentum 让训练快 10×)。本篇解决另一个核心问题:每个参数应该用多大学习率?第 8 章规划进度:篇号主题状态33优化挑战✅34SGD + Momentum + Nesterov✅35(本篇)自适应学习率🚀36参数初始化策略–37批归一化