2025年7月30日至8月1日,第八届全国统计物理与复杂系统学术会议在浙江省宁波市举行。成都小分队杨宁博士参加会议并作题为“Stochastic Gradient Descent Drives Escape from Sharper Valleys During Early Transient Dynamics”的报告,分享团队在深度学习优化算法领域的最新研究进展。
报告聚焦随机梯度下降(SGD)这一深度学习核心优化算法,系统阐述了其对提升模型早期泛化性能的关键意义。在高维损失景观中,解通常位于类谷区域,泛化能力与解的平坦度密切相关,但噪声驱动的SGD如何向更宽、更平坦的谷值区域移动仍不明确。报告从实证与理论双视角探究这一过程:通过延续实验发现,训练早期SGD倾向于从陡峭谷值向平坦谷值移动,从而降低测试损失;构建双谷二维解析模型后进一步揭示,更强的噪声会重塑损失表面,降低平坦谷值的有效势能,提高轨迹收敛至该区域的概率。

