深度学习中的Adam类算法:收敛性分析以及在双层规划中的应用
报告题目:深度学习中的Adam类算法:收敛性分析以及在双层规划中的应用
报告人:胡潇尹(浙大城市学院)
报告时间:2023年6月7日(周三)16:00
报告地点:海纳苑2幢105
摘要:本报告主要关注Adam类方法在求解非光滑优化问题,特别是在训练非光滑的深度神经网络时的收敛性分析。我们提出了一个统一的双时间尺度步长(two-timescale stepsize)的理论框架,应用微分包含(differential inclusion)来分析Adam类方法所产生迭代点的极限性质,从而证明了Adam类方法在求解非光滑优化问题时的全局收敛性。基于我们所提出的框架,我们可以为应用Adam、AdaBelief、AMSGrad、Yogi等Adam类方法训练深度神经网络提供理论保证。此外,我们基于这一理论框架,结合梯度裁剪(gradient clipping)方法,提出了一类随机次梯度方法,并证明在长尾噪声下,我们所提出的梯度类方法在训练深度神经网络时仍然具有全局收敛性。初步的数值实验表明了这些方法的高效和稳健。
另外,我们还研究了机器学习中具有重要应用背景的非凸-强凸双层规划问题。借助约束消减(constraint dissolving)方法,我们证明了非光滑的非凸-强凸双层规划问题(BLO)可以被转化为一个无约束的非光滑优化问题(CDB)。我们建立了CDB这一无约束优化问题与原双层规划问题BLO之间的等价性,从而可以通过利用无约束优化方法极小化CDB,进而高效地求解BLO。进一步地,我们展示了众多已有的求解光滑的双层规划问题的优化方法,可以被视为极小化CBD的梯度下降方法。从这一观察出发,我们将这些优化方法拓展至非光滑情形,并对其全局收敛性进行了详尽分析。
报告人简介:胡潇尹,女,博士,2016年毕业于浙江大学竺可桢学院求是数学班并获得学士学位,2021年毕业于中国科学与数学与系统科学研究院并获得博士学位,主要研究方向为非光滑优化方法以及其在机器学习中的应用。主持省部级、地厅级项目各一项。以第一作者身份在SIOPT等国际期刊上发表论文5篇。
联系人:林智(linzhi80@zju.edu.cn)