梯度下降(Gradient Descent)(三)

xiaoxiao2021-02-28  11

  在之前的博客中,我们分别讲了梯度下降的基本原理和三种变体。作为当今最流行的优化(optimization)算法(尤其是在深度学习中的应用),梯度下降存在很多问题和挑战,研究人员也相应地提出了许多优化方式,本文将对此作详细的讲解,作为梯度下降系列的最后一篇。


  考虑到篇幅过长,且有几篇关于此的文章已经写得非常好,笔者仅在这里给出相应的参考文献及简要介绍,读者可自行前往阅读。   [1]是Sebastian Ruder写的一篇文章,里面详细讲解了关于梯度下降的诸多知识,细致且全面,这里再贴出Ruder的博客地址,供大家学习。   [2]、[3]、[4]均是对[1]的中文翻译,大都翻译的比较通顺,不过缺失了很多公式,英文不好的读者可结合[1]一起看,帮助理解。   最后,在这里贴两张别人制作的动图,对SGD的几种优化方式作了可视化,可直观地感受它们的收敛过程和使用效果:


参考文献

[1] https://download.csdn.net/download/u012294618/10280896 [2] https://download.csdn.net/download/u012294618/10280894 [3] https://www.jiqizhixin.com/articles/2016-11-21-4 [4] http://www.sohu.com/a/131923387_473283 以上为本文的全部参考文献,对原作者表示感谢。

转载请注明原文地址: https://www.6miu.com/read-2150288.html

最新回复(0)