梯度下降（Gradient Descent）（三）

xiaoxiao2021-02-28 52

在之前的博客中，我们分别讲了梯度下降的基本原理和三种变体。作为当今最流行的优化（optimization）算法（尤其是在深度学习中的应用），梯度下降存在很多问题和挑战，研究人员也相应地提出了许多优化方式，本文将对此作详细的讲解，作为梯度下降系列的最后一篇。

考虑到篇幅过长，且有几篇关于此的文章已经写得非常好，笔者仅在这里给出相应的参考文献及简要介绍，读者可自行前往阅读。 [1]是Sebastian Ruder写的一篇文章，里面详细讲解了关于梯度下降的诸多知识，细致且全面，这里再贴出Ruder的博客地址，供大家学习。 [2]、[3]、[4]均是对[1]的中文翻译，大都翻译的比较通顺，不过缺失了很多公式，英文不好的读者可结合[1]一起看，帮助理解。最后，在这里贴两张别人制作的动图，对SGD的几种优化方式作了可视化，可直观地感受它们的收敛过程和使用效果：

参考文献

[1] https://download.csdn.net/download/u012294618/10280896 [2] https://download.csdn.net/download/u012294618/10280894 [3] https://www.jiqizhixin.com/articles/2016-11-21-4 [4] http://www.sohu.com/a/131923387_473283 以上为本文的全部参考文献，对原作者表示感谢。

转载请注明原文地址: https://www.6miu.com/read-2150288.html

技术

最新回复(0)