梯度爆炸与梯度消失

xiaoxiao2021-02-28  85

梯度不稳定问题   根本原因在于前面层上的梯度是来自于后面层上梯度的乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景。   梯度消失导致DNN的前面几层权值得不到更新,相当于对输入做同一映射,仍接近初始值,等价于浅层神经网络,

梯度消失   sigmoid导函数为负的二次曲线有最大值。

梯度爆炸   

量化分析   

  可以考虑使用其它激活函数对梯度消失问题进行改善,如ReLU。

转载请注明原文地址: https://www.6miu.com/read-81430.html

最新回复(0)