BGD,SGD,MBGD的区别

xiaoxiao2021-02-28  63

BGD:每次迭代都需要用到所有样本。优点:可以收敛到全局最优解,但是当样本数很多时,收敛速度慢

SGD:每次迭代都只使用一个样本。优点:如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,训练速度快。缺点:并不是每次迭代都向着整体最优化方向,更容易从一个局部最优跳到另一个局部最优。迭代的次数较多,准确度下降

MBGD:每次迭代只使用一部分b个样本。

选择合适的learning rate比较困难,太小了收敛很慢,太大了容易在local minimum周围晃动

转载请注明原文地址: https://www.6miu.com/read-2623647.html

最新回复(0)