深度学习之Hessian矩阵正负定讨论

xiaoxiao2021-02-28  48

当Hessian是正定的(所有特征值都是正的),则该临界点是局部极小点。同理,当Hessian是负定的(所有特征值都是负的),则该临界点是局部极大点。我们这里讨论的点都是临界点,即f'(x) = 0的点,且函数都是连续可导的。

首先讨论一元函数的临界点,通过二阶泰勒公式展开得

f(x) = f(x0) + f'(x0) dx + (1/2)f''(x0) dx2

已知f'(x0) = 0,那么当f''(x0) > 0时,f(x) > f(x0),也就是x0点是f(x)的极小值。 继续讨论多元函数的临界点,通过二阶泰勒公式展开得 f(x0+λd) = f(x0) + λd T g +  (1/2)λ 2 d T Hd 其中x0,d都为向量,g为梯度,H为Hessian矩阵。

已知是临界点,那么dTg为0,那我们只需要考虑二阶偏导部分(1/2)λ2dTHd的正负情况,即T = dTHd的正负

对于特定方向d,当d是H的特征向量时,T就是d对应的特征值,对于其他的方向d,T是H所有特征值的加权平均,权重在0到1之间,那么当H的特征值都为正时,即Hessian是正定的,T>0。即f(x0+λd) - f(x0) = (1/2)λ2dTHd > 0。f(x0)是局部极小点。同理可证当Hessian是负定的(所有特征值都是负的),则该临界点是局部极大点。

最后,如果Hessian的特征值中至少一个是正的且至少一个是负的,那么x是f某个横截面的局部极大点,却是另一个横截面的局部极小点。

转载请注明原文地址: https://www.6miu.com/read-2300338.html

最新回复(0)