当Hessian是正定的(所有特征值都是正的),则该临界点是局部极小点。同理,当Hessian是负定的(所有特征值都是负的),则该临界点是局部极大点。我们这里讨论的点都是临界点,即f'(x) = 0的点,且函数都是连续可导的。
首先讨论一元函数的临界点,通过二阶泰勒公式展开得
f(x) = f(x0) + f'(x0) dx + (1/2)f''(x0) dx2
已知f'(x0) = 0,那么当f''(x0) > 0时,f(x) > f(x0),也就是x0点是f(x)的极小值。
继续讨论多元函数的临界点,通过二阶泰勒公式展开得
f(x0+λd) = f(x0) + λd
T
g +
(1/2)λ
2
d
T
Hd
其中x0,d都为向量,g为梯度,H为Hessian矩阵。
已知是临界点,那么dTg为0,那我们只需要考虑二阶偏导部分(1/2)λ2dTHd的正负情况,即T = dTHd的正负
对于特定方向d,当d是H的特征向量时,T就是d对应的特征值,对于其他的方向d,T是H所有特征值的加权平均,权重在0到1之间,那么当H的特征值都为正时,即Hessian是正定的,T>0。即f(x0+λd) - f(x0) = (1/2)λ2dTHd > 0。f(x0)是局部极小点。同理可证当Hessian是负定的(所有特征值都是负的),则该临界点是局部极大点。
最后,如果Hessian的特征值中至少一个是正的且至少一个是负的,那么x是f某个横截面的局部极大点,却是另一个横截面的局部极小点。