协方差矩阵为对称半正定矩阵。假定其格式为:
Cov=⎡⎣⎢⎢⎢⎢⎢cov11cov21⋮covn1cov12cov22⋮covn2cov13cov23⋮covn3⋯⋯⋱⋯cov1ncov2n⋮covnn⎤⎦⎥⎥⎥⎥⎥ 不同的元素代表这不同向量之间的相关性。当各向量经过白化操作,求得协方差矩阵后。协方差矩阵中元素的值越大,则说明对应下标的特征之间相关性越高。举个例子,求 covXY 的值。假定两个向量分别为 X 和Y,其中 μx 为特征 X 的期望,而μy为 Y 的期望,则 covXY=E[(X−μx)(Y−μy)T]=∑mi=1(Xi−μx)(Yi−μy)m 其中 E 代表期望,而在一般的问题中特征的期望不容易得到,所以使用m个样本的均值去代替。公式如下:
covXY=∑mi=1(Xi−X¯¯¯)(Yi−Y¯¯¯)m−1 上式中分母为 m−1 而非 m ,这是对样本协方差的无偏估计。假定有m个样本,而 X 和Y分别为样本中的特征向量,使用 μx 和 μy 分别代表这两个特征的期望。使用 X¯¯¯ 以及 Y¯¯¯ 代表 m 个样本中这两个向量的平均值。 由于这两个特征的期望未知,则使用平均值进行代替。下述公式对其进行推导: E[∑mi=1(Xi−X¯¯¯)(Yi−Y¯¯¯)m]=E[∑mi=1((Xi−μx)−(X¯¯¯−μx))((Yi−μy)−(Y¯¯¯−μy))m]=E[∑mi=1(Xi−μx)(Yi−μy)m−∑mi=1(Xi−μx)(Y¯¯¯−μy)m−∑mi=1(X¯¯¯−μx)(Yi−μy)m ∑mi=1(X¯¯¯−μx)(Y¯¯¯−μy)m]=E[∑mi=1(Xi−μx)(Yi−μy)m−(Y¯¯¯−μy)∑mi=1(Xi−μx)m−(X¯¯¯−μx)∑mi=1(Yi−μy)m (X¯¯¯−μx)(Y¯¯¯−μy)m]∑i=1m1=E[∑mi=1(Xi−μx)(Yi−μy)m]−E[(X¯¯¯−μx)(Y¯¯¯−μy)]=convXY−E[(∑mi=1(Xi−μx)∑mi=1(Xi−μy)]m2=convXY−convXYm 所以: E[∑mi=1(Xi−X¯¯¯)(Yi−Y¯¯¯)m]E[∑mi=1(Xi−X¯¯¯)(Yi−Y¯¯¯)m−1]=(m−1)convXYm=convXY 由上可得使用部分样本估计协方差为: ∑mi=1(Xi−X¯¯¯)(Yi−Y¯¯¯)m−1=convXY