机器学习领域的一个普遍问题是如何降低数据的维度,因为过高的维度会严重影响计算效率并造成数据稀疏。降维方法一般分为两类:特征选择
(Feature Selection)和特征抽取
(Feature Extraction)。
特征选择
特征选择的目标是从原始的d个特征中选择k个特征。
特征抽取
特征抽取的目标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间。
无论是特征选择还是特征抽取,它们共同的特征都是尽可能保持原始数据中包含的信息。
什么是保持原始数据中包含的信息? 以主成分分析为例(Principal Components Analysis, PCA)为例。PCA是一种特征抽取方法。PCA定义数据的信息为原始数据中样本之间的方差。因此PCA在进行空间转换时(从d维空间映射到k维空间),将选择在新的k维空间中样本方差最大的空间。