机器学习 - 降维算法概述

xiaoxiao2021-02-28 65

1. 维度灾难

在数据挖掘中，特征工程是极其重要的一环，不断寻找特征的过程，就是不断给数据增加维度。通常特征更丰富，算法就更容易捕获数据之间的模式。

1.1 计算量

维度高了之后，计算开始变得非常困难；

1.2 特征干扰

同时特征之间会相互干扰，而不是相互独立，从而影响算法性能；

1.3 过拟合

还有一个很重要的原因是维度高了之后，样本在空间的分布会变得很稀疏，这容易导致过拟合，比如决策树的叶子节点上样本太少。

2. 常见降维算法

将样本从高维特征空间映射到低维特征空间；主要参照sklearn - dimension reduce：

1）MDS - multiple dimension scale，多维度缩放；

2）PCA - 主成分分析及其变体，minibatch PCA，kernel PCA，sparse PCA等；

3）SVD - 奇异值分解及其变体，SVD++等等；

4）LSA - 潜在语义分析（本质上是SVD分解）；

5）字典学习与稀疏编码；

6）NMF - 非负矩阵分解；

7）LDA - 线性判别分析；

8）factor analysis - 因子分析；

9）ICA - independent component analysis，独立成分分析

3. 算法性能度量

1）比较降维前后，分类器的性能；

2）降维到三维及以下，可视化。

转载请注明原文地址: https://www.6miu.com/read-69692.html

技术

最新回复(0)