决策树、SVM、AdaBoost方法的比较

xiaoxiao2021-02-28  90

- 选择的算法:决策树、集成方法、支撑向量机

决策树

模型在真实世界中也应用场景

在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。

引用连接: 信贷方面的应用 电商推荐系统

这个模型的优势是什么?

决策树易于实现和理解;对于决策树,数据的准备工作一般比较简单;能够同时处理多种数据类型给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式;通过静态测试来对模型的表现进行评价;在相对较短的时间内可以对大量的数据做出非常好的结果;决策树可以很好地扩展到大型数据中,同时决策树的大小独立于数据库的大小;计算复杂度相对较低,结果的输出易于理解,对部分的数据缺失不敏感。

他什么情况下表现最好?

实例是由“属性-值”对表示的;目标函数具有离散的输出值;训练数据集包含部分错误(决策树对错误有适应性);训练数据缺少少量属性的实例。

这个模型的缺点是什么?

易于出现过拟合问题;忽略了数据集中属性之间的相关性;对于类比不一致的样本,决策树的信息增益倾向于那些数据值较多的特征

什么条件下它表现很差?

决策树匹配的数据过多时;分类的类别过于复杂;数据的属性之间具有非常强的关联。

根据我们当前数据集的特点,为什么这个模型适合这个问题。

不需要准备太多的训练数据,不需要对数据过多的处理如删除空白值等;易于编码;该问题是非线性问题,决策树能够很好地解决非线性问题;算法的执行效率高,对机器的要求较小。

支撑向量机

模型在真实世界中也应用场景 支撑向量机用于文本和超文本的分类;用于图像分类;用于手写体识别;Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.

这个模型的优势是什么?

分类效果好;可以有效地处理高维空间的数据;可以有效地处理变量个数大于样本个数的数据;只是使用了一部分子集来进行训练模型,所以SVM模型不需要太大的内存;可以提高泛化能力; 无局部极小值问题;

他什么情况下表现最好?

数据的维度较高;需要模型具有非常强的泛化能力;样本数据量较小时;解决非线性问题;

这个模型的缺点是什么?

无法处理大规模的数据集,因为该算法需要较长的训练时间;无法有效地处理包含噪声太多的数据集;SVM模型没有直接给出概率的估计值,而是利用交叉验证的方式估计,这种方式耗时较长;对缺失数据非常敏感;对于非线性问题,有时很难找到一个合适的核函数。

什么条件下它表现很差?

数据集的数据量过大;数据集中的含有噪声;数据集中的缺失较多的数据;对算法的训练效率要求较高; 根据我们当前数据集的特点,为什么这个模型适合这个问题。 该项目所提供的样本数据相对较少;该问题是属于非线性问题;数据集经过“独热编码”后,维度较高;

- SVM可以指定不同的核函数,用于提高分类器的准确性。

集成方法(AdaBoost) 模型在真实世界中也应用场景 用于二分类或多分类问题;用于特征选择;多标签问题;回归问题; 引用这个模型的优势是什么? AdaBoost是一种精度非常高的分类器;可以与各种方法构建子分类器,AdaBoost算法提供一种计算框架;弱分类器的构造方法比较简单;算法易于理解,不用做特征筛选;不易发生过拟合。易于编码;他什么情况下表现最好? 用于解决二分类问题;解决大类单标签问题;处理多类单标签问题;处理回归相关的问题。这个模型的缺点是什么? AdaBoost算法的迭代次数不好设定,需要使用交叉验证的方式来进行确定;数据集的不平衡分布导致分类器的分类精度下降;训练比较耗费时间;对异常值比较敏感;什么条件下它表现很差? 数据集分布非常不均匀;数据集中含有较多的异常值;对算法的训练的效率要求较高;根据我们当前数据集的特点,为什么这个模型适合这个问题。 该数据集可以归属为多标签分类问题;数据集中异常值较少;对算法模型的准确率要就较高;
转载请注明原文地址: https://www.6miu.com/read-72675.html

最新回复(0)