决策树
模型在真实世界中也应用场景
在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。
引用连接: 信贷方面的应用 电商推荐系统
这个模型的优势是什么?
决策树易于实现和理解;对于决策树,数据的准备工作一般比较简单;能够同时处理多种数据类型给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式;通过静态测试来对模型的表现进行评价;在相对较短的时间内可以对大量的数据做出非常好的结果;决策树可以很好地扩展到大型数据中,同时决策树的大小独立于数据库的大小;计算复杂度相对较低,结果的输出易于理解,对部分的数据缺失不敏感。他什么情况下表现最好?
实例是由“属性-值”对表示的;目标函数具有离散的输出值;训练数据集包含部分错误(决策树对错误有适应性);训练数据缺少少量属性的实例。这个模型的缺点是什么?
易于出现过拟合问题;忽略了数据集中属性之间的相关性;对于类比不一致的样本,决策树的信息增益倾向于那些数据值较多的特征什么条件下它表现很差?
决策树匹配的数据过多时;分类的类别过于复杂;数据的属性之间具有非常强的关联。根据我们当前数据集的特点,为什么这个模型适合这个问题。
不需要准备太多的训练数据,不需要对数据过多的处理如删除空白值等;易于编码;该问题是非线性问题,决策树能够很好地解决非线性问题;算法的执行效率高,对机器的要求较小。支撑向量机
模型在真实世界中也应用场景 支撑向量机用于文本和超文本的分类;用于图像分类;用于手写体识别;Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.这个模型的优势是什么?
分类效果好;可以有效地处理高维空间的数据;可以有效地处理变量个数大于样本个数的数据;只是使用了一部分子集来进行训练模型,所以SVM模型不需要太大的内存;可以提高泛化能力; 无局部极小值问题;他什么情况下表现最好?
数据的维度较高;需要模型具有非常强的泛化能力;样本数据量较小时;解决非线性问题;这个模型的缺点是什么?
无法处理大规模的数据集,因为该算法需要较长的训练时间;无法有效地处理包含噪声太多的数据集;SVM模型没有直接给出概率的估计值,而是利用交叉验证的方式估计,这种方式耗时较长;对缺失数据非常敏感;对于非线性问题,有时很难找到一个合适的核函数。什么条件下它表现很差?
数据集的数据量过大;数据集中的含有噪声;数据集中的缺失较多的数据;对算法的训练效率要求较高; 根据我们当前数据集的特点,为什么这个模型适合这个问题。 该项目所提供的样本数据相对较少;该问题是属于非线性问题;数据集经过“独热编码”后,维度较高;