提升方法的基本思路 (1)基本思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。 (2)强可学习、弱可学习、概率近似正确PAC学习框架。 (3)在PAC学习的框架下, 强可学习和弱可学习是等价的,但是弱学习算法比强学习算法更容易被发现。 (4)提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。 (5)提升方法的两个主要问题:①在每一轮如何改变训练数据的权值或概率分布;②如何将弱分类器组合成一个强分类器。 (6)AdaBoost对主要问题的解决思路是:①每一轮中,提高那些被前一轮弱分类器错误分类样本的权值,降低那些被正确分类样本的权值;②弱分类器的组合采取加权多数表决的方法,也就是加大分类误差率小的弱分类器的权值,减小分类误差率大的弱分类器的权值。
提升树 (1)提升树是以分类树或回归树为基本分类器的提升方法。 (2)提升方法实际采用加法模型与前向分步算法,以决策树为基函数的提升方法称为提升树。 (3)对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。 (4)对于二类分类问题,提升树算法只需将AdaBoost算法中的基本分类器限制在二分类树即可,可以说这时的提升树算法是AdaBoost算法的特殊情况。 (5)在回归提升树中,每一轮的拟合数据都是上一轮计算得到的残差。在误差要求满足的情况下,可以停止计算下去。 (6)针对提升树中使用一般损失函数导致的优化难问题,Freidman提出了梯度提升算法,这是利用最速下降法的近似问题,其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合一个回归树。