bagging boost (adaboost gb gbdt xgboost) 简记

xiaoxiao2021-02-28  14

bagging  以随机森林为代表 森林中的每一棵树都是相互独立的 他们区别是训练数据的差异 每一颗树在训练时对所有训练数据进行有放回的采样  采样数目与原数据相同 这样采样的结果就是每棵树训练了大概占总数据69%的数据,每一颗树在训练时每个节点特征选择的时候并不是把所有特征和所有特征值得信息增益或者基尼指数都进行计算 而是 只计算大概70_80%的特征. 最终训练器给出的预测结果是这些树训练结果的平均(回归树),或者是投票(分类树)

boost 提升 主要思想每棵树不再是相互独立的树 树的生成总是包含对上一棵树预测效果的提升.具体的提升方法下文介绍.

      adboost  

            每次学习记录错误样本数目 生成这个树的权值  并且增大错误样本的权值

            结果最终结果是每次结果的加权和 取符号函数值

    gdbt

            统计学习方法说二分类的问题实际就是adaboost

            回归 每次学习后(具体每棵树的学习过程和cart回归树一毛一样),学完后记录所有样本的残差 ,将这个残差作为下次学习的label,继续学习,最终结果是这些 树记过的加和  当然 每棵树的权值 也是通过最小化损失函数求得

    xgboost

            在gdbt的基础上加入了二阶导 以树的正则项  也就是在分裂的时候需要考虑的事情更多了(其实很复杂 就先记这些吧)

转载请注明原文地址: https://www.6miu.com/read-2602573.html

最新回复(0)