bagging boost (adaboost gb gbdt xgboost) 简记

xiaoxiao2021-02-28 74

bagging 以随机森林为代表森林中的每一棵树都是相互独立的他们区别是训练数据的差异每一颗树在训练时对所有训练数据进行有放回的采样采样数目与原数据相同这样采样的结果就是每棵树训练了大概占总数据69%的数据,每一颗树在训练时每个节点特征选择的时候并不是把所有特征和所有特征值得信息增益或者基尼指数都进行计算而是只计算大概70_80%的特征. 最终训练器给出的预测结果是这些树训练结果的平均(回归树),或者是投票(分类树)

boost 提升主要思想每棵树不再是相互独立的树树的生成总是包含对上一棵树预测效果的提升.具体的提升方法下文介绍.

adboost

每次学习记录错误样本数目生成这个树的权值并且增大错误样本的权值

结果最终结果是每次结果的加权和取符号函数值

gdbt

统计学习方法说二分类的问题实际就是adaboost

回归每次学习后(具体每棵树的学习过程和cart回归树一毛一样),学完后记录所有样本的残差 ,将这个残差作为下次学习的label,继续学习,最终结果是这些树记过的加和当然每棵树的权值也是通过最小化损失函数求得

xgboost

在gdbt的基础上加入了二阶导以树的正则项也就是在分裂的时候需要考虑的事情更多了(其实很复杂就先记这些吧)

转载请注明原文地址: https://www.6miu.com/read-2602573.html

技术

最新回复(0)