文章是根据machine learning课和自己看的一些奇奇怪怪的资料写的,有什么错误欢迎大家指正,一起交流学习,么么哒(づ ̄ 3 ̄)づ。
Classification And Regression Trees (CART) 是Decision Tree 的 modern name~~
看到CART还想说怎么和Decision tree这么像。
具体介绍一下Decision Tree
Decision tree 可以用来做回归(regression)和 分类(classification)。 树干的末端是一个个的分类。regression tree 的末端值是这一类的y值的平均,分类的末端值是预测的类别即y值。Decision tree 为 bagged decision trees, random forest and boosted decision trees 等算法提供了基础。Decision tree 每个node下面会有两个分支,即binary tree,eg: 满足条件就去左边,不满足条件就去右边。这个算法很容易解释,规则好理解
算法原理:
树是通过greedy algorithm 学习选择分支的。进行的是recursively separate,为啥说递归,因为可以一直分下去。最后每个data都在一个分组里。
有几个主要的问题:
1. 怎么选择分类的变量及数值,eg: 怎么选出来用income 是否大于 37606 来分类
2. 什么时候停止?
3. 在树的末端,我们要用什么规则来分类或预测