贝叶斯分类
有意义区分和无意义区分
既然要区分两种点那么两种点必然有区别,当区分有区别的点时说是有意义区分。而完全区分那种一模一样的点则是无意义区分。所以我们所讨论的都是有意义的区分。
完全区分和不完全区分
贝叶斯分类器是一种概率上的区分,而假如两种点一种是黑的一种是白的那不需要用贝叶斯分类器区分,因为一种点属于白的概率是百分之百。所以称这种分类为完全区分。
另一种就是给定一个点一些属性,假设目前只有两种分类,那么它属于哪种点是一个概率问题,不是百分之百属于哪一个,此时就称为不完全区分,用贝叶斯分类器来分类。
或者是给定的信息是不完整的,比如给你一张脸没有头发让你判断性别,有的脸你还真的不保准判读对,此时就用贝叶斯分类。
分类思路:
以分类男女为例子,现在我们以胸的大小、头发长短、体重轻重来计算此人是男人还是女人的概率。当然其实我们心里都明白,哪些属性对人的类别有什么影响,比如头发长的话是女人的概率肯定是大的。但是假设我们不知道这些东西,那么如何来做?
当然假如给我们一些训练数据,给我了50个男和50个女和对应的属性。我通过这些数据得到的比例,比如头发长是女人的概率是百分之80,这个80%只是100个人得到的数据,但是我假设他是世界上所有人概率。
于是我得到三个信息,是女人头发长、胸大、体重的概率。
接下来我从100个人以外随便找一个人,给你属性信息,你给我计算他的性别,于是你可以用条件概率公式来给我估计出他是男的或女的的概率。