javascript实现朴素贝叶斯分类与决策树ID3分类

xiaoxiao2021-02-28 84

今年毕业时的毕设是有关大数据及机器学习的题目。因为那个时间已经步入前端的行业自然选择使用JavaScript来实现其中具体的算法。虽然JavaScript不是做大数据处理的最佳语言，相比还没有优势，但是这提升了自己对与js的理解以及弥补了一点点关于数据结构的弱点。对机器学习感兴趣的朋友还是去用 python，最终还是在学校的死板论文格式要求之外，记录一下实现的过程和我自己对于算法的理解。源码在github：https://github.com/abzerolee/ID3_Bayes_JS 开始学习机器学习算法是通过 Tom M. Mitchel. Machine Learning[M] 1994 一书。喜欢研究机器学习的朋友入门可以看看这本。接下来叙述的也仅仅是个人对于算法的浅薄理解与实现，只是针对没有接触过机器学习的朋友看个乐呵，自己总结记忆一下。当然能引起大家对机器学习算法的研究热情是最好不过的了。

算法原理

实现过程其实是对训练集合（已知分类）的数据进行分析解析得到一个分类模型，通过输入一条测试数据（未知分类），分类模型可以推断出该条数据的分类结果。训练数据如下图所示

这个数据集合意思为天气状况决定是否要最终去打网球一个数组代表一条天气情况与对应结果。前四列代表数据的特征属性（天气，温度，湿度，是否刮风），最后一列代表分类结果。根据这个训练集，运用朴素贝叶斯分类和决策树ID3分类则可以得到一个数据模型，然后通过输入一条测试数据：“sunny cool high TRUE” 来判断是否回去打网球。相似的只要特征属性保持一定且有对应的分类结果，不论训练集为什么样的数据，都可以通过特征属性得到分类结果。所谓分类模型，就是通过一些概率论，统计学的理论基础，用编程语言实现。下面简单介绍一下两种算法原理。

一.朴素贝叶斯分类

大学概率论的贝叶斯定理实现了通过计算概率求出假设推理的结论。贝叶斯定理如下图所示：

二.决策树ID3分类法

决策树分类法更像是我们思考的过程：

测试数据和上文相同，在天气节点判断则进入sunny分支温度节点判断进入high 分支则直接得出no的结果。决策树在根据测试数据分类时浅显易懂，关键点在通过训练数据构建决策树，那相应的出现两个问题： 1.选择哪个特征属性作为根节点判断？ 2.特征属性值对应的分支上的下一个属性节点如何来判断？这两个问题可以总结为如何判断最优测试属性？在信息论中，期望信息越小，那么信息增益就越大，从而纯度就越高。其实就是特征属性能够为最终的分类结果带来多少信息，带来的信息越多，该特征属性越重要。对一个属性而言，分类时它是否存在会导致分类信息量发生变化，而前后信息量的差值就是这个特征属性给分类带来的信息量。而信息量就是信息熵。信息熵表示每个离散的消息提供的平均信息量。如上文中的例子：可以表示为

当选取了某个特征属性attr后的信息熵可以表示为

对应该属性的信息增益可以表示为

选择最适合树节点的特征属性，就是信息增益最大的属性。应该可以得到Gain(天气)=0.246 接下来是对该属性值分支的节点选取的判断，从训练集中找出满足该属性值的子集再次进行对于子集的每个属性的信息增益，比较。重复上述步骤，直到子集为空返回最普遍的分类结果。

上图为《Machine Learning》一书中对于ID3算法的介绍，下图为程序流程图

三.分类模型评估

分类模型的评估指标通过混淆矩阵来进行计算

P为样本数据中yes的数量，N为样本数据中no的数量，TP为正确预测yes的数量，FP为把yes预测为no的数量，FN为把yes预测为no的数量，TN为正确预测yes的数目。评估量度为 1.命中率：正确诊断确实患病的的概率 TP/P 2.虚警率：没有患病却诊断为患病概率。FP/N 分类模型的评估方法为交叉验证法与.632的平均抽样法，比如100条原始数据，对训练集有放回的随机抽样100次，并在每次抽样时标注抽取的次数将大于63.2的数据作为训练集，小于的数据作为测试集，但是实际程序实现中可以样本偏离的太厉害我选择了44次作为标准。这样将测试集的每一条数据输入，通过训练集得到的分类模型，得出测试数据的分类结果与真实分类进行比较。就可以得到混淆矩阵，最后根据混淆矩阵可以得到决策树与贝叶斯分类的命中率与虚警率。重复评估40次则可以得到[命中率，虚警率]，以命中率为纵坐标，虚警率为横坐标描点可以得到ROC曲线，描出的点越靠近左上角代表分类模型越正确，直观的表现出来两种分类模型差异。我得到的描点图如下所示

从图中明显可以发现对于小样本的数据，决策树分类模型更为准确。

核心代码

1.朴素贝叶斯分类法

2.决策树ID3分类法

3.增益率计算

具体的程序实现我会再继续介绍的，待续。。。。

转载请注明原文地址: https://www.6miu.com/read-31963.html

技术

最新回复(0)