文本挖掘是数据挖掘与自然语言处理技术衍生的一个分支 数据挖掘处理的数据是文本对象,则称是文本挖掘。
文本挖掘集合了多种技术于一体,包括:数据挖掘技术,机器学习,文本分析,统计学,信息技术,数据库技术,模式识别,数据可视化
模式识别可以分为两种:统计模式、句法模式(结构模式) 句法模式的方法:图像形状、语法类型判断、地址细分,因为句法模式的方法比较简单,现在大部分人都主要研究统计模式 统计模式的方法:贝叶斯分类器、神经网络(模仿人类学习而产生)、SVM(支持向量机)、K近邻法则
统计方法都是在大数据量条件下进行,贝叶斯概率公式: 某个特征被判断为某类的概率 = 该类中出现这个特征的概率 * 该类存在的概率 / 这个特征出现的概率