数据挖掘包

xiaoxiao2021-02-28  95

忙碌总是好的~


背景

本章主要记录一下各个语言的数据挖掘包及相关博客,便于以后调用,慢慢完善

数据库连接

类别PythonRMySQLmysql-connector-pythonRMysql

Python数据分析工具

扩展库简介Numpy提供数组支持,以及相应的高效处理函数Scipy提供矩阵支持,以及矩阵相关的数值计算模块Matplotlib强大的数据可视化工具、作图库Pandas强大、灵活的数据分析和探索工具StatsModels统计建模和计量经济学:描述统计、统计模型估计和推断Scikit-Learn支持回归、分类、聚类等强大的机器学习库kera深度学习库、用于建立神经网络模型以及深度学习模型Genism用于文本题型库、文本挖掘常用
Scikit-Learn

官网: http://scikit-learn.org/stable/ api: http://scikit-learn.org/stable/modules/classes.html user guide: http://scikit-learn.org/stable/user_guide.html 优秀博客: http://www.jianshu.com/p/516f009c0875

类别:六大类

Classification 分类 Regression 回归 clustering 聚类 Dimensionality reduction 降维 Model selection 模式选择 Preprocessing 预处理

安装包模块(0.16):

__check_build cluster 聚类 covariance 协方差 cross_decomposition 交叉降维 datasets 数据集 decomposition 降维 ensemble 集成学习 externals 模型持久化 feature_extraction 特征提取 feature_selection 特征选择 gaussian_process 高斯过程 linear_model 线性模型 manifold 流形学习 metrics 度量 mixture 混合 neighbors 邻居 neural_network 神经网络 preprocessing 预处理 semi_supervised 半监督学习 svm tests 测试 tree 决策树 utils

Scipy

官方文档: https://docs.scipy.org/doc/scipy/reference/ 子模块形式组织,大体模块1:

子模块 描述 constans 物理和数学常数 cluster 聚类算法 fftpack 快速傅立叶变换程序 integrate 集成和常微分方程求解器 interpolate 拟合和平滑曲线 io 输入和输出 linalg 线性代数 maxentropy 最大熵法 ndimage N维图像处理 odr 正交距离回归 optimize 最优路径选择 signal 信号处理 sparse 稀疏矩阵和以及相关程序 spatial 空间数据结构和算法 special 特殊函数 stats 统计上的函数和分布 weave C/C++ 整合(integration)

pandas

官网: http://pandas.pydata.org/pandas-docs/stable/ 博客教程: http://python.jobbole.com/85742/ http://blog.csdn.net/yhb315279058/article/details/50226027

numpy

官网: http://www.numpy.org/

matplotlib

官网: http://www.labri.fr/perso/nrougier/teaching/matplotlib/ 博客 : 简单例子:http://phddreamer.blog.163.com/blog/static/18993409620135394944504/ 中文教程:http://www.tuicool.com/articles/jquuyij

R

参考:http://jingyan.baidu.com/article/c33e3f48f6ac20ea14cbb55f.html 分为4类:测、分类、聚类和关联参考 * 预测:连续因变量

stats包 lm函数,实现多元线性回归 stats包 glm函数,实现广义线性回归 stats包 nls函数,实现非线性最小二乘回归 rpart包 rpart函数,基于CART算法的分类回归树模型 RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点 adabag包 bagging函数,基于rpart算法的集成算法 adabag包 boosting函数,基于rpart算法的集成算法 randomForest包 randomForest函数,基于rpart算法的集成算法 e1071包 svm函数,支持向量机算法 kernlab包 ksvm函数,基于核函数的支持向量机 nnet包 nnet函数,单隐藏层的神经网络算法 neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法 RSNNS包 mlp函数,多层感知器神经网络 RSNNS包rbf函数,基于径向基函数的神经网络 分类:离散因变量 stats包 glm函数,实现Logistic回归,选择logit连接函数 stats包 knn函数,k最近邻算法 kknn包 kknn函数,加权的k最近邻算法 rpart包 rpart函数,基于CART算法的分类回归树模型 adabag包bagging函数,基于rpart算法的集成算法 adabag包boosting函数,基于rpart算法的集成算法 randomForest包randomForest函数,基于rpart算法的集成算法 party包ctree函数,条件分类树算法 RWeka包OneR函数,一维的学习规则算法 RWeka包JPip函数,多维的学习规则算法 RWeka包J48函数,基于C4.5算法的决策树 C50包C5.0函数,基于C5.0算法的决策树 e1071包svm函数,支持向量机算法 kernlab包ksvm函数,基于核函数的支持向量机 e1071包naiveBayes函数,贝叶斯分类器算法 klaR包NaiveBayes函数,贝叶斯分类器算分 MASS包lda函数,线性判别分析 MASS包qda函数,二次判别分析 nnet包nnet函数,单隐藏层的神经网络算法 RSNNS包mlp函数,多层感知器神经网络 RSNNS包rbf函数,基于径向基函数的神经网络 聚类: Nbclust包Nbclust函数可以确定应该聚为几类 stats包kmeans函数,k均值聚类算法 cluster包pam函数,k中心点聚类算法 stats包hclust函数,层次聚类算法 fpc包dbscan函数,密度聚类算法 fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类 fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数 mclust包Mclust函数,期望最大(EM)算法 关联规则: arules包apriori函数,Apriori关联规则算法

数据挖掘 2

回归
类别PythonRPySparkJava普通最小二乘法回归(ols)statsmodels.ols、sklearn.linear_model.LinearRegression…..…..…..

参考博客: [1] http://blog.csdn.net/nkwangjie/article/details/17503941 [2] http://www.cnblogs.com/SandyKid/p/6142610.html

转载请注明原文地址: https://www.6miu.com/read-80682.html

最新回复(0)