忙碌总是好的~
本章主要记录一下各个语言的数据挖掘包及相关博客,便于以后调用,慢慢完善
官网: http://scikit-learn.org/stable/ api: http://scikit-learn.org/stable/modules/classes.html user guide: http://scikit-learn.org/stable/user_guide.html 优秀博客: http://www.jianshu.com/p/516f009c0875
类别:六大类
Classification 分类 Regression 回归 clustering 聚类 Dimensionality reduction 降维 Model selection 模式选择 Preprocessing 预处理安装包模块(0.16):
__check_build cluster 聚类 covariance 协方差 cross_decomposition 交叉降维 datasets 数据集 decomposition 降维 ensemble 集成学习 externals 模型持久化 feature_extraction 特征提取 feature_selection 特征选择 gaussian_process 高斯过程 linear_model 线性模型 manifold 流形学习 metrics 度量 mixture 混合 neighbors 邻居 neural_network 神经网络 preprocessing 预处理 semi_supervised 半监督学习 svm tests 测试 tree 决策树 utils官方文档: https://docs.scipy.org/doc/scipy/reference/ 子模块形式组织,大体模块1:
子模块 描述 constans 物理和数学常数 cluster 聚类算法 fftpack 快速傅立叶变换程序 integrate 集成和常微分方程求解器 interpolate 拟合和平滑曲线 io 输入和输出 linalg 线性代数 maxentropy 最大熵法 ndimage N维图像处理 odr 正交距离回归 optimize 最优路径选择 signal 信号处理 sparse 稀疏矩阵和以及相关程序 spatial 空间数据结构和算法 special 特殊函数 stats 统计上的函数和分布 weave C/C++ 整合(integration)官网: http://pandas.pydata.org/pandas-docs/stable/ 博客教程: http://python.jobbole.com/85742/ http://blog.csdn.net/yhb315279058/article/details/50226027
官网: http://www.numpy.org/
官网: http://www.labri.fr/perso/nrougier/teaching/matplotlib/ 博客 : 简单例子:http://phddreamer.blog.163.com/blog/static/18993409620135394944504/ 中文教程:http://www.tuicool.com/articles/jquuyij
参考:http://jingyan.baidu.com/article/c33e3f48f6ac20ea14cbb55f.html 分为4类:测、分类、聚类和关联参考 * 预测:连续因变量
stats包 lm函数,实现多元线性回归 stats包 glm函数,实现广义线性回归 stats包 nls函数,实现非线性最小二乘回归 rpart包 rpart函数,基于CART算法的分类回归树模型 RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点 adabag包 bagging函数,基于rpart算法的集成算法 adabag包 boosting函数,基于rpart算法的集成算法 randomForest包 randomForest函数,基于rpart算法的集成算法 e1071包 svm函数,支持向量机算法 kernlab包 ksvm函数,基于核函数的支持向量机 nnet包 nnet函数,单隐藏层的神经网络算法 neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法 RSNNS包 mlp函数,多层感知器神经网络 RSNNS包rbf函数,基于径向基函数的神经网络 分类:离散因变量 stats包 glm函数,实现Logistic回归,选择logit连接函数 stats包 knn函数,k最近邻算法 kknn包 kknn函数,加权的k最近邻算法 rpart包 rpart函数,基于CART算法的分类回归树模型 adabag包bagging函数,基于rpart算法的集成算法 adabag包boosting函数,基于rpart算法的集成算法 randomForest包randomForest函数,基于rpart算法的集成算法 party包ctree函数,条件分类树算法 RWeka包OneR函数,一维的学习规则算法 RWeka包JPip函数,多维的学习规则算法 RWeka包J48函数,基于C4.5算法的决策树 C50包C5.0函数,基于C5.0算法的决策树 e1071包svm函数,支持向量机算法 kernlab包ksvm函数,基于核函数的支持向量机 e1071包naiveBayes函数,贝叶斯分类器算法 klaR包NaiveBayes函数,贝叶斯分类器算分 MASS包lda函数,线性判别分析 MASS包qda函数,二次判别分析 nnet包nnet函数,单隐藏层的神经网络算法 RSNNS包mlp函数,多层感知器神经网络 RSNNS包rbf函数,基于径向基函数的神经网络 聚类: Nbclust包Nbclust函数可以确定应该聚为几类 stats包kmeans函数,k均值聚类算法 cluster包pam函数,k中心点聚类算法 stats包hclust函数,层次聚类算法 fpc包dbscan函数,密度聚类算法 fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类 fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数 mclust包Mclust函数,期望最大(EM)算法 关联规则: arules包apriori函数,Apriori关联规则算法参考博客: [1] http://blog.csdn.net/nkwangjie/article/details/17503941 [2] http://www.cnblogs.com/SandyKid/p/6142610.html