文章目录
目录1 通过 kaggle 经典案例掌握机器学习算法的通用流程1.1 机器学习应用领域1.2 机器学习常用算法1.3 常用工具1.4 建模与问题解决流程1.4.1 解决问题流程1.4.2 数据预处理(清洗,调权)1.4.3 特征工程、模型选择、交叉验证1.4.3.1 特征工程1.4.3.2 模型选择1.4.3.4 交叉验证
1.4.4 模型分析、模型融合1.4.4.1 模型分析【模型状态评估】1.4.4.2 模型融合1.4.4.2.1 概念1.4.4.2.2 Bagging1.4.4.2.3 Stacking1.4.4.2.3 Boosting Adaboost
1.5 kaggle wili案例
2 经济金融案例实践:房价与股市预测3 计算机广告实践:排序与CTR预估问题4 通过 KDD2013 比赛实践 NLP 问题
目录
1 通过 kaggle 经典案例掌握机器学习算法的通用流程
1.1 机器学习应用领域
经济相关 : 股市 、 房价等能源相关 : 产能预测 、 分配与合理利用NLP 相关 : 检索 、 分类 、 主题 、 相似度互联网用户行为 : CTR 预测销量预测 : 电商 、 连锁店 、 超市 …深度学习应用 : 图像内容理解推荐系统相关 : 电商推荐其他预测 : 气候 、
1.2 机器学习常用算法
1.3 常用工具
1.4 建模与问题解决流程
1.4.1 解决问题流程
了解场景和目标了解评估准则认识数据数据预处理( 清洗 , 调权 )特征工程模型调参模型状态分析模型融合
学习参考链接: http://blog.csdn.net/han_xiaoyang/article/details/50469334 http://blog.csdn.net/han_xiaoyang/article/details/52910022
1.4.2 数据预处理(清洗,调权)
数据清洗 不可信的样本丢掉 缺省值极多的字段考虑不用数据采样 下/上采样 保证样本均衡工具 hive sql/spark sql
1.4.3 特征工程、模型选择、交叉验证
1.4.3.1 特征工程
常见的特征类型:
数值型类别型时间类文本型统计型组合特征
学习参考链接: ApacheCN 预处理数据 preprocessing ApacheCN 特征提取 feature_extraction ApacheCN 特征选择 feature_selection
过滤型:sklearn
.feature_selection
.SelectKBest
包裹型:sklearn
.feature_selection
.RFE
嵌入型:feature_selection
.SelectFromModel;Linear model,L1正则化
1.4.3.2 模型选择
学习参考链接: ApacheCN 交叉验证:评估估算器的表现 preprocessing
1.4.3.4 交叉验证
学习参考链接: ApacheCN 调整估计器的超参数 grid_search ApacheCN 模型选择:选择估计量及其参数 model_selection
1.4.4 模型分析、模型融合
1.4.4.1 模型分析【模型状态评估】
模型状态:
过拟合(overfitting/high variance)欠拟合(underfitting/high bias)
Learning curve: : 学习曲线 plot learning curve: : 绘制学习曲线 参考链接:https://www.zybuluo.com/hanxiaoyang/note/545131
分割线,以下内容需要继续整合
1.4.4.2 模型融合
学习参考链接: ApacheCN 集成方法 ensemble
1.4.4.2.1 概念
简单说来 , 我们信奉几条信条
群众的力量是伟大的,集体智慧是惊人的 -Bagging
随机森林/Random forest 站在巨人的肩膀上,能看得更远
-模型stacking 一万小时定律
Adaboost逐步增强树/Gradient Boosting Tree
1.4.4.2.2 Bagging
模型很多时候效果不好的原因是什么?
过拟合啦!!! 如何缓解?
少给点题,别让它死记硬背这么多东西多找几个同学来做题,综合一下他们的答
用一个算法
不用全部的数据集,每次取一个子集训练一个模型分类:用这些模型的结果做vote回归:对这些模型的结果取平均 用不同的算法
用这些模型的结果做vote 或 求平均 用多种predictor结果作为特征训练
1.4.4.2.3 Stacking
用多种predictor结果作为特征训练
1.4.4.2.3 Boosting Adaboost
考得不好的原因是什么?
还不够努力,练习题要多次学习 -> 重复迭代和训练时间分配要合理,要多练习之前做错的题 -> 每次分配给分错的样本更高的权重我不聪明,但是脚踏实地,用最简单的知识不断积累,成为专家 -> 最简单的分类器的叠加
1.5 kaggle wili案例
2 经济金融案例实践:房价与股市预测
解决高纬数据分类/回归问题案例非标准数据处理
3 计算机广告实践:排序与CTR预估问题
4 通过 KDD2013 比赛实践 NLP 问题