kaggle 经典案例掌握机器学习算法的通用流程

xiaoxiao2025-10-08 8

文章目录

目录1 通过 kaggle 经典案例掌握机器学习算法的通用流程1.1 机器学习应用领域1.2 机器学习常用算法1.3 常用工具1.4 建模与问题解决流程1.4.1 解决问题流程1.4.2 数据预处理（清洗，调权）1.4.3 特征工程、模型选择、交叉验证1.4.3.1 特征工程1.4.3.2 模型选择1.4.3.4 交叉验证 1.4.4 模型分析、模型融合1.4.4.1 模型分析【模型状态评估】1.4.4.2 模型融合1.4.4.2.1 概念1.4.4.2.2 Bagging1.4.4.2.3 Stacking1.4.4.2.3 Boosting Adaboost 1.5 kaggle wili案例 2 经济金融案例实践：房价与股市预测3 计算机广告实践：排序与CTR预估问题4 通过 KDD2013 比赛实践 NLP 问题

1 通过 kaggle 经典案例掌握机器学习算法的通用流程

1.1 机器学习应用领域

经济相关：股市、房价等能源相关：产能预测、分配与合理利用NLP 相关：检索、分类、主题、相似度互联网用户行为： CTR 预测销量预测：电商、连锁店、超市 …深度学习应用：图像内容理解推荐系统相关：电商推荐其他预测：气候、

1.2 机器学习常用算法

1.3 常用工具

1.4 建模与问题解决流程

1.4.1 解决问题流程

了解场景和目标了解评估准则认识数据数据预处理（清洗，调权 )特征工程模型调参模型状态分析模型融合

学习参考链接： http://blog.csdn.net/han_xiaoyang/article/details/50469334 http://blog.csdn.net/han_xiaoyang/article/details/52910022

1.4.2 数据预处理（清洗，调权）

数据清洗不可信的样本丢掉  缺省值极多的字段考虑不用数据采样  下/上采样保证样本均衡工具  hive sql/spark sql

1.4.3 特征工程、模型选择、交叉验证

1.4.3.1 特征工程

常见的特征类型：

数值型类别型时间类文本型统计型组合特征

学习参考链接： ApacheCN 预处理数据 preprocessing ApacheCN 特征提取 feature_extraction ApacheCN 特征选择 feature_selection

过滤型：sklearn.feature_selection.SelectKBest 包裹型：sklearn.feature_selection.RFE 嵌入型：feature_selection.SelectFromModel；Linear model，L1正则化

1.4.3.2 模型选择

学习参考链接： ApacheCN 交叉验证：评估估算器的表现 preprocessing

1.4.3.4 交叉验证

学习参考链接： ApacheCN 调整估计器的超参数 grid_search ApacheCN 模型选择：选择估计量及其参数 model_selection

1.4.4 模型分析、模型融合

1.4.4.1 模型分析【模型状态评估】

模型状态：

过拟合(overfitting/high variance)欠拟合(underfitting/high bias)

Learning curve: : 学习曲线 plot learning curve: : 绘制学习曲线参考链接：https://www.zybuluo.com/hanxiaoyang/note/545131

分割线，以下内容需要继续整合

1.4.4.2 模型融合

学习参考链接： ApacheCN 集成方法 ensemble

1.4.4.2.1 概念

简单说来，我们信奉几条信条

群众的力量是伟大的，集体智慧是惊人的 -Bagging 随机森林/Random forest 站在巨人的肩膀上，能看得更远 -模型stacking 一万小时定律 Adaboost逐步增强树/Gradient Boosting Tree

1.4.4.2.2 Bagging

模型很多时候效果不好的原因是什么？过拟合啦！！！如何缓解？少给点题，别让它死记硬背这么多东西多找几个同学来做题，综合一下他们的答

用一个算法不用全部的数据集，每次取一个子集训练一个模型分类：用这些模型的结果做vote回归：对这些模型的结果取平均用不同的算法用这些模型的结果做vote 或求平均用多种predictor结果作为特征训练

1.4.4.2.3 Stacking

用多种predictor结果作为特征训练

1.4.4.2.3 Boosting Adaboost

考得不好的原因是什么？

还不够努力，练习题要多次学习 -> 重复迭代和训练时间分配要合理，要多练习之前做错的题 -> 每次分配给分错的样本更高的权重我不聪明，但是脚踏实地，用最简单的知识不断积累，成为专家 -> 最简单的分类器的叠加