kaggle 经典案例掌握机器学习算法的通用流程

xiaoxiao2025-10-08  8

文章目录

目录1 通过 kaggle 经典案例掌握机器学习算法的通用流程1.1 机器学习应用领域1.2 机器学习常用算法1.3 常用工具1.4 建模与问题解决流程1.4.1 解决问题流程1.4.2 数据预处理(清洗,调权)1.4.3 特征工程、模型选择、交叉验证1.4.3.1 特征工程1.4.3.2 模型选择1.4.3.4 交叉验证 1.4.4 模型分析、模型融合1.4.4.1 模型分析【模型状态评估】1.4.4.2 模型融合1.4.4.2.1 概念1.4.4.2.2 Bagging1.4.4.2.3 Stacking1.4.4.2.3 Boosting Adaboost 1.5 kaggle wili案例 2 经济金融案例实践:房价与股市预测3 计算机广告实践:排序与CTR预估问题4 通过 KDD2013 比赛实践 NLP 问题

目录

1 通过 kaggle 经典案例掌握机器学习算法的通用流程

1.1 机器学习应用领域

经济相关 : 股市 、 房价等能源相关 : 产能预测 、 分配与合理利用NLP 相关 : 检索 、 分类 、 主题 、 相似度互联网用户行为 : CTR 预测销量预测 : 电商 、 连锁店 、 超市 …深度学习应用 : 图像内容理解推荐系统相关 : 电商推荐其他预测 : 气候 、

1.2 机器学习常用算法

1.3 常用工具

1.4 建模与问题解决流程

1.4.1 解决问题流程

了解场景和目标了解评估准则认识数据数据预处理( 清洗 , 调权 )特征工程模型调参模型状态分析模型融合

学习参考链接: http://blog.csdn.net/han_xiaoyang/article/details/50469334 http://blog.csdn.net/han_xiaoyang/article/details/52910022

1.4.2 数据预处理(清洗,调权)

数据清洗 不可信的样本丢掉  缺省值极多的字段考虑不用数据采样  下/上采样 保证样本均衡工具  hive sql/spark sql

1.4.3 特征工程、模型选择、交叉验证

1.4.3.1 特征工程

常见的特征类型:

数值型类别型时间类文本型统计型组合特征

学习参考链接: ApacheCN 预处理数据 preprocessing ApacheCN 特征提取 feature_extraction ApacheCN 特征选择 feature_selection

过滤型:sklearn.feature_selection.SelectKBest 包裹型:sklearn.feature_selection.RFE 嵌入型:feature_selection.SelectFromModel;Linear model,L1正则化

1.4.3.2 模型选择

学习参考链接: ApacheCN 交叉验证:评估估算器的表现 preprocessing

1.4.3.4 交叉验证

学习参考链接: ApacheCN 调整估计器的超参数 grid_search ApacheCN 模型选择:选择估计量及其参数 model_selection

1.4.4 模型分析、模型融合

1.4.4.1 模型分析【模型状态评估】

模型状态:

过拟合(overfitting/high variance)欠拟合(underfitting/high bias)

Learning curve: : 学习曲线 plot learning curve: : 绘制学习曲线 参考链接:https://www.zybuluo.com/hanxiaoyang/note/545131


分割线,以下内容需要继续整合

1.4.4.2 模型融合

学习参考链接: ApacheCN 集成方法 ensemble

1.4.4.2.1 概念

简单说来 , 我们信奉几条信条

群众的力量是伟大的,集体智慧是惊人的 -Bagging 随机森林/Random forest 站在巨人的肩膀上,能看得更远 -模型stacking 一万小时定律 Adaboost逐步增强树/Gradient Boosting Tree
1.4.4.2.2 Bagging
模型很多时候效果不好的原因是什么? 过拟合啦!!! 如何缓解? 少给点题,别让它死记硬背这么多东西多找几个同学来做题,综合一下他们的答
用一个算法 不用全部的数据集,每次取一个子集训练一个模型分类:用这些模型的结果做vote回归:对这些模型的结果取平均 用不同的算法 用这些模型的结果做vote 或 求平均 用多种predictor结果作为特征训练
1.4.4.2.3 Stacking
用多种predictor结果作为特征训练
1.4.4.2.3 Boosting Adaboost

考得不好的原因是什么?

还不够努力,练习题要多次学习 -> 重复迭代和训练时间分配要合理,要多练习之前做错的题 -> 每次分配给分错的样本更高的权重我不聪明,但是脚踏实地,用最简单的知识不断积累,成为专家 -> 最简单的分类器的叠加

1.5 kaggle wili案例

2 经济金融案例实践:房价与股市预测

解决高纬数据分类/回归问题案例非标准数据处理

3 计算机广告实践:排序与CTR预估问题

4 通过 KDD2013 比赛实践 NLP 问题

转载请注明原文地址: https://www.6miu.com/read-5037570.html

最新回复(0)