python数据挖掘笔记(1)—数据预处理

xiaoxiao2021-02-28  66

一、数据清洗 1.缺失值处理 均值,中位数,众数插补 使用固定值 最近邻插补 回归方法 插值法(拉格朗日插值法,lagrange();牛顿插值法;样条插值法,等等) 2.异常值处理 删除含有异常值的记录 视为缺失值 平均值修正 不处理(是在引起异常的原因正常的情况下) 二、数据集成 数据挖掘需要的数据往往分布在不同的数据源里,数据集成就是把多个数据源合并到一个一致的数据存储。 三、数据变换 1.简单函数变换 如可把不具有正态分布的数据变换成正态分布的数据 简单的对数变换或差分变换可以把非平稳序列变成平稳序列 可使用对数变换将大区间数据压缩变换成小区间数据 2.规范化 最小-最大规划化,也称离差标准化,将数据映射到[0,1]之间 零-均值规范化,也称标准差标准化,处理后数据均值为0,标准差为1 小数定标规范化 通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。 3.连续属性离散化 就是再数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。 等宽法 等频法 基于聚类分析的方法 4.属性构造 利用已有属性集构造新的属性。 5.小波变换 小波变换的方法在信号处理,图像处理,语音处理,模式识别,量子物理等领域都有广泛的应用 小波基函数是一种具有局部支集的函数,且平均值为0,小波基函数满足 四、数据规约 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集,在规约后的数据集上进行分析和挖掘更有效率。 1.属性规约 属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从而提高数据挖掘效率,降低计算成本。主要方法有: 合并属性 逐步向前选择 逐步向后删除 决策树归纳 主成分分析 from sklearn.decomposition import PCA 2.数值规约 数值规约通过选择替代的,较小的数据来减少数据量。主要方法有: 有参数方法:只需存放参数,不需要存放实际数据 线性回归 多元回归 对数线性模型 无参数方法:需要存放实际数据 频率直方图 聚类 抽样
转载请注明原文地址: https://www.6miu.com/read-76197.html

最新回复(0)