R语言中样本平衡的几种方法

xiaoxiao2021-02-28  92

在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们就认为它不平衡。

举个例子,假设我们有一个观测数为100000的数据集,它包含了哈佛大学申请人的信息。众所周知,哈佛大学以极低的录取比例而闻名,那么这个数据集的响应变量(即:该申请人是否被录取,是为1,否为0)就很不平衡,大致98%的观测响应变量为0,只有2%的幸运儿被录取。

在现实生活中,这类例子更是不胜枚举,我在下面列举了一些实例,请注意他们的不平衡度是不一样的。

l  一个自动产品质量检测机每天会检测工厂生产的产品,你会发现次品率是远远低于合格率的。

l  某地区进行了居民癌症普查,结果患有癌症的居民人数也是远远少于健康人群。

l  在信用卡欺诈数据中,违规交易数比合规交易少不少。

l  一个遵循6δ原则的生产车间每生产100万个产品才会产出10个次品。

生活中的例子还有太多,现在你可以发现获取这些非平衡数据的可能性有多大,所以掌握这些数据集的处理方法也是每个数据分析师的必修课。

 

常用样本平衡的处理办法

欠采样法

该方法主要是对大类进行处理。它会减少大类的观测数来使得数据集平衡。这一办法在数据集整体很大时较为

转载请注明原文地址: https://www.6miu.com/read-23475.html

最新回复(0)