特征处理

xiaoxiao2021-03-01  24

模型中所用到的变量按能否直接运算分为两类。

如果一个变量能直接运算,则为定量变量。对于这类变量,可以直接在模型里使用它。但是这样的使用方法隐含了变量的边际效应恒定这样一个假设。当需要去除这个隐藏的限制时,则可以将定量变量通过分段的方式转化为定性变量使用。

如果一个变量不能直接运算,则为定性变量。为了能在模型里使用这类变量,通常将其转化为多个虚拟变量使用。但对于有序的定性变量,这样处理会损失掉变量本身的顺序信息。特别是当模型有多个有序定性变量时,损失的信息量就更多了。为了尽可能地保留有序定性变量的信息,可以通过Ridit score将定性变量转化为定量变量使用。

 

转载请注明原文地址: https://www.6miu.com/read-4050139.html

最新回复(0)