2017.07.06-2017.07.07回顾 信息熵的坑 多重共线性实践

xiaoxiao2021-02-28  59

上周最后两天比较忙,没来得及写小结,这里补充一下

上周还是忙建模的事情,稳定性上进行一些新的探索,周四还面试了几个人,有些知识不用确实容易忘记,但是有什么办法呢,只有一遍一遍去理解,面试别人的时候也不用着急,也不要怕丢人,现场去推理,这样也可以检验对方的水平,就是个探讨,技术上没有什么丢人不丢人。

再次回忆了gini系数的计算,但是我有一个地方回忆错了,两分类的会根据样本数占划分前的比例进行加权求和,我之前的分析并没有考虑到不同样本量的影响

巩固了极大似然估计,推导出的logistic回归损失函数

香农信息熵昨天想了哈,我想到直接log2(P),其实叫做信息,然而香农熵是各个类别信息的期望所以,还要乘以一个∑plog(p),当他节点分化的时候处理方式就同gini,但是其实log(p)直接等权重加合也可以拿来度量不纯度啊,并没有想到有什么缺点,可以在这里留一个坑,以后在解决。

其他更多是建模中的体力活好像并没有什么可小结的。

最后拟合出来发现一些神奇的现象,直接系数是和单变量分析的时候是相反的,查询了下,最后的结论是多重共线性的影响,这种变量并不可取,而且这个变量在L1下会直接被缩减到0,如果用以前R那种对系数进行统计检验的方法,那个系数的p应该很大,接受原假设参数为0

然后我又尝试了下用一个高度相关的变量带进回归方程中,结果也很神奇,加入的高相关变量系数变成了0,所以果然不能选进模型,所以有一点可以肯定,logistic regression要解决多重共线性的问题,至于说具体作用机制,可以需要在数学层去理解!

看了下sklearn的logistic,其中一些参数不是很明白,但是大概这个机器学习的方法,讲究L1/L2惩罚,但是不讲究假设检验,逐步回归等方法,最优模型选择等,跟偏统计的工具不太一样,参数并没有太多可以控制的东西!

转载请注明原文地址: https://www.6miu.com/read-41912.html

最新回复(0)