2017.06.06回顾三种构造dataframe的方法多重共线性开坑

xiaoxiao2021-02-28 112

1、和星期一上午一样的问题，就是精神不好，打瞌睡，我后面的主要工作就是把注册信息变量提取整理做到建模表中，上午还日常看了下股票，亏得他妈一塌糊涂

2、下午一来就是继续v7的开发，关于上一个工作日的两个list合成dataframe的方法，我觉得是存在问题，感觉到太繁琐了，我于是查了下资料，我震惊了，原来那么简单，我并且根据这个总结了三种不同的构造dataframe的方法

#三种构造dataframe的方法 import pandas as pd ds1 = [{'a':1,'b':2},{'a':3,'b':4},{'a':5,'b':6}] df1 = pd.DataFrame(ds1) print 'method 1:' print df1 ds2 = [[1,2],[3,4],[5,6]] df2 = pd.DataFrame(ds2,columns=['a','b']) print 'method 2:' print df2 a = [1,3,5] b = [2,4,6] df3 = pd.DataFrame({'a':a,'b':b}) print 'method 3:' print df3

3、把模型序列化到硬盘这种说法没有，这个存储过程就叫做序列化，自信

4、然后根据两个list的组合方法，重新组合了dataframe，然后进行了排序，IV大小，一目了然，但是这种方法我发现一个小问题，就是组成的dataframe的变量顺序可能不是dict里面的书写顺序

5、我嫌WOE的值的输出，肉眼非常不好看，我尝试进行格式化输出，格式化输出第一个遇到的问题就是类型存储问题，需要用numpy的格式转换方法进行转换，x_copy.astype(np.str_)，我看到网上的示例，变量类型也是写的numpy的类型，这个转换需要重新赋值，然后就可以赋值字符串了，开始的字符串格式化方式，不方便按key进行排序，最后我想了个办法，在格式化字符串前面加标号，这样就方便对key值进行排序

6、外部首先把column_name和woe存储到一个dict中

woe_list = list(res_woe) woe_dict = dict(zip(name_list, woe_list))zip两个list，然后用dict进行类型转换

7、为了方便观看对dict按key进行排序，方法是

sorted(woe_dict['ANTI_FRD_SCORE'].items(),key = lambda item:item[0])这里woe_dict['ANTI_FRD_SCORE']也是一个dict，最后输出的时候循环输出，可视化效果更佳

8、我开始研究新的变量，但是发现有个产品已经停用很久了

9、我灵机一动，想到查看一下同盾欺诈分和多头次数的关系，真的是不查不知道，一查吓一跳，0.93的相关系数，高度相关，然后要下班的时候就和Simon讨论这个强相关的问题，其实这里就有一个坑，我对多重共线性对于logistic regression的影响理解其实并不充分，主要没从数学推倒的角度去理解过，也没从实验的角度去理解过，然后晚上的时间我主要都是尝试去了解多重共线性对于logistic regression的影响，那看了这么多，我自己来复述一下，多重共线性对于逻辑回归有哪些影响？

使得系数不稳定，增减样本，或者增减变量，都会使得系数发生很大的变化，甚至负号反向解释性上受到影响，这个主要场景就是医学上那种，比如吸烟人群是不吸烟人群患肺癌概率的两倍参数估计不准确，如果参数不准，那最后输出的结果就不准确，其实这点我自己都没能理解，按照最小化损失函数，算出参数，是什么就是什么，为什么会不准呢？感觉网上的人也有点嘴炮，没的数学证明，没得实验过程说明，就一条一条摆出来，向是文科考试一样，这个问题，我后面还要深入研究，我一定要把多头次数的信息干掉，没用的信息！ 10、晚上就放开可以W，但是运动和12点前睡觉一定要坚持，还要轻轨上的碎片时间，一定用来解决一些生活中的问题！

转载请注明原文地址: https://www.6miu.com/read-32660.html

技术

最新回复(0)

2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑

技术

2017.06.06回顾三种构造dataframe的方法多重共线性开坑