今天主要是建模的事情,小结一下
1、我使用了6种不同的y定义,然后写了一个程序去计算平均iv,这个程序中主要是对pandas的回顾
- 多dataframe的组合,
默认axis=0,就按行组合,相同的表头会忽略掉,重新起序号,用ignore_index = Truepd.concat((df1,df2,df3,df4,df5,df6),ignore_index=True)
- df的groupby,这个是第一次使用,
后面可以接聚合函数sum()或者mean()等,我后头除以6是对里面每一个元素除以了6,我突然发现我并没有指定列,另外一列是IV,但是最后的结果是达到了我的预期,这个里是个坑啊,需要有空来填啊df_total.groupby(['column_name']).sum()/6
- 然后就dataframe排序,还是用的一个即将废弃的方法,df.sort(columns='IV', inplace=True, ascending = 0),新的用法是
df_avg.sort_values(by='IV',inplace=True, ascending = 0)
- df.to_csv有个参数可以不存储index,这个参数就叫index=False就可以了,default是True
2、尝试写真正的y定义,但是发现没索引很慢作罢
3、思考了一下如何在时间稳定性上考虑,一种综合的考虑方法就是时间和y定义进行列联,求平均iv,当然也可以设定一个稳定性参数,求出稳定性,这样在两方面都很稳定,但是要注意样本容量的问题,有可能样本量小会得出错误的决定,还有种就是找真正y定义,然后观察一下,这种就是比较片面的抽查,可以感性看看
4、对了上午干了一件蠢事,给rep讲解一些逻辑的问题,也是醉了,确实是浪费时间,那个问题基本占用了我上午的时间
总的说来,感觉今天做的事不多,原因是思考得可能比较慢,然后SQL等待时间比较长,可能还有一些发呆吧,可能还有一些体力重复工作,我觉得还是要睡个午觉,是最稳的保证战斗力的方式。