2017.07.04回顾 dataframe组合 groupby sort to_csv不存index

本文总结了一天的建模工作,包括使用不同定义的y变量计算平均IV值、DataFrame操作技巧、思考时间稳定性评估方法等内容,并反思了工作效率及时间管理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天主要是建模的事情,小结一下

1、我使用了6种不同的y定义,然后写了一个程序去计算平均iv,这个程序中主要是对pandas的回顾

  • 多dataframe的组合,
    pd.concat((df1,df2,df3,df4,df5,df6),ignore_index=True)
    默认axis=0,就按行组合,相同的表头会忽略掉,重新起序号,用ignore_index = True
  • df的groupby,这个是第一次使用,
    df_total.groupby(['column_name']).sum()/6
    后面可以接聚合函数sum()或者mean()等,我后头除以6是对里面每一个元素除以了6,我突然发现我并没有指定列,另外一列是IV,但是最后的结果是达到了我的预期,这个里是个坑啊,需要有空来填啊
  • 然后就dataframe排序,还是用的一个即将废弃的方法,df.sort(columns='IV', inplace=True, ascending = 0),新的用法是
    df_avg.sort_values(by='IV',inplace=True, ascending = 0)

  • df.to_csv有个参数可以不存储index,这个参数就叫index=False就可以了,default是True
2、尝试写真正的y定义,但是发现没索引很慢作罢

3、思考了一下如何在时间稳定性上考虑,一种综合的考虑方法就是时间和y定义进行列联,求平均iv,当然也可以设定一个稳定性参数,求出稳定性,这样在两方面都很稳定,但是要注意样本容量的问题,有可能样本量小会得出错误的决定,还有种就是找真正y定义,然后观察一下,这种就是比较片面的抽查,可以感性看看

4、对了上午干了一件蠢事,给rep讲解一些逻辑的问题,也是醉了,确实是浪费时间,那个问题基本占用了我上午的时间

总的说来,感觉今天做的事不多,原因是思考得可能比较慢,然后SQL等待时间比较长,可能还有一些发呆吧,可能还有一些体力重复工作,我觉得还是要睡个午觉,是最稳的保证战斗力的方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值