2017.05.23回顾 python引用赋值 reset_index pd.concat

博主在忙碌中坚持写博客,分享了23号的工作内容,包括编写SQL建模、修改接口、处理测试需求、组合AS结果、优化WOE工具箱。在数据处理过程中,遇到Python的引用赋值问题,通过numpy的copy方法解决了数组赋值导致的意外修改。此外,还讨论了如何判断离散和连续变量,并针对特定数据进行了分段处理。在模型建立时,博主思考了正确的模型评价方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这两天实在是太忙,甚至都忽略了写博客,今天把23和24的博客补起来,节奏不能乱,不管多忙,老子都要写博客,磨刀不费砍柴时,博客写好,后续的工作效率会更高

1、23号我上主要是在建模写拉数据的SQL,上午基本完成

2、测试来找我改一些假接口,测试FOX的写入需求,中午完成,都是有bug,下午改了几次

3、IT来找我,对AS结果进行组合,改好上线

4、下午剩余的时间继续建模,我对别人的WOE工具箱,进行了一些修改,已满足自己的需求,from sklearn.utils.multiclass import type_of_target,提供了一个type_of_target的方法,但是我发现把很多value的变量都认定为是离散变量,我并不了解,这是为什么,我修改了下逻辑,用len(set(A))>10去做判断,大于10即为连续变量,反之是离散变量。对于discrete方法,我用筛选方法只有>=0的来找做离散化,然后这里遇到了一个巨坑,就是我要对array进行赋值,x是一个array,我开始直接用的x_copy = x,然后后面改变x_copy的值,x也变了,我后来知道python和java对象赋值是引用传递,我用了numpy带的copy,x_copy = np.copy(x),这样就赋值过去了

5、在4之前我还遇到过一个和discrete相关的bug,根本原因就是引用传递造成,我前面先放了放,在4得到了解决

6、对于昨天类似于td_score这种变量,没办法五等分,因为一半多的变量value都是一个值,后来我是自己去做的分段

7、最后开始建模,有几点注意的地方

result = pd.concat([y_train,df_pred_prob,df_grade],axis=1)
pd.concat可以把几个dataframe合并,合并之前要注意把之前的index重置,
y_train = y_train.reset_index(drop=True)
8、建模后利用WOE工具箱的discrete去分grade

9、回家的时候一直在思考什么才是正确的模型评价方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值