这周主要做了模型训练和离线数据统计,模型训练:由于正样本:负样本大约为11:1,因此主要是分配数据方式不一样,一种是按全量正负样本1:1,训练测试集3:1;另一种是按训练集中正负样本:1:1,测试集中全为正样本;用的是LGBM,图中遇到模型特征重要度跟平常不太一样,不是处于0-1之间,但翻看python api源码得知,其返回就是一个计算重要度得到的值;另外调试代码的时候注意,遇到除了本文件之外文件报错,也可以用ctrl+鼠标来定位,copy错误提示,找到源码处咋写的;另外做了离线数据统计,主要是将得到的概率值进行区间划分,使其区间内的特定指标区分度较大,主要由3种方式:1)均匀划分概率区间,以0.1为间隔,统计10各区间内样本特定列的数量,以及指标;2)按照1)的基础,在1)上大致找到关注的区分度指标的分布情况,人为找到区分点;3)将公司是否吊销,与其预测得到的概率值作为样本,输入到decesion_tree中,设置相关参数,找到最佳分割点,所谓的ctree指的是python中集成的多种与树有关的算法;需要学习的东西:pycharm工具的使用,git的使用,api是什么东西,怎么写的?python初始化变量的机制;