R语言GLM包相关问题 PHP数组定义及比较 git pull 2016.08.04回顾

本文讨论了在风控系统中使用R语言GLM包遇到的问题,包括模型运行时表的调用顺序及其可能导致的错误。此外,介绍了PHP数组的不同定义方式,并对比了Python的语法。还提到了Git的`git pull`操作在团队协作中的应用。文章重点探讨了R语言GLM包的wald检验,理解其统计意义以及在模型变量筛选中的作用。最后,对于Logistic回归模型的解释性和woe编码自变量的适用性进行了疑问和思考。

1、上午排查了风控系统的问题,重新计算金额和重跑模型需要整合!前端已经限制多次点击重跑模型按钮!模型的SQL同时跑有可能会出现,找不到某个表的错误,因为调用表的时候,表可能被另外正在跑的SQL给DROP掉了,恰好会出现SQL找不到表错误!搞清楚了调用次序是re_model->lptrigger_fraud->model,传征信的调用顺序是parse->lptrigger_fraud->model。但是我发现日志中相同时间的可能次序不一样(或者秒后还有毫秒被省略我无法看见)

2、php数组我以前一直以array()的形式建数组,比如$data = array('a','b','c'),昨天我才发现是可以直接建的$data = ['a','b','c'],而且可以直接把索引写出来,比如$data['test'] = ['a','b','c'=>'haha'],这样就直接建了一个名叫$data的关联(混合?)数组,有一个key是test,python还不能这样直接建,php这种方法要方便多了,我以前一直用array去建的,而且好像python并不能杂糅的写,list就是list,dict就是dict,python杂糅的写上面的例子就是data = ['a','b',{'c':'cc'}],需要用dict的{}包一下

3、更新了风控系统一个小逻辑

4、昨天还有很大部分时间在研究一些细节问题,关于R语言的GLM包输出logistic建模的结果的时候会输出一个统计量Z的值,我不知道这个Z是什么统计量,是用的什么统计检验方法,后来查了很多资料,我搞清楚了这个统计检验方法叫做wald检验,是检验回归系数的显著性,原假设是系数等于0,p小于0.05拒绝原假设(显著性水平0.05),至于这个检验方法的机制我不是很明白,需要一定的统计基础,我看起比较打脑壳,我只晓得现象就是,你不断添加或删除变量,某系数的统计值都会发生变化,相应的p值也会发生变化,有可能开始显著的变量再加入另外一个变量后就变得不显著了!但是我用实际的数据集实验了一下,观察到的现象是(可能存在局部偏见)那些很显著的变量随便怎么加其他变量好像还是很显著,而且p值变动很小,但是有些不那么显著的变量,有可能加进新变量后变化很大,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值