R语言GLM包相关问题 PHP数组定义及比较 git pull 2016.08.04回顾

最新推荐文章于 2025-11-09 11:45:06 发布

原创

最新推荐文章于 2025-11-09 11:45:06 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#R #GLM #PHP #GIT

本文讨论了在风控系统中使用R语言GLM包遇到的问题，包括模型运行时表的调用顺序及其可能导致的错误。此外，介绍了PHP数组的不同定义方式，并对比了Python的语法。还提到了Git的`git pull`操作在团队协作中的应用。文章重点探讨了R语言GLM包的wald检验，理解其统计意义以及在模型变量筛选中的作用。最后，对于Logistic回归模型的解释性和woe编码自变量的适用性进行了疑问和思考。

1、上午排查了风控系统的问题，重新计算金额和重跑模型需要整合！前端已经限制多次点击重跑模型按钮！模型的SQL同时跑有可能会出现，找不到某个表的错误，因为调用表的时候，表可能被另外正在跑的SQL给DROP掉了，恰好会出现SQL找不到表错误！搞清楚了调用次序是re_model->lptrigger_fraud->model，传征信的调用顺序是parse->lptrigger_fraud->model。但是我发现日志中相同时间的可能次序不一样（或者秒后还有毫秒被省略我无法看见）

2、php数组我以前一直以array()的形式建数组，比如$data = array('a','b','c')，昨天我才发现是可以直接建的$data = ['a','b','c']，而且可以直接把索引写出来，比如$data['test'] = ['a','b','c'=>'haha']，这样就直接建了一个名叫$data的关联(混合？)数组，有一个key是test，python还不能这样直接建，php这种方法要方便多了，我以前一直用array去建的，而且好像python并不能杂糅的写，list就是list，dict就是dict，python杂糅的写上面的例子就是data = ['a','b',{'c':'cc'}]，需要用dict的{}包一下

3、更新了风控系统一个小逻辑

4、昨天还有很大部分时间在研究一些细节问题，关于R语言的GLM包输出logistic建模的结果的时候会输出一个统计量Z的值，我不知道这个Z是什么统计量，是用的什么统计检验方法，后来查了很多资料，我搞清楚了这个统计检验方法叫做wald检验，是检验回归系数的显著性，原假设是系数等于0，p小于0.05拒绝原假设(显著性水平0.05)，至于这个检验方法的机制我不是很明白，需要一定的统计基础，我看起比较打脑壳，我只晓得现象就是，你不断添加或删除变量，某系数的统计值都会发生变化，相应的p值也会发生变化，有可能开始显著的变量再加入另外一个变量后就变得不显著了！但是我用实际的数据集实验了一下，观察到的现象是（可能存在局部偏见）那些很显著的变量随便怎么加其他变量好像还是很显著，而且p值变动很小，但是有些不那么显著的变量，有可能加进新变量后变化很大，

最低0.47元/天解锁文章