2016.12.05回顾 logistic自变量是分类变量

本文探讨了使用JoinQuant平台进行量化投资时遇到的问题及解决思路,并讨论了在信用评分模型中处理分类变量的方法。

1、又看了下joinquant,按财务指标选股的时候不加filler似乎可以挑选出全部A股的股,但是奇怪的是有个停牌(或者说已经退市的)出现在了名单之中(300372欣泰电气),是12月2号的数据,然后看了下小市值策略的代码,有两个做记录的成员变量,我不太清楚其意义何在?然后回测的持仓数据来看,可能存在一定的幸存者偏差,几乎之前的全是st股,然后我又用他所谓的40000%的去除st,去除停牌那个策略,回测太高了,高达70%+,根本不敢用啊!我要继续熟悉下joinquant的回测框架,确保回测结果是正确的。

2、然后下午主要就是重新建模加部署,写SQL,SQL过程中没有什么值得记录的地方,然后临近下班的时候开始弄一个问题就是如果不用woe,logistic自变量中的分类变量该怎么办,和博士讨论了下,自己也去查了下,一种普遍的说法是转换成哑变量,3类就是两个自变量,还有待进一步研究,可能虽然说我对于信用评分领域比较熟悉了,但是算法本身和应用场景我还不能称得上精通!



### SPSS 中二元 Logistic 回归分析中多分类自变量的设置与解读 #### 设置多分类自变量 在SPSS中进行二元Logistic回归时,如果遇到多分类自变量(即具有两个以上类别的变量),需要将其转换为哑变量(dummy variables)。这一过程可以通过SPSS自动完成。 具体操作如下: 1. 打开数据文件并进入`Analyze -> Regression -> Binary Logistic...`菜单。 2. 将因变量移入“Dependent”框内。 3. 对于多分类自变量,在“Covariates”列表中选中该变量后点击右侧箭头按钮前的小三角形展开更多选项,选择“Reference Category”,指定参照类别[^1]。 4. 如果希望手动创建哑变量,则可以在`Transform -> Automatic Recode`下将原始类别重新编码成数值型,并通过`Data -> Split File`功能分别针对不同水平运行模型;不过通常推荐让软件自行处理以减少人为错误的可能性。 #### 解读结果 对于由SPSS生成的结果表格,特别是关于系数估计的部分,需要注意以下几点来理解多分类自变量的影响: - **常数项 (Constant)**:表示当所有预测因子均为零或处于其基线状态下的事件发生概率对数比值。 - **B列**:显示各个参数对应的未标准化回归权重。对于非参考组而言,这些值反映了相对于设定为基础的那个特定类别的优势比变化量。 - **Exp(B) 列**:给出了各因素的优势比(OR),这是最直观衡量影响程度的方式之一。例如,若某个类别的 Exp(B)=2 ,意味着相比对照组来说,这个级别的个体患病几率提高了两倍。 - Wald χ² 测试用于评估单个协变量的重要性,而最终入选模型的是那些 p<0.05 的显著特征[^2]。 ```python import pandas as pd from statsmodels.formula.api import logit # 假设 df 是已经加载好的 DataFrame, 'outcome' 是二元结局变量, # 'category_var' 是一个多分类自变量. result = logit('outcome ~ C(category_var)', data=df).fit() print(result.summary()) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值