利用数据挖掘预测住院时长
1. 数据预处理
为了便于后续的建模,对部分属性进行了转换:
- 对“Previous Admissions”和“LOS”变量应用对数变换 y = ln(x + 1) ,以减少偏度并改善变量分布的对称性。
- 将“Admission Hour”变量标准化为仅包含 24 个级别。
- 对具有大量级别的名义属性进行重新编码或标准化,以减少级别数量:
- “Education”从 14 个级别转换为 6 个级别。
- “Main Procedure”从数百个值转换为 16 个级别。
- “Main Diagnosis”从数百个值转换为 19 个级别。
- 根据医学知识,将“Age”数值属性转换为 5 个有序类别:
- A - 低于 15 岁
- B - 15 至 44 岁
- C - 45 至 64 岁
- D - 65 至 84 岁
- E - 85 岁及以上
2. 建模
在建模阶段,测试了六种回归方法,这些方法均在 rminer 包中实现:
1. 平均预测(AP) :一种简单的模型,预测值为训练集中的平均 LOS,用作比较的基线方法。
2. 多元回归(MR) :经典的统计模型,由方程 $\hat{y} = \beta_0 + \sum_{i = 1}^{I} \beta_i x_i$ 定义,通常使用普通最小二乘法(OLS)算法调整参数。
3. 决策树(D
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



