19、利用数据挖掘预测住院时长

利用数据挖掘预测住院时长

1. 数据预处理

为了便于后续的建模,对部分属性进行了转换:
- 对“Previous Admissions”和“LOS”变量应用对数变换 y = ln(x + 1) ,以减少偏度并改善变量分布的对称性。
- 将“Admission Hour”变量标准化为仅包含 24 个级别。
- 对具有大量级别的名义属性进行重新编码或标准化,以减少级别数量:
- “Education”从 14 个级别转换为 6 个级别。
- “Main Procedure”从数百个值转换为 16 个级别。
- “Main Diagnosis”从数百个值转换为 19 个级别。
- 根据医学知识,将“Age”数值属性转换为 5 个有序类别:
- A - 低于 15 岁
- B - 15 至 44 岁
- C - 45 至 64 岁
- D - 65 至 84 岁
- E - 85 岁及以上

2. 建模

在建模阶段,测试了六种回归方法,这些方法均在 rminer 包中实现:
1. 平均预测(AP) :一种简单的模型,预测值为训练集中的平均 LOS,用作比较的基线方法。
2. 多元回归(MR) :经典的统计模型,由方程 $\hat{y} = \beta_0 + \sum_{i = 1}^{I} \beta_i x_i$ 定义,通常使用普通最小二乘法(OLS)算法调整参数。
3. 决策树(D

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值