提升患者住院时长预测及张量表达式编译优化
在医疗和科学计算领域,患者住院时长(LOS)预测以及张量表达式的高效计算都是重要的研究方向。下面将分别介绍这两方面的研究内容。
患者住院时长预测研究
在患者住院时长预测的研究中,为了提高预测的准确性和效率,研究人员采取了一系列的数据处理和模型构建方法。
数据处理
- 引入新特征 :考虑到住院时长(LOS)与年龄的相关性,研究引入了“上一年度中位住院时长”这一新特征。根据患者的年龄组,计算上一年度的中位住院时长,并在数据集中标记为“median intage”。
- 对数变换 :由于数据集的高度偏态性,对LOS数据字段进行了对数变换,使其更接近正态分布,以确保线性回归等模型能达到最佳性能。
模型构建
- 模型选择 :选择了四种回归模型来进行LOS预测的实证评估,分别是线性回归、支持向量机(SVM)、随机森林(RF)和XGBoost。
- 数据划分 :将数据集划分为训练数据和测试数据,训练数据包含2014 - 2016年的记录,共157k条;测试数据为2017年的记录,有53k条。
- 特征选择 :为了在模型性能和计算成本之间取得平衡,仅选择了最优特征。使用随机森林(RF)和递归特征消除(RFE)进行特征选择。RF方法可以分离特征的信息增益,同时考虑问题的多变量性质的影响;RFE是一种包装类型的特
超级会员免费看
订阅专栏 解锁全文
527

被折叠的 条评论
为什么被折叠?



