医疗与灾害信息处理的机器学习应用探索
医疗数据处理与分类
数据预处理
在医疗数据处理中,首先要进行数据预处理。对于异常值,采用如下规则进行处理:
if: value
i j
> 1.5 ∗it_qt_ran;
remove
i j
即去除那些超出1.5倍四分位距的数据点,然后重新可视化数据分布并评估偏度。同时,数据预处理和分类步骤要求样本中的任何特征都不能有缺失数据点。由于初始数据集中存在大量缺失数据点,因此选择丢弃缺失样本,而非从某些特征相对稀疏的数据中插补值。
特征提取与选择
观察发现有些特征更常一起被收集。处理方式如下:
1. 移除仅在少量样本中出现的特征。
2. 将可能一起收集的特征组织成组,对每个组分别进行预处理和特征评估。
为了识别亲和组(即通常一起出现的特征),创建了“缺失”数据框,若测量值存在,给定测量和ICU停留的值为0;若测量值缺失,则为1,这样就能计算相关系数。
采用了两种特征选择和提取方法:
1. Chi2分数(ჶ_chi) :
chi_scores[] = sort(calc_scores_chi(Δᵢ, p=0.001)) ; ჶ_chi=chi_scores[i=0, ..12]
图表特征被分为四个块,共103个特征满足标准(p值 ≤0.001),可进入重组和分类阶
超级会员免费看
订阅专栏 解锁全文
1029

被折叠的 条评论
为什么被折叠?



