Seer*Stat乳腺癌数据预测模型-Step3特征选择

本文介绍了在Seer*Stat乳腺癌数据预测模型中,作者采用方差阈值、主成分分析和ExtraTreesClassifier进行特征选择的方法。通过比较不同特征选择策略对模型性能的影响,最终确定了包括Psite,ajcc,cs,rx,和Survival.month在内的特征组合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Seer*Stat乳腺癌数据预测模型-Step3特征选择

这里特征选择我采用了三种方法,基于方差阈值,主成分分析和ExtraTreesClassifier这三种方法进行特征选择,最后通过比较同一个模型的准确率和召回率来确定最后的一些特征。

方差阈值法

方差:顾名思义,在一个单一的度量中显示分布的可变性。它显示了分布是如何分散的,并显示了平均距离的平方: 使用零方差的特性只会增加模型的复杂性,而不会增加它的预测能力。相当于这个特征没有发生变化,每个特征都是相同的值而对最后的结果并没有什么影响。
在这里插入图片描述
比较方差和特征归一化,将特征值除以均值来进行归一化。

from sklearn.feature_selection import VarianceThreshold
vt=VarianceThreshold()#需要将数字特征放到同一个数据集中,因为估计器无法识别分类特征。
df_number=df.select_dtypes(include="number")
#transformed=vt.fit_transform(df_number)
_ = vt.fit(df_number)
mask = vt.get_support()
df_number=df_number.loc[:,mask]
print(f'df的shape:{df.shape},df_number的shape:{df_number.shape}')
df_normal=df_number/df_number.mea
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值