dataset = pd.read_csv(’/content/drive/My Drive/test_lightGBM/EUR_USD_NEWS_SOCIAL_daily_fe.csv’)
y = dataset[‘bid_chg_on’].values
x = dataset.drop(columns=[‘date’,‘bid_chg_on’,‘ask_chg_on’,‘bid_chg_1w’,‘ask_chg_1w’,‘bid_chg_1m’,‘ask_chg_1m’,‘bid_chg_2m’,‘ask_chg_2m’,‘bid_chg_3m’,‘ask_chg_3m’,‘bid_chg_6m’,‘ask_chg_6m’])
# 创建 feature-selector 实例,并传入features 和labels
fs = FeatureSelector(data = x, labels = y)
fs.identify_missing(missing_threshold=0.3)
fs.ops[‘missing’]
fs.plot_missing()
本文介绍了使用Python的pandas库读取CSV文件并进行特征选择的过程。通过创建FeatureSelector实例,对数据集中的缺失值进行分析,设定阈值为0.3,以识别和处理可能影响模型训练的缺失特征。
1311

被折叠的 条评论
为什么被折叠?



