1. 列的查改增删
1.1 列选择与排序
# 根据列名选择指定列
df_cc = data[['cc1', 'cc2']]
X = df.loc[:, fe_cols]
y = df.loc[:, ['label']]
# 选择指定数据类型的列,保留4位小数
for i in df.select_dtypes(include=['float64']).columns.tolist():
df[i] = round(df[i], ndigits=4)
# 按指定列排序(按aa生序,bb降序)
data = data.sort_values(by=['aa', 'bb'], ascending=[True,False])
1.2 删除指定列
# 删除指定列
df_aa = data['aa']
df_bb = data['bb']
data.drop(labels=['aa', 'bb'], axis=1, inplace=True)
# 删除索引列
data = data.reset_index(drop=True)
1.3 修改列
# 更改列名
data.columns = ['aa_new', 'bb_new']
# 针对某一列进行值替换(将字段‘aa’中的-1全部替换成0)
data = data['aa'].replace(-1, 0, inplace=True)
# 更改数据类型
data['aa'] = dd['aa'].astype(np.float64)
data[['aa', 'bb']] = data[['aa', 'bb']].astype(int)
# 因为numpy.ndarray.astype内存分配开销,astype会比较慢
data.values.astype(np.flo