pandas 列操作

原创

已于 2023-12-07 10:41:33 修改 · 3.8k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #数据分析

于 2020-12-17 19:54:24 首次发布

1. 列的查改增删

1.1 列选择与排序

# 根据列名选择指定列
df_cc = data[['cc1', 'cc2']]
X = df.loc[:, fe_cols]
y = df.loc[:, ['label']]
# 选择指定数据类型的列,保留4位小数
for i in df.select_dtypes(include=['float64']).columns.tolist():
    df[i] = round(df[i], ndigits=4)
# 按指定列排序（按aa生序，bb降序）
data = data.sort_values(by=['aa', 'bb'], ascending=[True,False])

1.2 删除指定列

# 删除指定列
df_aa = data['aa']
df_bb = data['bb']
data.drop(labels=['aa', 'bb'], axis=1, inplace=True)
 
# 删除索引列
data = data.reset_index(drop=True)

1.3 修改列

# 更改列名
data.columns = ['aa_new', 'bb_new']
# 针对某一列进行值替换（将字段‘aa’中的-1全部替换成0）
data = data['aa'].replace(-1, 0, inplace=True)
# 更改数据类型
data['aa'] = dd['aa'].astype(np.float64)
data[['aa', 'bb']] = data[['aa', 'bb']].astype(int)
# 因为numpy.ndarray.astype内存分配开销,astype会比较慢
data.values.astype(np.flo