Pandas进阶操作

本文详细介绍Pandas库中高级数据处理技巧,包括非空值计数、数据替换、类型筛选、排序、分组统计、透视表应用、虚拟变量创建及列过滤等,帮助读者掌握高效的数据分析方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记录一些日常用到的偏技巧性的pandas操作

返回各列非空值的个数,默认降序排序

  • loans_2007['loan_status'].value_counts()

替换为1和0

  • status_replace = { "loan_status" : { "Fully Paid": 1, "Charged Off": 0, } }
  • loans_2007 = loans_2007.replace(status_replace)  

选出特定类型的列

  • object_columns_df = loans.select_dtypes(include=["object"])
  • print(object_columns_df.iloc[0])  

按照某几列排序

  • data.sort_values(['Fare','Age'],ascending=False)

按照某列分组,groupby的使用

  • data.groupby(by='Sex').count()

透视表功能,不设置aggfunc方法的情况下,用的是均值

  • data.pivot_table(index='Pclass',values='Age',aggfunc=[len,mean,median]) 
  • 透视表创建完成后,一般需要重置索引列
  • data_reindexed = new_data.reset_index(drop = True)

创建虚拟变量

  • dummy_df = pd.get_dummies(loans[cat_columns])
  • loans = pd.concat([loans, dummy_df], axis=1)
  • loans = loans.drop(cat_columns, axis=1)

过滤只有一个值的列

orig_columns = loans_2007.columns
drop_columns = []
for col in orig_columns:
    col_series = loans_2007[col].dropna().unique()
    if len(col_series) == 1:
        drop_columns.append(col)
loans_2007 = loans_2007.drop(drop_columns, axis=1)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值