数据清洗实战入门——数据表处理

数据筛选方法

  • df.info():查看数据表概况
  • df.head(n):查看前n行/条数据
  • 取某个字段:df['name']
  • 取多个字段:df[['name1','name2']]
  • 取对应字段的某/多行:df[['name1','name2']][3:6]
  • loc函数:根据索引进行选择(Selection by Label)
    • 形式:df.loc[row,columns]
    • 选取多个列标签时,可用列表的形式放到columns那里,eg:df.loc[:,['uid','age']]
    • 可用表达式筛选行,eg:df.loc[uid==111,'age']
  • iloc函数:根据位置进行选择(Selection by Position),即选取第几行第几列,只接受整数参数
    • 示例:df.iloc[a,b],这里的a、b还是下标(从0开始),表示选取第a+1行b+1列
    • 可用切片,也可用列表传入

数据增加和删除

  • 增加:df.insert(loc,'col_name',data)
    • loc为插入的位置(从0开始)
    • col_name为字段名
    • data为要插入的数据
    • eg:df.insert(0,'name',data)
  • 删除(法1):df.drop(labels,axis,inplace)
    • labels指定要删除的标签,eg:
    • axis指定按行操作(0)还是按列操作(1),即axis=0表示labels指定的是行、axis=1表示labels指定的是列
    • inpace表示是否对原数据生效(True or False,默认为False)
    • eg:df.drop(labels=[1:3],axis=0)
  • 删除(法2):del df['col']
    • 直接删除df中的某一列

数据修改和查找

  • 修改列标签:df.rename(columns={'':''})
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值