pandas 使用技巧记录

本文详细介绍Pandas库中各种高效的数据处理技巧,包括CSV文件读取、数据筛选、列名获取、列合并、重复数据处理及表关联等,帮助读者掌握Pandas核心功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

操作技巧

打开CSV文件

file = pd.read_csv(“your_file”)

打开普通文件

file = pd.read_table(“your_file”,sep="\t")

获取列名

DataFrame.columns.values.tolist()

个数统计

DataFrame[‘id’].value_counts()

使用列索引选取多列

DataFrame.iloc[:,your_col_index]

根据value选取指定列

在这里插入图片描述

选取多列

DataFrame[[‘a’,‘b’]]

针对单独列做运算(如:格式转换)

file[‘app_version’] = file[‘app_version’].map(lambda x:str(x))

多列合并成一列

file[‘product_id’].str.cat(file[‘app_version’],sep="_")

去除重复列

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
  • keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
  • inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本

pandas 根据key关联两张表

pandas 导出DataFrame到文件

DataFrame.to_csv(“des_file”)

group后作统计值

panda聚合分组

分块读取大文件

当文件过大无法单次读取到内存时,可以采用iterator进行多次读取:

reader = pd.read_csv(‘block_all.csv’,iterator=True)
reader.get_chunk(N)

示范代码

df_event = pd.read_csv("/workspace/share_dir/event_sequence.csv",iterator=True)

while True:
    try:
        chunk = df_event.get_chunk(10**4)
        for index,row in chunk.iterrows():
            your_process()
    except StopIteration:
        break

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值