dataframe常用处理

本文介绍了使用Python的Pandas库进行数据操作的各种技巧,包括获取列名、复制列、更改列名、根据条件筛选数据、处理数据缺失值、读取和导出数据等。同时还提供了解决常见错误的方法,如ParserError的解决策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

获取列名:
data.columns.values.tolist()

复制列:
out['serial_number'] = out['2']
这样就是新增了一列,复制了‘2’这一列,然后再del out['2]即可
这样的形式也可以用于把前面某些列的计算值赋到新的一列

换列名:
#给data_app赋上新的列名称
data_app.columns = ['user_id', 'hlw_all3', 'vedio_app_time', 'game_app_time', 'read_app_time', 'music_app_time', 'dm_app_time', 'toutiao_app_time']

根据某一列的值取出符合条件的所有行:
data_sp = data[data['$AS-TwoStep'] == 'Cluster-1']
该句意思为取出$AS-TwoStep这一列为cluster-1的所有数据






Python pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 121, saw 2

读取数据报这个错误时添加

delimiter="\t",例如:
data1 = pd.read_csv(f1, low_memory=False, delimiter="\t")
就可以了

pandas导出数据时不想要序号的话就写一句 index=False就行了


读取dataframe的第N列:
df['列名']

读取dataframe的第N行:
df[行数:行数+1]
比如:读第0行 df[0:1]

 

将dataframe利用df.values.tolist()转化为列表时会出现大列表套小列表的情况
如果想避免这种情况,只要大列表,可以先将dataframe通过df['user_id']转化为series,然后再利用series.tolist()转化为列表,这样就只有一个大列表

想把一列中的空值全部变为0
https://blog.youkuaiyun.com/chenpe32cp/article/details/82180537



定位dateframe某行某列的一条数据:
df.iat[行,列]


dataframe处理行列
https://blog.youkuaiyun.com/kevin_7july/article/details/79377234




查看数据是否有缺失
import numpy as np
#查看是否有数据缺失
print np.any(red.isnull()==True)

转载于:https://www.cnblogs.com/aixiao07/p/10783975.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值