1、将某一列作为索引
data =data.set_index('key')
2、数据分割(提取日期中的月份)
x='2017/1/1 9:05'
print(x.split('/')[1])
print(x.split('/')[2])
print(x.split('/')[2].split(' ')) ##x.split('/'):按‘/’进行分割

import pandas as pd
time = ['2017/1/1','2017/1/2','2017/1/3']
data = pd.DataFrame(time,columns=['time'])
f = lambda x: int(x.split('/')[1])
data['mounth'] = data['time'].map(f)

3、根据某一列的数值将另外一个表中对应的值添加在新一列
data = pd.read_csv('.\附件1.csv',encoding='gbk')

df = pd.read_csv('.\附件2.csv',encoding='gbk')

df = dict(zip(df['商品'], df['大类']))
#zip()可以将两个或多个列表压缩成一个列表的, dict构建字典
#get方法用来获取一个对象中指定元素
f = lambda x: df.get(x,x)
data['大类'] = data['商品'].map(f)
f = lambda x: int(x.split('/')[1])
data['mounth'] = data['支付时间'].map(f)
data.head()

4、nlargest
pd.nlargest(n, columns)
返回按列降序排列的前n行。
以降序返回column中具有最大值的前n行。
本文介绍了使用Pandas库进行数据处理的几个实用技巧,包括如何将某一列设置为索引,如何从日期字符串中提取月份,如何根据一列的值在另一张表中查找并添加对应的大类,以及如何使用nlargest函数返回数据框中某列的最大值对应的前n行记录。

被折叠的 条评论
为什么被折叠?



