Pandas数据处理技巧-优快云博客

本文介绍了使用Pandas库进行数据处理的几个实用技巧，包括如何将某一列设置为索引，如何从日期字符串中提取月份，如何根据一列的值在另一张表中查找并添加对应的大类，以及如何使用nlargest函数返回数据框中某列的最大值对应的前n行记录。

1、将某一列作为索引

data =data.set_index('key')

2、数据分割（提取日期中的月份）

x='2017/1/1 9:05'
print(x.split('/')[1])
print(x.split('/')[2])
print(x.split('/')[2].split(' '))  ##x.split('/')：按‘/’进行分割

在这里插入图片描述

import pandas as pd
time = ['2017/1/1','2017/1/2','2017/1/3']
data = pd.DataFrame(time,columns=['time'])
f = lambda x: int(x.split('/')[1])
data['mounth'] = data['time'].map(f)

在这里插入图片描述

3、根据某一列的数值将另外一个表中对应的值添加在新一列

data = pd.read_csv('.\附件1.csv',encoding='gbk')

在这里插入图片描述

df = pd.read_csv('.\附件2.csv',encoding='gbk')

在这里插入图片描述

df = dict(zip(df['商品'], df['大类'])) 
#zip()可以将两个或多个列表压缩成一个列表的,  dict构建字典
#get方法用来获取一个对象中指定元素
f = lambda x: df.get(x,x)
data['大类'] = data['商品'].map(f)

f = lambda x: int(x.split('/')[1])
data['mounth'] = data['支付时间'].map(f) 
data.head()