数据整理与重塑及自动化数据清洗
1. 数据整理与重塑
在数据处理过程中,我们常常需要对数据进行整理和重塑,以满足不同的分析需求。这里我们使用NLS(National Longitudinal Surveys)数据中的工作周数和大学入学情况数据进行示例。
1.1 数据重塑方法
可以使用 stack 或 melt 将数据从宽格式转换为长格式,其中 melt 提供了更多的灵活性。 stack 会将所有列名移到索引中,而 melt 可以基于除索引之外的ID变量旋转列名和值。
import pandas as pd
nls97 = pd.read_csv("data/nls97g.csv", low_memory=False)
nls97.set_index('personid', inplace=True)
weeksworkedcols = ['weeksworked17','weeksworked18',
'weeksworked19','weeksworked20','weeksworked21']
colenrcols = ['colenroct17','colenroct18',
'colenroct19','colenroct20','colenroct21']
# 使用melt
weeksworkedmelted = nls97.reset_index().\
loc[:,['originalid'] + weeksworkedcols
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



