数据测量与筛选:使用Pandas处理数据
1. 选择和组织列
在处理数据时,聚焦于与当前问题或分析相关的变量非常有帮助。这使得根据变量之间的实质或统计关系对列进行分组,或者在任何时候限制我们研究的列变得很重要。以下是几种选择列的方法:
1.1 准备工作
首先,导入所需的库并加载数据。同时,将NLS数据中对象数据类型的所有列转换为类别数据类型。
import pandas as pd
import numpy as np
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)
nls97[nls97.select_dtypes(['object']).columns] = \
nls97.select_dtypes(['object']). \
transform(lambda x: x.astype('category'))
1.2 选择单个列
可以使用 [] 括号运算符和 loc 、 iloc 访问器来选择列。
# 使用 [] 括号运算符返回 Series
analysisdemo = nls97['gender']
print(type(analysisdemo)) # <class 'pandas.core.series.Series'>
Pandas数据筛选与处理技巧
超级会员免费看
订阅专栏 解锁全文
1659

被折叠的 条评论
为什么被折叠?



