数据处理:列与行的选择、排序及频率统计
在数据处理中,选择和组织列以及行是非常基础且重要的操作,同时生成分类变量的频率分布也能帮助我们更好地理解数据。下面将详细介绍相关操作方法。
1. 选择和组织列
在处理数据时,我们常常需要选择特定的列并对其进行排序。 [] 括号运算符和 loc 数据访问器在选择和组织列方面非常实用。当传入列名列表时,它们都会返回一个 DataFrame,且列的顺序会根据传入的列名列表进行排列。
以下是一些具体的操作步骤:
- 选择特定数据类型的列并转换数据类型 :
import pandas as pd
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)
nls97.loc[:, nls97.dtypes == 'object'] = nls97.select_dtypes(['object']).apply(lambda x: x.astype('category'))
- 排除特定数据类型的列并查看信息 :
nls97.select_dtypes(exclude=["category"]).info()
- 使用正则
数据处理技巧:列行选择与频率统计
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



