数据子集中异常值的识别与分析
在数据分析过程中,识别数据子集中的异常值是一项至关重要的任务。异常值可能会对分析结果产生重大影响,因此准确识别并处理它们对于确保分析的准确性和可靠性至关重要。本文将介绍几种常见的识别异常值的方法,并通过具体的代码示例进行演示。
1. 使用子集检查变量关系中的逻辑不一致
在处理数据时,我们经常会遇到一些逻辑上的不一致情况。例如,有些人声称自己没有工作,但却有正的工资收入。使用 pandas 的子集工具,如 loc 和布尔索引,可以相对轻松地检查这些逻辑不一致。
1.1 准备工作
我们将使用美国劳工统计局进行的全国青年纵向调查(NLS)数据,主要关注就业和教育方面的数据。
import pandas as pd
nls97 = pd.read_csv("data/nls97f.csv", low_memory=False)
nls97.set_index("personid", inplace=True)
1.2 查看部分就业和教育数据
# 查看工资收入、最高学历完成情况和最高学位
print(nls97[['wageincome20','highestgradecompleted', 'highestdegree']].head(3).T)
# 查看2018 - 2022年的工作周数
print(nls97.loc[:, "weeksworked18":"weeksworked22
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



