数据可视化:使用箱线图、分组箱线图和小提琴图识别异常值
在数据分析中,可视化是理解数据分布和识别异常值的重要工具。本文将介绍如何使用箱线图、分组箱线图和小提琴图来可视化数据,以及如何通过这些图形来识别数据中的异常值。
1. 数据准备
在开始之前,我们需要加载所需的库和数据。以下是加载 pandas 、 matplotlib 库以及相关数据的代码:
import pandas as pd
import matplotlib.pyplot as plt
nls97 = pd.read_csv("data/nls97f.csv", low_memory=False)
nls97.set_index("personid", inplace=True)
covidtotals = pd.read_csv("data/covidtotals.csv", parse_dates=["lastdate"])
covidtotals.set_index("iso_code", inplace=True)
2. 使用箱线图识别连续变量的异常值
箱线图是一种常用的可视化工具,用于展示数据的分布和识别异常值。它基于四分位距(IQR)的概念,即第一四分位数(Q1)和第三四分位数(Q3)之间的距离。任何大于 (1.5 * IQR) + Q3 或小于 Q1 - (1.5 * IQR) 的值都被视为异常值。
以下是使用箱线图展示 SAT 成绩、工作周数
超级会员免费看
订阅专栏 解锁全文
101

被折叠的 条评论
为什么被折叠?



