数据可视化:分组箱线图、小提琴图与散点图的应用
在数据分析中,可视化是理解数据特征和发现异常值的重要手段。本文将介绍分组箱线图、小提琴图和散点图的使用方法,帮助你更深入地了解数据分布和变量之间的关系。
1. 分组箱线图:揭示特定组中的异常值
分组箱线图可以帮助我们可视化不同组数据的分布情况,从而发现异常值。以下是具体的操作步骤:
1.1 准备工作
我们将使用 NLS 和 Covid 病例数据。运行代码前,需要在计算机上安装 Matplotlib 和 Seaborn 库。
1.2 导入必要的库和数据
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)
covidtotals = pd.read_csv("data/covidtotals.csv", parse_dates=["lastdate"])
covidtotals.set_index("iso_code", inplace=True)
1.3 查看不同学位水平下工作周数的描述性统计信息
def gettots(x):
out = {}
out['min'] = x.min()
out['qr1'
超级会员免费看
订阅专栏 解锁全文
976

被折叠的 条评论
为什么被折叠?



