数据可视化:从基础到实践
在数据分析中,可视化是理解和传达数据信息的重要手段。不同类型的数据需要不同的可视化方法,下面将详细介绍各种数据可视化的工具和技巧。
1. 核密度估计与数据范围
在评估证据价值时,我们可能未观察到数据的整个范围,这一点至关重要。核密度估计对带宽的选择较为敏感,不同的带宽可能会导致不同的估计结果。
2. 箱线图
箱线图(也称为盒须图)是快速比较分组数据在连续变量方面的有效工具。它能直观展示一组汇总统计信息。
- 箱线图的构成 :
- 箱体从下四分位数(LQ)绘制到上四分位数(UQ)。
- 箱体内的一条线表示中位数。
- 须线从上下四分位数延伸约 1.5 倍的四分位距(IQR),然后“回缩”到最近的数据点。
- 外部点是位于须线范围之外的点,它们可能是异常值,但不一定是。
- 数据对称性判断 :如果须线长度大致相等且中位数线大致位于箱体中间,则数据对称;如果一条须线很长而另一条很短,则数据偏斜。
- 适用情况 :箱线图适合快速了解分组数据的位置和分布情况,但当每组观察值较少(少于 20 个)时,其效果不佳。
graph LR
A[箱线图] --> B[箱体(LQ - UQ)]
A --> C[中位数线]
A --> D[须线(约 1.5 * IQR)]
A --> E[外部点]
B --> F[下四分位数