工程数据分析中的数据可视化方法
1. 数据预处理与箱线图基础
在进行数据可视化之前,有时需要对数据进行预处理。例如,将频率转换为百分比,使所有条形高度之和为 1,这样可以准确比较两个数据集。同时,为消除箱宽差异,可使用统一的箱宽。以下是示例代码:
h1.Normalization = 'probability';
h1.BinWidth = 10;
h2.Normalization = 'probability';
h2.BinWidth = 10;
箱线图是一种重要的数据可视化方式,它展示了数据集的五数概括,按升序排列分别为最小值、第一四分位数、中位数、第三四分位数和最大值。
1.1 箱线图的结构
- 箱体 :箱体包含了数据集的中间一半数据,即约 50%的数据落在箱体内。第一四分位数(下四分位数)是 25%的分数低于该值,75%的数据高于它;第三四分位数(上四分位数)是 75%的分数低于该值,25%的数据高于它。箱体的长度代表四分位距,即上四分位数与下四分位数的差值。箱体中间的线表示样本中位数,第二四分位数(中位数)是一半数据值大于该值,一半数据值小于该值。中位数不一定在第一和第三四分位数之间,它的位置取决于数据集。
- 须线 :从箱体两端延伸出的须线代表落在中间 50%之外的分数。须线从箱体两端延伸到样本的最大值和最小值,因此最小值和最大值标记在须线的端点。
1.2 箱线图的作用
箱线图能快速
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



