深入浅出数据分析 - 直方图

本文以加薪案例讲解如何用直方图分析问题,先给出历史加薪数据,用Excel和R语言生成直方图。介绍了直方图概念,还对其形状进行分析,包括正常型和多种异常型,如孤岛型、双峰型等,并说明了各异常型产生原因及处理办法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文通过一个如何获得更高工资的案例讲解了如何通过直方图来分析是主动向老板提出加薪要求的员工获得了高薪,还是不主动提出加薪要求的员工获得了高薪的问题。

本文先提供了一些历史加薪原始数据,然后通过Excel直方图显示了不同加薪区间的数据情况,通过Excel显示的直方图中间存在缺口,引出用R语言生成直方图;从一张直方图中无法分析出问题,开始考虑从不同的维度生成不同的直方图来分析问题,找其原因。

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。间隔必须相邻,并且通常是(但不是必须的)相等的大小。

直方图也可以被归一化以显示相对频率。 然后,它显示了属于几个类别中的每个案例的比例,其高度等于1

9.1 形状分析

9.1.1 概述

 

正常型是指过程处于稳定的图型,它的形状是中间高、两边低,左右近似对称。近似是指直方图多少有点参差不齐,主要看整体形状。如下图例

异常型直方图种类则比较多,所以如果是异常型,还要进一步判断它属于哪类异常型,以便分析原因、加以处理。下面介绍几种比较常见的:

9.1.2 孤岛型

孤岛型直方图在直方图旁边有孤立的小岛出现,当这种情况出现时过程中有异常原因。如:原料发生变化,不熟练的新工人替人加班,测量有误等,都会造成孤岛型分布,应及时查明原因、采取措施。

9.1.3 双峰型

当直方图中出现了两个峰,这是由于观测值来自两个总体、两个分布的数据混合在一起造成的。如:两种有一定差别的原料所生产的产品混合在一起,或者就是两种产品混在一起,此时应当加以分层。

9.1.4 折齿型

当直方图出现凹凸不平的形状,这是由于作图时数据分组太多,测量仪器误差过大或观测数据不准确等造成的,此时应重新收集数据和整理数据。

9.1.5 陡壁型

直方图像高山的陡壁向一边倾斜时,通常表现在产品质量较差时,为了符合标准的产品,需要进行全数检查,以剔除不合格品。当用剔除了不合格品的产品数据作频数直方图时容易产生这种陡壁型,这是一种非自然形态。

9.1.6 偏态型

偏态型直方图是指图的顶峰有时偏向左侧、有时偏向右侧。

由于某种原因使下限受到限制时,容易发生偏左型。如:用标准值控制下限,摆差等形位公差,不纯成分接近于0,疵点数接近于0或由于工作习惯都会造成偏左型。

由于某种原因使上限受到限制时,容易发生偏右型。如:用标准尺控制上限,精度接近100%,合格率也接近100%或由于工作习惯都会造成偏右型。

9.1.7 平顶型

当直方图没有突出的顶峰,呈平顶型,然而形成这种情况一般有三种原因。 A、与双峰型类似,由于多个总体、多总分布混在一起。 B、由于生产过程中某中缓慢的倾向在起作用,如工具的磨损、操作者的疲劳等。 C、质量指标在某个区间中均匀变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值