正态分布σ越大图像越_正态分布及其应用,ALevel、IB、AP中都会用到。

正态分布是统计学中的重要概念,常见于数据挖掘和日常生活中。通过分析男生身高分布的频率直方图,展示了数据的“中间高,两边低”特征。法兰西斯·高尔顿的钉子实验进一步验证了这种分布的普遍性。正态曲线由平均值μ和标准差σ定义,σ越大,曲线越“矮胖”,表示数据分布越分散。在质量控制中,3σ原则用于判断产品是否合格。正态分布广泛应用于医学等领域,用于确定生理指标的正常范围。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

87c7f6317a599340eb55a4b5b0aeb33f.gif

正态分布在统计学中占有十分重要的地位。从事数据挖掘工作的人员需要用到它,以提取有价值的信息。生活中也常常有它的身影。举例说明。

生活or实验数据中隐藏的奥秘

我们先观察某中学男生的身高数据,从中指出身高最高和最矮的同学,或者算出他们身高的平均值。之后,如果我们想要知道男生身高数据的分布情况,比如1.7米至1.75米之间,有多少人,占所有男生的比例是多少,我们应该怎么做?如图1所示,我们可以画出频率分布直方图,将身高最小值至最大值这一区间等分成若干组,统计每一组男生的人数和频率。然后,在平面直角坐标系中,用横坐标代表身高,纵坐标是每个小组的频率除以相应的组距,并绘制出相应的矩形,每个矩形的面积就是该小组的频率。

3d68227b3557bc3c5364a76cd36d1348.png

图 1

从身高的频率分布直方图中我们可以看到,数据大致呈现“中间高,两边低”的特点。在十六七岁的男生中,超过1.85米和低于1.5米的人数都非常少,而大部分人的身高均集中在1.6米至1.75米之间。因此,虽然每个人的身高具有随机性,但同一年龄同一性别的人群身高分布是有规律的。

这种规律性只在身高数据中体现,还是在自然界中普遍存在呢?英国生物统计学家法兰西斯·高尔顿做了一个实验。他在一块木板上画了一块等腰三角形,并在三角形区域内钉上n+1层钉子。第1层钉2个钉子,第2层钉3个钉子,下面每一层都比上一层增加一个钉子,上一层的每个钉子都在下一层两个钉子的中间位置。之后,在第n+1层的下面,放入n+2个球槽。

建成后,高尔顿从顶端逐个扔下小球,这些小球在下落过程中与众多钉子发生碰撞,每次碰撞都会使得小球随机向左或向右下落。随着小球个数的增加,掉入各个球槽内的小球的个数会越来越多,堆积的高度也会不断增加。最终,如图2所示,各球槽将呈现出“中间高,两边低”的分布,与我们的身高数据分布非常相似。

7f5ffbdb66b5cdbc5008243476eabc36.png

图 2

并且,如果进一步增加钉子的层数和小球个数,球槽中小球分布形成的曲线就会越来越光滑,最终趋向于图3“中间高,两边低”的“钟型”曲线,我们将这条曲线称为正态分布密度曲线,简称正态曲线。

c5099bdbf428aa13415ffb8e70e3bde8.png

图 3

关于正态分布曲线特征,你需要了解μ和σ这两个参数

我们通过观察这条曲线可以发现,正态曲线是单峰的,有一条对称轴。对称轴所在的位置正是数据的平均值,用字母μ表示,例如我们的平均身高等。对比图4中的两条正态曲线,我们可以看出虚线对应的平均值更大。

994de2c96c314a28b76a665062eaa953.png

图 4

图5中两条正态曲线的平均值相同,但是形状不同,实线的正态曲线更加“矮胖”,而虚线的正态曲线更加“高瘦”,我们用另一个希腊字母σ(σ>0)来刻画这种“矮胖”或“高瘦”的程度。假设这两条曲线分别代表了两个班学生成绩的分布情况。两个班的平均成绩相差较小,但虚线对应的班级学生成绩更集中于平均成绩附近,它的σ小,而实线对应的班级学生成绩相对分散,它的σ大,可能出现两极分化的情况。所以,σ反映了数据的离散程度,它代表了数据的标准差。知道了μ和σ这两个参数,我们就能画出正态曲线。

6fbd4e067fd142cacffe8fc1d4a4b245.png

图 5

我们也可以从另一个角度理解σ。正态曲线与直线χ=a,χ=b和x轴所围成的图像面积代表了数据在区间(a,b)所占的比例。假设工厂生产某种零件,要求孔径为10mm,但实际生产中会有误差。如果孔径的分布近似服从平均值为10mm,标准差为0.1mm的正态分布。那么如图7所示,孔径落在9.9到10.1这一范围的比例应该是0.683,这是数据分布的主体。孔径落在9.3到10.3这一范围的比例应该是0.997,落在该区间之外的机率非常小。如果出现比较多的产品超出了这一范围,那么我们可以怀疑生产过程出现了问题,这称为“3σ原则”。在生产过程中,我们可以应用这一原则进行产品质量检测。

8708f8a0cd80f32fd62702be0795e8df.png

图 6

fe883bde005ca6028186f167c42cac0d.png

图 7

191379af40934ea376b3165374d3b9a7.png

图 7

859b560d6623bd1af0be72904de3e9eb.png

图 7

存在于医学中的正态分布

正态分布在统计中是非常常用的分布,例如在医学上,可以应用正态分布估计人体的某些生理指标,比如白细胞数的正常值范围,白细胞数在正常人群中近似服从正态分布。我们可以制定一个上限和下限,比如95%的人在正常范围之内,而超出这一范围的人,我们就认为需要对其进行特殊关注。

来源:科普中国-科学原理一点通

944d40151c75427320b24093015e42ec.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值