【Udacity】数据的差异性:值域、IQR、方差和标准差

本文详细介绍了统计学中的几种重要指标,包括值域、四分位差、异常值、方差及标准差等,并探讨了这些指标的特点及应用场景。此外,还讨论了贝塞尔校正及其在样本标准偏差中的应用。

一、值域(Range)

Range = Max - Min
受异常值(Outliers)影响

二、四分位差(IQR)

四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别(即Q1~Q3 的差距)。

三、异常值(Outlier)

异常值的常用定义:Outlier < Q1 - 1.5IQR

 OR      > Q3 + 1.5IQR
  • 可视化——Box Plots(箱线图) & Whisker(盒须图)

1143923-20170925231641885-161713780.jpg

  • IQR的不足
    值域和IQR都无法将所有数据考虑进来;
    完全不同的两个数据集也可以有相同的IQR:Normal(正态分布)、Bimodel(双峰分布)和Uniform distribution(均匀分布)

  • we need one number that decribes the spread data that takes all the data into account.(数据分布+考虑所有数据)

四、方差(variance)

  • 平均值的平方偏差-Means of squared deviations/average squared deviation

1143923-20170925231718229-750569613.jpg

平方和本质——正方形面积

1143923-20170925231731432-536062638.jpg

五、标准差(Standard Deviation)

正方形的边长——方差的平方根

1143923-20170925231822729-1603734490.jpg

  • 标准差和正态分布图

1143923-20170925231838276-1432066761.jpg

六、贝塞尔校正(Bessel's correction)

  • 通常,抽样差异性<总体差异性(遗漏稀有值)
    ** n ——> n-1 **

1143923-20170925231854245-1062111262.jpg

七、样本标准偏差

  • 区分总体标准差σ和样本标准差s
    1.样本标准差 估算大样本集时使用小写的s
    —— 有样本,并需要估算总体标准差——>分母为n-1
    —— 有总体数据集——>分母为n

1143923-20170925231907823-55932718.jpg

转载于:https://www.cnblogs.com/Neo007/p/7594491.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值