单因子探索分析与可视化

本文详细介绍了单因子探索分析中的数据分类、集中趋势、离中趋势、数据分布、正态分布与三大分布以及抽样理论。通过HR数据表实例,展示了如何分析数据的均值、中位数、偏态系数、峰态系数等,并应用异常值分析方法去除异常值,最后通过可视化手段如直方图、柱状图进行数据展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二章 单因子探索分析与可视化

在这里插入图片描述
集中趋势:均值、中位数与分位数、众数
四分位数计算方法
在这里插入图片描述
n指的是数据的数量。

  • 如果数据集合个数为奇数
    若数据集合为L=[1,2,3,4,5,6,7] (假定下标从1开始)
    他的下四分位数位置为(7+1)*0.25=2,对应下四分位数为L[2]=2
  • 如果数据集合个数为偶数
    若数据集合为L=[1,2,3,4,5,6]
    计算方式:怎样计算四分位数? (偶数个)

离中趋势

  • 标准差、方差

数据分布:偏态与峰度

  • 偏态系数与峰态系数
    在这里插入图片描述
    均值相当于中位数偏差很多,表明具有偏态。由于均值偏大,因此S>0,表示存在正偏。
    K表示峰态系数,是数据分布集中强度的衡量,值越大,数据分布的峰顶越尖,越小对应的分布越平缓。正态分布的峰态系数一般是3,若有一个分布的峰态系数小于1或大于5,即与正态分布的峰态系数相差大于2那我们基本上可以断定这个分布不是正态分布。所以峰态系数的一个非常大的作用是可以直接用于拒绝正态分布的假设。

  • 正态分布与三大分布
    卡方分布,t分布,f分布
    在这里插入图片描述

  • 抽样理论
    抽样误差与精度
    在这里插入图片描述
    Z 是非标准正态分布标准化后的 x即 Z = x − μ σ Z= \frac{x-\mu}{\sigma} Z=σxμ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值