数据科学每日总结--Day15--统计学

统计学

曼-惠特尼 U 检验
  • 定义:是一种用于比较两个独立样本中位数差异的非参数检验方法。它不要求数据满足正态分布,也不要求方差相等,比传统的独立样本 t 检验更适用于偏态分布或含有异常值的场景。

  • 适用条件:

    • 适用于两个 独立样本(例如,两个不同班级的考试成绩)。

    • 数据可以是 连续型 或 等级型。

    • 不能有配对关系

  • 原理:

    1. 将两个样本合并并排序 (按数值从小到大)。

    2. 将排名赋值给每个数据点。

    3. 计算每个组的秩和。

    4. 根据秩和计算 U 统计量:U_{1} = n_{1}n_{2}+\frac{n_{1}(n_{1}+1)}{2} - R_{1},U_{2} = n_{1}n_{2}+\frac{n_{2}(n_{2}+1)}{2} - R_{2},其中n1,n2分别是样本1和样本2的大小,R1、R2分别是两个样本的秩和 5.选择较小的U值作为检验统计量 6.根据 U 值查表或计算 p 值,判断是否拒绝零假设

  • 优点:

    • 不要求正态分布。

    • 对异常值不敏感。

    • 可用于等级数据。

  • 缺点:

    • 不能提供均值差异的估计,只能判断总体分布差异。

    • 在小样本情况下统计功效比 t 检验稍低。

威尔科克森符号秩检验
  • 定义:是一种用于配对样本或重复测量数据的非参数检验方法,用来比较两次测量的中位数差异。是配对样本 t 检验的非参数替代方案,适用于数据不满足正态分布假设,或者样本量较小的情况。

  • 适用条件:

    • 配对样本:例如同一对象在治疗前后测量血压。

    • 重复测量数据:同一个人在两个不同条件下的表现。

    • 数据类型:连续数值或有序等级数据

  • 原理:

    1. 计算差值 对每个配对的两个数值(后-前)计算差值。

    2. 去掉差值为 0 的样本 因为它们不会影响结果。

    3. 取差值的绝对值并排序 给差值按绝对值大小分配秩值(Rank)。

    4. 加符号 如果原差值是正的,秩值加正号;如果是负的,秩值加负号。

    5. 计算秩和 分别求正差的秩和 T+​ 和负差的秩和 T−​ 。

    6. 检验统计量 W 取两者中较小的作为检验统计量。

  1. 查表或根据分布计算 p 值,判断显著性。

  • 特点:
    • 不需要数据服从正态分布。

    • 保留了数据的方向信息(差值是正还是负)。

    • 对极端值不敏感。

克鲁斯卡尔–沃利斯检验
  • 定义:是一种用于三个及以上独立样本的非参数检验方法,主要用于判断不同组的总体分布是否相同。是单因素 ANOVA在非正态分布或方差不齐情况下的替代方案,如果只有两组数据,它和Mann–Whitney U 检验完全等价。

  • 适用条件:

    • 分析对象是 三个或以上的独立样本(组)。

    • 数据可以是 连续型 或 等级型(ordinal)。

    • 各组样本独立,没有配对关系。

  • 原理:

    1. 将所有组的数据 合并 在一起。

    2. 按数值从小到大排序,给每个数据分配一个 秩值(平均处理平局情况)。

    3. 计算每组的 秩和。

    4. 根据秩和计算检验统计量 H:H = \frac{12}{N(N+1)}\sum_{i=1}^{k}{\frac{R_{i}^{2}}{n_{i}}-3(N+1)},其中k是组数,ni是第i组的样本数,Ri是第i组的秩和,N是总样本数

    5. 将 H 与卡方分布(自由度 = 组数 - 1)对比,得到 p 值判断显著性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值