Hypothesis Testing(Chapter 5)[@XiruChen]

本文介绍了假设检验的基本概念,包括检验统计量、拒绝域、功效函数等,并详细探讨了连续型和离散型随机变量的参数检验,以及大样本检验、贝叶斯方法和拟合优度检验等内容。

0. Outlines

1. 基本概念

  • 假设,检验统计量,拒绝域;
  • 功效函数
  • 两类错误检验的水平
  • 假设检验的优良性准则(一致最优检验);
  • p-值;

2. 重要的参数检验

连续型随机变量:
  • 正态总体均值的检验;
  • 两正态总体均值差的检验;
  • 正态总体方差的检验(一个总体&两个总体);
  • 指数分布参数的检验;
离散型随机变量
  • 二项分布参数p的检验(符号检验);
  • 泊松分布参数λ的检验;
大样本检验
贝叶斯方法

3. 分布的检验(拟合优度检验)


1. 基本概念

1.1 假设,检验,检验统计量,拒绝域;

  • 假设:分为原假设H0:θΘ0和对立假设Ha:θΘa;原假设为“原来的”保守假设;
  • 检验统计量:检验一个假设时所用的统计量T(X˜),其分布函数为F

    • 最直观的检验统计量可以从估计量得到;
    • 似然比统计量等也是常用的检验统计量;
  • 拒绝域:拒绝原假设的那些样本X˜=(X1,...,Xn)所组成的区域R={X˜|T(X˜)C(α)}称为拒绝域;

    • α是检验水平,之后会提到;
    • C(α)称为检验的临界值(critical value),显然是检验水平的函数,其选取非常重要;
    • 接受域A是拒绝域R关于样本空间Ω的补集;
  • 检验: 检验就是一个判断准则,如:“当T(X˜)C(α)时在检验水平α下拒绝原假设,否则不能拒绝原假设”;

    • T(X˜)C(α)即为拒绝域;
    • 检验的组成元素:检验统计量T(X˜),检验水平α,拒绝域的定义;
    • 检验决定了功效函数;
  • p-值: 对一个检验统计量T(X˜),当T越大时,H1越有可能是真的,那么对任意样本点x,定义

    p(x)=supθΘ0Pθ(W(X)W(x))

    为p-值;

    • p-值不在Neyman-Pearson理论里;
  • 这里θ可以是标量,也可以是向量;


1.2 功效函数([@casella2002statistical2],p373-p400)

(Def): 未知参数θ,样本X˜=(X1,...,Xn),原假设H0,对一个检验Φ,其功效函数为:

βΦ(θ)=Pθ(X˜R)=Pθ(H0rejected);

Remarks:

  1. 同一个原假设有很多检验方法,对各个检验方法的评估、比较就取决于检验的功效函数
  2. 功效函数是样本空间Ω[0,1]上的函数;
  3. 拒绝域R与检验水平、检验统计量的分布有关;

1.3 两类错误 检验的水平

两类错误:

  • 一类错误:拒真α1
  • 二类错误:取伪α2;
  • 功效函数为:

    βΦ(θ)={α1(θ)1α2(θ)if θΘ0if θΘa

    Remarks:
    1α2(θ)称为该检验的功效(power)

    检验的水平

    (Def): Φ是原假设H0的一个检验,其功效函数为βΦ(θ),有常数α,s.t.对任意θΘ0,有:

    βΦ(θ)α,

    则称Φ是一个水平为α的检验,α称为检验水平。

    1.4 假设检验的优良性准则(一致最优检验)

    (Def): (一致最优检验)

    Φ是一个水平为α的检验,若对任何其他一个水平为α的检验g,对任意θΘa有:

    βΦ(θ)βg(θ),

    则称Φ是检验问题H0:H1的一个水平α的一致最优检验。

    Remarks:

    1. 如上限制第一类错误概率的原则及一致最优检验这些假设检验理论由Nayman & Pearson提出,称为“Nayman-Pearson理论”;
    2. 之后还会有p-value 的理论提出;
    3. 从实际来看,一致最优检验往往是非常难找的,但是这种检验方法比较的思想确实一致的;
    4. Statistical inference 书上有其它的hypothesis testing evaluation 方法,可以细看;

    2. 重要的参数检验

    2.1 连续型随机变量:

    • 正态总体均值的检验;
    • 两正态总体均值差的检验;
    • 正态总体方差的检验(一个总体&两个总体);
    • 指数分布参数的检验;

    Remarks: 这里以“正态总体均值的检验”为例,介绍假设,检验的设定,检验统计量的选取,功效函数的推导,确定名义水平后拒绝域的临界值的计算,考虑检验分辨率的情形下样本量n的选取问题。

    正态总体均值的检验

    • X1,X2,,Xn,i.i.d.N(θ,σ2),其中方差σ2已知,假设检验问题为:
      H0:θθ0Ha:θ>θ0.

    • 初步提出检验ϕ: 当X¯C时接受H0,否则拒绝H0(所谓初步是指还带有未知量,如这里的C);
    • 检验水平α, 已知X¯θσ/nN(0,1);
      • 检验ϕ的功效函数:
        βϕ(θ)=Pθ(X¯>C)=1Pθ(X¯θσ/nCθσ/n);

        • 功效函数关于θ单调递增;
        • 因此要达到水平α,只需要βϕ(θ0)=α即可,解出临界值C(α)=θ0+σ/nμα;
        • 此处μα为标准正态分布的上α分位数,即Φ(μα)=1α;
      • 检验统计量为T=X¯θ0σ/n,那么TH0N(0,1);
      • 综上,更新水平为α的检验phi与对应功效函数如下:

        • 检验ϕ: 当X¯θ0+σ/nμα时,接受H0,否则拒绝Ha;
        • 功效函数:βϕ(θ)=1Φ(n(θ0θ)σ+μα);
        • Φ(x)为标准正态分布的c.d.f;
      • 若对检验功效β还有要求时,(比如提要求:选定θ1>θ0,要求当任意θ>θ1,βϕ(θ)1β),那么所需最小样本量n可以求解如下,这在试验设计时比较重要:

        • 因为功效函数是单增的,因此求解βϕ(θ1)1β即可,可得样本量n(μa+μb)2σ2(θ1θ0)2

        • 这是在达到一定分辨率(|θ1θ0|)的条件下控制第二类错误;
        • 但是,对很多检验来说,这个n都是求不出来的;

      功效函数


      2.2 离散型随机变量

      2.2.1 二项分布参数p的检验(符号检验);

      Remarks:

      1. 因为总体分布为离散分布,因此不能恰好得到检验水平α的拒绝域,这时有两种解决方法:

        • 用随机化检验的方法达到预定的检验水平α
        • 稍微调整检验水平αα1,使得新水平α1能够恰好达到;
        • 一般来说第二种更加常用并好理解;
      2. 在非参数检验问题中有一类符号检验问题,即将配对数据处理成符号数据,进一步提出新的假设检验H0:p=12Ha:p12,这种处理方式更加稳健;对总体分布没有特殊假定;

      2.2.2 泊松分布参数λ的检验;

      Remarks:
      若样本为(X1,...,Xn),令X=ni=1Xi,那么X仍为泊松分布,只是新参数为nλ.

      2.3 大样本检验

      • 检验统计量的确切分布不易求出,那么可依据其极限分布来确定临界值C(α);
      • 由于是近似的,因此实际水平名义水平α 有一定差距,是我们通常要讨论的问题;
      • 大样本方法在科研中是常用的,需要熟悉;

      2.4 贝叶斯方法

      在求得参数θ的后验概率分布h(θ|X˜)后,分别计算条件概率P(H0|X˜)P(Ha|X˜);
      若前者大于后者,那么就接受H0,否则就拒绝原假设。

      Remarks:

      • 贝叶斯方法是与Neyman-Pearson理论完全不同的方法,没有“检验水平”这一概念;
      • 不需要寻找统计量,求统计量的确切分布;
      • 贝叶斯方法有时可以用于一些特殊的假设检验问题,如H0:aθb,Ha:θ<aθ>b;这类问题对Neyman-Pearson理论来说是棘手的;

      3. 分布的检验(拟合优度检验)

      拟合优度检验就是检验一批数据是否与某种理论分布符合;

      3.1 理论分布已知且只取有限个值

      • 假设: H0:P(X=ai)=pi,i=1,...,k;
      • 理论-经验分布表:
      类别a1ak
      理论值np1npk
      观测值ν1νk

      * Pearson 拟合优度χ2统计量:
      Z=ki=1(npiνk)2npi
      * 统计量分布(由Pearson 证明)
      (Thm) 如果原假设H0成立,那么n时,Zχ2k1;
      * 检验:ϕ: 当Zχ2k1(α)时,在水平α下接受原假设H0,否则拒绝原假设;
      * 拟合优度(其实就是p-值):p(Z0)=P(ZZ0|H0);

      3.2 理论分布只取有限个值但不完全已知(多项分布)

      • 相较3.1 需要多一步理论分布的参数估计步骤,与此同时统计量的零分布也有所不同;
      • 设组数有k组,未知参数个数为r,(pi=pi(θ1,...θr),i=1,...,k),那么先用极大似然估计法估计出未知参数θ^i,i=1,...,r,进而求得p^i=pi(θ^1,...θ^r);
        • 似然函数易由多项分布得到;
      • 将估计值带入统计量的表达式:Z=ki=1(np^iνk)2np^i
      • 检验统计量的零分布:(Fisher改正了Pearson的错误)
        (Thm)H0下,当n时,Zχ2k1r;
      • 在列联表中有重要应用,如独立性检验,齐一性检验;

      在列联表中有重要应用

      • 检验两个属性A,B独立性,其中A,B分别有a,b种水平;
      • H0:A,B
      • 经计算,χ2统计量Z=ai=1bj=1(nnijni.n.j)2/(nni.n.j);
      • 在零分布下检验统计量服从自由度为(a1)(b1)χ2-分布;

      独立性检验:A,B两个属性均是随机选取的,即采样以后才知道;
      齐一性检验:其中一个属性在抽样时是已知的,这种情况理论证明以上分布仍然适用。

      3.3 理论分布为一般分布的情形

      • 若一般分布为连续型分布,那么就化连续为离散;
      • 若一般分布为取值个数无限的离散分布,那么就行并组操作;
      • 在分组时,组数k不应小于参数个数r+2;
      • 在检验前同样要先进行参数估计,可以类似之前的用MLE方法,若MLE难以求得,可以选取较为简单的估计量,此时统计量近似服从χ2-分布;

      References:

(1)普通用户端(全平台) 音乐播放核心体验: 个性化首页:基于 “听歌历史 + 收藏偏好” 展示 “推荐歌单(每日 30 首)、新歌速递、相似曲风推荐”,支持按 “场景(通勤 / 学习 / 运动)” 切换推荐维度。 播放页功能:支持 “无损音质切换、倍速播放(0.5x-2.0x)、定时关闭、歌词逐句滚动”,提供 “沉浸式全屏模式”(隐藏冗余控件,突出歌词与专辑封面)。 多端同步:自动同步 “播放进度、收藏列表、歌单” 至所有登录设备(如手机暂停后,电脑端打开可继续播放)。 音乐发现与管理: 智能搜索:支持 “歌曲名 / 歌手 / 歌词片段” 搜索,提供 “模糊匹配(如输入‘晴天’联想‘周杰伦 - 晴天’)、热门搜索词推荐”,结果按 “热度 / 匹配度” 排序。 歌单管理:创建 “公开 / 私有 / 加密” 歌单,支持 “批量添加歌曲、拖拽排序、一键分享到社交平台”,系统自动生成 “歌单封面(基于歌曲风格配色)”。 音乐分类浏览:按 “曲风(流行 / 摇滚 / 古典)、语言(国语 / 英语 / 日语)、年代(80 后经典 / 2023 新歌)” 分层浏览,每个分类页展示 “TOP50 榜单”。 社交互动功能: 动态广场:查看 “关注的用户 / 音乐人发布的动态(如‘分享新歌感受’)、好友正在听的歌曲”,支持 “点赞 / 评论 / 转发”,可直接点击动态中的歌曲播放。 听歌排行:个人页展示 “本周听歌 TOP10、累计听歌时长”,平台定期生成 “全球 / 好友榜”(如 “好友中你本周听歌时长排名第 3”)。 音乐圈:加入 “特定曲风圈子(如‘古典音乐爱好者’)”,参与 “话题讨论(如‘你心中最经典的钢琴曲’)、线上歌单共创”。 (2)音乐人端(创作者中心) 作品管理: 音乐上传:支持 “无损音频(FLAC/WAV)+ 歌词文件(LRC)+ 专辑封面” 上传,填写 “歌曲信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值