基于二项实验的算法检验

1 引言

所有的识别算法都认为是确定性的,也就是说,一旦算法A在训练集T上训练完毕,两个图像之间的距离就完全被确定,基于这样的假设,于是,第i个人的第j张图像能否被识别就没有任何随机性和不确定性了。

我们把训练好的算法 A T G A_{TG} ATG应用的随机抽取的probe images 集合里,定义 s l s_l sl是第 l l l个随机选择的probe image。随机选取的 s l s_l sl具有如下性质:

P [ b ( s l ) = 1 ] = p P[b(s_l)=1]=p P[b(sl)=1]=p

换句话说,这个方程陈述了算法 A T G A_{TG} ATG识别一个随机选择的probe image s l s_l sl的概率为 p p p。这和普通的二项实验是一样的,就如同在同一个罐子里有绿球和红球,随机抽取一个绿球的概率是 p p p的概率是一样的道理。

2 二项模型的适应性

二项模型是非常简单的。但有一些方面需要深入探讨以消除忧虑。

2.1 有放回抽样和无放回抽样的区别

普通的伯努利实验都是有放回的抽样,但是大部分人类识别算法实验都是对probe 图像进行无放回抽样。因此,问题就来了,在无放回抽样的情况下,如何将建立在有放回抽样的假设基础上的模型用于实验。

其实这个担心并无实际意义。因为如果目标分布相对于样本量很大,那么相同的案例抽中两次的概率是很低的,因此有放回抽样和无放回抽样的差异可以忽略不计。虽然并非总是这样,但人类识别算法实验中的标准是:样本(probe images)量远远小于我们试图对算法进行统计推断的总体数量。

2.2 一些人很难识别

毫无疑问,相比其他人,有个别人很难被自动算法所识别,对于二项模型来说,这是一个担心吗?答案是这依赖于人们对抽样的假设。如果抽取的probe images都是独立的随机抽样,并且样本分布P可以代表总体,一些人难识别的问题就无关紧要。

一个有用的方法可以说明,即使我们知道有些人比其他人更难识别时,上面提出的二项模型仍然适用,只不过对其进行扩展。这一次,我们不是直接从罐子里抽取一个球,而是假设先从代有很多抽屉的橱柜中随机抽取一个球。有两步假设:(1)先随机抽取一个抽屉(2)再从抽取的抽屉中随机抽取一个球。

假设不同的抽屉红球和绿球的比例是不一样的,因此对于这个实验,有:

P [ m a r b l e   d r a w n   i s   g r e e n ∣ m a r b l e   i s   d r a w n   f r o m   d r a w e r   i ] = p i P[marble\ drawn\ is\ green|marble\ is \ drawn\ from \ drawer \ i]=p_i P[marble drawn is greenmarble is drawn from drawer i]=pi

可是,因为抽屉自己也是随机选择的,这个实验就等价于另外一个实验:首先将所有抽屉里的球全部倒入一个单独的罐子里,充分混合后,然后随机从罐子里抽取一个球。这就又和之前提出的二项实验是一样的。

从随机抽取的抽屉里随机抽取一个绿球的概率是每一个抽屉的概率的加权平均,也就是:

p = P [ m a r b l e d r a w n i s g r e e n ] = 1 m ∑ i = 1 m n i p i / ∑ i = 1 m n i p = P[marble drawn is green] = \frac{1}{m} \sum_{i=1}^{m}n_ip_i / \sum_{i=1}^{m} n_i p=P[marbledrawnisgreen]=m1i=1mnipi/i=1mni

在probe set中,每个人对应每个抽屉,每个抽屉中的球对应每个人的每一张图像,因此虽然每个人被算法 A T G A_{TG} ATG识别的概率是不一样的 p i p_i pi,但是对于一张随机选择的probe image来说,算法 A T G A_{TG} ATG识别的无条件概率是一样的 p p p

3 利用二项模型做假设检验

给定二项模型,对于两个算法性能的比较,一个简单和自然的方法是McNemar test。这个方法主要是应用配对数据(paried data)。

假设两个将要比较的算法是 A T G A_{TG} ATG B T G B_{TG} BTG,应用到相同的gallery 和probe 图像上,得到的结果汇总如下:

SF
S7327
F223

73表示算法A 和算法B都能够识别,27表示算法B识别而A未识别,2表示算法A识别而B未识别,23表示两个算法均未识别。显然,算法之间的比较主要归结于SF和FS的相对频数。

3.1 McNemar test

McNemar test 去掉表格中的SS和FF部分,仅保留SF和FS。
零假设 H 0 H_0 H0:观测值SF的概率 = 观测值FS的概率。
我们感兴趣的是单边检验,因此不失一般性,
H 1 : P [ S F ] > P [ F S ] H_1: P[SF]>P[FS] H1:P[SF]>P[FS]
也就是说,算法A比算法B差。
因此,在 H 0 H_0 H0假设下,有:

P [ a t   m o s t   n F S   f a v o r B T G ] = ∑ i = 0 n F S n ! i ! ( n − i ) ! 0. 5 n P[at \ most \ n_{FS} \ favor B_{TG}] = \sum_{i=0}^{ n_{FS}} \frac{n!}{i!(n-i)!}0.5^{n} P[at most nFS favorBTG]=i=0nFSi!(ni)!n!0.5n

其中, n = n S F + n F S n=n_{SF}+n_{FS} n=nSF+nFS,上述概率未拒绝 H 0 H_0 H0的p值。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大浪淘沙_scc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值