基于二项实验的算法检验

最新推荐文章于 2022-06-05 17:13:15 发布

原创最新推荐文章于 2022-06-05 17:13:15 发布 · 544 阅读

CC 4.0 BY-SA版权

22 篇文章

订阅专栏

1 引言

所有的识别算法都认为是确定性的，也就是说，一旦算法A在训练集T上训练完毕，两个图像之间的距离就完全被确定，基于这样的假设，于是，第i个人的第j张图像能否被识别就没有任何随机性和不确定性了。

我们把训练好的算法 $A_{TG}$ 应用的随机抽取的probe images 集合里，定义 $s_l$ 是第 $l$ 个随机选择的probe image。随机选取的 $s_l$ 具有如下性质：

$P[b(s_l)=1]=p$

换句话说，这个方程陈述了算法 $A_{TG}$ 识别一个随机选择的probe image $s_l$ 的概率为 $p$ 。这和普通的二项实验是一样的，就如同在同一个罐子里有绿球和红球，随机抽取一个绿球的概率是 $p$ 的概率是一样的道理。

二项模型是非常简单的。但有一些方面需要深入探讨以消除忧虑。

普通的伯努利实验都是有放回的抽样，但是大部分人类识别算法实验都是对probe 图像进行无放回抽样。因此，问题就来了，在无放回抽样的情况下，如何将建立在有放回抽样的假设基础上的模型用于实验。

其实这个担心并无实际意义。因为如果目标分布相对于样本量很大，那么相同的案例抽中两次的概率是很低的，因此有放回抽样和无放回抽样的差异可以忽略不计。虽然并非总是这样，但人类识别算法实验中的标准是：样本（probe images）量远远小于我们试图对算法进行统计推断的总体数量。

毫无疑问，相比其他人，有个别人很难被自动算法所识别，对于二项模型来说，这是一个担心吗？答案是这依赖于人们对抽样的假设。如果抽取的probe images都是独立的随机抽样，并且样本分布P可以代表总体，一些人难识别的问题就无关紧要。

一个有用的方法可以说明，即使我们知道有些人比其他人更难识别时，上面提出的二项模型仍然适用，只不过对其进行扩展。这一次，我们不是直接从罐子里抽取一个球，而是假设先从代有很多抽屉的橱柜中随机抽取一个球。有两步假设：（1）先随机抽取一个抽屉（2）再从抽取的抽屉中随机抽取一个球。

假设不同的抽屉红球和绿球的比例是不一样的，因此对于这个实验，有：

$P[marble\ drawn\ is\ green|marble\ is \ drawn\ from \ drawer \ i]=p_i$

可是，因为抽屉自己也是随机选择的，这个实验就等价于另外一个实验：首先将所有抽屉里的球全部倒入一个单独的罐子里，充分混合后，然后随机从罐子里抽取一个球。这就又和之前提出的二项实验是一样的。

从随机抽取的抽屉里随机抽取一个绿球的概率是每一个抽屉的概率的加权平均，也就是：

$\frac{1}{m} \sum_{i=1}^{m}n_ip_i / \sum_{i=1}^{m} n_i$

在probe set中，每个人对应每个抽屉，每个抽屉中的球对应每个人的每一张图像，因此虽然每个人被算法 $A_{TG}$ 识别的概率是不一样的 $p_i$ ,但是对于一张随机选择的probe image来说，算法 $A_{TG}$ 识别的无条件概率是一样的 $p$ 。

给定二项模型，对于两个算法性能的比较，一个简单和自然的方法是McNemar test。这个方法主要是应用配对数据（paried data）。

假设两个将要比较的算法是 $A_{TG}$ 和 $B_{TG}$ ，应用到相同的gallery 和probe 图像上，得到的结果汇总如下：

	S	F
S	73	27
F	2	23

73表示算法A 和算法B都能够识别，27表示算法B识别而A未识别，2表示算法A识别而B未识别,23表示两个算法均未识别。显然，算法之间的比较主要归结于SF和FS的相对频数。

McNemar test 去掉表格中的SS和FF部分，仅保留SF和FS。
零假设 $H_0$ :观测值SF的概率 = 观测值FS的概率。
我们感兴趣的是单边检验，因此不失一般性，
$H_1: P[SF]>P[FS]$
也就是说，算法A比算法B差。
因此，在 $H_0$ 假设下，有：

$\ most \ n_{FS} \ favor B_{TG}] = \sum_{i=0}^{ n_{FS}} \frac{n!}{i!(n-i)!}0.5^{n}$

其中， $n=n_{SF}+n_{FS}$ ,上述概率未拒绝 $H_0$ 的p值。