BatchBALD Acquisition Function

最新推荐文章于 2024-10-11 07:15:53 发布

原创最新推荐文章于 2024-10-11 07:15:53 发布 · 803 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

math

17 篇文章

订阅专栏

本文探讨了BatchBALD Acquisition Function在主动学习中的应用，将其与贝叶斯实验设计的效益函数进行比较。主动学习的核心是通过Acquisition Function评估样本价值，BatchBALD利用互信息作为衡量标准。计算过程涉及蒙特卡洛估计，通过拆分互信息的两个部分来实现。虽然第二项可以直接计算，但第一项熵的计算需要将概率分布转换为期望形式。最终，通过积分和求和得到表达式。该方法适用于离散型随机变量，而对于连续随机变量，建议参考2013年的相关文章。

BatchBALD Acquisition Function

引言

BatchBALD（2019）的Acquisition的公式和我读过"Simulation-based optimal Bayesian experimental design for nonlinear systems"（2013）中的效益函数近乎一模一样，但是计算方式不同。主动学习说白了就是理论统计中的贝叶斯实验设计在深度学习领域的应用，就如同“学习”二字比之于“参数估计”，说的是一个东西。

1.Acquisition Function

Acquisition function用于评判一组样本的好坏。值越高，说明样本越好。BatchBALD中采用互信息来表征，其思想是：给定一组样本，使得标签Label与待估计参数之间的互信息越大，则说明样本的价值越大。

2.计算

计算还是采用蒙特卡洛估计。下面的 $y$ 是随机向量，忽略条件推导（不影响结果）。 $w$ 是定值，然后对 $w$ 求了期望。实际上就是下面的表达式。
$\begin{aligned} I(y,\omega)= H(y)-E_{p(\omega)}H(y|\omega) \end{aligned}$
其中，利用蒙特卡洛采样，第二项的表达为：
$\sum_{j=1}^{k}H(y|\omega_j)$
各个维度 $y_i$ 在给定 $w$ 时是条件独立的，可以进一步分开求和，得到论文中的表达式。

第一项相较第二项来说稍有困难，因为第二项中的 $p(yi∣ωj)p(y_i|\omega_j)$ 是可以计算的，进而可以计算熵。然而第一项的 $p (y)$ 没有表达式，导致熵不能计算。利用技巧 $p(y)=∫ωp(y∣ω)p(ω)dωp(y)=\int_\omega p(y|\omega)p(\omega)d\omega$ 将其转化为期望，此时，表达式就可以改写成为
$\begin{aligned} I(y,\omega) &= H(y)\\ &=-\int_yp(y)\log p(y)dy\\ &=\int_y\int_\omega p(y|\omega)p(\omega)[\log\int_\omega p(y|\omega)p(\omega)d\omega]d\omega dy\\ &=\int_y\frac{1}{k}\sum_{j=1}^{k}p(y|\omega_j)[log\frac{1}{k}\sum_{j=1}^{k}p(y|\omega_j)]dy\\ &=\sum_{y}\frac{1}{k}\sum_{j=1}^{k}p(y|\omega_j)[log\frac{1}{k}\sum_{j=1}^{k}p(y|\omega_j)] \end{aligned}$
最后一步是对所有可能的 $y$ 求和，这是由于 $y$ 是离散型随机变量（分类问题）。对于连续随机变量，我还是推荐2013年的文章的方法。