主动学习:概念、策略与样本复杂度分析
1. 主动学习概述
主动学习是指学习者能够对其数据来源施加一定控制的一类学习场景。例如,在拟合回归函数时,学习者可以自行提供一组数据点来测量响应值,以降低估计的方差。这类问题在实验设计的范畴下已被研究了数十年。近年来,机器学习领域对主动学习二元分类器的任务产生了浓厚兴趣,该任务带来了一些基本的统计和算法挑战,其数学基础的理解也在逐步形成。
2. 模型误差代理与统计主动学习
2.1 模型误差代理
我们用预测方差在测试分布上的积分作为模型误差的代理。在基于池的设置中,有大量来自该分布的未标记示例,我们可以简单地计算池样本上的上述方差,并将所得平均值作为估计值。
2.2 统计主动学习中的方差计算
为了进行统计主动学习,我们需要计算添加一个(未知)标签 $\hat{y}$ 对任意 $\hat{x}$ 时,估计方差将如何变化。新的期望方差表示为 $\mathbb{E}[\hat{\sigma}^2_{\hat{y}}]$。虽然我们不知道 $\hat{y}$ 的具体值,但模型会给出该值的估计均值 $\hat{\mu}(\hat{x})$ 和方差 $\sigma^2_{\hat{y}}(x)$。我们可以将这个“分布式”的 $y$ 值添加到局部加权散点平滑(LOESS)中,就像它是离散值一样,并以封闭形式计算所得期望 $\mathbb{E}[\hat{\sigma}^2_{\hat{y}}]$。定义 $\hat{k}$ 为 $K(\hat{x}, x)$,则有:
[
\mathbb{E}[\hat{\sigma}^2_{\hat{y}}] = \frac{\mathbb{E}[\hat{
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



