摘要:主动学习通过人机交互,使用更少的标签获得良好的分类能力。使用三支决策,在每轮将样本分为查询、分类、待处理三个区域,并在交互过程中不断减少待处理区域数据量,最终获得分类结果。在实际应用中,需要综合考虑测试代价、标签查询代价、误分类代价的折中,以最小化总代价为目标,获得最优解决方案。
1. 主动学习 Active learning
1.1 监督学习 Supevised learning

表 1. 结构化数据
No. | sepal-length | sepal-width | petal-length | petal-width | class |
---|---|---|---|---|---|
x 1 x_1 x1 | 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
x 2 x_2 x2 | 4.6 | 3.4 | 1.4 | 0.3 | Iris-setosa |
x 3 x_3 x3 | 6.6 | 2.9 | 4.6 | 1.3 | Iris-versicolor |
x 4 x_4 x4 | 5.2 | 2.7 | 3.9 | 1.4 | Iris-versicolor |
x 5 x_5 x5 | 6.9 | 3.2 | 5.7 | 2.3 | Iris-virginica |
x 6 x_6 x6 | 5.6 | 2.8 | 4.9 | 2.0 | Iris-virginica |
- 上午给定 100 个带标签样本, 需要使用它们建立分类器
- 下午给定 500 个新样本, 要求分类
- 标签为枚举型时称为分类, 标签为实数值则为回归
1.2 半监督学习 Semi-supervised learning
- 上午给定 1000 个样本, 其中仅 100 个带标签. 需要使用它们建立分类器
- 下午给定 500 个新样本, 要求分类
- 问题: 上午的 900 个样本对于提升分类器的精度有没有帮助?
1.3 主动学习 Active learning

- (close world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器对其它 900 个样本进行分类
- (open world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器. 下午给定 500 个新样本, 要求分类
2. 三支主动学习
- 基于聚类的主动学习
样本处于三种状态: 被查询、被分类、延迟处理
2.1 ALEC 算法

- Step 1. 根据 Density peaks 将数据组织成一棵树, 同时计算每个对象的代表性;
- Step 2. 查询当前块代表性最高的若干样本;
- Step 3. 如果被查询样本具有同样的标签, 则认为当前块纯了, 将其余样本全部打上同样标签;
- Step 4. 否则将当前块分裂为两块, 递归到下一级的 Step 2;
- 注意: 这里涉及到递归调用, 并不是这样简单. 代码及分析见 日撸 java 三百行 第 66-68 天内容
- Min Wang, Fan Min, Yan-Xue Wu, Zhi-Heng Zhang, Active learning through density clustering, Expert Systems with Applications 85 (2017) 305–317. (66 次引用)
2.2 TACS 算法

- 问题的提出: 聚类算法这么多, 用哪种好?
- 解决方案: 对于当前块, 谁的效果好就用谁
Fan Min, Shi‑Ming Zhang, Davide Ciucci, Min Wang. Three‑way active learning through clustering selection. International Journal of Machine Learning and Cybernetics . (2020-03)1033–1046. (10 次引用)
3. 代价敏感主动学习
3.1 CADU 算法

- 问题的提出: 对预定的查询数不满意怎么办
- 解决方案: 买标签
- 涉及代价: 查询代价、误分类代价
- Yan-Xue Wu, Xue-Yang Min, Fan Min, Min Wang. Cost-sensitive active learning with a label uniform distribution model. International Journal of Approximate Reasoning. (2019-02)49-65. (13 次引用)

Assumption 1. (The discrete uniform distribution assumption) Suppose that no label is known, i.e.,
R
=
B
=
0
R = B = 0
R=B=0. The probability that there are ipositive instances in
X
\mathbf{X}
X is the same for any
0
≤
i
≤
n
0 \leq i \leq n
0≤i≤n. That is,
∀
0
≤
i
≤
n
P
(
R
∗
=
i
)
=
1
n
+
1
(1)
\forall 0 \le i \le n\, P(R^* = i) = \frac{1}{n + 1} \tag{1}
∀0≤i≤nP(R∗=i)=n+11(1)
3.2 CATS 算法

- 问题的提出: 使用均匀分布假设合适吗?
- 解决方案: 统计获得实际数据的分布
Min Wang, Yao Lin, Fan Min, Dun Liu. Cost-sensitive active learning through statistical methods. Information Sciences. (2019) 460-482. (7 次引用)
4. 带标签噪声的主动学习
Min Wang, Ke Fu, Fan Min, Xiuyi Jia. Active learning through label error statistical methods.Knowledge-Based Systems. (2019-10)
Min Wang, Hong-Tian Yu, Fan Min. Noise label learning through label confidence statistical inference. Knowledge-Based Systems. (2021)107234.
小结
- 场景
- 问题
- 假设/模型/算法
进一步工作
- 多标签主动学习
- 多示例主动学习
欢迎批评指正!