不确定性环境下的主动学习与集成学习
1. 主动学习实验
1.1 数据集选择与处理
选择了两个UCI数据集进行实验,分别是图像分割(Image Segmentation)和字母识别(Letter Recognition)数据集。
- 图像分割数据集 :由训练集和测试集组成,每个集合包含7个类别的实例。训练集中每个类别有30个实例,测试集中每个类别有300个实例。将其中3个类别合并为正类,另外4个类别合并为负类。
- 字母识别数据集 :包含对应字母表中26个字母的26个类别的实例,每个类别至少有700个实例。将“a”和“b”类合并为正类,“c”和“d”类合并为负类,其他类别剔除。然后将整个数据集随机划分为大小相同的训练集和测试集。
两个数据集的基本信息如下表所示:
| 数据集 | 正类数量 | 负类数量 | 属性数量 |
| — | — | — | — |
| 图像训练集 | 90 | 120 | 19 |
| 图像测试集 | 900 | 1200 | 19 |
| 字母训练集 | 777 | 771 | 16 |
| 字母测试集 | 778 | 770 | 16 |
1.2 实验设置
从每个数据集的训练集中分别选取2%和0.2%的实例作为标记实例,其余实例视为未标记实例。标记集中至少包含一个正实例和一个负实例。使用三种方法每次选择一批查询,批量大小固定为5,σ值固定为1。支持向量机主动学习方法(SVM active learning approach)和IALPSVM都有参数λ,其
主动学习与集成学习结合研究
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



