1. 主动学习
形式化地看,我们有训练样本集,这l个样本的类别标记(即是否
好瓜)已知,称为“有标记”(labeled)样本;此外,还有,这u
个样本的类别标记未知(即不知是否好瓜),称为“未标记”(unlabeled)样本。若直接使用传统监督学
习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了;另一方面,若Dl较小,则由于训
练样本不足,学得模型的泛化能力往往不佳。那么,能否在构建模型的过程中将Du利用起来呢?
一个简单的做法,是将Du中的示例全部标记后用于学习。这就相当于请瓜农把地里的瓜全都检查
一遍,告诉我们哪些是好瓜,哪些不是好瓜,然后再用于模型训练。显然,这样做需耗费瓜农大量
时间和精力。有没有“便宜”一点的办法呢?
我们可以用Dl先训练一个模型,拿这个模型去地里挑一个瓜,询问瓜农好不好,然后把这个新获得
的有标记样本加入Dl中重新训练一个模型,再去挑瓜,… 这样,若每次都挑出对改善模型性能帮
助大的瓜,则只需询问瓜农比较少的瓜就能构建出比较强的模型,从而大幅降低标记成本。这样的
学习方式称为“主动学习”(active learning),其目标是使用尽量少的“查询”(query)来获得尽量好的性
能。若不引入专家知识,还能利用未标记昂本提高分类器泛化性能吗?
2. 半监督学习
事实上,未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布
采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益。图1给出了一个直观的
例示。若仅基于图中的一个正例和一个反