机器学习---半监督学习(生成式方法)

1. 主动学习

形式化地看,我们有训练样本集,这l个样本的类别标记(即是否

好瓜)已知,称为“有标记”(labeled)样本;此外,还有,这u

个样本的类别标记未知(即不知是否好瓜),称为“未标记”(unlabeled)样本。若直接使用传统监督学

习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了;另一方面,若Dl较小,则由于训

练样本不足,学得模型的泛化能力往往不佳。那么,能否在构建模型的过程中将Du利用起来呢?

一个简单的做法,是将Du中的示例全部标记后用于学习。这就相当于请瓜农把地里的瓜全都检查

一遍,告诉我们哪些是好瓜,哪些不是好瓜,然后再用于模型训练。显然,这样做需耗费瓜农大量

时间和精力。有没有“便宜”一点的办法呢?

我们可以用Dl先训练一个模型,拿这个模型去地里挑一个瓜,询问瓜农好不好,然后把这个新获得

的有标记样本加入Dl中重新训练一个模型,再去挑瓜,… 这样,若每次都挑出对改善模型性能帮

助大的瓜,则只需询问瓜农比较少的瓜就能构建出比较强的模型,从而大幅降低标记成本。这样的

学习方式称为“主动学习”(active learning),其目标是使用尽量少的“查询”(query)来获得尽量好的性

能。若不引入专家知识,还能利用未标记昂本提高分类器泛化性能吗

2. 半监督学习

事实上,未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布

采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益。图1给出了一个直观的

例示。若仅基于图中的一个正例和一个反

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值