本节课主要讲了半监督学习Semi-supervised:样本中有一部分数据有标签(label data)但很少,另一部分数据无标签(unlabel data),很多~因为收集无标签的数据很容易,但是收集有标签数据没那么容易~
图片来源于李宏毅老师ppt,如有错误务必指正!!
博主总结的时候喜欢中英夹杂,别介意!
1.Semi-supervised Generative Model
基本思想(EM):
(1)先用label data训练一个model
(2)再用unlabel data不断更新model
与一般的生成模型不同的是(比如NB可以一次性就得到closed form solution),这种方式需要不断iterate~这种方式也叫作self-training
self-training
基本思想:
(1)先用label data 训练一个model f
(2)用这个model f去test unlabel data,会得到pseu-label的数据(假装被分了类),再把这些数据加入label data集里面
(3)Repeat
Entropy-based Regularization

本文介绍了半监督学习的概念,包括Semi-supervised Generative Model的EM算法,self-training策略,以及Entropy-based Regularization。此外,还探讨了Smoothness Assumption,通过Graph-based Approach实现数据的平滑处理,以达到更好的分类效果。
最低0.47元/天 解锁文章
7954

被折叠的 条评论
为什么被折叠?



