半监督学习
Introduction

对于猫狗分类问题,如果只有一部分data有label,还有其他很大一部分data是unlabeled,那么我们可以认为unlabeled data对我们网络的训练是无用的吗?

Q:Why semi-supervised learning helps ?
(为什么semi-supervised learning会有效?)

A:如图所示,图中灰色圆点表示unlabeled data,其他圆点表示labeled data。如果没有unlabeled data,此时可以用一条竖直的线将猫狗进行分类,boundary为竖直的那条线;但unlabeled data的分布也可以告诉我们一些信息,对我们的训练也是有帮助的,有了unlabeled data,此时的boundary为斜直线
Semi-supervised Learning for Generative Model
Supervised Generative Model
不考虑unlabeled data,只有labeled data

Semi-supervised Generative Model
如果把unlabeled data也考虑进来,此时的boundary 也发生了变化

Formulation

不同的maximum likelihood对比

Low-density Separation Assumption
假设这个世界是非黑即白的,在两个class的交界处data的密度(density)是很低的,它们之间会有一道明显的鸿沟,此时unlabeled data(下图绿色的点)就是帮助你在原本正确的基础上挑一条更好的boundary

Self Training
有labeled data和unlabeled data,重复以下过程:
- 从labeled data中tarin了模型 f ∗ f^* f

探讨半监督学习在有限标注数据下的高效应用,介绍其在生成模型、SVM及平滑假设等方面的优势,以及如何利用未标注数据提升模型性能。
最低0.47元/天 解锁文章
2093

被折叠的 条评论
为什么被折叠?



