1.Learning with Different Output Space
上节课主要讲的是二元分类问题(Binary Classification):输出结果为{-1,+1},二元分类问题在生活中十分常见,例如是否同意信用卡申请,判别邮件是否为垃圾邮件等。二元分类问题是机器学习领域非常基本核心的问题。
第一张图是我们之前学习过的线性可分的二元分类问题,可以运用PLA算法求解;第二张图也是我们学习过的含noise的二元分类问题,可以用pocket算法求解;第三张图为多项式分解。
从二元分类问题出发,一个延伸的问题就是多元分类问题(Multiclass Classification),即输出为大于2的有限个类别:Y={1,2,3…k}。
例如硬币分类问题:
医院对病人进行检查,二元分类可用于判断病人有没有病,多元分类则可用于判断病人得的是什么病,但这些问题的输出都是离散值。如果我们需要机器帮助判断病人需要多久才能出院,得到这种具体的数字,也就相当于输出空间的范围是整个实数(Y=R),这类问题我们把它叫做回归分析(Regression),它的输出不是一种标记,而是有实际意义的值。例如线性回归就是一种典型的回归分析问题。
在自然语言处理等领域,还会用到一种机器学习问题:结构化学习(Structured Learning),结构化学习的输出是一个结构(例如句子中每个词的词性),它的一些解法通常是从多分类问题延伸出来的,比较复杂,通常难以显示的定义该类,但在此课程中我们不会做过多的介绍。
2.Learning with Different Data Label yn
①如果我们拿到的训练数据集既包含输入,也包含输出,那么我们把这种类型的学习称为监督学习(Supervised Learning),比如在多元分类里接触到的硬币分类问题。(不同类别对应不同颜色)
②相对的另一种学习是非监督学习(Unsupervised Learning),非监督学习不提供输出,主要用聚类(clustering),密度估计(density estimation),离群点检测(outlier detection)等。依旧用硬币分类问题举例,无标识时的图如下:
此时通过聚类可能会得出错误的结果(只有三类):
③介于监督式和非监督式学习之间的叫做半监督学习(Semi-supervised Learning)。它通过少量有标记的训练点和大量无标记的训练点达到学习的目的。在实际应用中,半监督式学习有时候是必须的,比如图像的识别,很多情况下我们不可能把每张图片都做上标记,此时,使用半监督学习是一种不错的选择。
④监督式、非监督式、半监督式学习是机器学习领域最传统的三种方式。除此之外,还有一种非常重要的类型:增强学习(Reinforcement Learning),即通过对一个行为作出“奖励”或者“惩罚”,以此获得的输出进行学习,优化学习效果,可类比对宠物的训练。根据用户点击、选择而不断改进的广告系统就是增强学习的一个应用。
3.Learning with Different Protocol f(xn,yn)
①Batch Learning:将大量数据一次性给算法进行学习(a very common protocol)
②Online:将数据一笔一笔传输进去,数据实时更新,同步更新我们的算法,PLA和增强学习都可以试用这种形式(hypothesis ‘improves’ through receiving data instance sequentially)
③Active Learning:主动学习算法的一部分训练样本的标签是在算法运行的过程中主动询问用户才得到的(Learning by ‘Asking’)