点Ta
1 概述
机器学习即在特定编程的情况下,使用计算机作为工具并致力于真实并实时的模拟人类学习方式, 将现有内容进行知识结构划分以提高学习效率。
根据训练数据是否拥有标记信息,可大致分为:“监督学习”和“无监督学习”。可理解为,监督学习是指我们将教计算机如何去完成任务;而在无监督学习中计算机自己进行学习。分类和回归是前者的代表,聚类是后者的代表。
1.1 Learning Map
蓝色方块指的是scenario,即学习的情境。通常学习的情境是我们没有办法控制的,比如做reinforcement Learning是因为我们没有data、没有办法来做supervised Learning的情况下才去做的。如果有data,supervised Learning当然比reinforcement Learning要好;因此手上有什么样的data,就决定你使用什么样的scenario。
红色方块指的是task,即要解决的问题。你要解的问题,随着你要找的function的output的不同,有输出scalar的regression、有输出options的classification、有输出structured object的structured Learning…
绿色的方块指的是model,即用来解决问题的模型(function set)。在这些task里面有不同的model,也就是说,同样的task,我们可以用不同的方法来解它,比如linear model、Non-linear model(deep Learning、SVM、decision tree、K-NN…)
1.2 Supervised Learning(监督学习)
supervised learning 需要大量的training data,这些training data要求我们找到function,当这个function看到某种input则输出a,看到另一种input输出b,看到……
这种function的output,通常被叫做label(标签),也就是说,我们要使用supervised learning这样一种技术,我们需要告诉机器,function的input和output分别是什么,而这种output通常是通过人工的方式标注出来的,因此称为人工标注的label,它的缺点是需要大量的人工effort。
1.2.1 Case1: Housing price prediction
通过收集的房价数据绘制如下图,那基于这组数据,若有一套 750 平方英尺房子,那么这房子能卖多少钱。
关于这个问题,机器学习算法将会怎么帮助你呢?