什么是机器学习
对于机器学习,并没有一个一致认同的定义,一个比较古老的定义是由 Arthur Samuel 在 1959年给出的:
“机器学习研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。(Field of study that fives computers the ability to learn without being explicitly programmed.)”
另一个比较现代且形式化的定义是由 Tom Mitchell 在 1998 年给出的:
“对于某个任务 T 和表现的衡量 P,当计算机程序在该任务 T 的表现上,经过 P 的衡量,随着经验 E 而增长,我们便称计算机程序能够通过经验 E 来学习该任务。 ( computer programis said to learn from experience E with respect to some task T and some performancemeasure P, if its performance on T, as measured by P, improves with experience E.)”
监督学习( SUPERVISED LEARNING)
学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。如:
回归问题(Regression)
分类问题(Classification)
非监督学习( UNSUPERVISED LEARNING)
在监督学习中,无论是回归问题还是分类问题,我们的数据都具有一个结果(房价问题中的房价,肿瘤问题中的良性与否)。
而在非监督学中,我们的现有数据中并没有结果,我们有的只是特征,因而非监督学习要解决的问题是发现这些数据是否可以分为不同的组。
非监督学习的一个例子是聚类问题(Clustering)。给定一些人和他们所有的基因,非监督学习可以根据是否具有某些基因而将这些人聚类:
图中纵坐标为一个个人以及他们的基因,横坐标为各种类型的基因。