一、监督学习
监督学习擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本。 有时,即使标签是未知的,样本也可以指代输入特征。 我们的目标是生成一个模型,能够将任何输入特征映射到标签,即预测。
1. 回归
当标签取任意数值时,我们称之为回归问题。 判断回归问题的一个很好的经验法则是,任何有关“多少”的问题很可能就是回归问题。
2. 分类
在分类问题中,我们希望模型能够预测样本属于哪个类别。最简单的分类问题是只有两类,我们称之为“二元分类”。当我们有两个以上的类别时,我们把这个问题称为多元分类问题。
3. 标记问题
预测不相互排斥的类别的问题称为多标签分类。
4. 搜索问题
在海量搜索结果中找到用户最需要的那部分。 搜索结果的排序也十分重要,我们的学习算法需要输出有序的元素子集。
5. 推荐系统
向特定用户进行“个性化”推荐。
6. 序列学习
输入是连续的,序列学习需要摄取输入序列或预测输出序列,或两者兼而有之。 具体来说,输入和输出都是可变长度的序列。
二、非监督学习
数据中不含有“目标”的机器学习问题为无监督学习。
1. 聚类问题
在没有标签的情况下,给数据分类。
比如,给定一组照片,我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗?同样,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?
2.主成分分析问题
我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述实体及其关系,例如“罗马” “意大利” “法国” “巴黎”。
3.因果关系和概率图模型问题
我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?
4.生成对抗性网络
为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。