作者:禅与计算机程序设计艺术
1.背景介绍
监督学习(Supervised Learning)是机器学习的一个子领域,它试图通过已知输入的训练数据进行训练,从而能够对新的输入预测出相应的输出。由于训练数据的质量和数量往往十分重要,因此监督学习又分成了不同的类型,如有监督学习、半监督学习和无监督学习等。
在监督学习中,有两种基本任务:分类和回归。分类任务就是输入数据要被划分到某些类别中去;回归任务就是预测一个连续值变量的值。而监督学习中的另一个重要的任务——聚类(Clustering)也是一种监督学习任务。顾名思义,聚类就是将相似的数据集合到一起,比如,把具有相同基因特征的样本聚合在一起。
监督学习算法一般分成三大类:回归算法、分类算法、聚类算法。本文将主要介绍监督学习算法的分类及其相关概念。
2.核心概念与联系
2.1 数据集与训练集
监督学习的目的是学习一个函数或者模型,使得在给定输入x时,能够预测出一个输出y。为了训练这个模型,通常需要提供一个由训练数据组成的数据集。数据集可以分为训练集、验证集和测试集。
- 训练集:用于训练模型的原始数据集。
- 验证集:用于选择模型的超参数、调节模型的验证指标等。验证集不参与模型训练,