监督学习
监督学习(supervised learning)擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本(example)。我们的目标是生成一个模型,能够将任何输⼊特征映射到标签(即预测)。
- 回归——平方误差损失函数回归(regression)是最简单的监督学习任务之一。
- 分类——交叉熵样本属于“哪一类”的问题称为分类问题
回归是训练一个回归函数来输出一个数值;分类是训练一个分类器来输出预测的类别
标注问题
学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)一个样本(一个图片或者一个候选框)中含有多个物体,标注的label也是多个的,多个类间并不是互斥的,多选多比如:多目标检测、短视频分类。
无监督学习
数据中不含有标签的机器学习问题
到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。这⾥所有学习都是在算法与环境断开后进行的,被称为离线学习(offline learning)。
优点是,我们可以孤⽴地进行模式识别,而不必分心于其他问题。
缺点是,解决的问题相当有限。
强化学习
智能体在一系列的时间步骤上与环境交互。在每个特定时间点,智能体从环境接收一些观察,并且必须