监督学习
定义:利用已知的输入和输出数据来训练模型,使其能够对未知数据进行准确的预测
举例:有一个水果摊,摊主希望在进货时能快速识别水果,这时候需要一个机器对水果进行分类,但是机器不知道水果长什么样,于是摊主就收集了大量水果的照片,包括苹果、香蕉、橙子和葡萄等。每张照片都被标记为相应的水果类型。机器经过反复的看,形成肌肉记忆,可以对各类水果形成自己的定义,然后机器就可以准确的对水果进行分类。
在这个例子中各种水果的照片就是标签,反复地看就是训练,肌肉记忆就是模型
算法分类
- 回归模型:根据先前的观测数据来预测数值,常见算法:线性回归、逻辑回归、多项式回归等,常见例子:薪水、体重……
- 分类模型:分析预测数据的类别,常见例子:垃圾分类、垃圾邮件检测……
无监督学习
定义:训练数据没有标签和分类,只能靠机器自行学习
举例:还是之前的例子,只不过不告诉机器这是苹果那个是香蕉,而是让它直接进行分类
算法分类
- 聚类:将未标记的数据组织成类似的组,主要目标是发现数据点中的相似性,常用于图像处理、个性化推荐……
- 异常检测:识别与大多数数据显著不同的特殊项、事件或观测值的方法。常用于健康检测、质量控制……
区别和优点
图片来源 监督学习和无监督学习 - 阿Qi早起了吗 - 博客园
左图是无监督学习的过程,虽然数据被分成了两类,但是没有对应的数据标签,统一用蓝色的○表示,这更像是把具有相同的特征的数据聚集在一起,所以无监督学习实现分类的算法又叫做聚类。右图是监督学习中二分类的过程,标签在图中体现为×和○。
无监督学习
优点:无需人工标注,可直接从海量未标记数据中自动提取知识,适用于数据探索、预处理和模式识别,还能作为监督学习的预处理步骤,减少标注需求或提升模型效果。
缺点:对数据质量敏感,噪声、缺失值或异常值易影响模型表现。
监督学习
优点:依赖标注数据训练模型,预测准确性较高;通过对比真实标签优化模型,提升准确率。
缺点:易过度依赖训练数据(过拟合),导致在新数据上泛化能力差。
如何选择
-
选择监督学习:
- 当你有大量的标记数据(输入和对应的输出)可用时。
- 当目标是进行分类或回归预测时。
- 当需要高准确度和可解释性时。
-
选择无监督学习:
- 当没有标记数据可用时。
- 当目标是发现数据中的模式、结构或群体时。
- 当需要进行数据探索或预处理时。
参考文章