监督学习和无监督学习

监督学习

定义:利用已知的输入和输出数据来训练模型,使其能够对未知数据进行准确的预测

举例:有一个水果摊,摊主希望在进货时能快速识别水果,这时候需要一个机器对水果进行分类,但是机器不知道水果长什么样,于是摊主就收集了大量水果的照片,包括苹果、香蕉、橙子和葡萄等。每张照片都被标记为相应的水果类型。机器经过反复的看,形成肌肉记忆,可以对各类水果形成自己的定义,然后机器就可以准确的对水果进行分类。

在这个例子中各种水果的照片就是标签,反复地看就是训练,肌肉记忆就是模型

算法分类

  1. 回归模型:根据先前的观测数据来预测数值,常见算法:线性回归、逻辑回归、多项式回归等,常见例子:薪水、体重……
  2. 分类模型:分析预测数据的类别,常见例子:垃圾分类、垃圾邮件检测……

无监督学习

定义:训练数据没有标签和分类,只能靠机器自行学习

举例:还是之前的例子,只不过不告诉机器这是苹果那个是香蕉,而是让它直接进行分类

算法分类

  1. 聚类:将未标记的数据组织成类似的组,主要目标是发现数据点中的相似性,常用于图像处理、个性化推荐……
  2. 异常检测:识别与大多数数据显著不同的特殊项、事件或观测值的方法。常用于健康检测、质量控制……

区别和优点

图片来源  监督学习和无监督学习 - 阿Qi早起了吗 - 博客园

 

        左图是无监督学习的过程,虽然数据被分成了两类,但是没有对应的数据标签,统一用蓝色的○表示,这更像是把具有相同的特征的数据聚集在一起,所以无监督学习实现分类的算法又叫做聚类。右图是监督学习中二分类的过程,标签在图中体现为×和○。

无监督学习
优点:无需人工标注,可直接从海量未标记数据中自动提取知识,适用于数据探索、预处理和模式识别,还能作为监督学习的预处理步骤,减少标注需求或提升模型效果。
缺点:对数据质量敏感,噪声、缺失值或异常值易影响模型表现。

监督学习
优点:依赖标注数据训练模型,预测准确性较高;通过对比真实标签优化模型,提升准确率。
缺点:易过度依赖训练数据(过拟合),导致在新数据上泛化能力差。

如何选择

  • 选择监督学习

    • 当你有大量的标记数据(输入和对应的输出)可用时。
    • 当目标是进行分类或回归预测时。
    • 当需要高准确度和可解释性时。
  • 选择无监督学习

    • 当没有标记数据可用时。
    • 当目标是发现数据中的模式、结构或群体时。
    • 当需要进行数据探索或预处理时。

参考文章

监督学习or无监督学习?这个问题必须搞清楚 - 知乎

机器学习笔记--监督学习和无监督学习全面总结(原理、示意图、代码)-优快云博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值