吴恩达机器学习笔记复盘(二)监督学习和无监督学习

监督学习

经济价值以及定义

监督学习是机器学习中创造了 99% 经济价值的类型,它是学习输入到输出映射的算法,关键在于给学习算法提供包含正确答案(即给定输入 X 的正确标签 Y)的学习例子。

生活中的例子

  • 邮件分类,输入是电子邮件,输出是判断邮件是否为垃圾邮件。
  • 语音识别,输入音频剪辑,输出文本记录。
  • 机器翻译,输入一种语言文本,输出其他语言的相应翻译。
  • 在线广告,输入广告和用户信息,预测用户是否点击广告,为公司带来大量收入。
  • 自动驾驶,输入图像和雷达等其他感官信息,判断其他汽车位置以安全行驶。
  • 制造业目视检查,输入制成品图片,输出产品是否有缺陷。

运行机制

先用输入 X 和正确答案(标签 Y)的例子训练模型,模型学习后,可对全新输入 X 尝试产生相应输出。

两种类型

回归与分类

分类的定义

分类算法是监督学习算法的一种。以乳腺癌检测为例,利用病人医疗记录,机器学习系统要判断肿块是良性(标记为 0)还是恶性(标记为 1),可将数据按肿瘤大小和标记(0 或 1)绘制图表。

分类与回归的区别

回归是从无限多可能数字中预测数字,而分类预测的是少量可能的输出(有限的输出类别),如乳腺癌检测中只有良性或恶性两种主要类别,也可能存在多种癌症类型诊断等更多类别情况,输出类和输出类别术语常可互换。

分类的特点

分类算法预测的类别不一定是数字,如预测图片是猫还是狗;也可以是数字,如 0、1、2 等,但与回归不同在于其预测的是有限的可能输出集合,而非中间所有可能数字。

输入值变量的多样性

分类问题不仅可以只有一个输入值(如肿瘤大小),还可以有多个输入值,如增加病人年龄作为新输入,此时学习算法需找到区分恶性和良性肿瘤的边界线辅助诊断,实际乳腺癌检测工作还会使用如肿瘤团厚度、细胞大小均匀性等更多输入值。

总结

监督学习的两种主要类型是回归和分类,回归从无限多个可能输出数中预测数字(如预测房价),分类对有限的可能输出类别集合进行预测,最后引出下一个视频将介绍无监督学习 。

无监督学习

定义

与监督学习不同,监督学习的每个示例都关联输出标签,而无监督学习的数据没有关联输出标签。在无监督学习里,工作是从数据中找出结构、模式或有趣的内容,算法需自行探索数据。监督学习数据带有输入 X 和输出 Y 标签,而无监督学习数据只有输入 X,没有输出标签 Y,算法需在数据中寻找结构、模式或有趣的东西。

聚类算法及应用

  • 网络新闻:每天会浏览互联网上成千上万的新闻文章,运用聚类算法把相关故事组合在一起。算法能自行确定哪些词汇表明文章属于同一组,无需人工干预。
  • 遗传或 DNA 数据:DNA 微阵列数据通过小网格展示,每列代表一个人的基因或 DNA 活动,每行代表一个基因。可使用聚类算法将个人分成不同类别,此过程属于无监督学习,因为没有提前告知算法各类人群的特征。
  • 客户细分:很多公司有庞大的客户信息数据库,可借助聚类算法把客户自动分成不同细分市场,以更高效地服务客户。例如,深度学习团队通过聚类了解社区成员的不同动机,如寻求知识、职业发展、了解人工智能对工作领域的影响等。

聚类(clustrering)

聚类算法是无监督学习算法,它在无标签数据中自动进行分类。除了聚类,还有其他类型的无监督学习算法。

其它算法

已介绍聚类算法(将相似数据点组合在一起),还将学习名义检测(用于检测异常事件,如金融系统的欺诈检测)和降维(可将大数据集压缩成小数据集,尽可能少丢失信息,后续会专门讨论)。

无监督学习和监督学习在实际中的差别

  • 垃圾邮件过滤问题,若有标记数据(标记为垃圾邮件或非垃圾邮件),可作为监督学习问题。
  • 谷歌新闻可用聚类算法将文章分组,属于无监督学习。
  • 市场细分可作为无监督学习问题,让算法自动发现市场细分。
  • 诊断糖尿病类似乳腺癌分类,可当作监督学习问题。

笔者注

个人认为监督和无监督之间最大的差别就是“是否有人为数据标记”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值