吴恩达机器学习笔记及作业代码实现中文版
第一章 绪论:初识机器学习
什么是机器学习
-
Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
-
机器学习被用于数据挖掘的原因之一是网络和自动化技术的增长,这意味着,我们有史上最大的数据集。比如说,大量的硅谷公司正在收集 web 上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。
-
大部分的自然语言处理和大部分的计算机视觉,都应用了机器学习。学习算法还广泛
用于自定制程序,软件能给这些自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。 -
第一个机器学习的定义来自于 Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。
-
由 Tom Mitchell 定义的机器学习是,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。
-
目前存在几种不同类型的学习算法,主要的两种类型被我们称之为监督学习和无监督学习。监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。
监督学习
-
监督学习指的就是我们给学习算法一个数据集。 这个数据集由“正确答案”组成。
-
监督学习的基本思想是:我们数据集中的每个样本都有相应的“正确答案”, 再根据这些样本作出预测。
- 回归问题:即通过回归来推出一个连续的输出。
- 分类问题:其目标是推出一组离散的结果。
无监督学习
-
无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。
-
我们没有给算法正确答案来回应数据集中的数据,这就是无监督学习。
-
垃圾邮件问题:如果你有标记好的数据,区别好是垃圾还是非垃圾邮件,我们把这个当作监督学习问题。
-
新闻事件分类的例子:可以用一个聚类算法来聚类类型相同或相似的文章到一起,所以是无监督学习。
-
细分市场的例子:可以当作无监督学习问题,因为只是拿到算法数据,再让算法去自动地发现细分市场。