第一章 绪论

1.1引言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常是以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)/学习器(learner)的算法,即“学习算法”。

有了机器学习,我们就可以把经验数据提供给它,他就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。

1.2基本术语

输入

“数据集”(data set):记录的集合称为一个 “数据集”。其中每条记录是关于一 个事件或对象(这里是一个西瓜)的描述,称为 一 个 “示例 ”(instance)或 “样本 "(sample)。

“属性"(attribute)或 “特征”(feature):反映事件或对象在某方面的表现或性质的事项,例如 “色 泽 ” “根蒂” “敲 声 " 。属性上的取值,例如 “青绿” " 乌 黑 " 称为 “属性值”( tribute value).

属性张成的空间称为 “属性空间"(attribute space)“样本空间”(sample space)或 “输入空间“。

【把 “色泽 ” “根蒂” “敲声”作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 “特征向量”(feature vector)。】

”维数”

“学习 ”(learning)或 “训练 ”(training):从数据中学得模型的过程称为 “学习 ”(learning)或 “训 练 ”(training), 这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据“(training data),其中每个样本称为一个“训练样本" (training sample)。

“训练集"(training set):训练样本组成的集合称为“训练集"(training set)。

”标记“”标签“(label):“结果”信息。

“示例”(instance):

”样例”(example):拥有了标记信息的示例,即包含结果。

输出

”分类“(classification):预测离散值。 二分类称两类为”正类“和“反类”。机器学习最基础问题。

“回归”regression):预测连续值。

“聚类”(clustering):将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”。

【在聚类学习中,“浅色瓜” “本地瓜”这样的概念我们事先是不知道的, 而且学习过程中使用的训练样本通常不拥有标记信息.】

”测试集“(testing sample):把模型拿来用。学到模型后,使用其进行预测的过程称为“测试”(testing)。

学习任务(根据是否拥有标记信息)

”监督学习“(supervised learning):

“无监督学习”(unsupervised learning):无“结果部分”。

分类和回归是前者的代表,而聚类则是后者的代表。

泛化能力

机器学习的目标是使学得的模型能很好地适用于“新 样 本 " 而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我 们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为 “泛化 " (generalization)能力。

1.3假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的 “泛化”(generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化 ”(specialization)过程,即从基础原理推演 出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎;而 “从样例中学习”显然是一个归纳的过程,因此亦称 “归纳学习 ”(inductive learning)。

1.4归纳偏好(偏置)

如图,每个训练样本时图中一个点(x,y),要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然,对有限个样本点组成的训练集,存在着很多条曲线与其一致。我们的算法必须有某种偏好,才能确认出“正确”的模型。

例如,如果认为相似的样本应有相似的输出(例如,在各种属性都很相似的西瓜,成熟程度应该比较接近),则对应的学习算法可能偏好比较平滑的A而不是比较崎岖的B。

奥卡姆剃刀(Qccam’s razor)若非必要勿增实体

是一种常用的、自然科学研究总最基本的原则,即“若有多个假设与观察一直,则选最简单的那个”。然而,奥卡姆剃刀并使不唯一可行的原则。

NFL定理

NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

1.5发展过程

1950s~1970s:推理期,基于符号知识表示、通过演绎推理技术取得很大成就。

1970s中期:知识期,基于符号知识表示、通过获取和利用领域知识来建立专家系统获得了大量成果。

1980s:从样例中学习。机器学习被视为“解决知识工程瓶颈问题的关键”,机器学习走上人工智能主舞台。

1990s:统计学习闪亮登场并迅速占据主流舞台。代表技术是SVM,以及更一般的“核方法”。(这方面研究早在六七十年代就已经开始)

2000s:深度学习热潮。

1.6应用现状

在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,而机器学习恰顺应了大时代的这个迫切需求,因此该学科领域很自然地取得巨大发展、受到广泛关注。今天,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系结构、芯片设计,都能找到机器学习技术的身影,尤其是在计算机视觉、 自然语言处理等“计算机应用技术”领域,机器学习已成为最重要的技术进步源泉之一。

1.7阅读材料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值