看了周教授的西瓜书,由于资质太差,感到书中内容丰富且复杂,还是做点笔记梳理一下思路,以便日后复习。
先从基本术语说起:
数据集(data set):其中每条记录是关于一个事件或对象的描述,称为一个‘示例(instance)’或一个’样本(sample)’,也叫‘特征向量(feature vector)’。所以说数据集就是一组特征向量的集合。
标记(Label):示例结果的信息称为标记(label),拥有标记的示例称为样例(example)。 即:sample + label = example 。而所有的标记集合称为标记空间(label space)或输出空间。根据训练数据是否含有标记,机器学习可大致分为监督学习(supervised learning)(以分类、回归为代表)和非监督学习(unsupervised learning)(以聚类(clustering)为代表)。
输入空间:有点编程经验的人都清楚,万物皆对象,而每个对象都有诸多属性,由这些属性张成的空间就是属性空间(attribute space),样本空间(sample space)或输入空间。
学习(learning)或训练(training):从数据中学得模型的过程。学习过程就是为了找出或逼近真相。训练过程中使用的数据称为“训练数据”,其中的每个样本称为训练样本,训练样本组成的集合称为训练集。
泛化(generalization):学得模型适用于新样本的能力,称为泛化能力。样本空间中全体样本服从一个未知分布(distribution),我们获得每个样本都是独立地从这个分布上采样获得,即独立同分布(independent and identically distributed 简称i.i.d)。
归纳(induction):从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律。机器学习的目的就是“泛化”。我个人理解:假设已知两个点坐标(1,1),(2,2),然后推导出y=x这条线(规律),就是归纳。
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好称之为“归纳偏好”。
演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体情况。
反过来,已知y=x这条线,然后推导出x=3时,y值等于3,这个过程就是演绎。
机器学习的过程可以看作是在所有假设组成的空间中进行的搜索过程。可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称之为版本空间(version space)。
没有免费午餐定理(No Free Lunch,简称NFL):NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。
假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。
本文深入浅出地解析了机器学习的基本术语,如数据集、示例、样本、标记、输入空间、学习与泛化等,并探讨了归纳、演绎、归纳偏好的概念,最后介绍了假设空间和版本空间的重要性。
1088

被折叠的 条评论
为什么被折叠?



