提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
推荐书籍:西瓜书《机器学习》——周志华一、机器学习是什么?
人类可以通过经验做出判断,而计算机系统中,“经验”通过以“数据”形式存在,因此,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型(model)的算法”。1.2 基本术语
示例(样本):每条记录是关于事件或对象的样本
属性空间:属性张成的空间
训练数据:训练过程中使用的数据;
训练样本:其中训练数据的每一个样本叫做训练样本(其训练样本组成的集合);
假设:学得模型对应了关于数据的某种潜在的规律;
标记:最后将结果进行标记,例如是否为好瓜;
样例:拥有标记信息的示例;
分类:预测的是离散值,如好瓜坏瓜;
回归:预测的是连续值,如西瓜成熟度为0.95。
二分类:两个类别;
多分类:两个以上;
聚类:将训练集中的西瓜分成若干个组,每组为一个簇,自动形成的簇对应潜在概念的划分,在学习过程中训练样本不拥有标记信息;
监督学习和无监督学习(是否有标记信息);
泛化能力(推广能力):学得模型适用新样本的能力
1.3 假设空间
归纳:特殊到一般;
演绎:一般到特殊;
版本空间:现实问题中面临很大的假设空间,但学习过程是属于有限样本训练集进行的,可能有多个假设与训练集一致,及存在着一个与训练集一致的“假设集合”;
1.4 归纳偏好
概念:机器学习算法在学习过程中对某种类型假设的偏好;
一般性的原则引导算法确立正确的“偏好”:奥卡姆剃刀——若有多个假设与观察一致,则选最简单的那个,但这原则并非唯一可行的原则;
没有免费的午餐定理(NFL):无论算法有优劣的区分,但是期望性能相同。但是其有一个重要前提,所有问题出现的机会相同,或所有问题同等重要。
NFL的启示:谈论算法的相对优劣,必须针对具体的学习问题;学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。