机器学习第一节课

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

推荐书籍:西瓜书《机器学习》——周志华

一、机器学习是什么?

人类可以通过经验做出判断,而计算机系统中,“经验”通过以“数据”形式存在,因此,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型(model)的算法”。

1.2 基本术语

示例(样本):每条记录是关于事件或对象的样本
属性空间:属性张成的空间
训练数据:训练过程中使用的数据;
训练样本:其中训练数据的每一个样本叫做训练样本(其训练样本组成的集合);
假设:学得模型对应了关于数据的某种潜在的规律;
标记:最后将结果进行标记,例如是否为好瓜;
样例:拥有标记信息的示例;
分类:预测的是离散值,如好瓜坏瓜;
回归:预测的是连续值,如西瓜成熟度为0.95。
二分类:两个类别;
多分类:两个以上;
聚类:将训练集中的西瓜分成若干个组,每组为一个簇,自动形成的簇对应潜在概念的划分,在学习过程中训练样本不拥有标记信息;
监督学习和无监督学习(是否有标记信息);
泛化能力(推广能力):学得模型适用新样本的能力

1.3 假设空间

归纳:特殊到一般;
演绎:一般到特殊;
版本空间:现实问题中面临很大的假设空间,但学习过程是属于有限样本训练集进行的,可能有多个假设与训练集一致,及存在着一个与训练集一致的“假设集合”;

1.4 归纳偏好

概念:机器学习算法在学习过程中对某种类型假设的偏好;
一般性的原则引导算法确立正确的“偏好”:奥卡姆剃刀——若有多个假设与观察一致,则选最简单的那个,但这原则并非唯一可行的原则;
没有免费的午餐定理(NFL):无论算法有优劣的区分,但是期望性能相同。但是其有一个重要前提,所有问题出现的机会相同,或所有问题同等重要。
NFL的启示:谈论算法的相对优劣,必须针对具体的学习问题;学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值