西瓜书阅读笔记:第一章 绪论

本文是西瓜书第一章绪论的阅读笔记,介绍了机器学习基本术语,如学习、监督与无监督学习、泛化等;阐述假设空间搜索过程,探讨归纳偏好准则;回顾发展历程,从推理期、知识期到机器学习各阶段;还说明了机器学习在数据科学、数据挖掘中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

西瓜书阅读笔记:第一章 绪论

1.1 引言

模型:泛指从数据中学习到的结果

1.2 基本术语

从数据中学到模型的过程被称为“学习”(learning)或者“训练”(training)。
根据数据是否有标签,可将学习分为两类:
- 有标签的学习,即监督学习
- 没有标签的学习,即无监督学习
学习目的:使得模型能用于新样本,用于新样本被称为“泛化”(generation)。

1.3 假设空间

科学推理的两大手段:归纳与演绎
-从特征推到一般:归纳(induction)
-从一般推到特殊:演绎(deduction)

学习过程可以看作是在所有的假设组成的空间中搜索的过程;
学习的目标是找到与训练数据”匹配“的一组假设。

1.4 归纳偏好

从一组数据中我们能学习出很多不同的模型。那么哪种模型更好?这取决于我们如何给出”偏好“。那么给出”偏好“是否有一些准则呢?
- ”奥卡姆剃刀“是自然科学中的一种常见准则,即有多个假设与观察一致,则选择最简单的那个。
- ”多释原则“,主要保留与经验观察一致的所有假设。(与集成学习的思想非常吻合)。
那么还有其他准则么?
根据NFL定理(no free lunch theorem), 可证明误差与学习算法无关。但是NFL定理建立在一个假设上:f(真实目标的函数)是均匀分布的。实际上,f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。

1.5 发展历程

1950s~1970s:人工只能的”推理期”:认为教会机器”推理“,则能产生人工智能。
1970中期:人工智能的”知识期“:光有推理不行,还需要教给机器”知识“。

当”知识期“瓶颈后,学者希望找到一个方法使得机器自己能学习知识。但在这之前,学术界已经有一些零碎的关于这方面的研究了。比如:
50年代初,A.Samuel的跳棋程序;
50年代中后期,基于神经网络的”连接主义“, 比如感知机;
60、70年代,基于逻辑表示的”符号主义“,
60、70年代,统计学习理论

1980年开始,机器学习主题的研讨会和期刊开始涌现。期间,机器学习研究有多种划分方式。其中一种划分是将其划分为:从样例中学习、在问题求解和规划中学习、在通过观察和发现学习、从指令中学习等。”从样例中学习“是研究最多、应用最广的。在80年代到90年代中期之前,”从样例中学习“包括两大主流:符号主义学习和基于神经网络的”连接主义学习“。

1990中期开始,统计学习登上主流舞台。代表性技术:支持向量机及核方法。
21世纪以来,连接主义学习又卷土重来。即深度学习。

1.6 应用现状

数据科学的核心是通过分析数据来获得价值。机器学习是数据科学的的技术支撑,是分析数据的一种技术手段。
数据挖掘:数据库领域为数据挖掘提供数据管理技术;机器学习为数据挖掘提供数据分析技术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值