周志华机器学习笔记-C1

最新推荐文章于 2025-04-05 23:35:25 发布

原创最新推荐文章于 2025-04-05 23:35:25 发布

· 617 阅读

·

11

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #笔记 #人工智能

周志华《机器学习》笔记专栏收录该内容

16 篇文章

订阅专栏

绪论

一、基本术语

1、机器学习定义：生活中的“经验”就是计算中的“数据”，机器学习就是从数据中产生模型的算法，或称为学习算法。

2、数据集：即样本的集合，样本=(属性,属性值)，属性张成的空间称为属性空间或样本空间，空间向量对应一个样本，亦称特征向量。

3、学习模型：从数据中习得模型的过程称学习。一个模型对应一种潜在规律，称为“假设”，其对应的真实规律称为“真相”。学习模型适用于训练集以外的数据称“泛化”。

4、监督学习：对每个样本都规定一个“标记”作为判别结果用于学习，此学习过程即称为监督学习。若标记或学习结果为离散值，称为“分类”；若为连续值，则称为“回归”。

5、无监督学习：不对样本规定标记，而对样本空间自动形成的具有相似属性的集合（“簇”）进行区分的过程，称为“聚类分析”，聚类学习的结果常为某新的特征。这样无标记学习称为无监督学习。

二、假设空间与归纳偏好

1、归纳学习：从样例中归纳出假设的过程。

2、学习过程的假设空间解释：学习即为在假设空间中搜索所有与样本空间相匹配的假设，形成一组“假设集合”，通常不为单点集。对假设进行进一步选取，直至确定模型的过程称为“归纳偏好”。常见的算法偏好原则有“奥卡姆剃刀原则”。

3、算法误差理论（NFL原则）：在所有问题出现的机会相同，所有问题同等重要的情形下，模型误差和偏好算法无关。但实际问题有自己的问题偏好，故追求偏好算法仍有意义。

三、机器学习发展历程

1、机器学习早期规划：机械学习（存储与检索）、类比学习（从指令中推断）、归纳学习（从样例中学习），后者为机器学习目前的主线。

2、发展历程：

20th80：符号主义学习，决策树和基于逻辑学习。有很强的表达能力，但过于复杂。

20th90：神经网络连接主义学习，BP算法、黑箱思想，但过于依赖手动调参。

20th95：统计学习，支持向量机，核方法。

21th：深度学习连接主义，多层神经网络，算力时代。

读后总结与文章目标：本书基本上是机器学习的概述，其实很多章节都能独立为一本书，由于没有算法基础且没有相关需求，暂时不作深究。读完之后，我更愿意将机器学习视为一类“从样例中归纳学习”为基本思想的算法群。若从应用的角度看，它们除了基本思想是一致的，算法之间联系并不紧密，均是借助了某种背景思想（如信息熵、支持向量、神经元等等）再结合学习目标做出的算法实现，在此基础上做出的一些改进或数据处理也可归入此类（如集成学习、数据降维、特征选择等），因此若有新的算法加入也并不令人意外。若从机器学习理论本质的角度看，书中提供了两种观点，一种是概率统计的观点，它将机器学习的过程归结为求取后验概率并使其最大化的过程，值的一提的是，在该体系下能理论上导出关于误差与算法复杂度的理论；此外还有符号主义的数理逻辑观点，但其规则学习似乎在慢慢被淘汰。撰写系列文章最大目标是总结相关内容以供快速查询使用，若能帮助同为初学者的各位快速掌握知识面貌，将荣幸不已。

以上为个人观点，其后的笔记也多夹杂个人理解。必须重申的是，本人先前没有算法基础，学习此书仅仅为了入门机器学习，且前后学习时间不超过一周，若有纰漏之处请谅解。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。