绪论
一、基本术语
1、机器学习定义:生活中的“经验”就是计算中的“数据”,机器学习就是从数据中产生模型的算法,或称为学习算法。
2、数据集:即样本的集合,样本=(属性,属性值),属性张成的空间称为属性空间或样本空间,空间向量对应一个样本,亦称特征向量。
3、学习模型:从数据中习得模型的过程称学习。一个模型对应一种潜在规律,称为“假设”,其对应的真实规律称为“真相”。学习模型适用于训练集以外的数据称“泛化”。
4、监督学习:对每个样本都规定一个“标记”作为判别结果用于学习,此学习过程即称为监督学习。若标记或学习结果为离散值,称为“分类”;若为连续值,则称为“回归”。
5、无监督学习:不对样本规定标记,而对样本空间自动形成的具有相似属性的集合(“簇”)进行区分的过程,称为“聚类分析”,聚类学习的结果常为某新的特征。这样无标记学习称为无监督学习。
二、假设空间与归纳偏好
1、归纳学习:从样例中归纳出假设的过程。
2、学习过程的假设空间解释:学习即为在假设空间中搜索所有与样本空间相匹配的假设,形成一组“假设集合”,通常不为单点集。对假设进行进一步选取,直至确定模型的过程称为“归纳偏好”。常见的算法偏好原则有“奥卡姆剃刀原则”。
3、算法误差理论(NFL原则):在所有问题出现的机会相同,所有问题同等重要的情形下,模型误差和偏好算法无关。但实际问题有自己的问题偏好,故追求偏好算法仍有意义。
三、机器学习发展历程
1、机器学习早期规划:机械学习(存储与检索)、类比学习(从指令中推断)、归纳学习(从样例中学习),后者为机器学习目前的主线。
2、发展历程:
20th80:符号主义学习,决策树和基于逻辑学习。有很强的表达能力,但过于复杂。
20th90:神经网络连接主义学习,BP算法、黑箱思想,但过于依赖手动调参。
20th95:统计学习,支持向量机,核方法。
21th:深度学习连接主义,多层神经网络,算力时代。
读后总结与文章目标:本书基本上是机器学习的概述,其实很多章节都能独立为一本书,由于没有算法基础且没有相关需求,暂时不作深究。读完之后,我更愿意将机器学习视为一类“从样例中归纳学习”为基本思想的算法群。若从应用的角度看,它们除了基本思想是一致的,算法之间联系并不紧密,均是借助了某种背景思想(如信息熵、支持向量、神经元等等)再结合学习目标做出的算法实现,在此基础上做出的一些改进或数据处理也可归入此类(如集成学习、数据降维、特征选择等),因此若有新的算法加入也并不令人意外。若从机器学习理论本质的角度看,书中提供了两种观点,一种是概率统计的观点,它将机器学习的过程归结为求取后验概率并使其最大化的过程,值的一提的是,在该体系下能理论上导出关于误差与算法复杂度的理论;此外还有符号主义的数理逻辑观点,但其规则学习似乎在慢慢被淘汰。撰写系列文章最大目标是总结相关内容以供快速查询使用,若能帮助同为初学者的各位快速掌握知识面貌,将荣幸不已。
以上为个人观点,其后的笔记也多夹杂个人理解。必须重申的是,本人先前没有算法基础,学习此书仅仅为了入门机器学习,且前后学习时间不超过一周,若有纰漏之处请谅解。