西瓜书--第一章《绪论》

本文介绍了机器学习的基本术语,包括数据集、属性、属性值和特征空间,阐述了监督学习与无监督学习的区别,并强调了模型泛化能力的重要性。此外,还探讨了归纳偏好,如奥卡姆剃刀原则,以及无免费午餐定理对学习算法选择的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.2 基本术语

数据集:记录数据的集合,数据集中每条记录是关于一个事件或对象的描述,称为“示例”或“样本”
属性:反映事件或对象在某方面的表现或性质的事项,例如:“色泽”、“根蒂”等
属性值:顾名思义即属性上的取值,例如“青绿”、“蜷缩”等
特征空间:例如我们把“色泽”、“根蒂”、“敲声”作为三个坐标轴,就会形成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中的每个点就对应一个坐标向量,因此我们可以把一个实例称为一个“特征向量”(数据向量化是机器学习的重要步骤)
维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。

机器学习分类

根据训练数据是否拥有标记,学习任务主要分为两类:

  • 监督学习:样本有标记(如是否为好瓜)
    • 欲预测的是离散值,此类学习任务称为“分类”
    • 欲预测的是连续值,此类学习任务称为“回归”
  • 无监督学习:样本无标记
    • 聚类是无监督学习的典型代表

模型的泛化能力
泛化能力是指学得模型适用于新样本的能力,能够反映出样本空间特性的训练集越有可能经过学习得到具有强泛化能力的模型。一般而言,训练样本越多,我们得到的关于未知分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

归纳和演绎是科学推理的两大基本手段。前者从特殊到一般,从具体的事实归结出规律;后者则是一般到特殊,由基础原理推导出具体情况。“从样例中学习”的机器学习是一种归纳学习。

  • 归纳:归纳是一种从特殊到一般的“泛化过程”,从特殊情况中学习到适用于一般情况的规律。
  • 归纳学习:狭义的是指:从训练数据中学得概念(concept),因此也称为“概念学习”“概念形成”。广义的是指:从样例中学习。
  • 概念学习:最基本的为布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习,形式上为(属性1= )交集(属性2= ) … (属性n= )。(需要注意的是,若某一属性的取值有3个,实际可以取的值有四个,除了本身定义的三个取值外,可能存在某个属性不论取什么值都合适,此时用通配符“*”来表示,故实际取值在原来的基础上加一)
    因而基于概念学习下的假设空间,是对所有属性取值的组合的罗列,类比的可以想到,一般意义下的假设空间实际上是一个所有属性不同状态的组合所构成的空间,我们最终的模型即在这个空间中进行搜索,直到找到与训练集匹配的假设,即能够将训练集中的样本判断正确的假设。而搜索策略也有很多,例如自顶向下、从一般到特殊,或是自底向上、从特殊到一般。在搜索过程中可以不断删除与正例不一样的假设、和(或)与反例一样的假设,最终会得到与训练集一致的假设,即为我们学的的结果。同时需要注意,最终得到的结果不一定是唯一的,可能是一个与训练集一致的“假设空间”,称之为“版本空间”(version space)。

1.4归纳偏好

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果.可以想象,如果没有偏好,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义.
这种归纳偏好的作用可以直接体现在回归学习曲线的确定上,例如我们需要找到一条穿过所有训练样本点的曲线,但显然,对有限个样本点在组成的训练集,存在着多条曲线与其一致。我们的学习算法必须具有某种偏好,才能产出它认为"正确"的模型。例如,若认为相似的样本应有相似的输出,则对应的曲线会比较“平滑”而不应当“崎岖”。(平滑即指曲线的震荡小,崎岖指曲线震荡大)

  • 奥卡姆剃刀原则:一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”,通常认为“更平滑”意味着“更简单”。但“简单”的定义本身也需要借助一些实际情况和其他机制才能解决。
  • 没有免费的午餐定理(No Free Lunch Theorem,简称NFL):简单的可以理解为,面对问题A,你精心挑选的一种算法X比某算法Y的性能好很多,那么问题空间中一定存在问题B,在B上算法X的性能远远低于算法Y。这个定理意在说明,脱离问题谈算法是没有意义的,没有所谓的“万金油"算法,具体问题具体分析才是正道。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值