周志华西瓜书学习笔记(一)

本文介绍了机器学习的基本概念,包括通过计算手段改善系统性能的目标,以及Mitchell的正式定义。核心概念包括泛化能力,即模型对新样本的适应性,和独立同分布(i.i.d)假设。此外,还讨论了假设空间的计算方法,以西瓜分类为例。归纳偏好是机器学习算法的重要特性,表现为对某些假设类型的偏好,如奥卡姆剃刀原则。最后,提及了没有免费的午餐定理,强调算法选择必须基于具体问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

周志华西瓜书学习笔记

第一章 绪论

数据处理分为三个阶段:收集,分析,预测。

一、基本概念

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

Mitchell给出的更形式化的定义为:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们就可以说T和P,该程序对E进行了学习。

(一)泛化(generalization)

学得的模型适用于新样本的能力,称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。

(二)独立同分布(i.i.d)

通常假设样本空间的全体样本服从一个未知的分布(distribution),我们获得的每一个样本都是从整个样本空间中采样获得的,即“独立同分布”(independent and identically distributed, i.i.d)

二、假设空间大小计算

以文中的西瓜为例,求出假设空间:

这里我们的假设空间由形如“(色泽=?)^ (根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。

色泽有“青绿”和“乌黑”两种取值,还需考虑无论色泽取什么值都合适的情况,用通配符(*)表示。色泽属性共三种取值;

根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值,同理再加通配符(*)表示,根蒂属性共四种取值;

敲声有“浊响”、“清脆”和“沉闷”三种取值,同理再加通配符(*)表示,敲声属性共四种取值;

还有一种假设组成——可能"好瓜”这个概念就不成立,我们用∅表示这种假设。

那么,所对应的假设组成的个数为:3x4x4+1=49. 即表1所对应的假设空间的规模大小为49. 其中:

具体假设: 2x3x3=18 种

一个通配符:2x3+3x3+

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值