机器学习笔记之统计学习方法三要素

本文探讨了机器学习中的统计学习方法,包括模型(如决策函数和条件概率分布)、策略(经验风险最小化与结构风险最小化)以及算法(如最优化问题的解决)。作者强调了理解模型选择、损失函数、风险函数和样本数量对学习过程的影响,并指出经验风险在样本数量有限时可能导致过拟合,因此引入结构风险最小化来防止过拟合。文章以《统计学习方法》为理论基础,阐述了监督学习的核心概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

本学期学习了机器学习的课程,读了《统计学习方法》——李航著,做为笔记。统计学习方法都是由模型、策略和算法构成的,作为初学者,可能大部分人都直接上手,各种python库一顿乱调,但其实知识不成体系(比如我hhhh),在我学习过程中慢慢意识到知识体系的重要性。

统计学习方法三要素

模型

我们在拿到一个问题,需要想的第一件事就是学习什么样的模型。在监督学习中,模型就是所要学习的条件概率分布或决策函数。在模型的假设空间中,包含了无数个可能的条件概率分布或决策函数。至于什么是决策函数和条件概率模型的区别是什么呢?我理解的是决策函数相当于给个评分或者频数,条件概率分布那显然就是概率了,但其实将决策函数的结果进行归一化也就变成概率了不是吗。

策略

我觉得三要素里最需要弄明白的就是策略了。我们有了模型的假设空间,但我们如何从假设空间中得到最优模型呢?这个才是最关键的啊!
那既然要选择最优的模型,自然就需要一个东西来度量模型的好坏了。损失函数度量模型一次预测的好坏,风险函数度量平均意义下的模型预测的好坏。那风险函数其实就是损失函数的期望,这个期望是模型f(x)在联合分布P(X,Y)的平均意义下的损失。但监督学习的问题就在这里,我们是不知道联合分布P(X,Y),如果知道的话直接条件概率求就完事儿了,所以学习的目的就在于此,我们不知道联合分布就无法求得风险函数(或者叫期望损失),我们只能想办法近似的去表示它。
我们可以给出损失函数,那对训练集大小的平均损失就能整出来,就是训练集中所有样本的损失之和除于样本总数,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值