TASK1: 第一章 统计学习方法概论
本次参加的是DataWhale组织的2023年2月份学习计划。学习内容为李航老师的《统计学习方法(第二版)》的第一到六章。习题的解答开源在datawhale的GitHub账号GitHub - datawhalechina/statistical-learning-method-solutions-manual: 《统计学习方法》(第二版)习题解答,在线阅读地址:https://datawhalechina.github.io/statistical-learning-method-solutions-manual
开营感想
由于自身水平有限,二月份同时面临着学校的期末考试(延考了)和参加学校内的一个比赛的初赛报告提交ddl,所以担心自己是否能够较好地完成这部分的任务。但是对于我来说,既然就算没有参与学习计划这样的事情也不会将全部精力放在期末复习上面,那当然是应当参与学习计划的。总长度不超过三分之一天的考试与时长半个月共同学习的机会相比……虽然在当下有着不同的“重要程度”,但是我需要给自己一个机会去踏出舒适区、打破“有限”。
虽然我在上次的学习计划中有很大收获,得到了前辈们较好的评价,因为那是实践性质的课程,许多操作是可重复的,而且有大佬带飞,不像理论知识,是自己掌握的就是自己掌握的,自己没有掌握的就是自己没有掌握的;坦白地说,在这次学习计划中,我是不满足数学基础的要求的。不过考虑到其中一些概念我即使满足了它明面上的数学基础还是会遇见不知道的词语,并不会因为我满足了数学基础的要求就变成一个。既然是这样,还不如早些让这个领域进入自己的视野之内,也让自己的视野不局限于成长经历与专业背景。
由于水平确实极为有限,我下面的一些笔记以及疑问还请各位路过的大佬指正、教导。
新的了解
- 现在通常所说的机器学习实际上应该叫做是统计机器学习,是以数据为研究对象、用于对数据进行预测与分析的学科。
- 统计学习的前提是“关于数据的基本假设是同类数据具有一定的统计规律”。具有统计规律性所以可以用概率统计的方法处理。
- 监督学习的目的在于学习一个输入到一个输出的映射。
- 监督学习中,假设训练数据与测试数据都是依据联合概率分布独立同分布产生的。
- 概率模型与非概率模型的主要区别,我浅显地认识为通过概率分布形式与函数形式表达的区别。而大概他们之所以分别使用了这两种表达形式的原因才是它们进行这样的分类的原因。
- 还有参数化模型与非参数化模型的分类。
- 统计学习按技巧分类可以分为贝叶斯学习与核方法。
- 核方法是通过核函数表示和学习非线性模型的一种机器学习方法。
- 损失函数的期望是理论上模型平均意义下的损失,称为风险函数或期望损失。
- 学习的目标就是选择期望风险最小的模型。
- 关于训练数据集的平均损失称为经验风险或经验损失。
- 由于样本数目有限,一昧追求经验风险最小化很可能导致过拟合,所以出现了另一种策略:“结构风险最小化”
- 为了防止过拟合,在经验风险上加上表示模型复杂度的正则化或罚项。
- 一般采用的是测试误差进行评判,通常将学习方法对位置数据的预测能力称为泛化能力。
- 奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单地才是最好的模型。
- 常用的模型选择方法:正则化和交叉选择,其中交叉选择根据数据集的大小又有不同的实现形式,比如在数据缺乏的情况下使用的留一交叉验证。
- 生成方法和判别方法:
过程充电与感受
在学习过程中遇到一些由于自身水平不足导致的严重影响阅读体验的概念进行充电。
- 参数化模型与非参数化模型的分类:
- 这好像在统计学中是一个很基本的概念,但是我基础薄弱。
- 这里的参数不是指模型中的参数,而是指数据分布的参数。
- 参数化模型:固定大小的参数集,不管给予多少数据,不影响参数量。制定了目标函数的形式、简化了过程,也限制了过程。
- 非参数化模型:数据多、先验知识少的情况。
- 线性模型表达能力不足:
- 可以引入激活函数进行处理。
- ReLU函数作为激活函数用的比较广泛,因为它相比于双曲正切函数这样的,去掉了负方向上的影响并且在正方向上不会因为数据变得很大而影响权重。
- 核函数:
- 核函数是映射关系的内积,映射函数仅仅是一种关系,并没有增加维度。利用核函数的特性构造增加维度的核函数。
- 低维空间映射到高维空间,使得区分变得更加地容易。可以通过二位变换到三维的例子来理解。
- 这也算是一个线性模型表达能力不足,非线性模型表达能力更强的例子吧,所以我把这一条放在这里了
- 应该在书的第七章提到了?
- 可以引入激活函数进行处理。
- 贝叶斯学习
- 关于这个公式,我理解了好一会。后验概率等于先验概率乘以类条件概率除以各个独立分布概率之和。
- 后验概率表示“某事发生,它属于某一类别的概率”。这就是一个选择模型的依据。
- 但是实际问题中先验概率和类条件概率常常未知——极大似然估计。
- 先验概率的估计比较简单,但是类条件概率的估计比较的复杂,一般转化为估计概率密度函数的参数。
- 在泛化上界误差这一小节中有言:“泛化上界误差具有这样的性质:它是样本容量的函数,样本容量增加时,泛化上界趋于零;它是假设空间容量的函数,假设空间越大,模型就越南学,泛化上界误差就越大”。我不太能明白,我通俗地理解是“样本容量”相当于我们使用的数据集,“假设空间容量”相当于我们打算把这个模型使用的应用范围;这样理解我感觉能够感受到了,但是并不认为我进行的这种理解足够正确。
习题
1.1
解答思路:
- 写出伯努利模型;
- 写出伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素;
- 根据伯努利模型的极大似然估计,估计结果为1的概率;
- 根据伯努利模型的贝叶斯估计,估计结果为1的概率。
QAQ果然数学基础不够还是做不到啊。
贝叶斯估计中的最大后验概率估计,得到的是模型参数θ这个随机变量的后验分布的众数,通常被认为是点估计。而贝叶斯方法的特点是使用分布来总结数据和得出推论,因此贝叶斯方法倾向于得到后验均值或中值,以及可信区间。
1.2
解答思路:
- 根据经验风险最小化定义,写出目标函数;
- 根据对数损失函数,对目标函数进行整理;
- 根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。