
《机器学习》西瓜书——周志华
文章平均质量分 86
本笔记是在本人记录的李航老师《统计学习方法》笔记的基础上,对周志华老师《机器学习》中各章节涉及的额外知识(《统计学习方法》中没有提及的)进行整理,用于知识拓展。对于相同的概念或定义,不再重复叙述。本笔记主要用以应对夏令营面试中可能会问到的机器学习方面的问题,比较泛泛而谈。
笨笨sg
NEU-CS
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第5章 神经网络
换言之,输入层神经元仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元.因此,图5.6(a)通常被称为“两层网络”.为避免歧义,本书称其为“单隐层网络”,函数作为激活函数.典型的Sigmoid函数如图5.2(b)所示,它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内,因此有时也称为“,它将输入值映射为输出值“0”或“1”,显然“1”对应于神经元兴奋,“0”对应于神经元抑制.然而,阶跃函数具有。[Pineda, 1987].但通常说“BP网络”时,一般是指用BP算法训练的多层前馈神经网络.原创 2024-05-26 10:20:49 · 639 阅读 · 0 评论 -
课后题答案——第5章 神经网络
(即原书中的对率回归,输出层仍然使用Sigmoid函数)的,若输出层也使用线性函数作为激活函数,那么就等价于。作为激活函数时,无论是在隐藏层还是在输出层(无论传递几层),其单元值((在使用激活函数之前)都还是。这个时候的神经网络其实。原创 2024-05-26 11:17:48 · 1021 阅读 · 0 评论 -
课后题答案——第4章 决策树
有一点需要注意的地方,就是在给一个节点生成子节点时(19-32行),可能造成节点数大于最大值的情况,比如某属性下有3种取值,那么至少要生成3个叶节点,这个时候节点总数可能会超过最大值,这时最终节点数可能会是MaxNode+2。直至所有的节点都叶节点,此时队列为空。个人理解当数据特征值,各属性的取值较多时,形成的决策树会趋于较宽类型的树,这时使用广度优先搜索更容易控制内存。的准则,因此使用‘最小训练误差‘作为决策树划分选择准则的会产生在训练集上效果很好,而测试集上效果差的情况,即出现了。原创 2024-05-25 23:47:28 · 1224 阅读 · 0 评论 -
第4章 决策树
(Perceptron tree)[Utgoff,1989b]在决策树的每个叶结点上训练一个感知机,而[Guo and Gelfand, 1992]则直接在叶结点上嵌入。则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。是在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点;预剪枝使得决策树的很多分支都没有“展开”,这。原创 2024-05-24 21:52:36 · 729 阅读 · 0 评论 -
课后题答案——第3章 线性模型
因此通常不需要专门处理。以ECOC编码为例,每个生成的二分类器会将所有样本分成较为均衡的二类,使类别不平衡的影响减小。当然拆解后仍然可能出现明显的类别不平衡现象,比如一个超级大类和一群小类。可以看做是其它变量留下的偏差的线性修正,因此一般情况下是需要考虑偏置项的。首先要明白偏置项b的作用:偏置项在线性回归中起到了。原论文中给出了构造编码的几种方法。,原书p137,有关于核线性判别分析的介绍。来判别:若二阶导数在区间上非负,则称为。,此时就不需要考虑偏置项了。对实数集上的函数,可通过求。原创 2024-05-24 18:37:08 · 1103 阅读 · 0 评论 -
第1章 绪论
的原则.退一步说,即便假定我们是奥卡姆剃刀的铁杆拥趸,也需注意到,奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则并不平凡.例如对我们已经很熟悉的西瓜问题来说,“假设1:好瓜→(色泽=*)八(根蒂=蜷缩)八(敲声=浊响)”和假设2:“好瓜→(色泽=*)A(根蒂=蜷缩)A(敲声=*)”这两个假设,哪一个更“简单”呢?事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能.原创 2024-05-23 14:44:53 · 779 阅读 · 0 评论 -
课后题答案——第一章 绪论
既然问题是存在噪声,那么如果能知道噪声的分布(例如高斯噪声),就可以将这些性能相同的假设对应的误差减去由噪声引起的部分,此时再使用奥卡姆剃刀原则或者多释原则来进行假设选择就好了。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。准确率=(符合假设的条件且为好瓜的样例数量)/(符合假设的条件的样例数量)。选择准确率最高的假设。所以能与训练集一致的假设就有很多可能了,从最具体的入手,往上逐层抽象可得,从一般到特殊或是从特殊到一般对整个假设空间进行搜索,原创 2024-05-23 15:09:43 · 2620 阅读 · 0 评论 -
课后题答案——第2章 模型评估与选择
2、当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是50%。ROC曲线上的每一个点,都对应着一个错误率。预测为正例的实例中真实正例的比例。两者没有直接的关系,所以不确定。: 真实正例被预测为正例的比例。的情况下得出的,ROC曲线是在。原创 2024-05-23 16:45:18 · 621 阅读 · 0 评论 -
周志华《机器学习》学习笔记
本笔记是在本人记录的李航老师《统计学习方法》笔记的基础上,对周志华老师《机器学习》中各章节涉及的额外知识(《统计学习方法》中没有提及的)进行整理,用于知识拓展。对于相同的概念或定义,不再重复叙述。本笔记主要用以应对夏令营面试中可能会问到的机器学习方面的问题,比较泛泛而谈,不包含证明过程和详细的算法推导流程,如果您对这些内容感兴趣,建议参考原书。大佬可自行绕路。原创 2024-05-23 14:52:27 · 647 阅读 · 0 评论 -
第3章 线性模型
多分类学习中虽然有多个类别,但每个样本仅属于一个类别.如果希望为一个样本同时预测出多个类别标记,例如一幅图像可同时标注为“蓝天”、“白云”、“羊群”、“自然场景”,这样的任务就不再是多分类学习,而是“线性判别分析(简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由[Fisher, 1936]提出,亦称“Fisher判别分析”。多分类LDA可以有多种实现方式,若将W视为一个投影矩阵,则多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,于是。作为回归任务中最常用的性能度量。原创 2024-05-24 10:12:46 · 775 阅读 · 0 评论 -
第2章 模型评估与选择
在很多情形下,我们可根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本、按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”,图2.3给出了一个示意图.就是这样一个度量,它是“查准率=查全率”时的取值,例如图2.3中学习器C的BEP是0.64,而基于BEP的比较,可认为学习器A优于B.原创 2024-05-23 16:23:44 · 688 阅读 · 0 评论