自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 周志华机器学习西瓜书 第九章 聚类-学习笔记

还要其他的有标记样本使用聚类的算法,除了这种指定正类负类的。其中𝑑𝑖𝑠𝑡(𝑥𝑖,𝑥𝑗)用于计算两个样本之间的距离,avg(C)是指簇内样本的平均距离,diam(C)是簇内样本的最大距离,𝑑𝑚𝑖𝑛(𝐶𝑖,𝐶𝑗)是簇间样本的最小距离,𝑑𝑐𝑒𝑛(𝐶𝑖,𝐶𝑗)是簇与簇之间中心点的距离。聚类是无监督学习中非常典型的任务,聚类的目的是将数据样本划分为若干个通常不相交的子集,每一个子集成为"簇-cluster",其即可以作为一个单独过程,用于找寻数据内在的分布结构,也可作为

2025-03-15 17:05:50 210

原创 周志华机器学习西瓜书 第八章 集成学习-学习笔记(超详细)

举个例子:假如集成学习器有9个个体,求的是集成学习错误率,即预测失败的概率。即在训练过程中每一轮中,根据样本分布为每个训练样本重新赋予一个权重,对无法接收带权样本的基学习算法,则可通过“重采样法”来处理,即在每一轮学习中,根据样本分布对训练集重新进行采样,再用重采样而得的样本集对基学习器进行训练。随机森林的训练效率常优于Bagging,因此在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,在选择划分属性时要对结点所有的属性进行考察,而随机森林使用的“随机型”决策树则只需考察一个属性子集。

2025-03-01 18:48:56 122

原创 周志华机器学习西瓜书 第七章 贝叶斯分类器-学习笔记(超详细)

缺点也是显然的:如果数据量较大,拉普拉斯修正可能会引入过多的平滑,导致概率估计不够准确、对于某些特定问题,可能需要调整平滑参数(如加的常数不一定是1)、而且拉普拉斯修正实际上是假定了属性与类别的均匀分布,这是额外引入的偏差,因为本身可能本身不是均匀的,所以这个要注意,实际问题是否是均匀的,若是不均匀可以调整所加的常数,调整偏差。是主观的,只是随着新证据的发现去不断的更新对概率的"信念值"。",即频率 主义认为概率是"事件",在大量重复性实验中所发生的频率,就会逼近真实的概率,涉及到极限的概念,是客观的。

2025-02-26 21:56:42 918

原创 Latex字符代码速查 (自用)

自用latex字符速查

2025-02-21 12:36:54 290

原创 Python基础语法

Python基础阅读笔记

2025-02-21 12:29:29 911

原创 ​支持向量回归

为L2正则项,此处引入正则项除了起正则化本身的作用外,也是为了和软间隔支持向量机的优化目标保持形式上的一致,这样就可以导出对偶问题引入核函数,C为用来调节损失权重的正则化常数。希望得到的惩罚可以达到最小化,找到最小化以后就能找到最好。仔细思考,所谓回归不就是找一个超平面从样本点中穿过,穿的越近越好。之前的章节里说过回归模型怎么去做分类,就是找到一个联系函数,将其化为0/1进行分类。也就是说让中间靠近超平面的点不计损失,在间隔带以外的样本点计算损失,即。支持向量回归的做法和软间隔是非常相似的。

2025-02-19 11:42:30 390

原创 软间隔与正则化

从这个角度来说,上式称为 “正则化” 问题,𝛺(𝑓)称为正则化项,C则称为正则化常数,𝐿𝑝范数是常用的正则化项,其可以使解有不同的性质。PS4-4:在其他地方会看到将这个一般形式整体称为"结构风险",西瓜书上将这个分成了两部分,西瓜书将两部分合起来的整体称为"待结构风险"。正则化项其实可以理解为"罚函数项",即通过对不希望的结构施以惩罚,使得优化过程趋向于希望目标,其实就是归纳偏好的概念。,违背的再多一些就无法接受了,实际上就是希望违背的样本点落在图中"紫色"点的位置,那么蓝色虚线段落的距离其实就是

2025-02-19 11:41:11 473

原创 核函数简述

PS3-1:这里涉及到对这个函数概念的一个理解,在这里函数其实现在起到一个空间的变换,在原来的空间上可以定义一个范数Norm(就是一种度量向量或矩阵“长度”或“大小”的函数,||∙||),假如说为。出现,从来没有单独的出现过,那我们你能不能找到一个不用直接算这个高维向量的内积,而是用一个可以代替内积计算的"东西",甚至说都不需要知道𝛷(𝑥)到底是什么?这个其实说的就是上面的PS3-1中提出的能对应出来的"甚高维空间"。,这个核矩阵就要求了,这个对角线是为0的,且是对称的,半正定的(所有特征值大于等于0)

2025-02-18 23:40:23 577

原创 SVM对偶问题

𝛤(𝜇,𝜆)为拉格朗日函数𝐿(𝑤,𝑏,𝛼)关于 𝑥 的下确界。⑤𝑠𝑢𝑝{𝑥∈ℝ| 0<𝑥<10}=10:集合 {𝑥∈ℝ| 0<𝑥<10} 的上确界是 10,因为 10 是大于集合中所有元素的最小值,但 10 不在集合中。②𝑖𝑛𝑓{𝑥∈ℝ| 0< 𝑥<10}=0:集合 {𝑥∈ℝ|0<𝑥<10} 的下确界是 0,因为 0 是小于集合中所有元素的最大值,但 0 不在集合中。PS2-4:这里的"∇𝑥"就是对变量x的梯度,其实就是对x求导,其中不等式的约束的乘子必须是大于

2025-02-18 23:39:20 1118

原创 周志华机器学习西瓜书 第六章 支持向量机-学习笔记(超详细!)

支持向量机

2025-02-18 23:37:34 1342

原创 误差逆传播算法

知识点分栏

2025-02-09 20:50:15 614

原创 周志华机器学习西瓜书 第五章 神经网络-学习笔记(超详细)

  在机器学习中,神经网络一般指的是"神经网络学习",是机器学习与神经网络两个学科的交叉部分。所谓神经网络,目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。      神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。

2025-02-09 20:21:53 1854

原创 评估-过拟合、查全率、查准率与F1、ROC与AUC

评估部分知识点

2025-02-03 20:33:29 936

原创 感知器模型

神经元收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值θ进行比较(做减法),然后通过"激活函数"(模拟"抑制"和"激活")处理以产生神经元的输出(通常是给下一个神经元)。神经网络中最基本的成分是神经元模型,神经元模型是一个包含输入,输出与计算功能的模型。但是阶跃函数不连续且不光滑,故在M-P神经元模型中,也是采用Sigmoid函数来近似,Sigmoid函数将较大范围内变化的输入值挤压到(0,1)输出值范围内,所以也成为挤压函数。

2025-02-03 12:33:12 866

原创 决策树——多变量决策树

也就是说想找出的这个红色的折线就是多个属性的多个线性方程。但是学习任务的真实分类边界比较复杂时,必须使用很多段的划分才能得到更好的近似。得到的树就简化了,在决策树里面就是要学一个线性分类器,目标就是让两端每一端里面包含的样本尽可能的同类的多。若我们把每个属性视为坐标空间中的一个坐标轴,则a个属性描述的样本就对应了a维空间中的一个数据点,寻找不同样本的分类边界。决策树是可以转成规则的,并不是僵硬的转化,而是可以通过规则的前件合并进一步得到泛化性能更好的"规则"决策树形成的分类边界的特点:轴平行。

2025-02-02 10:50:40 416

原创 决策树——连续与缺失值

接下来对分支{敲声 = 沉闷}即结点{9,14,17}进行划分,结点{9,14,17}因为包含的样本全部属于同一类别无需划分,直接把结点{9,14,17}标记为叶结点,接下来对分支“敲声 = 浊响”即结点{7,8,13}进行划分,计算过程和上面一样,需要注意的是样本的权重是。比较发现,“纹理”在所有属性中的信息增益值最大,因此,“纹理”被选为划分属性,用于对根节点进行划分。将这12(n)个样本取11(n-1)个区间的中点:{95.5,95,92.5,90,88.5,85.5,82,79,75,71,68}

2025-02-02 10:49:16 634

原创 决策树的剪枝处理——预剪枝和后剪枝

将结点⑤替换成叶结点,在训练集中为{6,7,15}的训练样本,经过对结点⑥的剪枝。所以将该叶结点标记为"好瓜"。将结点⑥替换成叶结点,在训练集中为{7,15}的训练样本,有一个好瓜,一个坏瓜。此时,验证集中编号为:{4,5,8,11,12}的样例被划分正确,验证集精度为。1)若不划分①结点,则将①结点其标记为叶结点,类别标记为训练样例中最多的类别,即“通过”。①"预剪枝":在决策树生长过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。

2025-02-01 15:20:22 799

原创 决策树 的增益率、信息增益、基尼指数

一件事发生的概率在0-1之间,取对数后小于零,不满足需求,而概率的倒数的对数是大于零的;同时根据之前说的为了使概率越大,信息量越小,取了倒数才能体现这种关联,也就是对数前加负号。④为什么log底数为2?理论上熵中的对数函数可以采用任何底数,通常遵循信息论的普遍传统,使用2作为对数的底,此时单位为bit。表示了一个二进制选择(0或1)所包含的信息量。常见的还有:以e为底,即自然对数,此时的单位为nat。使用较少的是以3为底,此时单位为Tet;以10为底,单位为哈特利(Hartley)。

2025-02-01 15:17:48 1459

原创 周志华机器学习西瓜书 第四章 决策树 学习笔记(含例题,超详细)

本章节讲解了决策树的相关内容。借鉴了很多大佬的讲解和讲述。基本上可以说是最全面的《西瓜书》笔记!

2025-02-01 15:15:43 394

原创 多分类学习与类别不平衡问题

多分类问题:机器学习领域中的一个重要问题,它指的是将输入数据分为多个类别的问题。类别不平衡问题:也叫数据倾斜或数据不平衡,是指分类任务中不同类别的训练样例数目差别很大的情况。

2025-01-23 19:47:16 700

原创 对数几率回归、逻辑回归

对数几率回归(Logistic Regression),又称逻辑回归,是一种用于解决分类问题的经典统计模型,尤其适合用于二分类问题。

2025-01-23 19:43:42 1049

原创 知识发现与数据挖掘概述

还未完善,日后修改

2025-01-22 20:51:44 910

原创 周志华机器学习西瓜书第三章 线性模型学习笔记(超详细)

本章笔记非常详细适合基础薄弱者,整理了很多大佬的笔记和自己的理解,希望读者认真研究仔细推敲。

2025-01-22 13:56:36 667 1

原创 周志华机器学习西瓜书第二章 模型评估与选择学习笔记

西瓜书第二章,加入了很多自己的理解。

2025-01-17 18:40:35 946 1

原创 周志华机器学习西瓜书第一章绪论学习笔记

学习西瓜书,并且会持续更新。采纳了很多大佬的笔记,欢迎大家评论区指出交流

2025-01-17 18:30:38 825 1

高等数学绪论思维导图,优质笔记

高等数学绪论思维导图

2023-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除