- 博客(100)
- 收藏
- 关注
原创 Python读取mat数据集文件转换为csv格式
mat类型的文件好像有 7.3 和 7.0 两种(或更多)?可以先看一下自己的是什么类型,7.3的用h5py那个包,7.0的用scipy,下面是检查文件是不是 7.3 格式的代码,不是的话可以用上面那段代码。另外,我使用的文件里面的数据是分 x 和 y 的,不分的我没试过。
2024-10-05 20:07:48
743
1
原创 深度孤立森林 Deep Isolation Forest论文翻译(下)
5.2 DIF的实现DIF中有两个部分,即随机表示集成方法花G以及基于隔离的异常评分方法花F。为了提高表示集成方法花G的时间效率,本文提出计算高效的深度表示集成方法CERE,在这种方法中所有集成成员可以在一个给定的小批度下同时计算。为了进一步提高异常评分的准确性,本文提出偏差增强的异常评分方法DEAS,该利用投影密集表示中包含的隐藏量化信息以及定性比较。5.2.1 CERE:计算高效的深度表示集成方法在公式(1)中,连续地将原始数据输入到与r无关的网络会导致相当高的内存和时间开销。为了继承原
2024-09-07 16:08:37
1526
原创 深度孤立森林 Deep Isolation Forest论文翻译(上)
为了清晰起见,本文回忆孤立森林的基本程序[3]。提出了基础的结构,称为孤立树(iTree)。孤立树 τ 本质上是一个二叉树,且树中的每个结点对应着一个数据对象池。包含 n 个数据对象的子集被用作根结点的数据池,这个自己是从整个数据集中随机子采样得到的。孤立树 τ 以自顶向下的方式通过递归划分叶节点中的数据对象生成(即将数据对象不相交地划分为两个子节点),直到结点中只剩一个数据对象或达到了最大深度限制。
2024-09-03 16:25:48
1180
原创 吴恩达机器学习笔记 四十五 基于内容的过滤的tensorFlow实现
input_user提取特征,然后把这些特征送给上面的user_NN这个网络得到用户向量vu,再对vu进行标准化(用l2范式),使其长度为1。一个user网络,一个item网络 ,使用顺序模型,激活函数选择relu,最后的输出大小都是32。output那一行计算vu和vm的乘积,给出预测结果。损失函数使用均方差。
2024-08-29 20:14:44
261
原创 孤立森林 Isolation Forest 论文翻译(下)
目录5 实验评估5.1 和ORCA、LOF、RF对比5.2 效率分析5.3高维数据5.4 仅用正常实例训练6 讨论7 总结5 实验评估 本节给出了用于评估iForest的四组实验的详细结果。第一个实验中本文对比iForest和ORCA[3]、LOF[6]和Random Forests(RF)[12]。LOF是一个著名的基于密度的函数,选择RF是因为该算法也使用树集成。在第二个实验中,本文使用实验中最大的两个数据集来检验子采样大小的影响。实验结果提供了应该使
2024-08-28 15:10:10
706
原创 孤立森林 Isolation Forest 论文翻译(上)
README自己翻译的+参考有道,基本是手打的可能会有很多小问题。括号里的斜体单词是我觉得没翻译出那种味道的或有点拿不准的或翻译出来比较奇怪的地方,尤其是profile、swamping和masking这三个词不知道怎样更准确。欢迎指正和讨论,需要Word版可以留言。孤立森林摘要大多数现有的基于模型的异常检测算法构建了一个正常实例的特征轮廓(profile),然后将不符合正常轮廓的实例识别为异常。本文提出了一种完全不同的基于模型的方法,显示地隔离异常而不是构建正常
2024-08-27 19:06:42
954
原创 吴恩达机器学习 笔记四十四 推荐系统中的伦理
在广告行业中,旅游业可以服务更多的人,赚得更多利润,有更多的钱投入广告,吸引更多的人来,这是一个良好的正循环。一个不太完美的解决方法是过滤掉这些内容,但同样的,对内容的定义也是困难的。另一个案例是一些网站向用户推荐能带来更多利润的东西而不是用户感兴趣的或需要的,建议这些公司向用户透明自己的标准。推荐系统可能会向用户推荐他们最有可能给出五星好评的电影、最有可能购买的产品、最有可能点击的广告,也有可能是给公司产生最大利益的产品或能够获得用户更多交互的视频。前两个一点问题也没有,后三个可能会有问题。
2024-08-17 15:09:06
282
原创 西瓜书学习笔记三 归纳偏好
例如,若认为相似的样本应有相似的输出(例如,在各种属性上都很相像的西瓜,成熟程度应该比较接近),则对应的学习算法可能偏好图1. 3中比较"平滑"的曲线 A 而不是比较"崎岖"的曲线 B。关,但需注意的是,机器学习中的特征选择仍是基于对训练样本的分析进行的, 而在此处我们并非基于特征选择做出对"根蒂"的重视,这里对"根蒂"的信赖可视为基于某种领域知识而产生的归纳偏好。于是,图1. 2的西瓜版本空间给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出。
2024-08-16 19:34:37
399
原创 吴恩达机器学习 笔记四十三 从大目录中推荐
生成一个较大的可能项的列表,例如电影推荐,可以找到用户最近看过的十部电影,然后找到十部最相似的电影,对于看的最多的三类找到十部最好的电影,再加上这个国家最受欢迎的前二十部电影,这样大概得到一个有数百个电影的列表。然后检索,删除已经看过的或者买过的东西。电影、广告、音乐、购物网站会有数以百万项内容,这时要计算很多很多次Xm->Vm的网络,显然是不可行的。检索步骤如果检索的量增大的话会导致更好的推荐效果但是会慢。可以做离线实验看看检索额外项的影响。把向量放到神经网络中,计算predictions,然后排序。
2024-08-15 16:29:24
232
原创 西瓜书学习笔记二 假设空间 机器学习周志华
暂且假设"好瓜"可由"色泽" "根蒂" "敲声"这三个因素完全确定,换言之,只要某个瓜的这三个属性取值明确了, 我们就能判断出它是不是好瓜。我们学习的目的是“泛化”,即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的能力。现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的"假设集合",我们称之为。组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"(fit) 的假设,即能够将训练集中的瓜判断正确的假设。
2024-08-14 19:28:17
468
原创 吴恩达机器学习 笔记四十二 基于内容过滤的深度学习
以用户的特征为例,原始的向量Xu作为一个神经网络的输入,经过几层之后输出一个有32个单元的向量Vu,电影的特征向量也通过神经网络,注意两个网络的层数、隐藏单元数可能不同,但最后输出的维度必须相同。也可以找到类似的电影,Vkm和Vim之间的距离小,则电影 k 和电影 i 是相似的,这个过程就像协同过滤中找到相似的用户。也可以把两个网络放在一起,成本函数如下,用这个成本函数,通过Vu点乘Vm的好坏来调节两个网络的参数,也可以在后面加上像神经网络一样的正则化项。这种组合两个网络的能力也是神经网络强大的原因之一。
2024-08-13 19:31:05
294
原创 西瓜书学习笔记一 引言 基本术语 机器学习周志华
日常生活中有很多,如判断天气、判断西瓜是否成熟。我们能做出有效的预判,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新 情况做出有效的决策。机器学习它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,"经验"通常以"数据"形式存 在,因此,机器学习所研究的主要内容,是关于的算法,即"学习算法" (learning algorithm)。
2024-08-12 19:38:15
1075
原创 吴恩达机器学习 笔记四十一 协同过滤和基于内容过滤的对比
在基于内容的过滤算法中,去掉 b(j) 项,将 w(j) 换成从用户特征中得到的一个向量 Vv(j) ,将 x(i) 替换成从物品特征中得到的向量 Vm(i)。用户的特征向量可以是喜欢浪漫电影的程度、喜欢动作电影的程度,电影的特征向量可以是是浪漫电影的程度、是动作电影的程度,基于内容的过滤同样有一些评分信息,用 r(i,j) 表示用户是否对一个物品进行评分,y(i,j) 表示具体的评分。例如电影评分,用户的特征可以有年龄、性别、国家等,而电影的特征有年份、类别、平均评分等,
2024-08-10 10:33:36
282
原创 吴恩达机器学习 笔记四十 寻找相关特征 协同过滤的限制
要找到其他和 x(i) 相关的项,即找到一个 item k, x(k) 与 x(i) 相似。x 是一个向量,判断相似用的是下图中的式子 ,即 x(k) 和 x(i) 之间的平方距离,有时也写成下面那种形式。不擅长处理冷启动问题:目录中有一些新项目,例如一部电影刚推出,还没有用户进行评分,如何给这部电影评分;对于只评价过很少一部分电影的用户,如何确定推荐给他们合适的内容。另一个限制是协同过滤不使用附加信息。
2024-08-08 16:58:59
207
原创 吴恩达机器学习笔记 三十九 协同过滤的TensorFlow实现
如上图,设 f( x ) = wx,成本 J 为(wx - 1)^2,用GradientTape()这个函数,TensorFlow会记录计算成本J所需的操作序列,保存在 tape 中。dJdw为自动计算出的导数。TensorFlow中这个被称为AutoDiff,一些其他的机器学习包,例如pytorch也支持AutoDiff,有时也称autograd。TensorFlow的一个优点:可以自动算出成本函数的导数。
2024-08-06 19:50:28
396
原创 吴恩达机器学习笔记 三十八 二进制标签 均值归一化
将原始评分矩阵的每一项减去相应的平均分,得到一个新的矩阵。此时用户 j 对电影 i 的评分要在 w*x+b 的基础上加一个。计算每个电影的平均得分,例如第一部电影的平均分为2.5,第五部电影的平均分为1.25,得到一个平均分向量。, 例如一个新用户的评分预测,w5*x1+b5+μ1恰为第一部电影的均分2.5。标签 0 和 1 可以有很多种意义。从回归到二分分类:之前定义。好久没看这个课程了,还是决定翻出来看完。给出y^(i,j)为 1 的概率,其中。,而对于二进制标签,通过。
2024-07-16 08:59:42
301
原创 力扣70 爬楼梯 C语言 动态规划 递归
爬 0 层和爬 1 层都只有一种情况, 但是爬两层有两种:一次爬一层一共爬两次、一次爬两层一共爬一次,爬三层有三种:一次爬一层一共爬三次、先爬一层再爬两层一共爬两次、先爬两层再爬一层一共爬两次。所以 f(0) = 1, f(1) = 1, f(2) = 2, f(3) = 3, f(4) = 5。规律是 f(n) = f(n-1) + f(n-2),因为爬到第 n 阶有两种情况,分别是站在第 n-1 阶爬一层和站在第 n-2 阶爬两层,所以就是 f(n-1) 和 f(n-2)的和。有两种方法可以爬到楼顶。
2024-05-07 10:32:58
493
原创 力扣69 x的平方根 二分查找求平方根 C语言
从评论里看到一位大佬用的二分查找,自己想不到这样做,记录一下。其中判断 x 是否大于等于mid的平方时,用的是 x/mid >= mid,这样来防止溢出。8 的算术平方根是 2.82842..., 由于返回类型是整数,小数部分将被舍去。不允许使用任何内置指数函数和算符,例如。由于返回类型是整数,结果只保留。
2024-05-06 09:33:03
361
原创 吴恩达机器学习笔记 三十七 电影推荐系统 使用特征 成本函数 协同过滤算法
假设我们不知道电影的特征向量 x,而Alice给第一部电影评分为5,Bob给第二部电影评分为5,可得 w1*x1约为5,w2*x1约为5,找到一个合适的向量 x 满足方程组即可。以电影评分系统为例,令 r(i, j) 来表示用户 j 已经对电影 i 评分, y(i, j)表示评分具体是多少。假如每部电影有自己的特征,那么用户 j 对电影 i 的评分预测为 w(j) * x(i) + b(j)r(i, j) :一个用户 j 是否对电影 i 进行了评分, 1 为已评。w(j) b(j):用户 j 的参数。
2024-05-03 16:41:19
460
原创 力扣67 二进制求和 C语言
官方题解中是将两个字符串反转,这样从低下标开始相加其实就是实际的加法过程了。对于进位问题,我原本想的是设一个变量 flag ,然后考虑 a[i] + b[i] + flag 对应的情况,官方题解中以 carry 表示进位,那么每一位的结果实际上是 (carry + a[i] + b[i])%2 ,不需要用 if 进行判断,进位就是 (carry + a[i] + b[i])/2,还挺妙的。官方题解的代码写的非常简洁,学到了反转字符串和 fmax()函数。,以二进制字符串的形式返回它们的和。
2024-05-02 10:10:02
341
原创 吴恩达机器学习笔记 三十六 异常检测选择使用什么特征
对于无监督学习,尽量使特征是高斯分布的。例如下图中 x 的分布看起来不是对称的钟形分布,可以通过取对数使它变得更像高斯分布,这样会使模型更好地拟合数据。实际中可以尝试几个不同的 c 来确定哪个使数据变得更加像高斯分布。不加 c 的话有的 x 会使 log函数没有意义,尝试加一个小小的 c 并不断调整。对于监督学习,有一些多余的特征影响不大,对于无监督学习,更难发现哪些特征是可忽略的。注意,对训练集做的操作同样也要对交叉验证集和测试集做。
2024-04-27 14:21:42
227
原创 吴恩达机器学习笔记 三十五 异常检测与监督学习
有很多不同的异常,现有的算法不能从正样本中得知什么是异常,或未来可能出现完全没见过的异常情况。有足够的正样本让算法学习到正样本什么样,且未来出现的正样本会和以前的类似。例如金融欺诈,隔几个月或几年就有新的方式出现。控制数据中心的设备,黑客总会使用全新的方式入侵。例如垃圾邮件,大概率和从前的垃圾邮件类似。正样本 ( y = 1 ) 的数量非常少。负样本 ( y = 0 ) 的数量非常多。制造业:发现已知的,从前出现过的缺陷。当正样本和负样本的数量非常多时。制造业:发现从前没有的缺陷。
2024-04-20 20:01:04
376
原创 入侵检测数据预处理 特征工程 面临的问题
在机器学习中,经常会遇到类别型特征,如入侵检测数据集中的网络协议(protocol_ type),它的取值为{t' cp','udp',i'cmp'},这种字段不能直接输入给分类器。针对网络入侵检测应用,其特征数据通常来自多个不同的软硬件设备、不同的应用系统、不同的日志系统,但是都与攻击行为有一定联系,由此可能导致特征之间存在一定的 相关性。入侵检测的最终目标是为安全防御提供支持,而检测技 术中的误报率和漏报率高的问题,使得自动化决策可能影响正常数据的流动,也可能导致 未能及时阻断入侵行为。
2024-04-15 09:44:13
1183
原创 NSL-KDD数据集详细介绍及下载
难度等级表示每条记录分类时判断的难易程度,是一个[0,21]范围内的整数,数值越 大表示该记录越容易分类,0是最不容易分类的。对 于主机入侵检测,采用的方法比较灵活,既可以是操作系统的各种日志,也可以是某些应 用系统的日志,还可以通过开发驻留于主机的应用软件等方法获得主机数据。NSL-KDD每条流量的41个特征的含义如表5-1所示,表中列出了特征名称及其类 型,其中 continuous是 连 续 数 值 型,symbolic是 符 号 类 型。,表示相应的流量为正常 或异常。因此 NSL-KDD是一个。
2024-04-15 09:28:25
5309
9
原创 基于机器学习的安全检测 网络入侵检测概述
这种方法要求先建立正常行为的特征轮廓和模 式表示,然后在检测时将具体行为与正常行为进行比较,如果偏差超过一定值,则认为是入侵行为,否则为正常行为。由放置在不同网段的传感器或不同主机的代理来收集信息,包括 系统和网络日志文件、网络流量、非正常的目录和文件改变、非正常的程序执行。不管是哪种类型的IDS,其工作过程大体是相同的,可以分为三个主要的环节,即信 息收集、分类检测和决策,其中分类检测和决策环节是IDS的关键,都需要一定的人工智 能技术来支持。因此,这种IDS是对主机入侵行为的检测。
2024-04-15 09:16:53
1457
原创 如何有礼貌的写邮件要代码 英文版模板
I’m a 自己的情况 student majoring in 你的专业. Recently I read your paper。标题的话可以写 A request for data of paper。前前后后发过好几封,只有一个回我了还是婉拒,代码还是要靠自己了!
2024-04-15 09:09:35
1658
原创 欧拉函数确定1-n有多少个数和 n 互质详解 附C语言代码 蓝桥杯互质数的个数
我们已知30 = 2*3*5,那么1-30中有多少个数与30互质就可以通过减去不和30互质的数得到,既然2、 3、 5不是,那他们的倍数也就不是,所以要减去 30/2、 30/3、 30/5,但是减的时候多减掉了2和3的公倍数、3和5的公倍数、2和5的公倍数,所以要再加上,就相当于有三个圆,两两相交,中间有一部分是三个圆重叠,所以还要再减去30/(2*3*5),最后整理一下就是 上面的式子了。例如 8 = 2*2*2, 171 = 3*3*19, 30 = 2*3*5, 19 = 19。
2024-04-06 15:13:52
522
原创 Python数据分析与可视化笔记 十 关联
定义:设 W 中有 e% 的事务支持物品集 B , e% 称为关联规则 A-> B 的期望可信度,即 P(B)。定义:设 W 中支持物品集 A 的事务中,有 c% 的事务同时也支持物品集 B ,c% 为关联规则 A -> B 的置信度,即条件概率P(Y|X)。定义:设 W 中有 s% 的事务同时支持物品集 A 和物品集 B ,s%称为关联规则 A -> B 的支持度。的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也会出现,即隐藏在数据间的关联或相互联系。关联规则的学习属于无监督学习过程。
2024-04-05 13:45:05
302
原创 Python数据分析与可视化笔记 九 分类问题
K近邻算法的工作机制是,给定测试集合,基于某种距离度量计算训练集中与其最接近的 k 个训练样本,基于这 k 个样本的信息对测试样本的类别进行预测。决策树可以看作对于“当前样本是否属于正类”这一问题的决策过程,一般一棵决策树包含一个根结点、若干个中间节点和若干个叶节点,叶节点对应总问题的决策结果,根结点和中间节点对应中间的属性判定问题。如果所有样本不仅可以被超平面分开,还和超平面保持一定函数距离,这样的超平面为支持向量机中的最优超平面,和超平面保持一定函数距离的样本定义为支持向量。,异类样本点尽量远离。
2024-04-04 18:43:10
719
原创 DFS 全排列问题 C语言代码
关键在于进入dfs之后首先要判断是否达到停止条件,没有的话就要考虑对当前这个结点做什么,做完之后要继续下一层的 dfs ,下一层结束后要把当前结点的标志重新标为0。在main()函数中调用 dfs()时,括号里的参数是开始的层数,如 dfs(0) 指的是从第0层开始,而 dfs(1) 指深度为1的情况,这时候也就是有两个数排列好了。是一种遍历算法,尽可能深地向子树中的结点搜索,直到达到一定的深度,再回溯到上层的结点,继续搜索未被访问的结点。给定 4 个数 1 2 3 4,求他们所有可能的排列结果。
2024-04-03 14:29:39
953
原创 吴恩达机器学习笔记 三十四 异常检测算法 开发和评估一个异常检测系统
飞机发动机的检测,假设有10000个正常的样本和20个异常的样本,我们拿6000个正常的样本当做训练集用来训练算法,拿2000个正常的样本和10个异常的样本用来调整算法的参数,剩下的当做测试集。一个有 x1、x2 两个特征的数据集,这两个特征的高斯分布分别如图右边所示,将两个概率乘起来得到左下角的图,越靠近中心的概率越大,越可能是正常的,而边缘的概率更低,更可能是异常数据。但是当异常样本的数量非常非常少时,也可以不要测试集,只用训练集和交叉验证集,这种做法的缺点是没办法评估模型在未来的真实数据中的表现。
2024-04-03 10:57:15
340
原创 吴恩达机器学习笔记 三十三 发现异常事件 高斯分布
也叫正态分布,normal distribution,钟形分布,bell-shape distribution),计算训练样本的 x 落在某个区间的概率,当验证集的样本的概率小于一个很小的数时,认为这种情况是异常的。例如飞机发动机的异常检测,假设只有两个特征,新的样本和之前的样本偏离的很多,就认为可能是异常的点。μ 和 σ如下图所示,其中有些统计学家会用1/m-1替换1/m, 但这不是很重要。如下图,这个曲线以 μ 为中心,表示的是 p(x),σ是标准差。
2024-04-01 20:56:43
271
原创 吴恩达机器学习笔记 三十二 K-means初始化 选择聚类数量
另一种方法是根据后续的工作进行评估 ,例如调整T恤衫的尺寸,可以分为三类,也可以分为五类,但两种情况下T恤衫的合适程度以及生产成本不同,需要根据这些进行选择。一种方法是肘方法(elbow method), 把 J 当做是集群数量 K 的函数,选择函数弯曲的地方(即手肘)作为 K 的值。的情况,如左下图和右下图,因此应当多次运行 K-means 算法 ,取成本 J 最小的那个。随机初始化的步骤如下,通常50-1000次是正常的,次数太多计算成本会很高。第二步:设这 K 个样本为 μ1 μ2 ... μk。
2024-04-01 20:22:33
526
原创 Python数据分析与可视化笔记 八 Pandas 处理结构化数据 Series
对于通过 Series 的 dict 创建 DataFrame 的情况,若指定 index ,则会丢弃未与指定 index 相匹配的数据。Series 对象输出时,每一行为 Series 中的一个元素,左侧为索引,右侧为值。Series 类似于一维数组与字典的结合,是一个有标签的一维数组,标签在 Pandas 中有对应的数据类型 index。对 ndarray 可以进行的操作对 Series 可以同样进行,但由于索引的存在,在操作时存在数组对齐的问题。(1)索引对象:包括简单的索引和多层次的索引。
2024-04-01 16:03:16
478
原创 Python数据分析与可视化笔记 七 Numpy ndarray
通过索引获得 ndarray 的一个切片,与 list 不同的是,获得的切片是原始 ndarray 的视图,所以对切片的修改及时对原始 ndarray 的修改。对于一些用于标量的算术运算,Numpy 可以通过广播的方式将其作用到 ndarray 的每个元素上,返回一个或多个新的矢量。例如,对一个 ndarray 对象进行加一个标量的运算,会对 ndarray 对象的每一个元素进行与标量相加的操作,得到一个新的 ndarray 并返回。另外,这本书小错误挺多的,有的地方也不是很通顺。
2024-04-01 10:40:42
522
原创 Python数据分析与可视化笔记 六 特征构建 特征提取 主成分分析 独立成分分析 线性判别分析
特征提取是在原始特征的基础上,自动构建新的特征,将原始数据转换为一组更具物理意义、统计意义或者核的特征。LDA 的原理是将带上标签的数据(点)通过投影的方法,投影到维度更低的空间,使得投影后的点会形成按类别区分,相同类别的点将会在投影后更接近。在数学上,是先用原始数据协方差矩阵的前 N 个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵左乘映射矩阵,从而对原始数据降维。特征构建是指从原始特征中人工构建新的特征。ICA 认为观测到的数据矩阵 X 是可以由未知的独立元矩阵 S 与未知的矩阵 A 相乘得到的。
2024-04-01 09:46:55
473
原创 Python数据分析与可视化笔记 五 数据清洗 特征工程 特征选择方法
数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理,使得清洁后的数据格式符合标准、不存在异常数据等。先使用某些机器学习的算法和模型进行训练,得到各特征的权重系数,根据系数从大到小选择特征,类似过滤法,不同的是通过训练来确定特征的优劣。如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么这个特征对样本的区分并没有什么用。特征中可能存在一些冗余特征,即两个特征本质上相同,也可以表示为两个特征的相关性比较高。
2024-03-31 20:51:56
341
原创 吴恩达机器学习笔记 三十一 K-means算法及优化目标 成本函数
对 K 个质心,每次都计算分配给他的所有点的“中心”,这个中心通过计算不同维度的平均值得到,假如只有两个特征,(如图)计算横的平均值,竖的平均值,得到的点就是新的质心。图中最下方式子的 x(1) x(5)等,都是有 n 个特征的向量,计算平均值时每个特征都要计算到。第一步分配点给质心的时候 μ1 到 μk 是不动的,分配点来使 J 最小;对 m 个 点,每个点对应的质心为 c(i) ,若离红色的质心近,则 c(i) 的值为1,否则为2。计算距离用的是L2范式。c(i) 是当前这个样本点被分配的集群的下标。
2024-03-31 10:42:40
410
原创 吴恩达机器学习笔记 三十 什么是聚类 K-means
并把集群中心移动到这里,然后再次遍历每个点看看它离哪一个更近,然后重复,直到中心不再变化。无监督学习算法的数据集中没有标签 y ,所以不能说哪个是“正确的 y ”。K-means算法就是在重复做两件事:一个是。,关注多个数据点并自动找到相似的数据点,在。例如,要求算法找到下图中的两个类,
2024-03-28 16:24:20
476
原创 吴恩达机器学习笔记 二十九 树的增强 XGBoost 极端梯度提升 什么时候使用决策树 决策树和神经网络的比较
增强树:和随机森林类似,但再抽取时每个样本被抽到的概率不是相同的,而是。2. 不建议在非结构化的数据(如图像、音频、文本)上使用决策树;1. 神经网络适用于所有类型的数据,包括结构化的和非结构化的。3. 神经网络可以更方便地连接起来组成一个更大的模型。用 XGBoost 解决分类和回归问题的代码。,相当于把做的不好的部分再拿出来练习一遍。3. 有一套很好的关于分裂和停止分裂的标准。4. 一个小的决策树可以人力解释。的数据(类似表格之类的);1. 一种增强树的开源实现。决策树(包括树集合)
2024-03-26 09:34:23
576
物联网毕设完整代码 STM32 MQTT ESP8266 微信小程序 环境检测
2024-04-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人