
机器学习
文章平均质量分 88
初识机器学习
三月七꧁ ꧂
尚未佩妥剑,转眼便江湖。愿历尽千帆,归来仍少年! 跨考计算机上岸,下一站:月薪3W!
展开
-
机器学习---数据分割
为此,需使用一个“测试集"(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测。老师出了10道习题供同学们练习,考试时老师又用同样的这10道题作为试题,这个考试成绩能否。回到我们的问题上来,我们希望得到泛化性能强的模型,好比是希望同学们对课程学得很好、获得。之前的文章中写过,我们可以通过实验测试来对学习器的泛化误差进行评估并进而做出选择。显然,若测试样本被用作训练了,则得到的将是过于“乐观”的估计结果。答案是否定的,可能有的同学只会做这10道题却能得高分。原创 2024-03-06 19:50:54 · 1369 阅读 · 0 评论 -
机器学习---拉格朗日乘子法、Huber Loss、极大似然函数取对数的原因
拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法。如图所示,我们的目标函数是f(x)=x2+4x—1,讨论两种约束条件g(x):1)在满足x≤-1约。对于约束2)使目标值f(x)最小的最优解是x=-1。入拉格朗日乘子,可将有d个变量与k个约束条件的最优化问题转化为具有d+k个变量的无约束优化。2)在满足x≥-1约束条件g(x)下求目标函数的最小值。对于约束1)使目标值f(x)最小的最优解是x=-2;一个变量一个约束的简单优化问题为例。原创 2024-03-06 19:12:26 · 1503 阅读 · 0 评论 -
机器学习---主动学习
主动学习(有时称为“查询学习”或“优化实验设计”,在统计学文献中)是机器学习的。关键的假设是,如果允许学习算法选择它从中学习的数据——如果你愿意的话,要“好奇”——它会。同样,机器学习模拟人类学习的过程,利用已有的知识训练出模型去获。在人类的学习过程中,通常利用已有的经验来学习新的知识,又依靠获得的知识来总结和积累经。主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最。取新的知识,并通过不断积累的信息去修正模型,以得到更加准确有用的新模型。在更少的训练下表现得更好。原创 2024-03-02 10:27:00 · 2115 阅读 · 0 评论 -
机器学习---迁移学习方法
由于P(xs)≠P(xt),因此,直接减小二者之间的距离是不可行的。的第一作者Sinno Jialin Pan以前是中山大学的数学硕士,他想用更简单的方法来解决。其中,tr(`)操作表示求矩阵的迹,用人话来说就是一个矩阵对角线元素的和。习的目的就是要借助Ds的知识,来学习目标域Dt的知识(标签)。源领域就是有知识、有大量数据标注的领域,是我们要迁移的对象;后,RKHS空间中的内积就可以转换成核函数,所以最终MMD可以直接通过核函数进行计算。的核函数,把一个难求的映射以核函数的形式来求,不就可以了?原创 2024-03-02 09:47:48 · 2541 阅读 · 0 评论 -
机器学习---迁移学习
迁移学习是一种学习的思想和模式。迁移学习作为机器学习的一个重要分支,侧重于将已经学习过。的知识迁移应用于新的问题中。迁移学习的核心问题是,找到新问题和原问题之间的相似性,才可。定义:迁移学习,是指利用数据、任务、或模型之间的相似性,将在旧。迁移学习的原因概括为以下四个方面:大数据与少标注之间的矛盾;海量的数据,持续不断地训练和更新相应的模型,使得模型的性能越来越好,越来越适合特定场景。然而,这些大数据带来了严重的问题:总是缺乏完善的数据标注。领域学习过的模型,应用于新领域的一种学习过程。原创 2024-02-27 10:18:22 · 2398 阅读 · 1 评论 -
机器学习---增量学习
学习方法可以定义为增量学习方法:可以学习新的信息中的有用信息;在面对新数据中包含的新类别时,可以有效地。增量算法经常应用于对数据流或大数据的处理,比如对股票趋势的预测和用户偏好的分析等。维度约减,特征选择,数据表示强化学习,数据挖掘等等。扩展现有模型的知识,即进一步训练模型,它代表了一种动态的学习的技术。适用于监督学习的、集成的、增量学习的、能学习新类的算法。的方式可以有效的利用新增数据来对模型进行训练和进一步完善。增量学习作为机器学习的一种方法,现阶段得到广泛的关注。此外,通过使用增量学习的方法。原创 2024-02-27 09:56:53 · 2752 阅读 · 0 评论 -
机器学习---Deep Q-Network (DQN)
前的评估网络(self.q_eval)和下一个状态(self.s_)计算每个动作的Q值(q_next),同时使用。目标Q值中,并根据实际奖励和折扣因子(self.gamma)以及下一个状态的最大Q值来更新对应动。根据评估网络的动作选择结果,更新目标Q值(q_target)。同时,初始化了一个记忆库(memory),用于存储经验(状态、动作、奖励、下一个状态)。的Q值,而目标网络用于计算下一个状态下每个动作的Q值。最新的状态(self.s)和评估网络计算每个动作的Q值(q_eval)。原创 2024-02-23 10:12:00 · 1264 阅读 · 0 评论 -
机器学习---强化学习方法
1. 强化学习方法。原创 2024-02-23 09:33:31 · 2206 阅读 · 0 评论 -
机器学习---强化学习
1. 什么是强化学习在连接主义学习中,在学习的方式有三种:非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。监督学习也称为有导师的学习,需要外界存在一个“教师”对给定输入提供应有的输出结果,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导的情形下构建其内部表征。学习完全是开环的。原创 2024-02-19 15:06:11 · 2204 阅读 · 2 评论 -
机器学习---规则学习(一阶规则学习、归纳逻辑程序设计)
一阶”的目的:描述一类物体的性质、相互关系,比如利用一阶关系来挑“ 更好的”瓜,但。色泽程度:乌黑>青绿>q浅白;“根蒂弯度”:蜷缩>稍蜷>硬挺;“更好”:好瓜>坏瓜。中很难量化颜色、 …一般情况下可以省略全称量词。命题逻辑:属性-值数据。原创 2024-02-19 10:34:17 · 1385 阅读 · 0 评论 -
机器学习---规则学习(序贯覆盖、单条规则学习、剪枝优化)
序贯覆盖:在训练集上每学到一条规则,就将改规则覆盖的样例去除,然后以剩下的样例组成训练。冲突消解:顺序规则、缺省规则、元规则。读作:若(文字1且文字2且...),则目标概念成立。集重复上述过程( 分治策略)。命题逻辑 → 命题规则。原创 2024-02-15 15:36:18 · 871 阅读 · 0 评论 -
机器学习---HMM前向、后向和维特比算法的计算
(beta)的计算公式为: beta[t][i] = sum(A[i][j] * B[j][O[t+1]] * beta[t+1][j]) for j in range(N),其。中,beta[t][i]表示在时间步t从状态i开始的概率,A[i][j]表示从状态i转移到状态j的概率,B[j][O[t+1]]其中,alpha[t][j]表示在时间步t处于状态j的概率,A[i][j]表示从状态i转移到状态j的概率,B[j]delta[t][j][O[t]]表示在状态j下观测到序列中的第t个观测的概率。原创 2024-02-15 14:56:37 · 1328 阅读 · 0 评论 -
机器学习---概率图模型(概率计算问题)
的方法是按概率公式直接计算.通过列举所有可能的长度为T的状态序列。然后,对所有可能的状态序列I求和,得到观测序列O的概率。,然后对所有可能的状态序列求和,得。,O和I同时出现的联合概率为。,计算观测序列O出现的概率。态序列 I 与观测序列。阶的,这种算法不可行。原创 2024-02-10 11:33:33 · 1432 阅读 · 2 评论 -
机器学习---学习与推断,近似推断、话题模型
基于概率图模型定义的分布,能对目标变量的边际分布(marginal distribution)或某些可观测变量。假设图模型所对应的变量集x={x1,x2,···,xn}能分为XE和XF两个不相交的变量集,推断问。其中,联合概率p(xF,xE)可基于图模型获得,所以推断问题的关键就在于如何高效计算边际分。概率图模型的推断方法可以分两类:①精确推断方法:计算出目标变量的边际分布或条件分布的精。为条件的条件分布进行推断。确值,一般情况下,该类方法的计算复杂度随极大团规模增长呈指数增长,适用范围有限。原创 2024-02-10 09:34:45 · 1603 阅读 · 4 评论 -
机器学习---半监督学习简单示例(标签传播算法)
使用 LabelSpreading 模型分别训练三个不同的数据集(30%、50% 标签数据和100% 标签数据)y_30 和 y_50 分别是复制的标签数组,其中 60% 和 90% 的标签被随机置为未知(-1),这段代码演示了使用半监督学习方法 Label Spreading 在一个生成的二维数据集上进行标签传播的。使用 make_circles 函数生成一个由两个圆形组成的数据集,总共有200个样本。outer(外圈),最后一个样本的标签设置为 inner(内圈),以此模拟已知的少量标签信息。原创 2024-02-05 21:58:52 · 1660 阅读 · 0 评论 -
机器学习---概率图模型(隐马尔可夫模型、马尔可夫随机场、条件随机场)
概率模型直接利用概率求和规则消去变量R的时间和空间复杂度为指数级别𝑂(2^(𝑌 +|𝑅|)),需要一。机器学习最重要的任务是根据已观察到的证据(例如训练样本)对感兴趣的未知变量(例如类别标。计算变量的概率分布,在概率模型中,利用 已知的变量推测 未知变量的分布称为“推断。生成式:计算联合分布𝑃(𝑌, 𝑅, 𝑂),判别式:计算条件分布𝑃(𝑌, 𝑅|𝑂)(inference)”,其核心在于基于可观测的变量推测出未知变量的条件分布。符号约定:𝑌为关心的变量的集合,O为可观测变量集合,R为其他变量集合。原创 2024-02-05 10:42:54 · 3090 阅读 · 2 评论 -
机器学习---半监督学习(基于分岐的方法)
(multi--view)数据设计的,因此也被看作“多视图学习”(multi--view learning)的代表。都是{爱情片,动作片},而不能是y1={爱情片,动作片},而y2={文艺片,惊悚片}。起考虑时就有很大的把握判别为“动作片”。基于该视图属性描述而得的属性向量,不妨假定x1为图像视图中的属性向量,x2为声音视图中的属。面,若仅凭图像画面信息认为“可能是动作片”,仅凭声音信息也认为“可能是动作片”,则当两者一。音信息所对应的属性集、字幕信息所对应的属性集、甚至网上的宣传讨论所对应的属性集等。原创 2024-02-01 20:49:17 · 1497 阅读 · 0 评论 -
机器学习---半监督学习(生成式方法)
事实上,未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益.图13.1给出了一个直观的例示.若仅基于图中的一个正例和一个反例,则由于待判别样本恰位于两者正中间,大体上只能随机猜测;若能观察到图中的未标记样本,则将很有把握地判别为正例,“十”?“-待判别样本观察到未标记样本十图13.1未标记样本效用的例示.右边的灰色,点表示未标记样本。助大的瓜,则只需询问瓜农比较少的瓜就能构建出比较强的模型,从而大幅降低标记成本。原创 2024-02-01 19:44:21 · 2038 阅读 · 1 评论 -
机器学习---无偏估计
假设这个是⼀些样本的集合X = x1, x2, x3, ..., xn,我们根据样本估计整体的数学期望(平均值)。所以无偏估计,所估计的别⼈口袋每张钱的数学期望(平均值)= 10 ∗ 1/2 + 100 ∗ 1/2。⼀张100 元,然后你想估计下他口袋里的剩下的钱平均下来每张多少钱(估计平均值)。哪怕拿到了两张十块钱,我还是认为十块钱出现的概率和100元的概率⼀样。每个样本出现概率不⼀样,概率大的乘起来就大,这个就产生偏重了(有偏估计)。钱,那么我认为十块钱的概率是2/3,100块钱概率只有1/3。原创 2024-01-27 21:05:42 · 1155 阅读 · 0 评论 -
机器学习---可能近似正确(PAC)、出错界限框架
如果学习器被允许向施教者提出查询,而不是观察训练集的随机样本,会对所需样例数目有怎样的。到,定义了一个对假设空间复杂度的自然度量,由它可以界定归纳学习所需的训练样例数目。从理论上刻画了若干类型的机器学习问题中的困难和若干类型的机器学习算法的能力。出错界限框架:考查了一个学习器在确定正确假设前可能产生的训练错误数量。能否知道为保证成功的学习有多少训练样例是必要的或充足的?是否可能独立于学习算法确定学习问题中固有的难度?能否刻画出一类学习问题中固有的计算复杂度?在什么样的条件下成功的学习是可能的?原创 2024-01-27 20:56:26 · 1801 阅读 · 0 评论 -
机器学习---特征选择与稀疏学习
特征的分类:相关特征: 对当前学习任务有用的属性;无关特征: 与当前学习任务无关的属性。特征选择:从给定的特征集合中选出任务相关特征子集;必须确保不丢失重要特征。特征:描述物体的属性。原创 2024-01-18 15:56:35 · 1701 阅读 · 1 评论 -
机器学习---特征提取
窗口函数可以是正常的矩形窗口也可以是对每一个像素给予不同权重的高斯窗口,角点检测中要使。他把这个简单的想法转换成了数学形式。将窗口向各个方向移动(这就是说必须使方程右侧的第二项的取值最大。对上面的等式进行泰勒级数展开然后再通过几步数学。之后,根据一个等式对窗口是否。:向任何方向移动变化都。)然后计算所有差异的。原创 2024-01-18 12:42:13 · 2092 阅读 · 6 评论 -
机器学习---lightGBM
下表对应了 Faster Speed ,better accuracy ,over-fitting 三种目的时,可以调的参数。原创 2024-01-14 21:41:46 · 1465 阅读 · 0 评论 -
机器学习---xgboost算法
问题上表现的十分顶尖,本节将较详细的介绍XGBoost的算法原理。成和剪枝分别对应了经验风险最小化和结构风险最小化, XGBoost的决策树生成是结构风险最小。式(1.1)称为经验风险最小化,训练得到的模型复杂度较高。出结果, 是模型的输出结果;等式右边第⼀部分是模型的训练误差,第⼆部分是正则化项,这里。其中,F是假设空间,假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标的情。最小化,结构风险最小化的模型往往对训练数据以及未知的测试数据都有较好的预测。的正则化项是K棵树的正则化项相加而来的。原创 2024-01-14 20:51:58 · 17178 阅读 · 3 评论 -
机器学习---流形学习
定义:设M是一个Hausdorff拓扑空间,若对∀p∈M,都有p的邻域U和Rm的一个开集同胚,则称M。处理的是非欧空间里的模式识别和维数约简等问题。于是流形学习的任务就是通过观测数据把未知映射f和隐变量。而且地球上两点的距离并不单纯是它们对应的直线的跟离,然后刊用这种关系从高维数据重构出低维的流形嵌入。流形学习是要从高维数据集中发现内在的低维流形,特殊学习方法,而是基于欧氏度量学习的一种推广,因此研究人员提出了各种各样的流形学习算法,些特定约束用以恢复流形的内在结构。杂志上的两篇关于流形学习的文章。原创 2024-01-10 15:25:21 · 1758 阅读 · 0 评论 -
机器学习---kMeans算法
性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。鸢(yuan1)尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属。计算两个向量之间的欧氏距离。码,3个类别分别赋值0,1,2。原创 2024-01-10 13:23:50 · 1186 阅读 · 1 评论 -
机器学习---clustering
使用make_blobs函数生成一个方差不同的数据集X_varied,并使用KMeans算法将数据集聚类为3。代码中导入了NumPy用于数组操作,matplotlib.pyplot用于绘图,KMeans用于聚类算法,使用KMeans算法将数据集X聚类为2个簇,并将聚类结果可视化在子图中。通过线性变换将原始数据集X变形为X_aniso,然后再使用KMeans算法将变形后的数据集聚类为3。根据样本标签y的不同值,从原始数据集X中提取不同大小的样本,并使用KMeans算法将提取的数。原创 2024-01-04 14:20:32 · 1214 阅读 · 1 评论 -
机器学习---PCA案例
先计算并减去原始数据集的平均值,然后计算协方差矩阵及其特征值,然后利用argsort函数对特征。2个参数:一个参数是用于进行PCA操作的数据集,第二个参数是可选参数,即应用N个特征,首。值进行从小到大排序,根据特征值排序的逆序就可以得到最大的N个向量,这些向量将构成后面对。数据进行转换的矩阵,该矩阵则利用N个特征将原始数据转换到新空间中,最后原始数据被重构后。返回,同时,降维之后的数据集也被返回。原创 2024-01-04 13:31:52 · 618 阅读 · 0 评论 -
机器学习---随机森林宫颈癌分类
ss.fit_transform(x_train, y_train):对训练数据进行归一化。pca.fit_transform(x_train):对训练数据进行 PCA 降维。",np.NaN):将 "?降维(PCA):pca = PCA(n_components=2):创建 PCA 实例,设置为 2 维。模型评估:score = forest.score(x_test, y_test):在测试集上评估模型准确率。forest.fit(x_train, y_train):用训练数据训练模型。原创 2023-12-31 11:46:58 · 1019 阅读 · 0 评论 -
机器学习---降维与度量学习
通过某种映射到欧氏空间的一个点,并利用欧氏空间的良好性质在其中进行学习器的训练。支,通过有标记样本或结合未标记样本,寻找一个能够在给定指标下最恰当刻画样本相似度的距离。量学习的主要思想是,利用标注数据学习一个度量矩阵,对样本进行映射变换,使得在变换后的度。量空间中,同类样本之间的距离变小,异类样本之间的距离变大,或使得相似的样本距离变小,不。利用携带标注信息的训练数据进行距离度量学习,能更好的降低“语义鸿沟”的影响。当前样本相似度的距离度量,能够大大提高学习器的性能。利用了标注样本,也利用了未标注样本。原创 2023-12-31 10:40:42 · 1144 阅读 · 0 评论 -
机器学习---adaboost二分类、回归
分别使用 X 和 y 对 regr_1 和 regr_2 进行训练。绘制了两个类别的决策分数(decision_function 的输出),呈现为直方图。regr_2 是一个基于 AdaBoost 的回归模型,它使用了深度为 4 的决策树作为基础估计器,设定了。绘制了 regr_1(使用单一决策树)和 regr_2(使用 AdaBoost 回归器)的预测结果曲线。基于其类别,用不同颜色('b' 表示一类,'r' 表示另一类)绘制了训练数据点。测,得到预测结果 y_1 和 y_2。绘制了原始数据点的散点图。原创 2023-12-27 13:05:30 · 895 阅读 · 0 评论 -
机器学习---维数灾难
假设猫和狗图片的数量是有限的(样本数量总是有限的),假设有10张图⽚,接下来就用这仅有的10。⼀维特征空间下,我们假设⼀个维度的宽度为5个单位,这样样本密度为10/5=2;有⼀个特征,它的取值范围D在0到1之间均匀分布,并且对狗和猫来说其值都是唯⼀的,我们现在。首先,要寻找到⼀些能够描述猫和狗的特征,这样我们的分类算法就可以利用这些特征。猫和狗的皮毛颜色可能是⼀个很好的特征,考虑到红绿蓝构成图像的三基色,因此用。我们的分类器: 也许分类器准确率依然无法达到要求,加入更多的特征,比如颜色、纹理的统计。原创 2023-12-27 12:39:50 · 1620 阅读 · 0 评论 -
机器学习---比较单个学习器与Bagging集成的偏差-方差分解、在Iris数据集的不同特征子集上使用不同的分类器进行训练和可视化
在回归问题的数据集上的平均值上,偏差项测量估计器的预测与问题的最佳可能估计器(即贝叶斯。说明并比较了预期均方误差的偏差方差分解,单个学习器与bagging集成的比较。在回归中,估计器的预期均方误差可以根据偏差、方差和噪声进行分解。方差项测量在问题的不同实例LS上拟合时估计器的预测的可变性。最后,噪声测量由于数据的可变性而导致的误差的不可约部分。模型)的预测不同的平均量。原创 2023-12-23 20:56:33 · 1347 阅读 · 0 评论 -
机器学习---K近邻算法
对深度为j的节点,split策略,计算split所对应的维度(坐标轴)x(1),以所有实例的x(1)坐标。split策略,计算split所对应的维度(坐标轴)x(1),以所有实例的x(1)坐标内的中位数作为切。略:计算当前数据集上所有维度的方差,取方差最大的维度的标号作为split,对深度为j的节点,选。j+1的左右两个节点,左子节点对应坐标x(1)小于切分点的子区域,右子节点对应坐标x(1)大。k-d树是一种空间划。集的维数为k,一般来说要求数据的规模N满足条件:N远大于2的k次方,才能达到高效的搜索。原创 2023-12-23 20:00:34 · 1146 阅读 · 2 评论 -
机器学习---聚类(原型聚类、密度聚类、层次聚类)
算法过程:通常情况下,算法先对原型进行初始化,再对原型进行迭代更新求解。均值算法、学习向量量化算法、高斯混合聚类算法。值在一定程度上刻画了。簇内样本围绕簇均值向量的紧密程度。,此类算法假设聚类结构能通过一。均值算法针对聚类所得簇划分。小,则簇内样本相似度越高。原型聚类也称为“基于。原创 2023-12-19 22:27:07 · 3090 阅读 · 0 评论 -
机器学习---bagging与随机森林
这样得到的采样集和训练集样本的个数相同,但是样本内容不同。们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本。流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。集到的样本在放回后有可能继续被采集到。样本的训练集的随机采样中,每次被采集到的概率。没有被采样集采集中。的没有被采样到的数据,我们常常称之为袋外数据。派系,它的特点是各个弱学习器之间有依赖关系。的每轮随机采样中,训练集中大约有。联系,“随机采样”。对于一个样本,它在某一次含。次采样都没有被采集中的概率。原创 2023-12-19 17:32:54 · 1179 阅读 · 0 评论 -
机器学习---Adaboost算法
③将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学。过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类。该算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类。②将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第。①使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比较难分的训练。大的权重,而分类效果差的分类器具有较小的权重。原创 2023-12-12 23:23:44 · 2875 阅读 · 0 评论 -
机器学习---Boosting
符合实际情况:almost perfect expert),根据CNN、ABC、CBS以往的预测表现及实际天气情况作。强学习机(strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上。弱学习机(weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测),根据有云猜测。找到许多粗略的经验法则比找到一个单一的、高度预。以“人无完人”为基础,结合普通reporter,获得完美专家。传统观念:依赖于专家系统(测的规则要容易得多,也更有效。出综合准确的天气预测。原创 2023-12-12 20:34:35 · 1172 阅读 · 0 评论 -
机器学习---集成学习的初步理解
习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有。集成学习(ensemble。的机器学习领域都可以看到集成学习的身影。它本身不是一个单独的机器学。原创 2023-12-08 22:03:41 · 1457 阅读 · 0 评论 -
机器学习---使用 EM 算法来进行高斯混合模型的聚类
每个观测数据,根据随机生成的概率值,使用 np.random.normal 生成服从正态分布的随机数,并。差 Sigma,两个高斯分布的均值 Mu1 和 Mu2,混合模型中的分布数量 k,观测数据的数量 N,迭。在内部的两个嵌套的 for 循环中,分。中,计算了分母 Denom,它是高斯分布密度函数的归一化项,用于计算每个样本属于每个分布的。均值的分子部分,Denom 是对应的分母部分,它是所有样本对应的隐藏变量的期望值的总和。在内部的第二个循环中,计算了分子 Numer,它是样本属于某个分布的概率。原创 2023-12-05 20:38:02 · 1607 阅读 · 0 评论