
模式识别与机器学习
文章平均质量分 67
模式识别与机器学习
phoenix@Capricornus
要有脑子,有仇必报
展开
-
极大似然估计——参数估计——pdf估计
极大似然估计(Maximum Likelihood Estimation, MLE)是一种常用的参数估计方法,用于在给定观测数据的情况下找到最可能产生这些数据的模型参数值。MLE的基本思想是选择那些使观察到的数据出现概率最大的参数值。原创 2024-12-31 09:41:31 · 1286 阅读 · 0 评论 -
轮廓图——聚类评价指标
轮廓图上每一条线表示的是轮廓系数 (silhouette coefficient),轮廓图 (silhouette plot) 也常用来选定聚类组值。越大,聚类效果越好。类内距离越小,类间距离越大。如图 (b) 所示,组间不相似度。⚠️ 注意,当组数超过 2 时,需要在不同组之间取最小值。如图 (a) 所示,原创 2025-05-24 15:42:30 · 850 阅读 · 0 评论 -
Srinath多元假设检验 (Multiple-hypothesis Testing)(To 廖老师)
我猜测译者应该是发现原著中错了(说明那个年代译者还纠错,现在的译者只管翻译,懂不懂都很难说,翻译完全不说人话),但是又改错了,去掉中括号就对了,利用全概率公式很容易推导出。这是很早的一本书,79年英文版,作者是1935年的,今年90了。82年中译本,那个年代的人比较弱,翻译中有些地方不说人话,好在认真,所以也能懂。但在许多情况下,源有若干个输出,我们必须判决对应于输出的几个假设中,哪一个是正确的。但是,我认为表示这样的似然比没有意义,因为多类问题需要比较所有值,两个数的比值没有意义,还增加计算量。原创 2025-05-19 13:06:25 · 2075 阅读 · 0 评论 -
K均值(K-Means) & 高斯混合模型(GMM)——关联:K均值是高斯混合模型的特例
K均值可以看成是高斯混合模型的特例。原创 2025-05-17 09:50:29 · 642 阅读 · 0 评论 -
反向传播算法——矩阵形式递推公式——ReLU传递函数
进行),这只需要加法和乘法。然而,它不是内存高效的;前向传递中的中间值必须全部存储,这可能会限制可以训练的模型的大小。来源于https://udlbook.github.io/udlbook/,我不明白初始不从。为批次中的每个训练样本计算这些导数,并将它们相加以获取用于 SGD 更新的梯度。前向和反向传递中最耗计算的步骤是矩阵乘法(分别由。个隐藏层和 ReLU 激活函数,并且有单独的损失项。大于零的位置包含一,在其他位置包含零。反向传播的目标是计算关于偏差。开始,不知道怎么想的。考虑一个深度神经网络。原创 2025-05-14 08:41:18 · 988 阅读 · 0 评论 -
雅可比矩阵——向量对向量的导数
雅可比矩阵是描述向量函数导数的工具。给定向量$\boldsymbol{y}=(y_{1},y_{2},\cdots,y_{m})^{\mathsf T}$,其中每个$y_{i}$是向量$\boldsymbol{x}=(x_{1},x_{2},\cdots,x_{n})^{\mathsf T}$的函数,雅可比矩阵$\boldsymbol {J} = \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}$是一个$m \times n$矩阵,其元素为$\f原创 2025-05-12 08:12:22 · 482 阅读 · 0 评论 -
Variants of gradient descent
文章介绍了多种优化算法,主要用于机器学习和深度学习中的参数更新。首先,小批量梯度下降算法通过从训练集中采样小批量样本计算梯度并更新参数。其次,使用动量的小批量梯度下降算法引入动量系数,利用历史梯度信息加速收敛并避免陷入局部极小点。接着,**自适应梯度法(AdaGrad)**通过累积平方梯度自适应调整学习率,适用于稀疏数据。RMSProp在AdaGrad基础上引入衰减速率,避免学习率过早下降。最后,Adam算法结合动量和自适应学习率,通过累积梯度和平方梯度,并修正偏差,进一步优化参数更新。这些算法各有特点,适原创 2025-05-11 09:04:07 · 868 阅读 · 0 评论 -
信息论中熵、交叉熵和KL散度间的关系
在信息论中,交叉熵和KL散度是衡量两个概率分布$p$和$q$之间差异的重要工具。交叉熵$H(p, q) = -\sum_{x} p(x) \log q(x)$表示使用分布$q$编码来自分布$p$的信息所需的平均比特数,常用于机器学习中的损失函数。KL散度$D_{\rm {KL}}(p|q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$则衡量用$q$近似$p$时增加的信息量。两者关系为$D_{\rm {KL}}(p|q) = H(p, q) - H(p)$,其中$H(p)$是原创 2025-05-10 10:59:16 · 632 阅读 · 0 评论 -
二分类问题sigmoid+二元交叉熵误差
二元交叉熵损失函数(Binary Cross-Entropy Loss)是二分类问题中常用的损失函数,用于衡量模型预测概率与真实标签之间的差异。它通常与Sigmoid激活函数结合使用,确保预测概率在[0, 1]之间。对于单个样本,损失函数公式为 ( L(y, \hat{y}) = -\left[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right] ),其中 ( y ) 为真实标签,( \hat{y} ) 为预测概率。对于多个样本,总体损失为各样本损失的平均原创 2025-05-10 08:17:47 · 511 阅读 · 0 评论 -
多分类问题softmax传递函数+交叉熵误差
在多分类问题中,Softmax 函数通常与交叉熵损失函数结合使用。原创 2025-05-09 23:14:38 · 824 阅读 · 0 评论 -
马鞍面与鞍点
马鞍面(Saddle surface),是一种曲面,又叫双曲抛物面,形状类似于马鞍。在XOZ坐标平面上构造一条开口向上的抛物线,然后在YOZ坐标平面上构造一条开口向下的抛物线(两条抛物线的顶端是重合于一点上);然后让第一条抛物线顺着另一条抛物线上滑动,便形成了马鞍面。这导致了一个中心点(通常位于原点),该点周围的表面形状类似于一个马鞍,因此得名。这种类型的马鞍面通常被称为“双曲抛物面”,因为它结合了抛物线在两个正交方向上的特征:沿着。轴的抛物线向下开口(或相反,取决于。轴的抛物线向上开口,而沿着。原创 2025-05-07 19:44:31 · 751 阅读 · 0 评论 -
感知器(Perceptron)准则
梯度计算:用于确定权向量更新的方向。迭代修正公式:用于逐步调整权向量,使得错分样本的数量减少。算法步骤:通过逐个样本的修正,最终达到所有样本正确分类的目标。原创 2025-05-07 08:11:34 · 716 阅读 · 0 评论 -
感知器准则&感知器神经元模型——等价
感知器神经元模型通过这种方式的误差反馈学习与感知器准则等价。感知器神经元模型的误差反馈学习。原创 2025-05-06 19:53:23 · 541 阅读 · 0 评论 -
神经网络发展历程——积跬步至千里
1−1。原创 2025-05-04 08:32:16 · 302 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯是一种基于密度估计的分类算法,它利用贝叶斯定理进行预测。该算法的核心假设是在给定类别的情况下,各个特征之间是条件独立的,尽管这一假设在现实中通常不成立,但朴素贝叶斯分类器依然能够生成对有偏类密度估计具有较强鲁棒性的后验分布,尤其是在后验概率接近决策边界(0.5)时。朴素贝叶斯分类器通过最大后验概率决策规则将观测值分配到最有可能的类别。原创 2025-05-03 08:48:10 · 584 阅读 · 0 评论 -
二次判别函数的决策面
二次判别函数的决策面是超二次曲面,包括超平面、超平面对、超球面、超椭球面、超抛物面、超双曲面。二次函数gx1x2gx1x2xTWxwTxw0Ww11w21w12w22ww1w2xx1x2gx1x2w11x12w12w21x1x2w22x22w1x1w2x。原创 2025-05-03 08:38:01 · 874 阅读 · 0 评论 -
从感知器准则到最小平方误差准则——与神经网络的发展类比
从此,$\boldsymbol{y}$就有了新的物理解释,可以看成是类别标记,对于$Y=1$的类别,标记为1,对于$Y=-1$的类别,标记为-1。从样本点$\{C_1, C_2\}$到数值的映射。统计学模型中经常描述的样本划分,因此用样本点表示。机器学习因为是从输入到输出的映射,因此用数值表示类别标记。(注:凡事把C_1, C_2当集合的,都是概念不清,因为Duda用的$\omega_1$, $\omega_2$,但Duda数学功底扎实,没有数学概念错误,某人誊抄他的,自以为聪明的用了集合语言)原创 2025-03-24 08:10:56 · 1756 阅读 · 0 评论 -
最小二乘准则&Fisher准则
的解等价于Fisher 线性判别的解。为了做到这一点,首先回到原始空间线性判别函数的使用,而不是广义的线性判别函数。除了多出一个并不重要的比例因子,它和 Fisher 判别函数的解是一致的。的这个特定选法得出的 MSE 解和 Fisher 线性判别是相关的。,也就是“规范化”操作。就可以对等式 (49) 进行乘法运算,得到。为样本均值在所得一维判别函数方向的投影,即。分别是第一类和第二类的样本数,,它通过加上一个阈值分量。先对等式 (45) 中的。是两类各自的均值向量,是全部样本的均值,即。原创 2025-03-16 20:36:12 · 746 阅读 · 0 评论 -
Fisher准则函数的求解——不等式约束最优化问题
某人誊抄Duda时就让分母等于常数。人家分母凭什么得是常数。事实上,这个分数形式的Fisher准则函数可以转换成不等式约束的约束最优化问题,它的最优性条件就是著名的KKT条件(也称为KT条件)。为了让${\bm S}_w$有用,那$\lambda$就得大于零,然后殊途同归了。原创 2025-03-10 08:14:17 · 1319 阅读 · 0 评论 -
机器学习的三个基本要素
机器学习的基本要素包括模型、学习准则(策略)和优化算法三个部分。机器学习方法之间的不同,主要来自其模型、学习准则(策略)、优化算法的不同。原创 2025-03-02 15:43:31 · 1283 阅读 · 0 评论 -
统计学习理论中的一致性
值得注意的是,虽然强一致性提供了一个更加强有力的保证,但在实际应用中,普通一致性通常已经足够使用。在任何分布下,一个普遍(强)的一致分类规则是一致的,因此,通用一致性仅是分类规则的一个特性。,那么这个分类规则就是强一致的。强一致性比普通的一致性要求更高,因为它几乎适用于所有可能的训练数据序列,并且确保了对所有实际应用而言更加严格的性能保证。此外,有趣的是,所有常用的一致性分类规则被证实都具有强一致性。在统计学习理论中,一致性是一个重要的概念,它涉及随着样本量增加,分类误差如何接近最优误差的问题。原创 2025-03-02 07:54:09 · 588 阅读 · 0 评论 -
紧致性准则、峰值现象与维数灾难——模式识别中对特征的要求
紧致性准则(Compactness Criterion)是模式识别和机器学习中用于评估样本集内类别可分性的一个重要概念。它主要关注的是同类样本在特征空间中的聚集程度以及不同类样本之间的分离情况。在特征空间中,属于同一类别的样本应该尽可能地靠近彼此,形成一个所谓的“紧致集合”。这种集合内的样本具有较高的相似度,而不同类别之间的样本则应尽可能远离,以确保分类器能够有效地将它们区分开来。原创 2025-03-01 18:35:40 · 486 阅读 · 0 评论 -
机器学习中的数据预处理
不同的特征通常具有不同的量纲,数值间的差别可能很大,如果不进行归一化处理,则可能会影响到数据分析的结果。特征数据归一化的目标就在于使具有不同量纲的特征转换为无量纲的标量,并且将所有的特征都统一到一个大致相同的数值区间内,让不同维度上的特征在数值上具有可比性。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。为原始数据的最大值;原创 2025-03-01 15:24:17 · 791 阅读 · 0 评论 -
验证检查、提前终止——防止过拟合方法之一
并不是说验证集上的错误率一升上来便认为不再下降了,因为可能经过这个 Epoch 后,错误率升高了,但是在随后的 Epoch 后错误率又下降了,所以不能根据一两次的错误率升高就判断不再下降。一般的做法是,在训练的过程中,记录到目前为止最低的错误率,当连续 10 次 Epoch(或者更多次)没达到最低错误率时,则可以认为错误率不再下降了,此时便可以提前终止训练。对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程通常会用到一些迭代方法,如梯度下降法。看到有人翻译为早停,我就笑喷了。原创 2025-02-28 08:10:21 · 236 阅读 · 0 评论 -
没有免费午餐定理和丑小鸭定理——人无完人,有优点就会有缺点
没有免费午餐定理”阐述了这一基本规律,某一种学习或识别算法比另一种分类性能更好总是相对某个相关的目标函数而言的,它们的识别错误率对所有可能的目标函数的求和结果却是相等的。所有可能的目标函数意味着所有可能的应用。“丑小鸭定理”表明,在没有“假设”的前提下,不存在“优越”或“更好”的特征表达,不存在与问题无关的优越或更好的特征集合或属性集合。讨论一种算法的优劣应在一定的背景下进行,背景就是针对某一类具体的应用问题在一些性能技术指标下进行比较,不存在任何一种与对象知识或运用无关的更好的学习算法或识别算法。原创 2025-02-28 07:56:05 · 232 阅读 · 0 评论 -
判别模型&生成模型
既然有不同类型的数据,我们希望能够通过分析数据的特征,生成某一个类别的新数据。生成模型观察到不同类别的数据可能由不同的数据分布生成,从数据生成的角度考虑分类任务,对联合概率。在这种情况下将患者的数据直接映射到某一个确定的疾病可能会掩盖患者患有其他疾病的可能,造成难以估计的后果。非概率判别模型和概率判别模型统称为判别模型(discriminative model),通过学习样本与标签之间的映射关系来判断数据的类别,这也是它们被称为判别模型的原因。,它对于输入的样本数据,输出样本对应的样本标签。原创 2025-02-22 15:22:32 · 580 阅读 · 0 评论 -
最小期望风险估计
最小期望风险估计(Minimum Expected Risk Estimation, MER)是一种在贝叶斯框架下,通过最小化期望损失(或风险)来选择最优估计值的方法。这种方法不仅考虑了参数的不确定性,还考虑了估计误差的代价。损失函数:期望风险:为了找到最小期望风险的估计值,我们需要选择一个估计值 θ^\hat{\theta}θ^,使得期望风险R(θ^)R(\hat{\theta})R(θ^)达到最小。具体步骤如下:定义损失函数:计算期望风险:最小化期望风险:平方损失:绝对损失:0-1损失:原创 2024-10-31 08:42:27 · 962 阅读 · 0 评论 -
K均值(K-Means) & 高斯混合模型(GMM)——比较
K均值(K-means)和高斯混合模型(Gaussian Mixture Model, GMM)是常用的聚类算法。K均值是非概率模型,根据(欧氏)距离判断,类比最小距离分类器(分类)。高斯混合模型是概率模型模型,根据后验概率判断,类比贝叶斯决策(分类)。从K均值到高斯混合模型实际上就向前迈进一小步。从分类到聚类就是先假设个初始值。原创 2024-09-22 16:40:45 · 311 阅读 · 0 评论 -
[系列]参数估计
参数估计系列原创 2024-09-22 11:47:49 · 355 阅读 · 0 评论 -
[系列]与二次型相关的机器学习知识点关联
相关的机器学习知识点关联。原创 2024-09-21 08:20:02 · 679 阅读 · 0 评论 -
Fisher鸢尾属植物数据集(Iris dataset)(1936)全视角
【代码】Fisher鸢尾属植物数据集(Iris dataset)(1936)全视角。原创 2024-09-20 14:08:51 · 391 阅读 · 0 评论 -
KL散度(Kullback-Leibler divergence)、交叉熵(cross entropy)以及GAN(Generative Adversarial Network)损失之间的关系
假设P是真实分布,Q是预测分布。原创 2024-09-02 18:53:40 · 1199 阅读 · 0 评论 -
判别分析分类上接贝叶斯决策,下接最小距离分类
多元正态分布下的贝叶斯决策,称为判别分析分类。先验概率相等时,等价于最小距离分类。原创 2024-08-28 08:26:06 · 395 阅读 · 0 评论 -
判别分析分类和朴素贝叶斯分类的比较
假设样本服从二元正态分布。原创 2024-08-27 16:15:28 · 278 阅读 · 0 评论 -
多元正态分布与协方差矩阵
全协方差矩阵对角协方差矩阵球对称协方差矩阵。原创 2024-08-27 07:44:13 · 304 阅读 · 0 评论 -
核密度估计kde的本质
核密度估计的本质就是插值,不是拟合,只是不要求必须过已知点。原创 2024-06-26 10:32:59 · 418 阅读 · 0 评论 -
均分分布的极大似然估计MLE
Parameter EstimationThe maximum likelihood estimates (MLEs) are the parameter estimates that maximize the likelihood function. The maximum likelihood estimators of a and b for the uniform distribution are the sample minimum and maximum, respectively.To f原创 2024-06-22 23:50:53 · 279 阅读 · 0 评论 -
支持向量机(SVM)中核函数的本质意义
内积是距离度量,核函数相当于将低维空间的距离映射到高维空间的距离,并非对特征直接映射。核函数对应某一特征空间的内积,要求①核函数对称;②Gram矩阵半正定。原创 2024-06-15 21:37:35 · 746 阅读 · 0 评论 -
[系列]距离度量家族
1-相似系数=距离。原创 2024-06-14 21:08:51 · 403 阅读 · 0 评论 -
PCA与LDA
降维方法:数学原理:高斯分布假设:监督与非监督:降维的目标:降维的维度限制:原创 2024-06-12 08:07:50 · 448 阅读 · 0 评论