
模式识别中的数学问题
文章平均质量分 86
模式识别中的数学问题
phoenix@Capricornus
要有脑子,有仇必报
展开
-
柯西-施瓦茨不等式——相似系数值域[-1,1]的理论保证
的内积的平方不超过这两个向量各自内积的乘积。柯西-施瓦茨不等式的等号成立的条件,即当两个向量。这条定理描述了向量内积的一个重要性质,即柯西-施瓦茨不等式。该不等式表明两个向量。线性相关时,等号成立。同时,它还给出了一个特例,即当向量。其中,等号成立的充要条件是向量。为零向量时,等号显然成立。定理 向量的内积满足。原创 2025-03-31 14:12:08 · 121 阅读 · 0 评论 -
矩阵对角化→实对称矩阵的对角化→实对称半正定矩阵的对角化
上篇:AATATAPPTAPΛΛAPPTAPΛΛA。原创 2025-03-30 16:22:53 · 882 阅读 · 0 评论 -
内积&相似系数——内积度量相似系数
内积(Inner Product),也称为点积(Dot Product)或标量积,两个向量点积的结果是一个标量(通常是实数或复数)。原创 2025-03-30 15:29:12 · 574 阅读 · 0 评论 -
协方差&相关系数——相关系数是标准化变量的协方差
相关系数的另一个解释是:它是相应标准化变量的协方差。原创 2025-03-27 11:23:38 · 367 阅读 · 0 评论 -
特征值→相似矩阵→矩阵对角化(特征值分解)
下篇:矩阵对角化→实对称矩阵的对角化→实对称半正定矩阵的对角化。原创 2025-03-26 07:18:04 · 924 阅读 · 0 评论 -
贝叶斯公式的一个直观解释
面积为1的概率空间,任何事件都对应概率空间的一个子集,事件发生的概率是子集的面积。原创 2025-03-21 20:38:18 · 816 阅读 · 0 评论 -
二次型→矩阵的正定性→特征值
特征值(Eigenvalue)是线性变换下不变的缩放因子原创 2025-03-17 15:23:41 · 929 阅读 · 0 评论 -
最速下降法——负梯度方向使函数值下降的证明
梯度下降法(gradient descent)或最速下降法(steepest descent)是求解无约束最优化问题的一种最常用的方法,具有实现简单的优点。梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。梯度下降法是一种迭代算法,通过不断更新参数x{\bm x}x来最小化目标函数fxf({\bm x})fx。搜索方向通常选择负梯度方向pk−∇fxkpk−∇fxk。步长λk\lambda_kλk通过一维搜索确定,以确保每次迭代都能有效减少函数值。原创 2025-03-16 08:17:42 · 979 阅读 · 0 评论 -
期望最大化(EM)算法
MLE (最大似然估计)是一种非常有效的参数估计方法,但当分布中有多余参数或数据为截尾或缺失时,其 MLE 的求取是比较困难的。人为引入的隐变量(latent variable)【例如,扩散模型中的中间状态】是不可观测的。也称数据 ((y, z)) 为完全数据(complete data),而观测到的数据 ( y ) 称为不完全数据。EM算法,全称为Expectation-Maximization算法(期望最大化算法),是一种迭代算法,主要用于处理含有隐变量的概率模型的参数估计问题。原创 2025-03-15 08:59:28 · 774 阅读 · 0 评论 -
内积&投影
内积用于计算一个向量在另一个向量上的投影长度。:计算的是x在w方向上的分量长度。若有一个非零向量w,则向量x在w方向上的投影长度可通过内积计算projwx的长度∥w∥⟨xw⟩∥x∥cosφ其中,⟨wx⟩∥w∥∥x∥cosφ。:计算的是x在w方向上的分量向量。x在wprojwx∥w∥⟨xw⟩∥w∥w⟨ww⟩⟨xw⟩w。原创 2025-03-15 08:28:34 · 721 阅读 · 0 评论 -
贝叶斯参数估计——引入先验分布
统计推断是根据样本信息对总体分布或总体的特征数进行推断。事实上,这是经典学派对统计推断的规定,这里的统计推断使用到两种信息:总体信息和样本信息;而贝叶斯学派认为,除了上述两种信息以外,统计推断还应该使用第三种信息:先验信息。下面先把三种信息加以说明。(1)总体信息总体信息即总体分布或总体所属分布族提供的信息。譬如,若已知“总体是正态分布”,则就知道很多信息。譬如:总体的一切阶矩都存在,总体密度函数关于均值对称,总体的所有性质由其一、二阶矩决定,有许多成熟的统计推断方法可供选用等。原创 2025-03-12 08:45:50 · 805 阅读 · 0 评论 -
协方差矩阵&样本协方差矩阵
记n维随机向量XX1X2XnTEXEX1EX2EXn))为n维随机向量X的数学期望向量,简称X的数学期望,而称E[(X−EX))X−EXTVarX1CovX2X1⋮CovXnX1CovX1X2VarX2⋮CovXnX2⋯⋯⋱⋯CovX1XnCovX2Xn。原创 2025-03-10 08:44:37 · 959 阅读 · 0 评论 -
梯度计算中常用的矩阵微积分公式
的范数(长度)的平方。原创 2025-03-09 09:08:11 · 1142 阅读 · 0 评论 -
统计学中的常用统计量
设X1X2⋯Xn是来自总体X的一个样本,gX1X2⋯Xn是X1X2⋯Xn的函数。若g中不含未知参数,则称gX1X2⋯Xn为一统计量。因为X1X2⋯Xn都是随机变量,而统计量gX1X2⋯Xn是随机变量的函数,因此统计量是一个随机变量。设x1x2⋯xn是相应于样本X1X2⋯Xn的样本值,则称g。原创 2025-03-09 08:33:53 · 582 阅读 · 0 评论 -
约束问题的最优性条件
约束最优化问题:minf(x),x∈Rn,s.t.ci(x)=0,i∈E={1,2,⋯ ,l},ci(x)⩽0,i∈I={l+1,l+2,⋯ ,l+m}.\begin{aligned}\min \quad& f(\boldsymbol{x}), \quad \boldsymbol{x} \in R^n, \\\text{s.t.} \quad &c_i(\boldsymbol{x}) = 0, i \in E = \{1, 2, \cdots, l\},\\ &c_i(\boldsymbol{原创 2025-03-08 21:40:12 · 1043 阅读 · 0 评论 -
无约束优化问题的求解
无约束最优化问题minfxx∈Rn的求解方法。原创 2025-03-08 20:03:38 · 740 阅读 · 0 评论 -
混淆矩阵及建立在其基础上的评价指标
在机器学习中,也称为误差矩阵,常用来可视化地评估分类模型的性能。在分类问题中,假设共有K个类别,混淆矩阵是一个K行K列的方阵,其每一行代表了样本的真实归属类别,每一行的数据之和表示属于该类别的真实样本总数;每一列代表了样本的预测类别,每一列的数据之和表示被预测为该类别的样本总数。原创 2025-02-27 12:30:35 · 590 阅读 · 0 评论 -
从二维随机变量到多维随机变量
设X和Y是定义在同一样本空间Ω上的两个随机变量,称由它们组成的向量XY为二维随机变量,亦称为二维随机向量,其中称X和Y是二维随机变量的分量。采用多个随机变量去描述一个随机现象,所以定义中的随机变量X和Y是要求定义在同一个样本空间上。相对于二维随机变量XY,也称X和Y是一维随机变量。若随机变量X和Y之间存在相互关系,则需要将XY作为一个整体(向量)来进行研究。通过将两个随机变量X和Y组合成一个二维随机变量XY,可以更全面地描述和分析随机现象。原创 2025-02-27 08:25:05 · 971 阅读 · 0 评论 -
随机变量——关键的一环
随机变量的引入,使我们能用随机变量来描述各种随机现象,并能利用数学分析的方法对随机试验的结果进行分析和处理。原创 2025-02-26 08:48:27 · 847 阅读 · 0 评论 -
总体均值&样本均值
这种定义方式与离散型随机变量的期望值计算类似,但使用的是积分而不是求和。离散型随机变量的期望值是所有可能值与其对应概率的乘积之和。这个定义说明了如何计算连续型随机变量的期望值。为取自某总体的样本,其算术平均值称为样本均值,一般用。的数学期望,简称期望或均值。的数学期望,简称期望或均值。是从总体中抽取的样本值。原创 2025-02-26 08:35:01 · 1076 阅读 · 0 评论 -
从随机现象到概率的分支一
分支一的逻辑连贯性。原创 2025-02-24 14:51:38 · 737 阅读 · 0 评论 -
频数、频率&概率
随机事件在一次随机试验中是否发生,事先无法预知,但是人们在实践中认识到,在相同的条件下进行大量重复试验,试验结果具有统计规律性,即随机事件在这种大量重复试验的条件下出现的机会是稳定的。于是,可以将随机事件的出现机会与一定的数值相对应。原创 2025-02-23 12:43:11 · 953 阅读 · 0 评论 -
统计学中的样本&概率论中的样本
不知道当初谁想的把概率论和数理统计合并,作为一门课。这本身是可以合并,完整的一条线。但是,作为任课老师应该从整体上交代清楚,毕竟是两个学科,不同的学科合并必然会有各种不协调的问题。凡是只讲怎么代入公式计算,没有解释,没有剖析,不讲整个知识体系以及逻辑关系,那样的概率老师都应该回家卖红薯。原创 2025-01-26 09:46:12 · 909 阅读 · 0 评论 -
我谈《概率论与数理统计》的知识体系
分支一:从随机现象到样本空间到随机事件再到概率。从随机事件到随机变量:为了进行定量的数学处理,必须把随机现象的结果数量化,这就是引入随机变量的原因。分支二:从随机现象到样本空间到随机变量的取值到分布,再到采样到随机样本,根据样本统计推断,估计分布。概率论与数理统计的教材中缺少采样的部分,就使这条线断了。原创 2025-01-21 12:32:47 · 1648 阅读 · 0 评论 -
最大似然估计vs贝叶斯估计
概率密度估计中的贝叶斯学习,其目的是从有限样本估计总体分布。然后以后验概率密度作为概率密度,计算未知参数的概率密度函数的数学期望,作为总体估计。最大似然参数估计和贝叶斯参数估计的区别在于最大似然估计认为参数是确定性的量,而贝叶斯估计认为参数是随机变量。统计学中的贝叶斯参数估计是,计算估计值和真实值偏差的数学期望。最小均方估计实际上实际计算以后验概率为概率的参数的均值,而最大后验概率是后验概率的峰值对应的参数。线性最小均方估计和最小二乘估计的区别本质在于前者是期望风险最小化,后者是经验风险最小化。原创 2024-06-05 07:58:12 · 499 阅读 · 0 评论 -
最小均方估计&贝叶斯估计
在贝叶斯框架下,后验期望估计(Posterior Mean Estimator, PME)和最小均方估计(Minimum Mean Square Error Estimator, MMSE)是等价的。原创 2024-10-30 18:06:08 · 1377 阅读 · 0 评论 -
贝叶斯估计方法
定义:贝叶斯参数估计是一种参数估计方法,它利用贝叶斯定理结合新的证据(观测数据)及以前的先验概率(对参数的初步信念),来得到参数的后验概率(在给定证据下参数的更新信念)。定义:贝叶斯学习是利用参数的先验分布,由样本信息求来的后验分布,直接求出总体分布的过程。贝叶斯参数估计和贝叶斯学习都依赖于贝叶斯定理,都强调先验概率在推断过程中的重要性,并都使用后验概率进行参数估计或总体分布的推断。本质:贝叶斯参数估计的本质是通过贝叶斯决策得到参数的最优估计,使总期望风险最小。根据经验给出待估参数的先验分布(主观分布)。原创 2024-06-03 08:24:47 · 620 阅读 · 0 评论 -
在模式识别领域谈随机变量
随机变量结合了变量的不确定性属性与函数的映射特性,它通过函数的方式将随机事件的结果量化,并通过概率论的语言来描述这些结果出现的可能性分布。随机变量是鸢尾花的花瓣长度(petal length)和花瓣宽度(petal width),取值是某个区间的实数,单位是cm。从变量的角度来看,随机变量是指在随机试验或者随机过程中可能取不同数值的一种变量,它的数值受随机因素影响,无法事先确切预知。随机变量的取值空间,也称为随机变量的定义域或者值域,是随机变量所有可能取值的集合。随机变量是样本空间到取值空间的映射。原创 2024-04-15 00:39:36 · 263 阅读 · 0 评论 -
内积&点积
简而言之,点积是内积在实数向量空间中的具体形式,而内积是一个更广泛的概念,它适用于包括复数向量空间在内的更多类型的向量空间。在实际应用中,当我们谈论点积时,我们通常是在指实数向量的内积。原创 2024-09-26 10:30:39 · 1578 阅读 · 0 评论 -
协方差&相关系数——总体与样本
相关系数(通常指的是皮尔逊相关系数)用于衡量两个变量之间的线性关系强度和方向。可以通过它们的协方差和各自的方差来计算。接近于 -1 时,表示两个变量之间存在强负相关;接近于 0 时,则表示两个变量之间几乎不存在线性关系。这个公式表明了相关系数是如何通过协方差和方差来计算的。接近于 +1 时,表示两个变量之间存在强正相关;请注意,相关系数的取值范围是从 -1 到 +1。相关系数可以通过协方差来表示。原创 2024-08-26 17:37:40 · 1673 阅读 · 0 评论 -
多重积分变量变换公式
数分学习24年了,今天才发现多重积分的变量变换公式中,雅可比矩阵的行列式外,还有个绝对值。可能总是从笛卡尔坐标系到极坐标系变换,极径总是非负的,所以从来没错过。原创 2024-03-25 23:28:24 · 277 阅读 · 0 评论