
数学基础
Coder_Jh
人们常说,博士与博士之间的差距比人与狗之间的差距还大。而遗憾的是,我就是混在众多优博中的那只dog。但求毕业~
展开
-
强化学习中的重要性采样(Importance Sampling)
转自:强化学习中的重要性采样(Importance Sampling) - 知乎转载 2022-04-02 20:27:58 · 1033 阅读 · 1 评论 -
关于KL散度的一点记录
1.首先按顺序弄清以下概念:概率,信息,信息熵,交叉熵,相对熵(KL散度),可以参考: KL-Divergence详解 - 知乎2.信息熵中log的底数一般是2,但一般在神经网络中,默认以ee为底,这样算出来的香农信息量虽然不是最小的可用于完整表示实践的比特数,但对于信息熵的含义来说是区别不大的,只要这个底数大于1,就可以表达信息熵的大小。可以参考: 信息熵与相对熵(KL散度) - 知乎3.KL散度的作用:用于衡量两个概率分布间的差异。信息论中,KL散度等价于...原创 2022-02-24 11:01:35 · 1810 阅读 · 0 评论 -
指示函数(样子像空心1的一个数学符号)
最近看文献,发现一个符号:没见过这个长得像空心1的数学符号,查了一下 ,记录下备忘:指示函数(indicator function),含义是:当输入为True的时候,输出为1,输入为False的时候,输出为0。具体来说,在上面的公式中,指示函数后面的内容如果为真,那就返回1;否则返回0。...原创 2022-01-13 11:42:53 · 14574 阅读 · 13 评论 -
关于P、NP、NPC、NP-Hard问题的一点理解
相信经常看论文的科研人,对NP-Hard这个词都不陌生,特别是计算机专业的小伙伴。每次见都感觉对NP-Hard不太熟,认识有点模糊,于是花时间查了下资料,记录下一点认识。原创 2021-06-09 16:42:17 · 836 阅读 · 0 评论 -
线性代数中的符号记录
最近看论文时,遇到了这个符号,不认识,如下:就是这个长得奇怪的R,而且它的右上角还带有数字,查了下资料,做个记录(公式符号不好打,直接贴图):上图核心意思就是:R代表的是实数集。那么据此推断一下,右上角带数字的R应该是矩阵,确切来说是所有实数矩阵的集合,如下:参考资料:1.https://zhuanlan.zhihu.com/p/3361368332.https://zh.wikipedia.org/wiki/%E5%AE%9E%E6%95%B0...原创 2021-05-27 14:54:17 · 4561 阅读 · 0 评论 -
似然与最大似然估计
http://fangs.in/post/thinkstats/likelihood/ https://zhuanlan.zhihu.com/p/26614750 https://blog.youkuaiyun.com/qq_36396104/article/details/78171600?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.contro原创 2021-05-27 10:33:14 · 112 阅读 · 0 评论 -
克拉美-罗下界(Cramer-Rao Lower Bound,CRLB)
克拉美-罗界。又称Cramer-Rao lower bounds(CRLB),克拉美-罗下界。克拉美罗界是对于参数估计问题提出的,为任何无偏估计量的方差确定了一个下限。无偏估计量的方差只能无限制的逼近CRB,而不会低于CRB,因此这个界也可以称为CRLB,意为克拉美罗下界。CRLB可以用于计算无偏估计中能够获得的最佳估计精度,因此经常用于计算理论能达到的最佳估计精度,和评估参数估计方法的性能(是否接近CRLB下界)。克拉美罗界本身不关心具体的估计方式,只是去反映:利用已有信息所能估计参数的最好效转载 2021-05-25 10:35:17 · 11691 阅读 · 0 评论 -
无偏性、有效性
无偏性定义式: 也即:估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。通俗说,就是只要你对估计量求完了期望,这个期望值等于被估计参数的值,它就是个无偏估计量。注意,就是单纯的数学推导,推导出来上面那个定义式,那这个估计量就是无偏估计量。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值,也即没有系统误差。有效性比较估计量的方差,方差越小越有效。一致性(相合性)随着样...原创 2021-05-24 21:12:02 · 7186 阅读 · 0 评论 -
协方差矩阵计算性质推导
协方差矩阵的一个计算性质:Cov(AX+a)=ACov(X)A^T,具体推导过程如下图:记录一下,备忘~转自:https://zhidao.baidu.com/question/565572069073332924.html转载 2021-04-19 15:15:45 · 6950 阅读 · 0 评论 -
线性代数部分知识点回顾
行列式是一个数,并且是只有方阵才有,例如方阵A的行列式记为det(A)或者|A|。至于为啥一定是方阵,原因见:https://www.zhihu.com/question/263930877 转置矩阵的行列式不变 关于行列式其他性质及计算规则,参考:http://www2.edu-edu.com.cn/lesson_crs78/self/j_4184/soft/ch0103.html,https://www.jianshu.com/p/d1fcf765bae7暂时记录这么多~~...原创 2021-04-13 10:56:25 · 357 阅读 · 0 评论 -
常微分方程
含有未知函数的导数,是微分方程,也就是说,在这种方程中,解是一个函数,而非一个固定的数(不同于中学时学习的那种初等代数方程)。一般的凡是表示未知函数、未知函数的导数与自变量之间的关系的方程,叫做微分方程。未知函数是一元函数的,叫常微分方程;未知函数是多元函数的叫做偏微分方程。微分方程有时也简称方程。微分方程中出现的未知函数最高阶导数的阶数,称为微分方程的阶。PS:上图中,x的头上加一点代表的含义是求x的变化率,也即一阶导数(在控制相关的理论中看到了这种表示,记录下)...原创 2021-04-12 17:01:49 · 872 阅读 · 0 评论 -
应该如何理解概率分布函数和概率密度函数?
大学的时候,我的《概率论和数理统计》这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分。你可以想象我的《概率论》这门课学的是有多差了。后来,我工作以后,在学习数据分析技能时,又重新把《概率论》这本书学了一遍。原来之前一直没学好这门课的很重要一个原因就是,这门课涉及很多基础的概念,而我当初就是对这些概念非常不理解。今天我就讲讲应该如何理解概率分布函数和概率密度函数的问题。是不是乍一看特别像,容易迷糊。如果你感到迷糊,恭喜你找到我当年的感觉了。先从离散型随机变量和连续性随机变量说起转载 2021-04-07 17:03:41 · 1643 阅读 · 1 评论 -
概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)
写在前面:进入主题前,先明确几个概念:离散型变量(或取值个数有限的变量):取值可一一列举,且总数是确定的,如投骰子出现的点数(1点、2点、3点、4点、5点、6点)。连续型变量(或取值个数无限的变量):取值无法一一列举,且总数是不确定的,如所有的自然数(0、1、2、3……)。离散型变量取某个值xi的概率P(xi)是个确定的值(虽然很多时候我们不知道这个值是多少),即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。连续型变量取某个值xi的概率P(xi)=0:对于连续型变量而言,“取转载 2021-04-07 16:28:23 · 7951 阅读 · 0 评论 -
矩阵的迹
概念迹,是线性代数中的概念,矩阵的迹:主对角线(左上至右下的那一条)上所有元素之和。记作tr(A),其中A为方阵。性质迹数拥有相似不变性。如果矩阵A和B相似的话,它们会有相同的迹。与特征值的关系若n阶方阵A的特征值为a1,a2,a3......an,则tr(A)=a1+a2+......+an。A*(A的伴随阵)的迹为tr(A*)=|A|/a1+|A|/a2+........+|A|/an。(|A|为A的行列式,a1,a2,a3......an为A的特征值)转自...转载 2021-03-25 14:46:40 · 8349 阅读 · 0 评论 -
论文中遇到的arg是啥意思?
看论文时遇到argmax或者argmin这样的表示,搞不清啥意思,查了一下,记下来:arg是argument(自变量、参数)的缩写,那么由此可知:argmaxF(x):使目标函数F(x)能够取到最大值时的变量x的值argminF(x):使目标函数F(x)能够取到最小值时的变量x的值(只是用F(x)举个栗子,实际使用中的函数可能不止x这一个变量,不过意思还是这个意思~)...原创 2021-03-16 15:18:48 · 3699 阅读 · 0 评论 -
匈牙利算法浅析
看论文时遇到了匈牙利算法,这里做个简单的总结:匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法(也就是说它能用于任务分配问题) 对于平衡(标准)任务分配问题:即有N项任务恰好有N个人去完成,每人只完成一项任务,每项任务只能由一个人完成,用什么指派方案能使总效率最高(如总时间最少或总成本最低)。针对这样的问题,就可以用匈牙利算法去解决了(具体算法步骤不再详述) 对于不平衡任务分配问题:即任务数不等于人数,需要用修正的匈牙利算法去解决,此处不再陈述,有兴趣可以参考下面这篇文献,写的很好:h.原创 2021-03-09 10:30:58 · 1726 阅读 · 0 评论 -
数学公式中出现的s.t.是什么意思?
今天看论文时,发现公式中有个s.t.,长下面这样:不知道啥意思,去查了一下,总结如下:s.t.是英文subject to(也有人说是such that)的缩写,意思是使得...满足...,受...约束。以上图的例子来说,就是指在满足红色圆圈中式子的条件下,求绿色圆圈中式子的最小值。嗯,就是这样。...原创 2021-03-08 17:29:37 · 69744 阅读 · 1 评论 -
映射与笛卡尔乘积
补充一下基本的数学知识~~映射:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素a,B中总有唯一的一个元素b与它对应,则称这种对应为从A到B的映射,记作f:A→B。(其实就是一种对应关系,类似于函数,只不过函数是映射的一种特殊情况,因为函数是两数集之间的映射)映射的成立条件简单的表述就是:1.定义域的遍历性:X中的每个元素x在映射的值域中都有对应对像2.对应的唯一性:定义域中的一个元素只能与映射值域中的一个元素对应定义域也称为原像集,值域也称为像集注意:..原创 2021-01-28 11:17:43 · 2667 阅读 · 0 评论 -
向量范数简述
向量范数:表征在向量空间中向量的大小常用的向量范数:0范数,用以统计向量中非零元素的个数。1范数,为向量中各个元素的绝对值之和。2范数,就是通常意义上的模,即向量各个元素平方和的1/2次方。2范数又称Euclidean(欧几里得)范数或者Frobenius范数或欧氏距离,使用很广泛。具体理解可以参考以下文章:https://blog.youkuaiyun.com/a6333230/article/details/87860875?utm_medium=distribute.pc_relevant原创 2020-12-16 15:56:27 · 5644 阅读 · 0 评论 -
线性时不变系统(LTI)简介
线性时不变系统英文:linear time invariant(LTI)它包括连续时间系统与离散时间系统线性时不变=线性+时不变。(1)时不变即系统参数不随时间而改变。(2)线性=齐次性+叠加性。①齐次性即输入增大n倍,输出为原输出的n倍。②叠加性即f1+f2输入系统,输出为f1的响应+f2的响应。转自:https://baike.baidu.com/item/%E7%BA%BF%E6%80%A7%E6%97%B6%E4%B8%8D%E5%8F%98%E7%B3%..转载 2020-12-15 20:52:44 · 22423 阅读 · 0 评论 -
学习卡尔曼滤波的一些理解
如何通俗并尽可能详细地解释卡尔曼滤波? - 司南牧的回答 - 知乎 https://www.zhihu.com/question/23971601/answer/770830003 [易懂]如何理解那个把嫦娥送上天的卡尔曼滤波算法Kalman filter? - 司南牧的文章 - 知乎 https://zhuanlan.zhihu.com/p/77327349 https://blog.youkuaiyun.com/varyshare/article/details/95065650...原创 2020-12-08 17:12:44 · 423 阅读 · 0 评论 -
浅谈对算法收敛性以及收敛速度的理解
最近在看资料时,遇到了这样的说法“某某算法具有收敛快的优点”,于是便有点疑惑:收敛不是函数或者数列才有的概念吗?用到算法上是代表什么意思呢?遂查阅资料,将一点理解记录如下。算法收敛性算法的收敛性就是指某个算法能否在迭代时间趋于无穷的假设下,最终找到问题的全局最优解。这里有一点要明确:算法收敛性是迭代法中的一个概念,所以主要针对跟迭代相关的算法,如进化算法。对于能够一次求解的直接法,就不在算法收敛的讨论范围之内了。算法收敛速度知道了算法收敛性的含义,再来理解算法收敛速度就比较容易了..原创 2020-11-21 15:05:52 · 39241 阅读 · 0 评论 -
分位数与箱线图的详细理解
最近在读论文时,碰到了箱线图这个东西,之前没见过,所以查了一下资料,发现它跟分位数联系紧密,于是又接着学习了一下分位数,并将相关内容整理如下:分位数首先说一下分位数(Quantile)的概念百度给出的解释:设连续随机变量X的累积分布函数为F,概率密度函数为p。那么,对任意0<p<1的p,称F=p的X为此分布的分位数,或者下侧分位数。简单的说,分位数指的就是连续分布函数中的一个点,这个点的一侧对应概率p。维基百科的解释:分位数(英语:Quantile),亦称分位点,是指用分割点(c原创 2020-11-18 20:32:13 · 12547 阅读 · 0 评论 -
方向余弦,向量夹角,向量的投影
方向余弦:用以确定向量的方向的量.向量(或有向直线)与坐标轴正向或基向量的交角称为向量的方向角.向量的方向角的余弦称为向量的方向余弦.一个向量的方向可以用它的方向角或方向余弦来确定.设向量r=xi+yj+zk的方向角为α,β,γ,则:...转载 2020-11-13 10:18:32 · 16501 阅读 · 0 评论 -
基于正态分布指定范围内的随机数生成算法
1、需求背景生成一个范围(n到m,例如100到150)的随机数,但不是纯粹随机(均匀分布)的,想要的结果是基于正态分布。另外想要数字“聚集”在125左右。生成符合正太分布的随机数不难,但是如何达到我所要求的范围?2、分析与代码标准正态分布的平均值为0,标准差为1;如果要使用均值m和偏差进行分布s,只需乘以s,然后加m。由于理论上的正态分布是无限的,因此如果不明确拒绝超出范围的数字,就无法对范围(例如100到150)进行硬性限制,但是可以通过适当选择偏差来确保(例如)您的数字的99%将在此范围转载 2020-10-29 19:56:35 · 7334 阅读 · 0 评论