
数学
文章平均质量分 74
越来越胖的GuanRunwei
前WEB开发码农,.NET发烧友,前NLP菜鸡,利物浦大学在读博士
展开
-
为什么Transformer / ViT 中的Position Encoding能和Feature Embedding直接相加?
前言刚开始学习Transformer / ViT的时候会发现为什么作者会将Position Encoding直接和Feature Embedding相加?当时的第一反应是,为什么不是concat,因为两者分明是两种异构的信息,为什么能放在一起相加呢?不应该concat才合理么?最近对一些工作做收尾的时候发现了这个后来被我遗漏的问题。(如果不知道Position Encoding是啥的建议先去阅读一下原论文)问题从向量空间的角度来看,我原本有一个Feature Embedding向量矩阵,我再加上原创 2022-05-05 08:30:35 · 3672 阅读 · 4 评论 -
大道至简 —— 条件随机场与逻辑回归、隐马尔科夫模型的比较
前言大道至简 —— 白话条件随机场Conditional Random Fields上一节我们讲到,为了建一个条件随机场,我们首先要定义一个特征函数集,每个特征函数都以整个句子,当前位置,位置和的标签为输入。然后为每一个特征函数赋予一个权重,然后针对每一个标注序列,对所有的特征函数加权求和,必要的话,可以把求和的值转化为一个概率值。那么,我们同样会发现,条件随机场在形式和作用上好像和逻辑回归和HMM有点相似。条件随机场和逻辑回归观察公式:上式含义为,对给定序列,标注序列在所有标注序.原创 2022-04-15 11:12:46 · 3359 阅读 · 0 评论 -
大道至简 —— 白话条件随机场Conditional Random Fields
前言李航大佬的《统计学习方法》相信很多人都拜读过,在条件随机场那章有非常多的理论证明和公式推导,非常之抽象,因此理解起来也比较困难。那么今天,我将会用一种大白话的方式将条件随机场具象化,让这玩意儿没有任何学习壁垒。一个例子假如你有小明同学一天内不同时段的照片,从小明起床到睡觉各个时间段都有。现在我们的任务是对这些照片进行分类,比如照片1是吃饭,那就给照片1打上吃饭的标签;照片2是睡觉,那就给照片2打上睡觉的标签;照片3是学习,那就给照片3打上学习的标签。但是,既然要分类,人工分类的效率毫无疑问是原创 2022-04-15 10:34:30 · 858 阅读 · 0 评论 -
欧几里得空间
定义欧几里得空间是古希腊数学家欧几里得建立的角和空间距离的联系的法则。欧几里得首先开发了处理平面上二维物体的“平面几何”,并接着分析三维物体的“立体几何”。这些数学空间可以被扩展来应用于任何有限维度,而这种空间叫做n维欧几里得空间(有时简称n维空间)或有限维实内积空间。直觉概述有一种方法论把欧几里得平面看做满足可依据距离和角表达的特定联系的点所成的集合。其一是平移,它意味着移动这个平面就使得所有点都以相同方向移动相同的距离。其二是关于在这个平面中固定点的旋转,其中在平面上的所有点关于这个固定点旋原创 2021-11-19 09:48:30 · 1397 阅读 · 0 评论 -
详解CNN的感受野
目录前言CNN特征图可视化感受野计算公式计算Receptive Field Size的小程序前言感受野(receptive field,RF)也许是CNN中最重要的概念之一,从文献上来看,它应当引起足够的重视。目前所有最好的图像识别方法都是在基于感受野理念来设计模型架构。然而,据我所知,目前并没有一个完整的教程来介绍如何计算并可视化一个CNN的感受野。这篇文章将填补这一空白,这里介绍CNN特征图可视化的一种新方法,可视化可以显示感受野信息,并且给出一个完整的感受野计算公式,它适用原创 2021-10-12 10:46:25 · 837 阅读 · 0 评论 -
傻子都能看懂的 —— 详解欧拉公式推导
不论是高等数学还是大学物理,欧拉公式都如影随形。因为其重要性和划时代意义,Euler Formula(欧拉公式)有着很多了不起的别称,例如“上帝公式”、“最伟大的数学公式”、“数学家的宝藏”等等。...原创 2021-05-27 19:26:29 · 42156 阅读 · 12 评论 -
浅析生成对抗网络(Generative Adversarial Networks)
导语除却变分自编码器VAE(Variational Auto-Encoder), 生成对抗网络GAN(Generative Adversarial Networks)同样也是一种生成模型(Generative Model)。VAE中比较恶心的是隐变量z的求解,我们通常使用以下公式生成隐变量z的概率分布,通常假设p(z)服从标准正态分布(参数和可调整)。VAE的问题就在于我们无法对其进行直接优化,而是根据可能性推导和优化下限(相关博文后面会更新,详细推导VAE的整个过程)。在VAE中,..原创 2021-05-02 17:51:56 · 2541 阅读 · 3 评论 -
扩展卡尔曼滤波(Extended Kalman Filter)笔记
(Note: 不熟悉泰勒展开式的自己找了学)原创 2021-04-03 01:28:56 · 895 阅读 · 2 评论 -
详解马尔科夫链
引言先不上定义,先以一个例子开头。例子最简单的一个例子:已知父母具有某项特长天赋的条件下,孩子也拥有的概率,与,已知祖宗十八代和父母的信息的条件下,孩子拥有这项天赋的概率,是一样的。 若要用人生的例子来讲,已知你大学学习情况下 和已知你在幼儿园小学初中高中大学的所有学习情况下,考研能不能考上的概率是一样的。再来个例子:有一只青蛙呆在井底(q=1),一层一层的向上跳,到达第i层之后,他能跳上去的概率和跳不上去(直接回到底层)的概率:也就是说,每一次这只青蛙站在比如第..原创 2021-03-29 16:54:35 · 2824 阅读 · 0 评论 -
详解SVD(奇异值分解)
1、特征值分解(EVD)实对称矩阵在理角奇异值分解之前,需要先回顾一下特征值分解,如果矩阵是一个的实对称矩阵(即),那么它可以被分解成如下的形式其中为标准正交阵,即有,为对角矩阵,且上面的矩阵的维度均为。称为特征值,是的(特征矩阵)中的列向量,称为特征向量。(注:在这里表示单位阵,有时候也用表示单位阵。式(1-1)的具体求解过程就不多叙述了,可以追忆一下美好的大学时光的线性代数,简单地有如下关系:)一般矩阵上面的特征值分解,对矩阵有着较高的要求,它需要被分解的矩阵,它需要被.原创 2021-02-03 04:07:52 · 2996 阅读 · 0 评论 -
时间序列知识点整理
一个引言时间序列是时间间隔不变的情况下收集的时间点集合。分析这些集合来确定长期趋势,为了预测未来或进行其他形式的分析。但是什么使Time Series不同于常规回归问题呢?有两个原因:1. 时间序列是与时间有关的。因此线性模型的基础假设:观察值是独立的是不适应这个场景的。2. 伴随着增加和减少的趋势,大多数时间序列会存在季节性趋势,比如,特定时间的特定变化。例如,如果你看到羊毛夹克随时间变化的销量,你一定会发现冬季的销量会很高。定义时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。转载 2021-02-03 03:09:59 · 8153 阅读 · 0 评论 -
小议费雪线性判别(Fisher Linear Discriminant Analysis)
fisher 判决方式是监督学习,在新样本加入之前,已经有了原样本。原样本是训练集,训练的目的是要分类,也就是要找到分类线。一刀砍成两半!当样本集确定的时候,分类的关键就在于如何砍下这一刀!若以黑色的来划分,很明显不合理,以灰色的来划分,才是看上去合理的1.先确定砍的方向关键在于如何找到投影的向量u,与u的长度无关。只看方向找到样本点的中心均值m1,m2,以及在向量u上的投影的m1~,m2~。因为u的方向与样本点都有关,所以需要考虑一个含有所有样...转载 2020-11-19 03:02:53 · 1180 阅读 · 1 评论 -
PCA原理
https://blog.youkuaiyun.com/luoluonuoyasuolong/article/details/90711318转载 2020-11-18 03:20:14 · 220 阅读 · 0 评论 -
详解sklearn中的r2_score
1.为什么RMSE不便于做过拟合的评判标准?在机器学习中,在讨论模型的性能时,我们常常会讲,一个好的模型,不仅要在训练集合上有好的表现,在新样本(或测试集)上也有上佳的表现才行。也就是说,我们要追求模型性能,也要兼顾模型的泛化指标,尽量避免让模型陷入过拟合陷阱。判断过拟合的一个简单方法就是,在同一种性能标准下,训练集合的误差显著小于在测试集合上的误差。自然,我们可以利用均方根误差(Root Mean Squared Error,简称RMSE)来衡量模型的好坏,但用它来衡量模型对数据的拟合程度转载 2020-11-08 23:05:32 · 44900 阅读 · 8 评论 -
95%置信区间
https://www.zhihu.com/question/26419030?sort=created转载 2020-11-05 01:49:00 · 620 阅读 · 0 评论 -
ECS_FDS小议标准误(standard error)
standard error 是标准误 是样本统计量的标准差在现实中,我们无法得知总体情况,总是以样本的分布情况去推断总体。比如,我国在校大学生每月伙食费用是多少。对于这个问题,我们不能全国范围统计各大高校每个同学的伙食费,于是,我们就用样本推断总体大概情况以得出我们所需要的数据。比如,抽取我国都东西南北部分高校部分同学的伙食费进行研究。而此时,标准误产生了。它是衡量样本抽样的误差的指标。再举一个例子说清楚问题。比如总体是1 2 3 4 5 6 7 8 9 10 总体平均数是:5.5而甲对总体进行原创 2020-11-05 01:03:58 · 387 阅读 · 0 评论 -
ECS_FDS小议贝塞尔校正(Bessel‘s Correction)
在学习概率论与数理统计的相关知识时,大家肯定会听到”贝塞尔校正(Bessel's Correction)“这个名词,这是德国天文学家,数学家Friedrich Bessel在进行天体测量学研究时提出的一个方法。可能大家看到一个以人名命名的概念就会觉得很难,其实这只是一个与统计学的方差和标准差相关的一个修正方法而已。下面我们来具体讲解一下。首先列出几个熟悉的公式:依次是-总体标准差(standard deviation)- 样本标准差(samplestandard deviation)-...转载 2020-11-05 00:54:46 · 566 阅读 · 0 评论 -
ECS_FDS小议概率密度函数、概率函数、概率分布函数
概率函数:用函数形式给出每个取值发生的概率,P(x)(x=x1,x2,...)。只对离散型数据有意义。概率分布函数:给出取值小于某个值得概率,及概率的累加形式(对于离散型变量)或者求积分(连续型变量)。概率分布函数的作用:可以用来计算x落在某一区间的概率:如:P(a<x<b)=F(b)-F(a) F(x)曲线的斜率判断概率的变化快慢。曲线越倾斜,x落在对应区域的概率越大。概率密度函数:给出了xi落在某值x邻域内的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率。概率密度函原创 2020-11-02 23:59:35 · 850 阅读 · 0 评论 -
傻子都能看懂的——先验分布、后验分布、最大似然
这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。下面举例:隔壁老王要去10公里外的一个地方办事,他可以选择走路, 骑自行车 开车,并花费了一定时间到达目的地。在这个事件中,可以把交通方式(走路、骑车或开车)认为是原因,花费的时间认为是结果。若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的, 当然也有较小可能老王是个健身达人跑步过去的, 或者开车过去但是堵车很严重。若老王一共用了两个小时的时间完成了10公里的距离,那么转载 2020-10-29 18:40:29 · 659 阅读 · 0 评论 -
傻子都能看懂的——梯度下降与损失函数
目录前言问题一:梯度是个啥?问题二:梯度下降有啥用?那么什么是损失函数(误差函数)?问题三:梯度为啥要下降?综上所述前言刚接触机器学习的同学避不开的一个专业名词就是梯度下降。顿时心里万马奔腾,其实很简单的,你先得理解概念才能看到那些公式不怂。(当然本文全程无公式,书写用时2小时,阅读估计10分钟)本文主要解决三个问题:1. 梯度到底是啥?2. 梯度下降有啥用?3. 为啥要下降?问题一:梯度是个啥?其实“梯度”你Ctr+H替换成“导数”就可...转载 2020-10-21 03:35:21 · 26137 阅读 · 22 评论 -
ECS_FML——协方差与协方差矩阵(附计算过程)
协方差定义在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。[1]期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:从直观上来看,协方差表示的是两个变量总体误差的期望。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那..转载 2020-10-15 00:28:32 · 1924 阅读 · 0 评论 -
ECS_FML——非负定矩阵
因为正定二次型与正定矩阵有密切的联系,所以在定义正定矩阵之前,让我们先定义正定二次型:若对任何非零向量x,实二次型f(x)如果对任何x≠0都有f(x)>0,则称f为正定二次型,并称矩阵A是正定的,记之A>0。定义因为正定二次型与正定矩阵有密切的联系,所以在定义正定矩阵之前,让我们先定义正定二次型:设有二次型 ,如果对任何x 0都有f(x)>0( 0) ,则称f(x)为正定(半正定)二次型。相应的,正定(半正定)矩阵和负定(半负定)矩阵的定义为:令A为 n 阶对称矩阵转载 2020-10-14 23:50:33 · 4201 阅读 · 0 评论 -
ECS_FML——小议中心极限定理
中心极限定理(CLT)是统计学中的一个基本定理,它是一个非常简单的概念。当你进一步阅读时就会发现,这也是一个很重要的概念。在阅读任何其他正态分布之前,必须了解一个先决条件概念,请阅读我关于正态分布的文章ECS_FML——小议高斯分布,它是中心极限定理的完美前传。中心极限定理的准定义是:中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。解码晦涩的定义让我们直接进入一些例子!示例# 1选取一个均匀分布[0...转载 2020-10-10 18:42:26 · 404 阅读 · 0 评论 -
ECS_FML——小议高斯分布
来ECS一个礼拜了,FML上来就讲多元高斯分布,起初我是裂开的,因为好久没接触数学了,但经过潇哥等大佬的帮助,以及查阅了一些资料后,慢慢开始复(预)习gay率论、线代等课程。每个试图进入强大的数据科学世界的人都会遇到正态分布。在这篇文章中,我将以一种非常清晰的方式解释它到底是什么,我们如何解释它,以及为什么它作为一个每个数据科学家都必须意识到的概念具有巨大的重要性。什么是正态分布?正态分布也被称为高斯分布或钟形曲线(因为它看起来像一个钟),这是统计学中最重要的概率分布,就像我们在大自然中经.转载 2020-10-10 01:24:05 · 1041 阅读 · 0 评论 -
向量范式
1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1)。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的最小值,matlab调用函数norm(x, -inf)。p-范数:,即向量元素绝对值的p次方和的1/p次幂,matlab调用函数norm(x, p)。.原创 2020-10-04 04:18:22 · 1045 阅读 · 0 评论 -
sklearn中LogisticRegression的coef_和intercept_
对于线性回归和逻辑回归,其目标函数为:g(x) = w1x1 + w2x2 + w3x3 + w4x4 + w0如果有激活函数sigmoid,增加非线性变化 则为分类 即逻辑回归如果没有激活函数,则为回归对于这样的线性函数,都会有coef_和intercept_函数如下:lr = LogisticRegression()lr.coef_lr.intercept_coef_和intercept_都是模型参数,即为wcoef_为w1到w4intercept_为..转载 2020-08-25 15:41:07 · 6978 阅读 · 0 评论 -
傻子都能看懂的——信息增益
关于信息熵请看之前一篇博客:傻子都能看懂的——信息熵(香农熵)关于条件熵请看之前一篇博客:傻子都能看懂的——条件而信息增益恰好是:信息熵-条件熵。换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。例子我们有如下数据.转载 2020-08-22 14:44:00 · 408 阅读 · 0 评论 -
傻子都能看懂的——条件熵
引言关于信息熵请看之前一篇博客:傻子都能看懂的——信息熵(香农熵)条件熵H(Y|X) 表示在已知随机变量X的条件下随机变量Y的不确定性。条件熵H(Y|X) 定义为X给定条件下Y的条件概率分布的熵对X的数学期望。如何理解这个数学期望,请看下图公式第二步,是不是一个经典的数学期望式子?第二步到第三步,也就是条件概率到联合概率:P(x,y)=P(x∩y)=P(x|y)*P(y)例子假如我们有上面数据:设随机变量Y={嫁,不嫁}我们可以统计出,嫁的个...原创 2020-08-22 11:13:32 · 7119 阅读 · 0 评论 -
详解Hierarchical Softmax
1. 霍夫曼树输入:权值为(w1,w2,…wn)的n个节点输出:对应的霍夫曼树 将(w1,w2,…wn)看做是有n棵树的森林,每个树仅有一个节点 在森林中选择根节点权值最小的两棵树进行合并,得到一个新的树,这两颗树分布作为新树的左右子树。新树的根节点权重为左右子树的根节点权重之和 将之前的根节点权值最小的两棵树从森林删除,并把新树加入森林 重复步骤 2 和 3 直到森林里只有一棵树为止 下面我们用一个具体的例子来说明霍夫曼树建立的过程,我们有(a,b,c,d,原创 2020-07-29 11:07:40 · 5772 阅读 · 1 评论 -
贝叶斯准则小计
贝叶斯准则告诉我们如何交换条件概率中的条件与结果,即如果已知P(x|c),要求P(c|x),那么可以使用下面的计算方法:原创 2020-07-19 15:29:16 · 315 阅读 · 0 评论 -
最通俗易懂的条件概率解释
提问:一直不了解条件概率,按自己的想法来就是一个事件A一个事件B在A的前提下B成立的概率(两件事还是有一定影响的),那么求在A的条件下B的概率为什么不用B发生的概率除以A发生的概率?某乎高赞回答很简单,中文描述的不精确性导致的误解。“在A发生的条件下B发生的概率”似乎是有两件事A和B都发生了?并不是这样子!实际上,本次实验只有一个结果产生。应该理解成:“我做了一次实验,现在出现了一个结果”“这个结果很明确,是包含在A这个事件里面的” (结果的具体内涵一定只局限在A事件里!.原创 2020-07-13 14:43:45 · 3867 阅读 · 0 评论