
数学理论
文章平均质量分 84
数学理论的相关证明,应用总结
Weiyaner
希望在搜索,推荐,NLP领域持续学习,持续产出。
《鸡声茅店月,人迹板桥霜》
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
条件随机场(CRF)——1 理论详解
需要的基础:马尔科夫模型隐马尔科夫模型本文分为两大部分,第一部分仔细介绍条件场的提出及基础;第二部分介绍CRF如何应用在NER领域。1 概率无向图模型1.1 概率图模型通过图表示概率分布。无向图G=(V,E)G=(V,E)G=(V,E),节点是随机变量,边表示随机变量之间的概率依赖关系。1.2 三种马尔科夫性质成对马尔可夫性:节点u,v对应的随机变量之间条件独立。局部马尔科夫性: 设v∊ V是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v,W以外的其他所有结点。原创 2021-11-16 22:56:29 · 1612 阅读 · 0 评论 -
马尔可夫模型(Markov)
1 确定性系统和不确定性系统对于一个确定性系统,多个状态构成了一个状态序列,每一个状态之间的关系都是确定的,根据当前状态,就可以确定下一个状态。比如红绿灯的变化状态。与确定性系统相对应的是不确定系统,例如,每天的天气状态变化就是一个不确定性系统,根据当前的刮风天气,我们无从得知下一刻的天气是刮风还是打雷还是下雨。这就引出了我们的马尔可夫过程。2 马尔可夫过程在上面的天气系统中,有刮风,下雨,阴天三种状态,我们希望找到这个简单系统的天气变化的一定规律,为了简化问题,常常做出以下假设:马尔科夫假设原创 2021-11-16 17:07:53 · 12967 阅读 · 0 评论 -
TF-IDF的信息论解释
在网页搜索系统中,搜索结果的排名取决于网页的质量和相关性。其中,网页质量的衡量通过Google公司发明的PageRank算法,而网页的相关性可以采用TF-IDF指标。下面首先介绍TF-IDF的由来,然后进一步阐述它的信息学原理。TD-IDF 对于搜索语句A(“NLP的应用”),有关键词w(“NLP”,“的”,“应用”),如果一个网页中出现关键词w的次数越多,则一定程度上说明相关性越强,为了均衡长文本网页和短文本网页,通过词频来刻画出现次数,记作TF(Term Freqency),则网页对与关键词w原创 2021-08-22 14:53:54 · 736 阅读 · 0 评论 -
凸优化及拉格朗日对偶问题
只记录机器学习方法中需要用到的最优化知识,不做系统总结,持续更新ing。1 凸优化1、凸集 一个点集或者区域,如果连接任何两点X1.X2之间的线段可以全部被包含在该集合里面,就称该点集为凸集,否则为非凸集。2、凸性条件1 根据一阶导数(函数的梯度)来判断凸性设f(x)为定义在凸集R上,且具有连续的一阶导数的函数,则f(x)在R上为凸函数的充要条件是对凸集R内任意不同两点x1,x2,有不等式恒成立:2 根据二阶导数(Hesse矩阵)原创 2021-06-08 17:15:57 · 2417 阅读 · 0 评论 -
极大似然估计(MLE)+最大后验概率估计(MAP)
转自:文章最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。1.概率和统计是一个东西吗?首先从概率和统计讲起:概率(Probability)和统计(statistics)看似两个相似的概念,实则研究的问题恰好相反。概率研究的问题是,已知一个模型和参数,转载 2021-06-09 14:33:21 · 897 阅读 · 0 评论 -
通俗易懂——信息熵,条件熵,互信息和相对熵
1948年,香农在著名的论文“通信的数学原理”中首次提出了熵(Entropy)的概念,这也解决了信息的度量问题,并量化了信息的作用。信息熵一条信息的信息量的多少,在直观上我们认为是和内容的多少有关,科学一点讲就是与不确定性有关,信息的不确定性越强,携带的信息量就越多。如果对于一件事一无所知,则这件事对于我们而言就具有极大的信息量,反之信息就极少。我们考虑以下一个问题:在2014年的世界杯,32支球队参加了决赛,如果我们没有看世界杯,朋友也不直接告诉我们谁嬴得了冠军,通过猜的方式,我们需要几次才可以得原创 2021-08-21 18:25:41 · 6169 阅读 · 3 评论