从概率分布到最大熵

本文深入解析最大熵模型的原理与应用,涵盖维度概念、最大熵公式理解、概率分布及推导过程,通过实例阐述难点与关键步骤。

目录

0.前言

1.维度

同质数据维度

异质数据维度

2.最大熵启文

原理:

难点:

3.概率分布

4.最大熵公式理解

5.最大熵推导过程

6.拉格朗日函数

7.极大似然估计

8.求w


0.前言

       最近在温习统计学习方法,比较针对自然语言处理,所以从最大熵开始看,最大熵是后面EM、HMM、CRF的基础。还记得第一次看最大熵的情景是根本看不懂,越不懂越烦躁。现在再看似乎不会有那种感觉,但是似乎还是有一些看不清,至少只从统计学习方法这本书来看。百度了一下别人写的最大熵,简单的例子写了很长篇幅来说明最大熵。依我来看,那些不懂的人并不是一个例子不详细的问题。

1.维度

        维度这个在数学类学科中很容易混淆,在我这就有三个理解:

同质数据维度

        1)物理上的维度,线条是一维,图片是二维,空间是三维等等。一个方向表示一个维度,三个方向相互垂直正交,设二维图的轴为X_{1}X_{2},那么元素(某个点)就是两个轴分量的共同表示(x_{1},x_{2})。

                                                                     

        2)线性代数的维度,我们知道,线性代数不管多少维度都由一个二维表表示,设有n个线性无关向量,在二维表中形式上是同一个方向表示。但是这个二维表代表的是n维空间,每一列就是一个维度,代表一个维度轴。n维空间中的任何一条线都可以用n维向量线性表示出来,同时这个向量也表示了点,点到原点是向量。

                                                                   

      

      区别:a. 1)用以个标量表示一个轴方向,比如二维x1=3;2)是用向量表示一个轴方向,比如二维,x1=[3,0];

                 b. 概率分布这样的概念用1)去理解,数据挖掘中的数据维度,用3)去理解。

1)是可以表达成2)的形式,但是维度这个表达1)要直观一些。

异质数据维度

3)表格数据

序号

X

Y

Z

1

Yes

一等

3级

2

No

三等

10级

3

No

一等

7级

X,Y,Z三个变量从三个维度描述实体(样本),一个样本就是一个点。维度表示和2)相似,相对来说2)没有明确变量名,3)不仅仅明确变量名,而且变量间的差异比较明显,换句话说,增加一个字段就是增加一个维度。

2.最大熵启文

原理:

          变量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值