概率论中的Keyword

P&C

C表示组合方法,比如有3个人甲乙丙,抽出2个人去参加活动的方法有C(3,2)=3种,分别是甲乙、甲丙、乙丙,这个不具有顺序性,只有组合的方法.

P(我当时学的时候是A)表示排列方法,表示一些物体按顺序排列起来,总共的方法是多少.
计算是固定的套路,熟能生巧,多计算几个就熟练了.
举个例子,C(5,2)=(5*4)/(2*1)=10,C(7,3)=7*6*5 / 3*2*1=35

P(5,3)=5*4*3=60,P(6,2)=6*5=30


一、熵
物理学概念
宏观上:热力学定律——体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度(克劳修斯,1865)
微观上:熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏观参数(波尔兹曼,1872)
结论:熵是描述事物无序性的参数,熵越大则无序。
二、熵在自然界的变化规律——熵增原理
一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构。
当熵处于最小值, 即能量集中程度最高、有效能量处于最大值时, 那么整个系统也处于最有序的状态,相反为最无序状态。
熵增原理预示着自然界越变越无序
三、信息熵

(1)和熵的联系——熵是描述客观事物无序性的参数。香农认为信息是人们对事物了解的不确定性的消除或减少,他把不确定的程度称为信息熵(香农,1948 )。
随机事件的信息熵:设随机变量ξ,它有A1,A2,A3,A4,……,An共n种可能的结局,每个结局出现的概率分别为p1,p2,p3,p4,……,pn,则其不确定程度,即信息熵为

2)信息熵是数学方法和语言文字学的结合。一个系统的熵就是它的无组织程度的度量。熵越大,事件越不确定。熵等于0,事件是确定的。
举例:抛硬币,
p(head)=0.5,p(tail)=0.5
H(p)=-0.5log2(0.5)+(-0.5log2(0.5))=1
说明:熵值最大,正反面的概率相等,事件最不确定。

四、最大熵理论
在无外力作用下,事物总是朝着最混乱的方向发展。事物是约束和自由的统一体。事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则。在已知条件下,熵最大的事物,最可能接近它的真实状态。
五、基于最大熵的统计建模:建模理论
以最大熵理论为基础的统计建模。
为什么可以基于最大熵建模?
Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势。
Tribus证明,正态分布、伽马分布、指数分布等,都是最大熵原理的特殊情况。
结论:最大熵统计建模是以最大熵理论为基础的方法,即从符合条件的分布中选择熵最大的分布作为最优秀的分布。
最大熵统计模型需要解决的问题:
(1)特征空间的确定——问题域
(2)特征选择——寻找约束条件
(3)建立统计模型——基于最大熵理论建立熵最大的模型

六、基于最大熵的统计模型:数学描述
(1)问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个y ∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x ∈X,计算输出为y ∈Y的条件概率p(y|x)。
(2)训练样例
例子:我们的任务是为词“打”的词性标注过程建立模型,标注模型为p,每个可能的词性为p(t)。
“打”的可能词性:{动词,量词,介词}。
由此,模型p的第一个约束:p(动词)+p(量词)+(介词)=1
在训练最大熵模型时,任务选连系统通过数据转换程序或者模式识别中通常所说的特征抽取器,把真实世界的,原始训练数据通过特定的方法或者算法转化为多特征或属性表示的训练样例。
条件最大熵方法是一种有监督的机器学习方法,所以每个训练样例由一个实例x以及他的目标概念类y组成。

基于最大熵的统计建模:数学推导

http://blog.sina.com.cn/s/blog_73361fab0100zi8x.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值