NLP学习笔记1

15/10/16正式开始一名NLPer的攻城狮升级路,路漫漫,加把劲,变得更优秀,为了自由。要学的东西实在太多,一点一点来。开个blog留个爪印mark一下,很苦很孤独,但我相信你。

主要学习材料目前是《统计自然语言处理》(简称LB)、Michael Collins在Coursera的公开课以及一系列ACL的Best Paper用来长长见识。
最近在看LB的第二章预备知识的部分,主要讲的是概率论和信息论。概率论是基础知识,信息论以前接触的表少。
概率论部分个人认为LB侧重点是联合概率和条件概率,因为在信息论中各种熵的部分用到了很多。

概率论

联合概率P(A,B)就是 P(AB) , P(AB) 。只是联合概率强调以离散型随机变量取值作为事件A、B

首先是条件概率,定义为给定B时A(也即已知B发生的情况下A发生)的概率

P(A|B)=P(AB)P(B)
那么
P(AB)=P(A|B)P(B)=P(B|A)P(A)
进而可推广至
P(A1A2...An)=P(An|ni=1)....P(A3|A2A1)P(A2|A1)P(A1)

有没有一点马尔科夫链的感觉?

顺道讲了下贝叶斯法则和决策的概念, 法则用来计算条件概率,决策处理模式分类。
由全概率公式

P(A)=iP(A|Bi)P(Bi)
推得
P(Bj|A)=P(A|Bj)P(Bj)iP(A|Bi)P(Bi)

决策就是:
如果
P(wi|x)=maxP(wj|x)
那么 wix

随后就是先介绍随机变量,然后引入基于随机变量的条件和联合概率分布。

信息论

熵是信息论的基本概念,定义以概率为基础:

H(X)=xRp(x)log2p(x)
熵也称自信息,自己理解表示描述一个随机变量的不确定性所需的平均信息数量。越大,不确定性越大,越难描述。关于未知分布最合理的推断应该是是符合一直只是最不确定(熵最大)的推断。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值