Collocations

本文深入探讨自然语言处理领域中Collocations的统计分析,通过词频分布、二元联合概率分布及假设检验,如t检验与Chi-Square检验,分析Collocations的概率特性。重点介绍了如何利用统计方法识别语料库中频繁共现的词汇对,及其在文本分析中的应用。

自然语言处理——Collocations

@[自然语言处理]

词频分布:

边缘分布:单个词的词频分布Pw,p(wi)=c(wi)N,c(wi)表示了词wi出现的次数,N表示词的总数
二元的联合概率分布:Pw1w2p(wi,wj)=c(wi,wj)N,N表示所有两个词组成的collocations的总数

假设检验

t检验:

原始公式:

t=x^μs2N

拓展到自然语言处理:
假设文本集是由N个bi-grams组成的一个长序列,样本就是指示型的随机变量,即如果一个bi-grams出现则用1表示,不出现用0表示;某个固定的gram相对于其他所有grams构成了一个01分布

p(new)=1582814307668
p(companies)=4675143077668
H0:p(newcompanies)=p(new)p(companies)3.615107
解释:如果零假设为真,随机生成bigrams的过程相当于一个重复的伯努利过程,p=3.615107;伯努利分布的均值μ=3.615107,σ=p(1p),σ趋近于p,new companies 总共出现了8次,样本均值x^=8143076685.591107

t=x^μs2N5.5911073.6151075.591107143076680.999932
,
根据查表t值不大于2.576,因此原假设成立,new companies不构成collocation,但是自然语言处理可能和一般的统计指标不同,t值的阀值选择根据经验选择

chi-square(X2)检验

t检验严格假设了分布服从于normally distributed

tablew1=neww1new
w2=companies84667
w2companies1582014287181

χ2=ji(OijEij)Eij
Oij=cell(i,j),Eij
E11=8+4667N×8+15820N×N5.2,new companies是独立的期望出现次数是5.2

Likelihood ratios

对于稀疏的数据来说,比X2更好

  • H1.p(w2|w1)=p=p(w2|w1)
  • H2.p(w2|w1)=p1p2=p(w2|w1)

p=c2N;p1=c12c1;p2=c2c12Nc1b(k;n,x)=Cknxk(1x)nklogλ=logL(H1)L(H2)L(H1)=b(c12;c1,p)b(c2c12;Nc1,p)L(H2)=b(c12;c1,p1)b(c2c12;Nc1,p2)

Mutual Information

I(x,y)=log2P(x,y)P(x)P(y)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值