自然语言处理——Collocations
@[自然语言处理]
词频分布:
边缘分布:单个词的词频分布P(w),p(wi)=c(wi)N,c(wi)表示了词wi出现的次数,N表示词的总数
二元的联合概率分布:P(w1,w2),p(wi,wj)=c(wi,wj)N,N表示所有两个词组成的collocations的总数
假设检验
t检验:
原始公式:
t=x^−μs2N−−√ 拓展到自然语言处理:
假设文本集是由N个bi-grams组成的一个长序列,样本就是指示型的随机变量,即如果一个bi-grams出现则用1表示,不出现用0表示;某个固定的gram相对于其他所有grams构成了一个01分布p(new)=1582814307668
p(companies)=4675143077668
H0:p(newcompanies)=p(new)p(companies)≈3.615∗10−7
解释:如果零假设为真,随机生成bigrams的过程相当于一个重复的伯努利过程,p=3.615∗10−7;伯努利分布的均值μ=3.615∗10−7,σ=p(1−p),σ趋近于p,new companies 总共出现了8次,样本均值x^=814307668≈5.591∗10−7
t=x^−μs2N−−√≈5.59110−7−3.61510−75.59110−714307668−−−−−−−√≈0.999932,
根据查表t值不大于2.576,因此原假设成立,new companies不构成collocation,但是自然语言处理可能和一般的统计指标不同,t值的阀值选择根据经验选择chi-square(X2)检验
t检验严格假设了分布服从于normally distributed
table w1=new w1≠new w2=companies 8 4667 w2≠companies 15820 14287181 χ2=∑ji(Oij−Eij)Eij
Oij=cell(i,j),Eij是期望值
E11=8+4667N×8+15820N×N≈5.2,new companies是独立的期望出现次数是5.2Likelihood ratios
对于稀疏的数据来说,比X2更好
- H1.p(w2|w1)=p=p(w2|≠w1)
- H2.p(w2|w1)=p1≠p2=p(w2|≠w1)
p=c2N;p1=c12c1;p2=c2−c12N−c1假设一个伯努利分布b(k;n,x)=Cknxk(1−x)n−klogλ=logL(H1)L(H2)L(H1)=b(c12;c1,p)b(c2−c12;N−c1,p)L(H2)=b(c12;c1,p1)b(c2−c12;N−c1,p2)Mutual Information
I(x,y)=log2P(x,y)P(x)P(y)
本文深入探讨自然语言处理领域中Collocations的统计分析,通过词频分布、二元联合概率分布及假设检验,如t检验与Chi-Square检验,分析Collocations的概率特性。重点介绍了如何利用统计方法识别语料库中频繁共现的词汇对,及其在文本分析中的应用。
3257

被折叠的 条评论
为什么被折叠?



