Collocations

最新推荐文章于 2023-06-25 18:29:13 发布

原创最新推荐文章于 2023-06-25 18:29:13 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

自然语言处理专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨自然语言处理领域中Collocations的统计分析，通过词频分布、二元联合概率分布及假设检验，如t检验与Chi-Square检验，分析Collocations的概率特性。重点介绍了如何利用统计方法识别语料库中频繁共现的词汇对，及其在文本分析中的应用。

自然语言处理——Collocations

@[自然语言处理]

词频分布：

边缘分布：单个词的词频分布 $P（w）$ , $p(w_i) = \frac {c(w_i)}{ N }$ , $c(w_i)$ 表示了词 $w_i$ 出现的次数,N表示词的总数
二元的联合概率分布： $P（w_1，w_2）$ ， $p(w_i,w_j) = \frac {c(w_i,w_j)}{N}$ , $N$ 表示所有两个词组成的collocations的总数

假设检验

t检验：

原始公式：
$t = x ^ - μ s 2 N - - \sqrt$ $t = \frac {\hat x - \mu} {\sqrt { \frac {s^2}{N}}}$

拓展到自然语言处理：
假设文本集是由N个bi-grams组成的一个长序列，样本就是指示型的随机变量，即如果一个bi-grams出现则用1表示，不出现用0表示;某个固定的gram相对于其他所有grams构成了一个01分布

$p(new) = \frac {15828} {14307668}$
$p(companies) = \frac {4675} {143077668}$
$H_0:p(new companies) = p(new) p(companies) \approx 3.615 * 10^{-7}$
解释：如果零假设为真，随机生成bigrams的过程相当于一个重复的伯努利过程， $p = 3.615 * 10^{-7}$ ;伯努利分布的均值 $\mu = 3.615 * 10 ^{-7},\sigma = p(1-p)$ , $\sigma$ 趋近于p,new companies 总共出现了8次，样本均值 $\hat x = \frac {8} {14307668} \approx 5.591 * 10 ^{-7}$

$t = x ^ - μ s 2 N - - \sqrt \approx 5.59110 - 7 - 3.61510 - 7 5.59110 - 7 14307668 - - - - - - - \sqrt \approx 0.999932$ $t = \frac {\hat x - \mu} {\sqrt{\frac{s^2}{N}}} \approx \frac {5.59110^{-7} -3.61510^{-7}}{\sqrt{\frac{5.59110^{-7}}{14307668}}} \approx 0.999932$ ,
根据查表t值不大于2.576,因此原假设成立，new companies不构成collocation，但是自然语言处理可能和一般的统计指标不同，t值的阀值选择根据经验选择

chi-square( $X^2$ )检验

t检验严格假设了分布服从于normally distributed

table $w_1=new$ $w_1 \neq new$
$w_2= companies$ 8 4667
$w_2 \neq companies$ 15820 14287181

$\chi^2 = \sum_i^j \frac{(O_{ij} - E_{ij})}{E_{ij}}$
$O_{ij} = cell(i,j),E_{ij}是期望值$
$E_{11} = \frac {8+4667}{ N} \times \frac{8+15820}{N} \times N \approx 5.2$ ,new companies是独立的期望出现次数是5.2

Likelihood ratios

对于稀疏的数据来说，比 $X^2$ 更好

H1. $p(w^2|w^1) = p = p(w^2| \not= w^1)$
H2. $p(w^2|w^1) = p_1 \neq p_2 = p(w^2| \not= w^1)$

$p = c 2 N; p 1 = c 12 c 1; p 2 = c 2 - c 12 N - c 1 假设一个伯努利分布 b (k; n, x) = C k n x k (1 - x) n - k l o g λ = l o g L ( H 1 ) L ( H 2 ) L (H 1) = b (c 12; c 1, p) b (c 2 - c 12; N - c 1, p) L (H 2) = b (c 12; c 1, p 1) b (c 2 - c 12; N - c 1, p 2)$ $p = \frac{c_2}{N} ;p_1 = \frac {c_{12}}{c_1};p_2 = \frac{c_2 - c_{12}}{N-c_1} 假设一个伯努利分布 \\ b(k;n,x)=C^k_n x^k(1-x)^{n-k}\\ log \lambda = log \frac{L(H_1)}{L(H_2)}\\ L(H_1) = b(c_{12};c_1,p)b(c_2-c_{12};N-c_1,p)\\ L(H_2) = b(c_{12};c_1,p_1)b(c_2-c_{12};N-c_1,p_2)$

Mutual Information

$I (x, y) = l o g 2 P ( x , y ) P ( x ) P ( y )$ $I(x,y) = log_2 \frac {P(x,y)}{P(x)P(y)}$