自然语言处理中的搭配提取与密集向量表示
1. 搭配提取
1.1 双词计数列联表
在自然语言处理中,我们常常需要处理词序列。为了更好地分析双词(bigrams),我们可以使用列联表来统计双词的出现次数。以下是一个包含双词计数的列联表:
| (w_j) | (\neg w_j) | |
|---|---|---|
| (w_i) | (C(w_i, w_j)) | (C(w_i) - C(w_i, w_j)) |
| (\neg w_i) | (C(w_j) - C(w_i, w_j)) | (N - C(w_i, w_j)) |
其中,(N) 是语料库中的单词总数,(\neg w_i w_j) 表示第一个词不是 (w_i) 且第二个词是 (w_j) 的双词。
基于这些计数,我们可以使用最大似然估计来计算一些概率:
- (p = P(w_j) = \frac{C(w_j)}{N})
- (p_1 = P(w_j|w_i) = \frac{C(w_i, w_j)}{C(w_i)})
- (p_2 = P(w_j|\neg w_i) = \frac{C(w_j) - C(w_i, w_j)}{N - C(w_i)})
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



