33、自然语言处理中的搭配提取与密集向量表示

自然语言处理中的搭配提取与密集向量表示

1. 搭配提取

1.1 双词计数列联表

在自然语言处理中,我们常常需要处理词序列。为了更好地分析双词(bigrams),我们可以使用列联表来统计双词的出现次数。以下是一个包含双词计数的列联表:

(w_j) (\neg w_j)
(w_i) (C(w_i, w_j)) (C(w_i) - C(w_i, w_j))
(\neg w_i) (C(w_j) - C(w_i, w_j)) (N - C(w_i, w_j))

其中,(N) 是语料库中的单词总数,(\neg w_i w_j) 表示第一个词不是 (w_i) 且第二个词是 (w_j) 的双词。

基于这些计数,我们可以使用最大似然估计来计算一些概率:
- (p = P(w_j) = \frac{C(w_j)}{N})
- (p_1 = P(w_j|w_i) = \frac{C(w_i, w_j)}{C(w_i)})
- (p_2 = P(w_j|\neg w_i) = \frac{C(w_j) - C(w_i, w_j)}{N - C(w_i)})

1.2 使用 Pytho

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值