NLP-大白话讲解二元语法模型分词

盈盈学姐

已于 2025-03-26 18:58:02 修改

阅读量1.5k

点赞数 24

分类专栏：自然语言处理文章标签：自然语言处理中文分词

于 2025-03-09 13:55:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_48570213/article/details/146130608

版权

自然语言处理专栏收录该内容

3 篇文章

订阅专栏

1.词频和词对频率（基础必备知识）

（1）词频（Term Frequency,TF)

词频，指的是某个词在文本中出现的次数，可以用来衡量一个词在文本中的重要性。例如有这样一句话：

我喜欢学习自然语言处理，因为自然语言处理很有趣！

则可以通过分词后统计出每个词频有：

（2）词对频率（Bigram Frequency, BF)

词对频率，指的是两个连续的词（词对）在文本中出现的次数，它可以用来捕捉词语之间的关联性。同样使用上面那句话作为案例，可以统计出其词对频率有：

（3）总结

词频（TF) ，衡量的是单个词的出现频率；
词对频率（BF)，衡量的是两个连续词的出现频率；

2.任务描述：对句子“我爱北京天安门”进行分词

（1）语料库准备

首先需要存在一个大型语料库，该语料库拥有海量数据和覆盖多个领域。并且该语料库已经由人工或者其他方法等进行好分词和词频统计，假设该语料库包含但不限于以下词频和词对频率：（此处为了后面计算简单好理解，假设的数字都比较小）

（2）列出可能的分词组合

根据语料库中存在的词，可以推断出该句子有4种可能的分词情况：

（3）计算每个可能组合的概率大小：

无需害怕公式

分词组合1：我爱北京天安门

$p(w_{1},w_{2},w_{3},w_{4})$ =p(我爱北京天安门)

总词频是语料库的所有词频和，这里举例20是有问题的，毕竟前面展示的词频加起来已经超过20了，但是对于我们理解这个知识无碍，就这样吧，不想改了。

p(爱|我）的含义是计算当前一个词是“我”的概率下，后一个词是“爱”的概率大小，根据条件概率计算，分子分母都有总词频，所以约掉了，计算时直接利用：“我”的词频，和“我爱”的词对频数，两个数值相除即可。后面的计算也是一样的。由此，计算出来该组合的概率大小约为0.08.

分词组合2：我爱北京天安门

分词组合3：我爱北京天安门

分词组合4：我爱北京天安门

（4）选择概率最大的分词组合

（5）总结

通过二元语法模型，我们可以基本想象到n元语法模型的计算过程。在实际应用中，语料库越大，词频和词对频率统计的越准确，分词效果就越好。

3.练习

相信大家只要认真看了上面的例子，是一定能看懂的，那就来练一练吧！

Ø假设语句序列为s={小孩，喜欢，在家，观看，动画片}，估计这一语句的概率。以二元语法模型为例，需要检索语料库中每一个词以及和相邻词同时出现的概率。假设语料库中总词数7542，单词出现的次数如下图所示。其中 351，表示“小孩喜欢”这个词对的频数。

揭晓答案：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。