语言模型

语言模型

语言模型在自然语言处理当中是用于计算一个句子的概率,如果一个句子表达的清晰度强那么概率值高,如“武松打死了老虎”与“老虎了死武松打”前者概率值就高于后者,前者出现概率更高。

联合概率链规则

在一句话当中每个词之间相互依赖概率统计公式为
在这里插入图片描述
但在现实情况中由于计算量过大所以我们一般不会计算所有词组之间的相互依赖关系。
如在垃圾邮件分类问题中我们可以只考虑每个句子当中词的前后之间的依赖关系,我们可以把它叫做二元语法(2-gram)。
如“我司可办理正规发票保真增值税发票点数优惠”
在这里插入图片描述
马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。这相对于联合概率链规则,其实是一个有点粗糙的简化,不过很好地体现了就近思路,离得较远和关系比较弱的词语就被简化和省略了。
从上面的例子我们可以看出这种方式可以看出计算量大大简化而且对结果影响较小。

  • 经验上,trigram用的最多。尽管如此,原则上,能用bigram解决,绝不使用trigram。n取≥4的情况较少,一般取3.
  • 当n更大时:对下一个词出现的约束信息更多,具有更大的辨别力;
  • 当n更小时:在训练语料库中出现的次数更多&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值