斯坦福大学2019自然语言处理CS224n,Lecture6:Language Models and Recurrent Neural Networks

内容大纲:

语言模型:

N-gram语言模型:

n-gram指的是n个连续的词。通过统计不同n-gram的词频信息来预测下一个词是什么。

假设前提:长文本的第X(t+1)这个词出现概率等于前面的n-1个词预测下一个词出现的概率,也就是说:

怎么求上面的概率呢?

在一个很大的语料文本中计算他们出现的次数做比例。

举个例子:

对于4-gram,我们忽略掉除了三个文本之前的词汇,然后分别计算连续三个词汇出现的次数,以及与空缺文本之前的三个词汇拼接的空缺个文本出现的概率。

这样可能会出现的稀疏问题:

分子项为0,也就是说没有对应的w。(平滑smoothing.:设置一个最小值k,对于文本语料|V|中每一个词。)

底数为0,也就是说语料库中寻找不到这三个词汇同时出现的情况。(backoff:三个不同时出现那我们就计算两个词,是在不行计算最近的一个词)

 

语料存储的问题:

我们需要计算大量词汇出现的次数,而且这些词汇组合非常多,需要大量存储空间。而且N越大组合的可能性就越大。

 

由于上面两个原因:不应该将N-gram的N设置比较大的数。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值