内容大纲:
语言模型:
N-gram语言模型:
n-gram指的是n个连续的词。通过统计不同n-gram的词频信息来预测下一个词是什么。
假设前提:长文本的第X(t+1)这个词出现概率等于前面的n-1个词预测下一个词出现的概率,也就是说:
怎么求上面的概率呢?
在一个很大的语料文本中计算他们出现的次数做比例。
举个例子:
对于4-gram,我们忽略掉除了三个文本之前的词汇,然后分别计算连续三个词汇出现的次数,以及与空缺文本之前的三个词汇拼接的空缺个文本出现的概率。
这样可能会出现的稀疏问题:
分子项为0,也就是说没有对应的w。(平滑smoothing.:设置一个最小值k,对于文本语料|V|中每一个词。)
底数为0,也就是说语料库中寻找不到这三个词汇同时出现的情况。(backoff:三个不同时出现那我们就计算两个词,是在不行计算最近的一个词)
语料存储的问题:
我们需要计算大量词汇出现的次数,而且这些词汇组合非常多,需要大量存储空间。而且N越大组合的可能性就越大。
由于上面两个原因:不应该将N-gram的N设置比较大的数。