下面是语言模型的简介 1. 学习语言模型 使用计数来建模 N元语法:这里的元可以理解为我们之前的时间变量。对于 N 元语法,我们可以把所有长度为 N 的子序列存下来。其中 1 元语法用的很少。这里其实就是算概率的时候我们不往前看所有的概率,只往前看 N-1 个词的概率 总结 2. 自然语言统计 语言模型与数据集:可以看到停词的出现是很多的,但是它们对于文本的理解作用较小 我们画出词频图看一下:可以看到在log上是差不多线性的