n 元文法(n-gram)模型。
通常地,当n=1时,即出现在第i位上的基元wi独立于历史;一元文法也被写为uni-gram或monogram。
当 n=2 时,2-gram(bi-gram) 被称为1阶马尔可夫链。
当 n=3 时,3-gram(tri-gram)被称为2阶马尔可夫链。
依次类推。
为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,即可以在句子首尾两端增加两个标志: <BOS>w1 w2 w3 w4……wm <EOS>
如果汉字的总数为:N