1. 基本文本处理技能
英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。
正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。
逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。
双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好且单字和非字典词越少越好,进行分词。
2. 语言模型
n-gram模型也称为n-1阶马尔科夫模型,它有一个假设前提:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:
当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率
假设词表的大小为100,000,那么n-gram模型的参数数量为