涂铭
3 中文分词技术
3.2 规则分词
3.2.1 正向最大匹配方法 maximum match method MM法
3.2.2 逆向最大匹配方法 reverse maximum match method RMM法
中文偏正结构很多
3.2.1 双向最大匹配方法 bi-direction matching method
3.3 统计分词
建立语言模型
对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。
统计学模型:
- 隐含马尔可夫HMM
- 条件随机场CRF
3.3.1 语言模型
n-gram model:在估算条件概率时,忽略距离大于等于n的上文词的影响
- 一元模型 unigram model
- 二元模型 bigram model
- 三元模型 trigram model 词序信息 计算成本