中文分词技术主要有以下三类:
-
规则分词 新词难处理
-
统计分词 太依赖语料质量
-
混合分词(规则+统计)
一、规则分词
基于规则分词是一种机械的分词方法,需要维护词典,将词语中每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
主要有三种方式进行匹配切分
- 正向最大匹配法 南京市长/江/大桥 (词典中存在南京市长和长江大桥,由于是正向匹配所以先匹配到南京市长,然后再匹配到江和大桥)
- 逆向最大匹配法 &
中文分词技术主要有以下三类:
规则分词 新词难处理
统计分词 太依赖语料质量
混合分词(规则+统计)
一、规则分词
基于规则分词是一种机械的分词方法,需要维护词典,将词语中每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
主要有三种方式进行匹配切分
- 正向最大匹配法 南京市长/江/大桥 (词典中存在南京市长和长江大桥,由于是正向匹配所以先匹配到南京市长,然后再匹配到江和大桥)
- 逆向最大匹配法 &