概念:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
字符匹配:
-
正向最大匹配
-
逆向最大匹配
-
最少切分(使每句话中切分的词最少)
-
双向最大匹配
逆向匹配的切分精度略高于正向匹配,遇见歧义的现象也比较少。
基本原理是,将字符串与字典中的内容进行匹配,找到匹配的长度最大的词语,就将它分割成一个词语。由于中文比较复杂,各种语境下的分词可能有些不同。所以一般在实现过程中,需要对扫描方式进行进一步的优化。
理解法:
让计算机模拟人类的思考方式去分析文章的内容。

本文介绍了中文分词的基本概念,包括字符匹配、理解法和统计法。重点讨论了正向与逆向最大匹配的原理,并提到了分词中的技术难点如歧义词和新词的处理。还介绍了结巴分词工具的功能,如精确、全和搜索引擎模式,以及支持自定义词典和HMM模型的应用。
最低0.47元/天 解锁文章
675

被折叠的 条评论
为什么被折叠?



