核心:
从应用的角度看中文分词算法,是用于搜索引擎,或者智能识别语义等?应用的不同影响着中文分词的策略选择。
正文:
建立索引或对用户输入的句子分词时,当遇到"XxYyvZz "(每个字母代表一个汉字)这样一个句子时,
如果Xx和Zz是已经收录在词库中的词汇,而Y,y,v,Yy,yv,Yyv均不是词库的词汇,
分词器应该如何处理Yyv这个非词汇组成的孤立串呢?可能的处理情况有:
1、二元分词:Yy/yv
2、单字分词:Y/y/v
3、混合分词:Y/Yy/yv/v
4、不分分词:Yyv
5、通过上下文进行词……
本文讨论了中文分词算法在不同应用场景下的策略选择问题。针对搜索引擎及智能识别语义等需求,提出了面对孤立非词汇组成的字符串时的几种处理方式:二元分词、单字分词、混合分词、不分分词及上下文依赖分词。
1万+

被折叠的 条评论
为什么被折叠?



