从搜索引擎的角度看中文分词算法

最新推荐文章于 2021-04-02 11:25:06 发布

最新推荐文章于 2021-04-02 11:25:06 发布 · 184 阅读

文章标签：

#搜索引擎 #算法

本文讨论了中文分词算法在不同应用场景下的策略选择问题。针对搜索引擎及智能识别语义等需求，提出了面对孤立非词汇组成的字符串时的几种处理方式：二元分词、单字分词、混合分词、不分分词及上下文依赖分词。

核心：
从应用的角度看中文分词算法，是用于搜索引擎，或者智能识别语义等？应用的不同影响着中文分词的策略选择。

正文：
建立索引或对用户输入的句子分词时，当遇到"XxYyvZz "(每个字母代表一个汉字)这样一个句子时，
如果Xx和Zz是已经收录在词库中的词汇，而Y,y,v,Yy,yv,Yyv均不是词库的词汇，
分词器应该如何处理Yyv这个非词汇组成的孤立串呢？可能的处理情况有：
1、二元分词：Yy/yv
2、单字分词：Y/y/v
3、混合分词：Y/Yy/yv/v
4、不分分词：Yyv
5、通过上下文进行词……