最近在学习中文分词方面的技术。读到
KTDictSeg 1.2组件的代码深受启发,作此笔记。
在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
【笔记】提高中文分词准确性和效率的方法
本文分享了作者学习KTDictSeg1.2分词组件的心得体会,探讨了使用正则表达式预处理文本的方法,并提出了利用拼音进行中文分词的想法。

被折叠的 条评论
为什么被折叠?



