
其他
Enockipp
目前小硕在读中
展开
-
中文分词技术
一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、转载 2015-12-21 23:23:34 · 998 阅读 · 0 评论 -
GBK与unicode转换
最近写unicode分词时,需要处理GBK输入,用到GBK与Unicode之间的转换转自http://www.latelee.org/programming-under-linux/gbk-to-unicode-table.html----------------------------------------------------------------------------转载 2017-01-12 16:22:58 · 1739 阅读 · 0 评论