[本文核心源于:http://www.cnblogs.com/eastmount/p/5055906.html]
比较常用的中文分词工具有中科院的分词工具ICTCLAS;jiaba是Python编程重用的分词包,主要包括分词、词性标注、关键词抽取等。
jiaba教程:
1.安装及入门介绍
参考地址:http://www.oschina.net/p/jieba
下载地址:https://pypi.python.org/pypi/jieba/
安装时如果出现错误"unknown encoding: cp65001",输入"chcp 936"将编码方式由utf-8变为简体中文gbk。
Intrustion:
jieba.cut():第一个参数为需要分词的字符串,第二个cut_all控制是否为全模式(true为是,false为精确模式,默认为精确模式)。
Jieba分词支持开发者使用自定定义的词典
基本用法:jieba.load_userdict(file_name) #file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略,ns为地点名词),用空格隔开。
强烈推荐一篇词性标注文章,链接如下:
http://www.hankcs.com/nlp/part-of-speech-tagging.html