中文分词工具可以使用张华平博士的NLPIR2013 http://ictclas.nlpir.org/ 喜欢用Python 的童鞋也可以使用结巴分词 https://github.com/fxsjy/jieba 。