中文分词

[本文核心源于:http://www.cnblogs.com/eastmount/p/5055906.html]

比较常用的中文分词工具有中科院的分词工具ICTCLAS;jiaba是Python编程重用的分词包,主要包括分词、词性标注、关键词抽取等。

jiaba教程:

1.安装及入门介绍
        参考地址:http://www.oschina.net/p/jieba
        下载地址:https://pypi.python.org/pypi/jieba/

  安装时如果出现错误"unknown encoding: cp65001",输入"chcp 936"将编码方式由utf-8变为简体中文gbk。

Intrustion:

      jieba.cut():第一个参数为需要分词的字符串,第二个cut_all控制是否为全模式(true为是,false为精确模式,默认为精确模式)。

Jieba分词支持开发者使用自定定义的词典

  基本用法:jieba.load_userdict(file_name) #file_name为自定义词典的路径

      词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略,ns为地点名词),用空格隔开。
        强烈推荐一篇词性标注文章,链接如下:
        http://www.hankcs.com/nlp/part-of-speech-tagging.html



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值