NLPIR
文章平均质量分 55
Fifth quadrant
smart is the new sexy.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python调用NLPIR/ICTCLAS进行文本分词
本文采用搜狗中文语料库mini版的文本数据,共九类(财经、IT、健康、体育、旅游、教育、招聘、文化、军事),每个类别共1990个文本,并在实验前通过.py程序抓取前500个文本数据作为训练集。数据预处理包括文本分词、去停用词、词频统计、特征选择、采用向量空间模型表示文档等。接下的几篇博文将按照这几个歩棸对文本进行预处理。文本分词主要通过Python调用中科院计算所汉语词法分析系统NLPIR原创 2016-07-11 18:44:50 · 11992 阅读 · 3 评论 -
【python问题解决】RuntimeError:NLPIR function 'NLPIR_Init' failed
1、实验过程:在pycharm中新建项目textmining,在项目下新建文件夹File,将pynlpir文件夹添加到该文件夹后,运行分词测试程序:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:测试PyNLPIR包时间:2016年7月13日 13:02:37"""import pynlpirpynlpir.open()原创 2016-07-14 13:20:01 · 4583 阅读 · 0 评论 -
【python问题解决】UnicodeDecodeError :'gb2312' codec can't decode bytes:illegal multibyte sequence
错误提示:UnicodeDecodeError :'gb2312' codec can't decode bytes in position 2-3:illegal multibyte sequence意思是:将一个字符串,通过gb2312的方式,去解码,想要获得Unicode字符串,结果出错了 解决方法:处理的字符的确是gb2312的,但是其中夹杂的部分特殊字符,是gb2312编码中原创 2016-07-14 23:30:58 · 44192 阅读 · 17 评论 -
Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
系统:win7 32位分词软件:PyNLPIR集成开发环境(IDE):Pycharm功能:实现多级文本预处理全过程,包括文本分词,过滤停用词,词频统计,特征选择,文本表示,并将结果导出为WEKA能够处理的.arff格式。直接上代码:#!/usr/bin/env python# -*- coding: utf-8 -*-"""功能:PyNLPIR文原创 2016-08-25 15:28:51 · 65037 阅读 · 14 评论
分享