【4】构建基于scikit-learn的文本挖掘学习系统

最新推荐文章于 2024-08-03 10:44:06 发布

转载最新推荐文章于 2024-08-03 10:44:06 发布 · 1.4k 阅读

文章标签：

#文本挖掘 #sklearn

文本挖掘专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何搭建基于scikit-learn的文本挖掘学习系统，包括Python及相关库的安装配置过程，并演示了使用结巴分词进行中文文本处理的方法。

转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html

配置开发环境

构建基于scikit-learn的文本挖掘学习系统

1. 下载和安装 python-2.7.8 for win32
2. 下载和安装 numpy-1.9.0-win32-superpack-python2.7
3. 下载和安装 scipy-0.14.0-win32-superpack-python2.7
4. 下载和安装 matplotlib-1.1.0.win32-py2.7
5. 下载和安装 结巴分词：jieba-master, 解压后运行 python setup.py install(参考网站: https://github.com/fxsjy/jieba)
6. 下载和安装 scikit-learn-0.15.2.win32-py2.7
7. 解压scikit-learn-master，从example目录获取例子文件

运行Demo 程序

测试scikit-learn默认例子文件
打开例子文件 plot_classifier_comparison.py
执行python 程序
输出图片：

scikit-learn安装成功！

测试结巴分词：
代码如下：

#encoding=utf-8
import sys  
import jieba

reload(sys)  

sys.setdefaultencoding('utf-8')  

seg_list = jieba.cut("我来到北京清华大学",  cut_all=True)  
print "Full Mode:", "/  ".join(seg_list)  # 全模式


seg_list = jieba.cut("我来到北京清华大学",  cut_all=False)  
print "Default Mode:",  "/ ".join(seg_list)  # 精确模式


seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print ", ".join(seg_list)

结果:

Building Trie..., from C:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cache
loading model cost 2.55099987984 seconds.
Trie has been built succesfully.
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造