
大数据
文章平均质量分 70
Carry_yang
绝对不打辅助
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘 文本分类(五)
上一篇博文我们已经对文本做了分词处理,这篇我们开始做取名词,去停用词的处理。 首先是取名词,我们要把名词取出来,是因为一篇文档,名词最能够代表这一篇文档属于哪一类的,其他的形容词,副词之类的词语并不能很好的代表某一类文档。所以要取名词,这个当然是用正则表达式了。 我们看一下分词结果: 名词词性的词分词工具会用n表示,那原创 2014-12-21 21:33:16 · 1656 阅读 · 0 评论 -
数据挖掘 文本分类(六)统计词频
接上一篇博客,这次我们该统计词频了。 至于为什么要统计词频,就不用说了吧,一个词在某类文本里出现的次数越多,越能代表这一类文本。当然如果某个词在这一类文本里出现次数很多而在其他类文本里根本不出现,就更能代表这一类文本了(这个我们下一篇博文再说)。 不过统计词频好像也没什么可说的,尤其是不涉及多个文本类的时候,只要读进来判断下,然后有一个标记位适当的自加一即可。原创 2014-12-23 13:57:35 · 3986 阅读 · 1 评论 -
数据挖掘 文本分类(二)搜集中文语料库与ICTCLAS分词
在上一篇博客中简单介绍了实验环境和流程,这一篇我们继续。 第一步,下载搜狗中文预料库。链接:http://www.sogou.com/labs/dl/c.html 我们下载24M大小的精简版(tar.gz格式) 下载完了,解压缩,放原创 2014-12-16 16:26:06 · 3525 阅读 · 1 评论 -
数据挖掘 文本分类(三)本地文档分词再保存到本地
上一篇博文中,我们跑通了分词工具的示例文件,下面我们就要开始用分词工具尝试对我们之前准备的搜狗语料库里的文本文件进行分词了。 首先我们来看nlpir.py文件代码:能看出来, 只要我们把想要分词的中文文章以字符串的形式传递给p,然后通过调用相关的函数就能实现分词,并且分词结果可以输出。这时,就要考虑python读入和输出文本文件的问题了。根据廖雪峰老师的教原创 2014-12-17 12:56:34 · 3694 阅读 · 4 评论 -
数据挖掘 文本分类(四)批处理分词
上一篇博文中实现了用ICTCLAS工具对本地txt文本文件做分词处理,并将分词结果保存到本地。 这次该把我们测试集中每一类的1000篇左右的文章全都分词并保存了,这个......应该叫做批处理吧?总感觉批处理是一个很高大上的过程,最起码得有一个专门的模块或者函数来实现,找了半天,也没找到,只能自己试着去写了..... 我们一共是9类文档,得有原创 2014-12-18 20:28:34 · 2245 阅读 · 0 评论 -
数据挖掘 文本分类(一) 综述
本学期上了北邮王晓茹老师的数据仓库与数据挖掘课程,实验一便是数据挖掘入门级的实验:文本分类。第一次自己写代码花了很长时间终于把实验做完了,在这里记录一下。 一, 先简单说下实验的工具和环境。 代码环境:Python2.7 Python学习建议廖雪峰老师的网站:http://www.liao原创 2014-12-09 21:47:15 · 6557 阅读 · 2 评论 -
数据挖掘 文本分类 (五)取名词去停用词
之前写了一篇文本分类(五),不知道怎么滴没发表成功,csdn连个备份都没有,草稿箱里也没有,真是备受打击! 隔了几天,只好重来...... 好,上一篇做到了分词这一步,然后就是取名词和去停用词了。 首先说取名词,一篇文本,里边有好多词是没有用的,尤其对于判断这篇文本是某一类文本的时候。比如形容词,副词,助词什么的,这类词对我们判断文本属于哪一类原创 2014-12-23 13:36:22 · 7466 阅读 · 1 评论 -
数据挖掘 文本分类(七)特征提取
上一篇我们做完了词频统计,下面就该提取文本特征了。其实词的频率就是文本最重要的特征了,但是我们如果只靠词的频率去判断文本的分类的话,显然正确率是很低的。 当然,文本的特征提取有很多办法了,我上这门课程老师着重介绍的是TF-IDF和卡方校验两种。 我们先来看IF-IDF的计算方法: 词频(term frequency,TF)指的是原创 2014-12-24 11:26:03 · 6670 阅读 · 3 评论 -
数据挖掘 文本分类 (八)训练和测试
今天来个大结局吧,我们有了chi值或者TF-IDF值以后,就可以拿他们用lib-svm工具进行训练了。 当然我们还要对数据进行一些标准化处理,我们需要将某词与该词对应的值作为一个向量处理,这个就是特征向量了。 举个例子,我们得到的某个文本里有一个这样的值:汽车 3456.2314 。 其实这就是一个二维的特征向量,我们可以把文字原创 2014-12-26 09:37:34 · 2395 阅读 · 1 评论