
ML
lxg0807
这个作者很懒,什么都没留下…
展开
-
文本分类(五):使用LDA进行文本的降维---提特征
每个文本可以看作是又不同的主题构成了,各个主题原创 2016-10-10 15:36:28 · 10617 阅读 · 1 评论 -
文本分类(六):使用fastText对文本进行分类--小插曲
需要注意的问题: 1、linux mac 平台 2、标签中的下划线是两个!两个!两个!环境说明:python2.7、linux 自己打自己脸,目前官方的包只能在linux,mac环境下使用。误导大家了,对不起。 测试facebook开源的基于深度学习的对文本分类的fastText模型 fasttext python包的安装:pip install fasttext第一步获取分...原创 2016-10-28 21:44:27 · 51898 阅读 · 72 评论 -
【文本聚类】用k-means对文本进行聚类
# -*- coding: utf-8 -*-"""Created on Thu Nov 16 10:08:52 2017@author: li-pc"""import jieba from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.cluster import KMeansdef jieba_t原创 2017-11-18 16:00:40 · 16737 阅读 · 8 评论 -
样本方差的快速计算-遍历一遍样本集
在统计学中,经常需要样本的方差计算,比较麻烦的方式是 (1)第一次遍历计算出样本的平均值 (2)第二次遍历才能计算出样本的方差 上述方法在样本较少的情况下,非常合适,但如果样本非常大,这种方式就不可取了,而且如果样本是持续增长的,就都不适用了。先上代码#第一步:遍历一遍样本样本e in 样本集: self.n += 1 self.sum += e.val self.s原创 2017-10-12 16:09:51 · 4088 阅读 · 1 评论 -
分类问题中的数据不平衡问题
在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset 当你在对一个类别不均衡的数据集进行分类转载 2017-05-09 11:22:43 · 13044 阅读 · 0 评论 -
文本分类(三):文本转为词袋模型
在第二篇中,提到了如何爬取网易的新闻文章,如果感觉比较麻烦,可以直接使用网上现有的资源。 比如:搜狗新闻数据,清华新闻数据。个人感觉搜狗新闻数据比较杂乱,清华的新闻数据应该是经过了初步的清洗。附上清华新闻的下载地址:地址 分享一下停用词表 ,可以用来去掉对文本影响不大的词语。原创 2016-10-10 11:52:48 · 7788 阅读 · 0 评论 -
ValueError: setting an array element with a sequence. tensorflow numpy
这种错误是numpy数组的维度不匹配导致的。 np.array([1,2,3,[4,5,6]])ValueError: setting an array element with a sequence.原创 2016-12-26 09:43:36 · 23679 阅读 · 0 评论 -
机器学习中的过拟合
这几天在训练一个文本处理的机器学习算法,使用支持向量机和决策树算法在训练集上的数据的准确度特别高,但是在测试集上的数据的准确度确很低,于是陷入过度拟合的烦恼中,查找资料发现一些多度拟合的看法。仔细想想确实在训练时存在一些问题,第一:输入变量多,由于缺乏对问题的根本认识,使用了很多无关变量,这个问题打算从其它途径先认识变量和问题的关系;第二:数据的噪声可能是比较大,没有考虑到关键的特征和信息。下面的几转载 2017-05-09 11:09:25 · 851 阅读 · 0 评论 -
分本分类(六):使用LDA+SVM进行文本分类
经过分本分类(五)利用LDA成功的将文本的特征维数降低了,可以拿这些特征使用SVM分类器进行分类,查看一下效果。占位置。。。。原创 2016-11-23 21:33:26 · 9754 阅读 · 5 评论 -
文本分类(二):scrapy爬取网易新闻
在数据挖掘课程中,老师布置了文本分类的作业。文本分类的第一项应该就是获取文本了吧。在木有弄懂scrapy的情况下写的,纯应用,或许后续会补上scrapy的原理。首先说一下我的环境:ubuntu14.10scrapy安装指南(肯定官网的最权威了):[传送门](http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/install.html#intro原创 2015-12-04 20:39:12 · 8784 阅读 · 0 评论 -
文本分类(四):使用CHI进行文本的降维---提特征
先占一个位置,改天完善原创 2016-10-10 15:44:33 · 2630 阅读 · 1 评论 -
文本分类(一):整体流程
有了新闻分类的语料库,接下来我们就可以进行文本分类了。 首先说一下大概的流程: 1.进行分词 2.去停用词 3.取名词 4.特征提取 5.特征加权 6.构造分类器正式开始1 进行分词现在网上有很多开源的分词工具可以供我们选择, 选择结巴分词进行分词。虽然中科院的分词工具号称是最好的中文分词工具,但是它并木有进行开源。 首先进行jieba的安装,结巴的githu原创 2015-12-06 16:37:28 · 9420 阅读 · 0 评论