
文本分类
专注成就专业_
专注成就专业!!!
展开
-
机器学习相关——文本分类综述
文本分类的定义 文本分类是现在非常热门的一个研究领域,也是机器学习中最为重要最为基础的组成部分。文本分类有各种各样的方法,有些简单易懂,有些看上去非常复杂。其实只要搞清楚他们背后的原理,理解文本分类并不是一件很困难的事情。今天先从宏观上介绍一下文本分类,后续会在其他博文中分门别类对文本分类这一课题进行深入的分析,敬请关注。也希望各位高手们多提建议,毕竟我也是菜鸟一个。 文本分类转载 2014-11-01 14:05:41 · 1065 阅读 · 0 评论 -
文本分类中遇到的小问题总结
1.当语料很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。比如要转换当前目录下所有文件的编码为utf8for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done2.使用fscanf读取文件中的数据时,当数据很大时,往往会失败。这个时候很有可能是我们的语料中出现了它不能识别的原创 2015-03-23 08:47:14 · 1261 阅读 · 0 评论 -
AdaBoost--从原理到实现
一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升(boost)为“强学习算法”(语自《统计学习方法》),而其中最具代表性的也就是Adaboost了,貌似Adaboost的结构还和Neura转载 2015-05-19 21:15:23 · 684 阅读 · 0 评论 -
处理样本分布不平衡,偏斜比较厉害的方法总结
由于,之前一直从事数据挖掘和机器学习方面的学习和工作。在学习和工作中经常会遇到训练的样本中的各个类别的数量存在比较大的差异,而这种差异给模型训练和预测到来了很多困难和挑战。针对这个问题,我们一般的处理方法有4种:1.上采样(over-sample);2.下采样(under-sample);3.smote方法;4.调整机器学习算法;一、上采样也叫过采样,是指用大于信号原创 2015-09-11 18:59:19 · 8013 阅读 · 1 评论 -
随机森林(random forest)可以解决样本分布不均匀维度大且特征缺失的问题
随机森林的定义:上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感原创 2015-09-20 17:02:59 · 38986 阅读 · 4 评论 -
特征选择方法
1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀原创 2015-06-04 18:18:08 · 4072 阅读 · 0 评论