
特征选择
文章平均质量分 91
xsdjj
这个作者很懒,什么都没留下…
展开
-
文本分类——特征选择概述
内容提要特征选择概述常见模型文档频率(DF)卡方校验(CHI)信息增益(IG)互信息(MI)特征选择概述 在向量空间模型中,文本可以选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,因此这些元素可以被称为文本的特征。在文本数据集上一般含有数万甚至数十万个不同的词组,如此庞大的词组构成的向量规模惊人,计算机运算非常困难。进行特征选择,对文本分类具有重要...原创 2018-11-06 15:33:36 · 12138 阅读 · 0 评论 -
特征选择——Matrix Projection算法研究与实现
内容提要引言MP特征选择思想MP特征选择算法MP特征选择分析实验结果分析总结引言 一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要...原创 2018-11-07 00:13:58 · 2141 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(六)特征选择微服务
内容提要特征选择类图部分实现代码请求JSON响应JSON 特征选择微服务主要实现如下特征选择算法:Document Frequency(DF)、Information Gain(IG)、(χ2)Chi-Square Test(CHI)、Mutual Information(MI)、Matrix Projection(MP)。特征选择类图 特征选择类图如图所示:图 特征选择微服务类图...原创 2018-11-10 11:03:59 · 580 阅读 · 0 评论