
数据挖掘
F_Guardian
这个作者很懒,什么都没留下…
展开
-
应用于文本分类问题的TF-IDF改进方法
TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。二、传统TF-IDF的不足对于传统的TF-IDF而言,可以计算出在一文档集合中特定文档里所包含的区别于其他文档的重要词语,换言之就是关键词。三、TF-IDF的改进1、TF部分的改进这里考虑将文档内的词频率更改为同一类文档内的词频率可以在一定程度上解决上面提到的第2项不足之处。2、IDF部分的改进传统的IDF通原创 2015-03-03 19:52:06 · 18983 阅读 · 8 评论 -
数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
写在前面赛题介绍赛题FAQ四、数据挖掘 初阶1.问题解析2.训练集和测试集的划分与构建3.数据清洗4.领域知识>>特征工程5.我的特征工程6.缺失值的填充7.数据分布不一致的情况8.单模型的调优9.正负比例失衡问题10.模型选择与融合11.转载 2015-07-18 22:10:14 · 4319 阅读 · 1 评论 -
应用于SVM文本分类的UD-SVR参数寻优算法
2.2 UD-SVR寻优原理 此算法以基于均匀设计的自调用SVR代替传统参数寻优过程,从两个方面对传统SVM寻优方法进行了优化:1) 基于均匀设计仅从全部256组参数组合中选取16组具有代表性的组合,有效降低搜索范围,大幅度缩短了寻优时间;2) 基于此16个参数组合及其评价指标(准确率)以自调用SVR建立评价指标与参数组合之间的关系模型,并以此对全部参数组合进行预测,以预测的评价指标代替传统SVM寻优方法中的交叉测试评价指标,有效提升了寻优效率。原创 2015-03-26 23:31:23 · 5461 阅读 · 1 评论 -
朴素贝叶斯文本分类算法
朴素贝叶斯文本分类算法最近在学习推荐系统过程中,要用到朴素贝叶斯(Naïve Bayes)进行文本的分类。再一次深刻认识到学好基础知识的重要性,要理解朴素贝叶斯,需要有很好的概率与数理统计,离散数学基础。一.Naive Bayes基础知识。对于随机试验E有两个随机事件A,B,且P(B) > 0 那么在B事件发生的条件下A发生的概率为:其中P(AB)为A,B两个事转载 2015-01-10 16:01:49 · 2312 阅读 · 0 评论