
数据挖掘
文章平均质量分 81
zhzhl202
这个作者很懒,什么都没留下…
展开
-
使用MapReduce对svm模型进行训练
SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差。C过大或过小,泛化能力变差gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测的速度。Grid SearchGri原创 2012-04-08 22:16:36 · 16330 阅读 · 10 评论 -
Libsvm与Liblinear源码剖析与封装(一)
简介因为项目的需要,我们需要同时使用Libsvm与Liblinear,并将其封装起来做成统一调用形式,目前软件已经完成,名称为Tmsvm-基于SVM的文本挖掘系统本文就来分析一下Libsvm与Liblinear的异同点以及封装这两个软件需要注意的事宜。关于Libsvm的源码分析,上海交通大学模式识别实验室曾经有过这方面的工作,可以从网上下载。本文也结合他之前的工作,对libsvm的剖析原创 2012-04-08 17:20:44 · 13898 阅读 · 0 评论 -
Tmsvm_基于SVM的文本挖掘系统
开源系统 主页:http://code.google.com/p/tmsvm/文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有原创 2011-12-13 20:41:03 · 9728 阅读 · 8 评论 -
Libsvm与Liblinear源码浅析与封装(二)
封装Libsvm与Liblinear开篇我们基于以下场景: 假设我们已经用libsvm或者是Liblinear训练了一个模型,现在需要读入该模型并基于该模型对一个样本进行预测,返回预测的类标签以及相应的隶属度分数。 从封装的角度我们需要考虑一下几个问题: 如何规范输入,使得读入的数据在Libsvm与Liblinear上都可以直接运行系统如何识别读入的原创 2012-04-08 18:48:50 · 13320 阅读 · 4 评论 -
如何解决分类中的样本倾斜问题
在Recsys中看到一个关于如何解决数据集偏斜的问题,遂想到以前也考虑过这个问题,所以就总结了一些以前看的资料。问题定义先来说说样本的偏斜问题,也叫数据集偏斜(unbalanced),它指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。比如说正类有10,000个样本,而负类只给了100个,这会引起的问题显而易见,可以看看下面的图:方形的点是负类。H,H1原创 2012-05-19 19:48:14 · 17647 阅读 · 1 评论 -
文本分类与SVM
之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1 基础知识1. 1 样本整理文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和原创 2012-11-18 20:45:17 · 95894 阅读 · 18 评论