
数据挖掘
文章平均质量分 52
zhf1234abc
这个作者很懒,什么都没留下…
展开
-
svm用于多分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多转载 2015-07-12 10:45:24 · 462 阅读 · 0 评论 -
支持向量机的一种特征选取算法
1.特征选取判断标准是平均错误率(BER)常用的F-score算法转载 2015-07-12 16:40:27 · 1166 阅读 · 0 评论 -
libsvm简单代码解释
首先来看一下Libsvm的模型训练部分:采用为One-against-one的策略假如有1,2,3,4个类可以(1,2)(1,3)(1,4)(2,3)(2,4)(2,4)可以得到n(n-1)/2个决策函数,当进来一个样本采用对1,2,3,4进行投票进行选择,看属于哪个类。/** * Libsvm的模型训练函数 * @param prob 输入的问题 * @param pa原创 2015-07-12 21:59:33 · 732 阅读 · 1 评论 -
如何解决分类中的样本倾斜问题
问题定义先来说说样本的偏斜问题,也叫数据集偏斜(unbalanced),它指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。比如说正类有10,000个样本,而负类只给了100个,这会引起的问题显而易见,可以看看下面的图:方形的点是负类。H,H1,H2是根据给的样本算出来的分类面,由于负类的样本很少很少,所以有一些本来是负类的样本点没有提供,比如图中两个灰色的方形点,转载 2015-07-12 11:20:51 · 1103 阅读 · 0 评论 -
BP神经网络
1.BP神经网络可以解决非线性分类问题,当一个超平面不能完全分类,可以用多个超平面进行分类,在神经网络里,一个感知器可以构造一个超平面,在BP神经网络里隐藏层的每个节点都是一个独立的感知器,所以可以解决非线性分类问题。2.BP神经网络是通过后向传播调整权值的。在BP神经网络里也是通过最小化误差平方和,来达到最优的目标函数。求最小化误差平方和用的是梯度下降法来求得,实际上就是迭代k次(样本数原创 2015-08-26 11:26:00 · 683 阅读 · 0 评论 -
K-NN算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然原创 2015-08-17 15:54:40 · 726 阅读 · 0 评论 -
训练的调优
调优主要从三个维度进行: 样本,feature,模型 和参数Feature的调优 :首先在少量的样本上(几 K )级别,将训练数据同时也做为预测数据进行测试,添减feature查看效果,开始feature数量为11个,后来添加到20个之后效果有所提升,继续添加新的feature的时候,效果提升不明显,暂时确定feature为这20个。样本的调整 :原创 2015-09-03 20:53:35 · 377 阅读 · 0 评论