
数据挖掘 文本处理
文章平均质量分 67
mm_bit
这个作者很懒,什么都没留下…
展开
-
各分词工具介绍
NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。关键词提取;同时支持用户词典。,可以可视化界面操作和API方式调用采用了层叠隐马尔可夫模型全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Ja原创 2015-06-24 09:44:15 · 4910 阅读 · 0 评论 -
SVM常用的核函数
支持向量机是建立在统计学习理论基础之上的新一代机器学习算法,支持向量机的优势主要体现在解决线性不可分问题,它通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。构造出一个具有良好性能的SVM,核函数的选择是关键.核函数的选择包括两部分工作:一是核函数类型的选择,二是确定核函数类型后相关参数的选择.因此如何根据具体的数据选择恰当的核函数是SVM应用领域遇到的一转载 2015-08-21 12:03:14 · 6418 阅读 · 0 评论 -
SVM分类器原理详解
第一层、了解SVM 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。1.1、分类标准的起源:Logistic回归 理解SVM,咱们必须先弄清楚一个概念:线性分类器。转载 2015-08-21 11:51:05 · 116123 阅读 · 8 评论 -
LDA主题模型的训练算法和预测算法
LDA训练算法:(1)随机初始化α和β(一般α取值为50/主题数,β取值为0.1);(2)以下步骤迭代直到收敛: (2.1)对训练集中的每篇文档: (2.1.1)利用当前的α和β值计算每篇文档的主题分布、每个词所属的主题分布(具体算法见下文); (2.2)累积所有文档中,属于主题k(k=1…K)的词的个数,得到向量gammas;以及词i(i=1…V)属于原创 2015-08-21 17:55:17 · 11606 阅读 · 1 评论 -
Libsvm的使用
LIBSVM简介支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的,自己编程实现该算法难度就更大了。但是现在的网络资源非常发达,而且国际上的科学研究者把他们的研究成果已经放在网络上,免费提供给用于研究目的,这样方便大多数的研究者,不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多,如LIBSVM、mySVM、SVMLight等,这些软转载 2015-08-21 11:52:02 · 794 阅读 · 0 评论 -
adaBoost算法
二、Adaboost算法及分析 从图1.1中,我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法,可以总结如下: 1)每次迭代改变的是样本的分布,而不是重复采样(re weight) 2)样本分布的改变取决于样本是否被正确分类 总是分类正确的样本权值低 总是分类错误的样本权值高(通常是边界附近的样本)原创 2015-08-21 12:02:32 · 651 阅读 · 0 评论 -
LDA主题模型的java代码实现
LDA主题模型的java代码实现,包括训练和预测原创 2015-08-20 10:21:30 · 9696 阅读 · 3 评论 -
LDA主题模型介绍
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易原创 2015-08-20 09:59:42 · 3963 阅读 · 0 评论 -
weka中的各算法说明
1) 数据输入和输出WOW():查看Weka函数的参数。Weka_control():设置Weka函数的参数。read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预转载 2015-08-19 17:36:18 · 5634 阅读 · 0 评论 -
词性标注 词性标识编码表
参考《PFR人民日报标注语料库》的词性编码表,如表4-4所示:表4-4 词性编码表代码名称举例a形容词最/d 大/a 的/u ad副形词一定/d 能够/v 顺利/ad 实现/v 。/w原创 2015-08-07 11:29:19 · 2620 阅读 · 0 评论 -
正则化解决过拟合问题
关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。正则化符合奥卡姆剃刀(Occam's razor)原理原创 2015-07-24 14:54:51 · 2104 阅读 · 0 评论 -
过拟合问题简述
关于过度拟合的概念:给定一个假设空间H,一个假设h∈H,如果存在其他的假设h’∈H,使得在训练样例上h的错误率比h‘小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据过滤拟合可能的原因:(1)使用过于复杂的模型(dvc 很大);(2)数据噪音;(3)有限的训练数据。详细解释:1、所使用的模型对数据集来说过于复杂,以至于该模型不能很好地解释这些数据,把很简单的数原创 2015-07-22 09:51:12 · 890 阅读 · 0 评论 -
分类问题 boosting思想
Boosting思想:Boosting方法不是一种特定的学习方法,而是一种在已有的学习方法基础上进行“投票”的方式。具体说来,它是对已有的若干分类器(可谓同类或者异类,且分类效果不死很好,比较弱)进行加权求和得到最终的分类器。虽然从理论上来说, 任何机器学习方法都可以作为Boosting 方法的弱学习器,在实际中,Boosting的弱规则常采用基于规则的方法。Boosting通过关注弱规则原创 2015-07-20 17:49:26 · 2184 阅读 · 0 评论 -
libsvm中java.lang.NoSuchFieldException: rand
libsvm中java.lang.NoSuchFieldException: rand原创 2015-07-18 21:19:53 · 770 阅读 · 0 评论 -
java.lang.Exception: libsvm classes not in CLASSPATH!问题解决方法
weka中svm的使用原创 2015-07-18 18:06:54 · 1466 阅读 · 0 评论 -
分类问题 特征向量的归一化方法
下面介绍几种归一化的方法: 1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 2、对数函数转换,表达式如下: y=log10 (x) 3、反余切函数转换 ,表达式如下: y=arctan(x)*2/PI 4、减去均值,乘以方差: y=(x-means)转载 2015-07-20 17:34:57 · 6658 阅读 · 6 评论 -
防止过拟合
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。为了防止overfitting,可以用的方法有很多,下文就将以此展开。有一个概念需要先说明,在机器学习算法中,我们常常将原始数据集分为三转载 2015-09-13 17:34:40 · 1261 阅读 · 0 评论