- 博客(22)
- 资源 (5)
- 收藏
- 关注
原创 hadoop2.0 mvn compile -Pnative error
在编译hadoop-2.1.1-beta时出现OPENSSL_INCLUDE_DIR找不到问题missing: OPENSSL_LIBRARIES OPENSSL_INCLUDE_DIR问题解决:后来发现是libssl-dev包没安装sudo apt-get install libssl-dev
2013-10-10 10:32:10
835
原创 自然语言处理5-条件随机场(CRF)
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型;条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。条件随机场的缺点是训练的时间比较长。条件随机场定义 设G=(V,E)是一个无向图,Y=(Y
2013-06-12 20:28:40
2967
原创 自然语言处理4-最大熵马尔科夫模型(MEMM)
最大熵马尔科夫模型(MEMM)定义:MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。 MEMM依赖图Ø S表示状态的有限集合Ø O表示观察序列集合Ø P
2013-06-12 20:16:53
7611
原创 自然语言处理3-N-gram模型
设wi是文本中的任意一个词,如果已知它在该文本中的前1个词wi-1,便可以用条件概率P(wi|wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为: P(W)
2013-06-12 20:02:48
2136
原创 自然语言处理2-隐马尔科夫模型(HMM)-forward algorithm(前向算法)和Viterbi(维特比算法)
1.隐马尔科夫模型(HMM)实例:隐藏状态:Sunny,Cloudy,Rainy观察状态:Dry,Dryish,Damp,Soggy初始向量状态转移矩阵('A' ) weatheryesterday weather today SunnyCloudyRainy
2013-06-04 19:17:16
1683
原创 自然语言处理1-马尔科夫链和隐马尔科夫模型(HMM)
基于统计的语言模型比基于规则的语言模型有着天然的优势,而(中文)分词是自然语言处理的基础,接下来我们将注重介绍基于统计的中文分词及词性标注技术。为此做以下安排:首先介绍一下中文处理涉及到基本概念,接着分析开源的一些基于统计的中文分词原理。中文分词涉及的基本概念有马尔科夫链,隐马尔科夫模型(HMM),Ngram模型,最大熵马尔科夫模型(MEMM),条件随机场(CRF)等1、马尔科夫链通俗
2013-06-03 17:39:16
8725
转载 机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6
2013-04-06 18:10:26
746
转载 遗传算法
遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体
2013-04-06 17:20:43
741
转载 模拟退火算法
一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为
2013-04-06 17:15:55
682
转载 卡方检验用于特征选择
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在
2013-04-06 12:04:58
704
转载 卡方检验基础
x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。 一、四格表资料的x2检验 例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较
2013-04-06 12:02:48
4175
转载 基于贝叶斯算法的文本分类算法
因为要做一个关于数据挖掘的算法应用PPT,虽然知道很多数据挖掘的算法怎么使用,但是需要讲解它们的原理,还真的需要耗费很多精力,之前做一个曲线拟合,已经发在博客里,现在做贝叶斯算法的基础原理。1、基本定义:分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别
2013-03-17 16:50:14
798
转载 回归(regression)、梯度下降(gradient descent)
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。
2013-03-17 16:43:20
566
原创 Oozie Error: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozie i
bin/oozie job -oozie http://hadoop-01:11000/oozie -config /tmp/examples/apps/map-reduce/job.properties -runError: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozi
2012-02-28 10:51:11
1318
原创 ubuntu下安装软件出现You might want to run 'apt-get -f install' to correct these解决
hadoop@hadoop-01:/etc/apt$ sudo apt-get install unzip出现以下错误Reading package lists... DoneBuilding dependency treeReading state information... DoneYou might want to run 'apt-get -f install'
2012-02-21 16:16:05
1028
原创 LinkedList前世今生
1、LinkedList元素在内部存储的实现,节点定义即指向前一元素的指针,后一元素的指针,当前元素的值。 private static class Entry { E element; Entry next; Entry previous; Entry(E element, Entry next, Entry previous) {
2010-04-14 17:34:00
529
原创 ArrayList前世今生
1、 ArrayList默认的初始化因子大小是10。/** * Constructs an empty list with an initial capacity of ten.//一般初始化因子为10 */ public ArrayList() { this(10);// 调用2中的ArrayList(int initialCapacity);
2010-04-14 15:36:00
680
原创 MDX 业务实现
v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);} Normal 0 false
2010-04-14 15:17:00
894
转载 Java中Array与ArrayList的主要区别
1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变; ArrayList: 容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!
2010-04-14 14:58:00
860
转载 JAVA String
关键字: string 要理解java中String的运作方式,必须明确一点:String是一个非可变类(immutable)。什么是非可变类呢?简单说来,非可变类的实例是不能被修改的,每个实例中包含的信息都必须在该实例创建的时候就提供出来,并且在对象的整个生存周期内固定不变。java为什么要把String设计为非可变类呢?你可以问问 james Gosling
2009-11-18 15:04:00
513
iBATIS-SqlMaps-2_cn.pdf
2009-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人