tony_xjz-优快云博客

原创 hadoop2.0 mvn compile -Pnative error

在编译hadoop-2.1.1-beta时出现OPENSSL_INCLUDE_DIR找不到问题missing: OPENSSL_LIBRARIES OPENSSL_INCLUDE_DIR问题解决：后来发现是libssl-dev包没安装sudo apt-get install libssl-dev

2013-10-10 10:32:10 869

原创自然语言处理5-条件随机场（CRF）

条件随机场模型是Lafferty于2001年，在最大熵模型和隐马尔科夫模型的基础上，提出的一种判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型；条件随机场模型作为一个整句联合标定的判别式概率模型，同时具有很强的特征融入能力，是目前解决自然语言序列标注问题最好的统计模型之一。条件随机场的缺点是训练的时间比较长。条件随机场定义设G=（V，E）是一个无向图，Y=(Y

2013-06-12 20:28:40 3010

原创自然语言处理4-最大熵马尔科夫模型（MEMM）

最大熵马尔科夫模型（MEMM）定义：MEMM是这样的一个概率模型，即在给定的观察状态和前一状态的条件下，出现当前状态的概率。 MEMM依赖图Ø S表示状态的有限集合Ø O表示观察序列集合Ø P

2013-06-12 20:16:53 7687

原创自然语言处理3-N-gram模型

设wi是文本中的任意一个词，如果已知它在该文本中的前1个词wi-1，便可以用条件概率P(wi|wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说，如果用变量W代表文本中一个任意的词序列，它由顺序排列的n个词组成，即W=w1w2...wn，则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式，P(W)可展开为： P(W)

2013-06-12 20:02:48 2231

原创自然语言处理2-隐马尔科夫模型（HMM）-forward algorithm（前向算法）和Viterbi（维特比算法）

1.隐马尔科夫模型（HMM）实例：隐藏状态：Sunny，Cloudy，Rainy观察状态：Dry，Dryish，Damp，Soggy初始向量状态转移矩阵('A' ) weatheryesterday weather today SunnyCloudyRainy

2013-06-04 19:17:16 1749

原创自然语言处理1-马尔科夫链和隐马尔科夫模型（HMM）

基于统计的语言模型比基于规则的语言模型有着天然的优势，而（中文）分词是自然语言处理的基础，接下来我们将注重介绍基于统计的中文分词及词性标注技术。为此做以下安排：首先介绍一下中文处理涉及到基本概念，接着分析开源的一些基于统计的中文分词原理。中文分词涉及的基本概念有马尔科夫链，隐马尔科夫模型（HMM），Ngram模型，最大熵马尔科夫模型(MEMM)，条件随机场(CRF)等1、马尔科夫链通俗

2013-06-03 17:39:16 8786

转载机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6

2013-04-06 18:10:26 770

转载遗传算法

遗传算法 ( GA , Genetic Algorithm ) ，也称进化算法。遗传算法是受达尔文的进化论的启发，借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识　　作为遗传算法生物背景的介绍，下面内容了解即可：　　种群(Population)：生物的进化以群体的形式进行，这样的一个群体称为种群。　　个体

2013-04-06 17:20:43 761

转载模拟退火算法

一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索到全局最优解。如图1所示：假设C点为当前解，爬山算法搜索到A点这个局部最优解就会停止搜索，因为

2013-04-06 17:15:55 703

转载卡方检验用于特征选择

前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。　　大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在

2013-04-06 12:04:58 723

转载卡方检验基础

x2检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法。可以分为成组比较（不配对资料）和个别比较（配对，或同一对象两种处理的比较）两类。一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者，结果如表20-11，问两种疗法有无差别？表20-11 两种疗法治疗卵巢癌的疗效比较

2013-04-06 12:02:48 4441

转载基于贝叶斯算法的文本分类算法

因为要做一个关于数据挖掘的算法应用PPT，虽然知道很多数据挖掘的算法怎么使用，但是需要讲解它们的原理，还真的需要耗费很多精力，之前做一个曲线拟合，已经发在博客里，现在做贝叶斯算法的基础原理。1、基本定义：分类是把一个事物分到某个类别中。一个事物具有很多属性，把它的众多属性看作一个向量，即x=(x1,x2,x3,…,xn)，用x这个向量来代表这个事物，x的集合记为X，称为属性集。类别

2013-03-17 16:50:14 823

转载回归(regression)、梯度下降(gradient descent)

回归与梯度下降：回归在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如locally weighted回归，logistic回归，等等，这个将在后面去讲。用一个很简单的例子来说明回归，这个例子来自很多的地方，也在很多的open source的软件中看到，比如说weka。

2013-03-17 16:43:20 603

原创 Oozie Error: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozie i

bin/oozie job -oozie http://hadoop-01:11000/oozie -config /tmp/examples/apps/map-reduce/job.properties -runError: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozi

2012-02-28 10:51:11 1342

原创 ubuntu下安装软件出现You might want to run 'apt-get -f install' to correct these解决

hadoop@hadoop-01:/etc/apt$ sudo apt-get install unzip出现以下错误Reading package lists... DoneBuilding dependency treeReading state information... DoneYou might want to run 'apt-get -f install'

2012-02-21 16:16:05 1058

原创 LinkedList前世今生

1、LinkedList元素在内部存储的实现，节点定义即指向前一元素的指针，后一元素的指针，当前元素的值。 private static class Entry { E element; Entry next; Entry previous; Entry(E element, Entry next, Entry previous) {

2010-04-14 17:34:00 551

原创 ArrayList前世今生

1、 ArrayList默认的初始化因子大小是10。/** * Constructs an empty list with an initial capacity of ten.//一般初始化因子为10 */ public ArrayList() { this(10);// 调用2中的ArrayList(int initialCapacity)；

2010-04-14 15:36:00 696

原创 MDX 业务实现

v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);} Normal 0 false

2010-04-14 15:17:00 926

原创 MDX 基本概念

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

2010-04-14 15:16:00 1125

原创 MDX 简介

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

2010-04-14 15:10:00 2162

转载 Java中Array与ArrayList的主要区别

1）精辟阐述：可以将 ArrayList想象成一种“会自动扩增容量的Array”。2）Array（[]）：最高效；但是其容量固定且无法动态改变； ArrayList：容量可动态增长；但牺牲效率；3）建议：基于效率和类型检验，应尽可能使用Array，无法确定数组大小时才使用ArrayList！

2010-04-14 14:58:00 924

转载 JAVA String

关键字: string 要理解java中String的运作方式，必须明确一点：String是一个非可变类（immutable）。什么是非可变类呢？简单说来，非可变类的实例是不能被修改的，每个实例中包含的信息都必须在该实例创建的时候就提供出来，并且在对象的整个生存周期内固定不变。java为什么要把String设计为非可变类呢？你可以问问 james Gosling

2009-11-18 15:04:00 538

搜索引擎技术原理主要介绍爬虫技术，索引技术，分词技术。

搜索引擎技术原理，主要介绍爬虫技术，索引技术，分词技术。

2009-03-09

iBATIS-SqlMaps-2_cn.pdf

使用SQL Map，能够大大减少访问关系数据库的代码。SQL Map使用简单的XML配置文件将Java Bean映射成SQL语句，对比其他的数据库持续层和ORM框架（如JDO的实现，Hibernate等），SQL Map最大的优点在于它简单易学。要使用SQL Map，只要熟悉Java Bean，XML和SQL，就能使您充分发挥SQL语句的能力。

2009-04-23

Webwork2 开发指南

最近一个项目用到webwork,感觉这本电子书是一款很不错的webwork2开发指南

2009-04-23

webwork+spring+ibatis+velocity实例

最近学习项目需要，学习了webwork,spring,ibatis,velocity.并做了一个DEMO.

2009-04-29

设计模式(java)

这本用java语言来描述设计模式，简单易懂！！

2009-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人