自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(269)
  • 收藏
  • 关注

原创 Ubuntu安装Chrome最新版

sudo add-apt-repository ppa:chromium-daily/ppasudo apt-get updatesudo apt-get install chromium-browser 

2012-08-31 18:38:36 299

原创 rsync、pscp、ssh

转自:http://jeck218.iteye.com/blog/357093 rsync用法 rsync -avz admin@10.1.6.167:/tmp/antx.properties  /cygdrive/c/ 下载antx.properties到本地c盘rsync -avz /cygdrive/c/antx.properties  admin@10.1.6.167...

2012-08-31 11:48:36 252

原创 Parallel K-Means Clustering Based on MapReduce

K-meansis a pleasingly parallel algorithm that very easily fits into the Iterativemap- reduce model.! 附件是一篇论文,伪代码和算法解释都很清楚。 

2012-08-04 20:28:03 404

原创 Michael Mitzenmacher:如何阅读论文

 原文链接:How to read a research paper [pdf] 作者:Michael Mitzenmacher 译者:Esther  本学期我们会讨论如何写论文。不过开课之前,我们要先搞懂如何读论文。我们的讨论前提是你有充分的理由仔细阅读论文。例如,我布置的作业(可能)是你要阅读的充分理由。如果要求你评判某篇论文或者它与你自己的论文相关,你也可能需要仔细阅读论文。我们...

2012-07-27 12:36:43 288

EM算法小结

 描述EM是一种基于模型的聚类算法,假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上个参数获得。       混合模型的定义是几个模型的线性加和,也就是说给每一个模型加上一个权重,几个模型都乘以一个权重数,权重的和是1。因此上述高斯混合模型就是多个高斯模型的加和,并给每一个模型...

2012-07-20 12:16:38 275

原创 Pagerank在Hadoop上的实现原理

转自:pagerank 在 hadoop 上的实现原理  PageRank 算法的基本思想是,网页的热门程度依赖于指向它的网页的热门程度。假设有页面 ,有  这  个页面包含指向  的链接,代表页面  所包含的指向别的页面的链接的数量, 是一个介于 0 和 1 之间的常数(称为阻尼系数,一般取 0.85),则页面 的 PR 值(PageRank 值)   这个思想也可以...

2012-07-19 16:04:30 226

原创 Python help:type、dir、help

  type,查看变量类型dir,查看变量或者类型、可以使用的函数、属性。如果是类,必须用引号括起。help, 用法和dir类似。 显示所有变量或者类的详细介绍。  ...

2012-07-18 17:04:36 154

Including external jars in a Hadoop job

办法1: 把所有的第三方jar和自己的class打成一个大的jar包,这种方案显然笨拙,而且更新升级比较繁琐。 办法2:  在你的project里面建立一个lib文件夹,然后把所有的第三方jar包放到里面去,hadoop会自动加载lib依赖里面的jar。  此方法来自Including external jars in a Hadoop job "Luckily, I bumped i...

2012-06-25 20:24:34 135

原创 [转]Git与Github的使用(ubuntu)

 转自:http://www.pureweber.com/article/git-and-github/Git的简介Git是2005年Linus Torvalds 为了帮助管理 Linux(R) 内核开发而开发的一个开放源码的版本控制软件,正如所提供的文档中说的一样,”Git 是一个快速、可扩展的分布式版本控制系统,它具有极为丰富的命令集,对内部系统提供了高级操作和完全访问。” ...

2012-06-19 18:31:59 135

原创 Java 常用正则表达式以及示例

 众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。  大家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配...

2012-06-19 16:55:58 347

原创 Java实现排列组合

1、全排列package cn.edu.xmu.dm.others;import java.util.ArrayList;/** * 全排列算法 * */public class Arrange { private int total = 0; private ArrayList<String> arrangeList = new...

2012-06-15 21:47:53 260

原创 Mahout资源

 Quickstart Creating Vectors from TextClustering Your Data 

2012-06-14 16:38:27 134

原创 Mahout Creating Vectors from Weka's ARFF Format

转自: https://cwiki.apache.org/MAHOUT/creating-vectors-from-wekas-arff-format.htmlIntroductionMahout now has capabilities for converting Weka's ARFF (2.1) format to Mahout's Vector format.Runn...

2012-06-12 17:00:59 140

原创 研究生能力培养手册

 1. 如果平时几乎没看过英文原文,读不懂怎么办?  其实我以前也根本没读过原文,也看不懂。这儿有个好办法:找一本中文经典的书籍,仅看某一节你感兴趣或与你相关的内容,然后先找一两篇英文的综述(review)认真阅读一下,不会的单词可用金山词霸查一查,也许你读第一篇文章需要花两天,你过两天再读第2遍时,你也许只要一天;然后你再读第2篇时也许你只要半天!然后你一定会真正发现读英文文献的快感...

2012-06-10 21:00:02 159

原创 最大似然估计 高斯分布 正态分布

极大似然估计法是求估计的另一种方法。它最早由高斯提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇给的。这是一种上前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。...

2012-06-05 23:46:34 7000

原创 [转]中科院分词工具ICTCLAS Java JNI接口

 ICTCLAS,网址:http://www.ictclas.org中科院计算所ICTCLAS 5.0ICTCLAS的含义是:Institute of Computing Technology, Chinese Lexical Analysis System(中科院)计算技术研究所,中文词法分析系统开源版本下载:http://www.ictclas.org/ictc...

2012-06-04 15:07:36 408

原创 Ubuntu下安装deb文件的方法

  Ubuntu的软件包格式是deb,如果要安装rpm的包,则要先用alien把rpm转换成deb。 sudo apt-get install alien #alien默认没有安装,所以首先要安装它   sudo alien xxxx.rpm #将rpm转换位deb,完成后会生成一个同名的xxxx.deb   sudo dpkg -i xxxx.deb ...

2012-06-03 21:27:05 633

原创 Mahout clustering Canopy+K-means 源码分析

 聚类分析      聚类(Clustering)可以简单的理解为将数据对象分为多个簇(Cluster),每个簇 里的所有数据对象具有一定的相似性,这样一个簇可以看多一个整体对待,以此可以提高计算质量或减少计算量。而数据对象间相似性的衡量通常是通过坐标系中空间距离的大小来判断;常见的有 欧几里得距离算法、余弦距离算法、皮尔逊相关系数算法等,Mahout对此都提供了实现,并且你可以在实现...

2012-06-03 16:10:08 312

原创 优先级队列

优先级队列,是堆数据结构的典型应用。优先级队列的一个典型应用,就是排队任务的有限调度,当一个任务结束后,优先执行当前优先级最高的任务。队列一个任务是,调用INSERT方法。 http://mushiqianmeng.blog.51cto.com/3970029/743611  ...

2012-06-03 14:14:18 126

原创 Mahout K-means clustering 入门

Mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是Hadoop中的一个类,允许我们向文件中写入二进制的键值对。       Mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。(You may find Tika (http://lucene.apache.org/tika)...

2012-06-03 10:18:35 172

原创 推荐系统相关资源

 http://www.ibm.com/developerworks/cn/java/j-mahout/  http://xlvector.cn  https://groups.google.com/group/resys  著名博客  Daniel Lemire http://www.daniel-lemire.com  Greg Linden htt...

2012-06-02 22:11:45 154

原创 阿里巴巴的零知识证明

战争中你被俘了,敌人拷问你情报。你是这么想的:如果我把情报都告诉他们,他们就会认为我没有价值了,就会杀了我省粮食,但如果我死活不说,他们也会认为我没有价值而杀了我。怎样才能做到既让他们确信我知道情报,但又一丁点情报也不泄露呢? 这的确是一个令人纠结的问题,但阿里巴巴想了一个好办法,当强盗向他拷问打开山洞石门的咒语时,他对强盗说:“你们离我一箭之地,用弓箭指着我,你们举起右手我就念咒语打开...

2012-06-02 11:37:51 178

Mahout实现的机器学习算法

 使用命令:mahout -h 在Mahout实现的机器学习算法见下表:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法...

2012-06-01 20:37:59 219

原创 Mahout文件系统结构说明

Mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对Mahout的组成进行介绍: 1、mahout-core:核心程序模块,位于/core目录下; 2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下; 3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序...

2012-06-01 20:35:42 255

原创 Eclipse导入Mahout

1、环境配置  a)JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。 b)Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2、下载Mahout源代码  与其他Apache下开源项目类似,可以有两种获取源码的方法: 一是通过Subversion...

2012-06-01 20:33:03 315

原创 正则表达式学习资源

不懂正则表达式,怎么好意思说是玩文本挖掘的?  下面给出一些正则表达式的学习资源,希望一起补充、交流、学习  1、正则表达式30分钟入门教程      入门教程,涵盖了正则表达式的知识点,有理论,有示例,以及正则表达式测试工具        2、http://www.regular-expressions.info/ 3、More......

2012-05-30 11:37:15 114

原创 基于向量空间模型的文本聚类算法

1 文本聚类研究现状  Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容...

2012-05-29 18:26:17 220

原创 Java: Sort a HashMap by its Value

When you use a TreeMap, the entries in the Map is sorted by the keys.  This following code outputs the elements of the map sorted by value. import java.util.*;@SuppressWarnings("uncheck...

2012-05-29 18:16:51 121

Hadoop中两表JOIN的处理方法

1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍 假设要进行join的数据分别来自F...

2012-05-29 10:35:20 112

Hadoop DistributedCache

  Hadoop的DistributedCache,可以把HDFS中的文件加载到DistributedCache中,当我们需要这些文件时,DistributedCache自动把这些文件下载到集群中节点的本地存储上(mapred.local.dir)。这样就不需要一一布置第三方的Jar包,并且Hadoop集群增加节点也不需要再上传了。 此外DistributedCache对于Read-Onl...

2012-05-27 23:45:53 106

原创 MapReduce,组合式,迭代式,链式

 1.迭代式mapreduce 一些复杂的任务难以用一次MapReduce处理完成,需要多次MapReduce 才能完成任务,例如Pagrank,K-means算法都需要多次的迭代,关于MapReduce 迭代在Mahout中运用较多。有兴趣的可以参考一下Mahout的源码。      在MapReduce的迭代思想,类似for循环,前一个MapReduce的输出结果,作为...

2012-05-27 23:27:09 100

Hadoop ChainMap

单一MapReduce对一些非常简单的问题提供了很好的支持。但是如果处理过程变得更加复杂,这种复杂性应该体现为更多地MapReduce工作,而不是更加复杂的map函数和reduce函数。 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进行reduce,经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理,这样的Job是不会保存中间...

2012-05-27 23:09:35 110

原创 杨氏矩阵查找

问题描述: 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 例如下面的二维数组就是每行、每列都递增排序。如果在这个数组中查找数字6,则返回true;如果查找数字5,由于数组不含有该数字,则返回false。 1 2 8 9  2 4 9 12  4 7...

2012-05-26 22:01:35 97

原创 广度优先BFS的MapReduce实现

社交网络中的图模型经常需要构造一棵树型结构:从一个特定的节点出发,例如,构造mary的朋友以及mary朋友的朋友的一棵树。为构造这样的一棵树,最简单的方法是使用广度优先算法: 经常使用链表来表示图的节点以及节点之间的链接关系,如 frank -> {mary, jill}jill -> {frank, bob, james}mary -> {willi...

2012-05-25 21:47:16 776

原创 HADOOP程序日志

*.log日志文件和*.out日志文件 进入Hadoop_LOG目录,可以看到如下文件:  在启动Hadoop集群时,由hadoop-daemon.sh脚本指定一些列环境变量,然后log4j.properties文件读取相应的环境变量产生对应的*.log日志文件。这个日志文件输出类型为org.apache.log4j.DailyRollingFileAppender,它会自动按天更...

2012-05-23 19:53:39 122

TFIDF based on MapReduce

 Job1: Map: input: (document, each line of the document) # TextInputformat output: (word@document, 1) Reducer: output: ((word@document), n) n = sum of the values of each key(word...

2012-05-23 11:58:19 92

原创 个人Hadoop 错误列表

 错误1:Too many fetch-failures Reduce task启动后第一个阶段是shuffle,即向map端fetch数据。每次fetch都可能因为connect超时,read超时,checksum错误等原因而失败。Reduce task为每个map设置了一个计数器,用以记录fetch...

2012-05-23 11:31:36 223

原创 再往前一步,学会更专业地看待问题,尝试去解决问题。

在科研工作中,有一个很基本的技能,就是对自己和别人的工作进行评估(review):分析该项工作的长处、不足和改进方案。事实上,整个科学研究都建立在这种评估的体系中。严肃的科学杂志,顶级的国际科研会议,都会对投稿的文章进行严格的评估。 在研究生或者博士生的某些课程中,老师会要求学生对已经发表的论文进行评估,并且重点说出这些论文的问题。最开始的时候,一般学生很难发现这些论文的不足之处,因为...

2012-05-22 14:11:27 164

Hadoop Map&Reduce个数优化设置以及JVM重用

        Hadoop与JVM重用对应的参数是mapred.job.reuse.jvm.num.tasks,默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。        比如在集群中配置每个slave节点最多同时运行16个map和2个reduce。那么在map阶段,slave节点会启动最多16个JVM用于m...

2012-05-22 11:29:40 424

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

 map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracke...

2012-05-20 23:46:14 520

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除