自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 HDFS源码剖析第一篇:Hadoop Configuraion

HDFS源码剖析第一篇:Hadoop Configuraion

2015-05-11 13:18:52 880

原创 Erlang:RabbitMQ源码分析 5. worker pool 实现分析

Erlang:RabbitMQ源码分析 5. worker pool 实现分析

2014-09-19 20:55:43 1470

翻译 Erlang学习: EUnit Testing for gen_fsm

(译)Erlang学习: EUnit Testing for gen_fsm

2014-09-17 14:56:56 1177

原创 Erlang:RabbitMQ源码分析 4. file_handle_cache实现分析

Erlang:RabbitMQ源码分析 4. file_handle_cache实现分析

2014-09-14 10:08:40 1770

原创 Erlang:RabbitMQ源码分析 3. supervisor和supervisor2深入分析

Erlang:RabbitMQ源码分析系列——supervisor和supervisor2源码分析,

2014-09-10 07:30:03 2220

原创 Erlang:RabbitMQ源码分析 2. gen_server和gen_server2 深入剖析

RabbitMQ重新实现了erlang的gen_server -> gen_server2。 本文从源码角度对比二者的实现。

2014-09-03 16:08:30 3009

原创 Erlang:RabbitMQ源码分析 1. 启动过程

RabbitMQ源码分析 1. 启动过程

2014-08-24 15:34:37 5655

原创 频繁模式挖掘总结

概念:         对于频繁模式挖掘,有两个基本的概念:         support:             support = P(A,B)               confidence:      confidence = P(A|B) = support/P(B)存储:         在频繁模式挖掘算法中,我们每一轮在计算所有k项集时,本来要用k维

2011-11-28 08:00:46 2504

原创 Star Schema 设计与总结

在实际工作中,遇到的数据通常是很不规则的,类似于xml,有很多一对多的关系。例如一个商品,可以有很多种税,有几个累加的折扣,每个折扣又有一些信息,例如折扣的原因,折扣率之类。在《Star Schema The Complete Reference》中提到了两种经典的做法来解决一对

2011-08-17 12:36:18 1875

原创 《Star Schema The Complete Reference》 读书笔记(2)

由于周二要开会讨论,周一必须交掉初步的设计,来不及把书看完,首先把余下部分笔记粘贴上,再谈谈自己的看法。7. 在Star Schema中,可以有Junk dimension table. 里面可以存一些flag,type这种distinct value较少的属性。

2011-08-17 11:58:03 969

原创 《Professional Linux Kernel Architecture》读书笔记 (1)

个人觉得读Linux内核架构是理解操作系统最好的方式,于是在实习之余开始读这本书。估计要很久才能读完。这是上周的笔记。1. 当Linux在中断模式的情况下,内核没有权限访问用户的内存空间。2. 对于32bit的操作系统,每个进程眼中的虚存都是4G,64位的会小于2

2011-08-13 12:59:38 1689

原创 《Star Schema The Complete Reference》 读书笔记(1)

现代数据仓库架构中,表结构以Star Schema为主。由于数据来源往往是类似于XML的半结构格式,如何转换为表结构存入数据库中,特别是Star Schema结构尤其重要。1. Star Schema由一个fact table和很多dimension tables 组成,首先

2011-08-13 12:36:55 1823

原创 Hadoop的M-R中间任务分配

Hadoop中,JobTracker会定期与tasktracker保持心跳。tasktracker会告知JobTracker是否上面有task在工作。如果没有,JobTracker会从task的队列中取出一个task交给相应的tasktracker。这个reducetask的ID

2010-08-01 21:37:00 870

原创 Hadoop数据分配

在Hadoop分配任务时,可以由一步MapReduce将数据拆分,每一份放在一个结点上。经过观察,每一份被分配到的结点是确定而非随机的。而HDFS上的文件,可以在Hadoopfs/data/current/ 下被本地访问。可以用文件创建时间来区分block(最新).

2010-07-29 21:45:00 656

原创 Hadoop 的lzo压缩尝试

<br />具体设置见那两个网页,一个是hadoop-gpl-compression 的wiki,一个是[hadoop系列]hadoop-gpl-compression的安装和编译<br />切记要<br /><property> <br /><name>mapred.compress.map.output</name> <br /><value>true</value> <br /></property> <br /><property> <br /><name>mapred.map.output.com

2010-07-12 00:54:00 504

原创 基于图的PageRank on Hadoop

老板一直希望我们能用图分割的方法来做PageRank on Hadoop。但是涉及困难很多,一直无法下手。今天看着程序慢慢的运行,感慨收敛速度慢的要死,终于有些新想法。也算是给基于图的PageRank on Hadoop开一个头。可以先将图分割,在这里可以分的多一点,例如50张。暂不考虑单机处理和单图收敛问题。如果某一张图判断已收敛,就将其遗弃。以减轻I/O。单张图收敛次数应该小于全局。使收敛更快。求图切割算法ing.

2010-06-27 16:47:00 913

原创 sequencefile 和arraywritable问题解

arraywritable的问题还是由sequencefile 来解决新的recordreader不再是继承sequencefilerecordreader,而是继承recordreader,按照sequencefilerecordreader的方式来写有个问题是nextkeyvalue函数里,都要求参数是object类型,在此可以用objectwritable来解决还有arraywritable没有参数个数为零的构造函数,会导致Map到Reduce过程中传输问题。可以继承arraywritable,自己来

2010-06-26 20:34:00 985

原创 Hadoop namenode宕机问题。

<br />最近Hadoop平台常常出现问题,应该是namenode的问题,空间不足,无法写入之类。<br />现阶段发现的原因是tmp文件夹,都删除后格式化,问题暂时没再出现

2010-06-26 20:29:00 1978

原创 nutch 初体验

<br />因为nutch中就有Hadoop,所以在其中配置Hadoop和原本的Hadoop配置几乎相同。<br />唯一不同的就是要配置<br />1.所有节点的nutch-site.xml文件<br /><?xml version="1.0"?><br /><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><br /><!-- Put site-specific property overrides in this file. --><

2010-06-10 23:08:00 523

原创 Hadoop的sequence File

<br />第一次写自定义类型的sequence File。<br />发现必须继承两个文件一个是sequenceFileinputformat,一个是sequenceFileRecordReader。<br />发现虽然Hadoop中有arraywritable类型,但是很难使用。<br />无论是哪种inputformat,其读取key/value对时,无论是以byte[],还是String ,都无法将value还原回array。<br />如果用object,还是会降低效率。<br />最好都用Tex

2010-06-10 23:01:00 1492

原创 Hadoop的combiner尝试

Hadoop样例代码中的wordcount使用了combiner。但对于map的输出形式与reduce输出形式不一样的应用,直接使用reduce函数进行combiner会出错。因此,必须自己重写combiner。在撰写含有combiner的应用时,需注意,对于所有Map的输出,并非一定都经过combiner步骤,可能直接的读写就进入了reduce。而且combiner虽然能减少IO,但是会增加Map时间(等于多做了一次reduce),能否提高总体性能要看实际情况而定。

2010-06-08 18:37:00 2033

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除