- 博客(21)
- 收藏
- 关注
原创 Erlang:RabbitMQ源码分析 5. worker pool 实现分析
Erlang:RabbitMQ源码分析 5. worker pool 实现分析
2014-09-19 20:55:43
1470
翻译 Erlang学习: EUnit Testing for gen_fsm
(译)Erlang学习: EUnit Testing for gen_fsm
2014-09-17 14:56:56
1177
原创 Erlang:RabbitMQ源码分析 4. file_handle_cache实现分析
Erlang:RabbitMQ源码分析 4. file_handle_cache实现分析
2014-09-14 10:08:40
1770
原创 Erlang:RabbitMQ源码分析 3. supervisor和supervisor2深入分析
Erlang:RabbitMQ源码分析系列——supervisor和supervisor2源码分析,
2014-09-10 07:30:03
2220
原创 Erlang:RabbitMQ源码分析 2. gen_server和gen_server2 深入剖析
RabbitMQ重新实现了erlang的gen_server -> gen_server2。 本文从源码角度对比二者的实现。
2014-09-03 16:08:30
3009
原创 频繁模式挖掘总结
概念: 对于频繁模式挖掘,有两个基本的概念: support: support = P(A,B) confidence: confidence = P(A|B) = support/P(B)存储: 在频繁模式挖掘算法中,我们每一轮在计算所有k项集时,本来要用k维
2011-11-28 08:00:46
2504
原创 Star Schema 设计与总结
在实际工作中,遇到的数据通常是很不规则的,类似于xml,有很多一对多的关系。例如一个商品,可以有很多种税,有几个累加的折扣,每个折扣又有一些信息,例如折扣的原因,折扣率之类。在《Star Schema The Complete Reference》中提到了两种经典的做法来解决一对
2011-08-17 12:36:18
1875
原创 《Star Schema The Complete Reference》 读书笔记(2)
由于周二要开会讨论,周一必须交掉初步的设计,来不及把书看完,首先把余下部分笔记粘贴上,再谈谈自己的看法。7. 在Star Schema中,可以有Junk dimension table. 里面可以存一些flag,type这种distinct value较少的属性。
2011-08-17 11:58:03
969
原创 《Professional Linux Kernel Architecture》读书笔记 (1)
个人觉得读Linux内核架构是理解操作系统最好的方式,于是在实习之余开始读这本书。估计要很久才能读完。这是上周的笔记。1. 当Linux在中断模式的情况下,内核没有权限访问用户的内存空间。2. 对于32bit的操作系统,每个进程眼中的虚存都是4G,64位的会小于2
2011-08-13 12:59:38
1689
原创 《Star Schema The Complete Reference》 读书笔记(1)
现代数据仓库架构中,表结构以Star Schema为主。由于数据来源往往是类似于XML的半结构格式,如何转换为表结构存入数据库中,特别是Star Schema结构尤其重要。1. Star Schema由一个fact table和很多dimension tables 组成,首先
2011-08-13 12:36:55
1823
原创 Hadoop的M-R中间任务分配
Hadoop中,JobTracker会定期与tasktracker保持心跳。tasktracker会告知JobTracker是否上面有task在工作。如果没有,JobTracker会从task的队列中取出一个task交给相应的tasktracker。这个reducetask的ID
2010-08-01 21:37:00
870
原创 Hadoop数据分配
在Hadoop分配任务时,可以由一步MapReduce将数据拆分,每一份放在一个结点上。经过观察,每一份被分配到的结点是确定而非随机的。而HDFS上的文件,可以在Hadoopfs/data/current/ 下被本地访问。可以用文件创建时间来区分block(最新).
2010-07-29 21:45:00
656
原创 Hadoop 的lzo压缩尝试
<br />具体设置见那两个网页,一个是hadoop-gpl-compression 的wiki,一个是[hadoop系列]hadoop-gpl-compression的安装和编译<br />切记要<br /><property> <br /><name>mapred.compress.map.output</name> <br /><value>true</value> <br /></property> <br /><property> <br /><name>mapred.map.output.com
2010-07-12 00:54:00
504
原创 基于图的PageRank on Hadoop
老板一直希望我们能用图分割的方法来做PageRank on Hadoop。但是涉及困难很多,一直无法下手。今天看着程序慢慢的运行,感慨收敛速度慢的要死,终于有些新想法。也算是给基于图的PageRank on Hadoop开一个头。可以先将图分割,在这里可以分的多一点,例如50张。暂不考虑单机处理和单图收敛问题。如果某一张图判断已收敛,就将其遗弃。以减轻I/O。单张图收敛次数应该小于全局。使收敛更快。求图切割算法ing.
2010-06-27 16:47:00
913
原创 sequencefile 和arraywritable问题解
arraywritable的问题还是由sequencefile 来解决新的recordreader不再是继承sequencefilerecordreader,而是继承recordreader,按照sequencefilerecordreader的方式来写有个问题是nextkeyvalue函数里,都要求参数是object类型,在此可以用objectwritable来解决还有arraywritable没有参数个数为零的构造函数,会导致Map到Reduce过程中传输问题。可以继承arraywritable,自己来
2010-06-26 20:34:00
985
原创 Hadoop namenode宕机问题。
<br />最近Hadoop平台常常出现问题,应该是namenode的问题,空间不足,无法写入之类。<br />现阶段发现的原因是tmp文件夹,都删除后格式化,问题暂时没再出现
2010-06-26 20:29:00
1978
原创 nutch 初体验
<br />因为nutch中就有Hadoop,所以在其中配置Hadoop和原本的Hadoop配置几乎相同。<br />唯一不同的就是要配置<br />1.所有节点的nutch-site.xml文件<br /><?xml version="1.0"?><br /><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><br /><!-- Put site-specific property overrides in this file. --><
2010-06-10 23:08:00
523
原创 Hadoop的sequence File
<br />第一次写自定义类型的sequence File。<br />发现必须继承两个文件一个是sequenceFileinputformat,一个是sequenceFileRecordReader。<br />发现虽然Hadoop中有arraywritable类型,但是很难使用。<br />无论是哪种inputformat,其读取key/value对时,无论是以byte[],还是String ,都无法将value还原回array。<br />如果用object,还是会降低效率。<br />最好都用Tex
2010-06-10 23:01:00
1492
原创 Hadoop的combiner尝试
Hadoop样例代码中的wordcount使用了combiner。但对于map的输出形式与reduce输出形式不一样的应用,直接使用reduce函数进行combiner会出错。因此,必须自己重写combiner。在撰写含有combiner的应用时,需注意,对于所有Map的输出,并非一定都经过combiner步骤,可能直接的读写就进入了reduce。而且combiner虽然能减少IO,但是会增加Map时间(等于多做了一次reduce),能否提高总体性能要看实际情况而定。
2010-06-08 18:37:00
2033
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人