StevenCoder-优快云博客

原创 HDFS源码剖析第一篇：Hadoop Configuraion

HDFS源码剖析第一篇：Hadoop Configuraion

2015-05-11 13:18:52 880

原创 Erlang：RabbitMQ源码分析 5. worker pool 实现分析

Erlang：RabbitMQ源码分析 5. worker pool 实现分析

2014-09-19 20:55:43 1470

翻译 Erlang学习： EUnit Testing for gen_fsm

(译）Erlang学习： EUnit Testing for gen_fsm

2014-09-17 14:56:56 1177

原创 Erlang：RabbitMQ源码分析 4. file_handle_cache实现分析

Erlang：RabbitMQ源码分析 4. file_handle_cache实现分析

2014-09-14 10:08:40 1770

原创 Erlang：RabbitMQ源码分析 3. supervisor和supervisor2深入分析

Erlang：RabbitMQ源码分析系列——supervisor和supervisor2源码分析，

2014-09-10 07:30:03 2220

原创 Erlang：RabbitMQ源码分析 2. gen_server和gen_server2 深入剖析

RabbitMQ重新实现了erlang的gen_server -> gen_server2。本文从源码角度对比二者的实现。

2014-09-03 16:08:30 3009

原创 Erlang：RabbitMQ源码分析 1. 启动过程

RabbitMQ源码分析 1. 启动过程

2014-08-24 15:34:37 5655

原创频繁模式挖掘总结

概念: 对于频繁模式挖掘，有两个基本的概念: support: support = P(A,B) confidence: confidence = P(A|B) = support/P(B)存储：在频繁模式挖掘算法中，我们每一轮在计算所有k项集时，本来要用k维

2011-11-28 08:00:46 2504

原创 Star Schema 设计与总结

在实际工作中，遇到的数据通常是很不规则的，类似于xml，有很多一对多的关系。例如一个商品，可以有很多种税，有几个累加的折扣，每个折扣又有一些信息，例如折扣的原因，折扣率之类。在《Star Schema The Complete Reference》中提到了两种经典的做法来解决一对

2011-08-17 12:36:18 1875

原创《Star Schema The Complete Reference》读书笔记（2）

由于周二要开会讨论，周一必须交掉初步的设计，来不及把书看完，首先把余下部分笔记粘贴上，再谈谈自己的看法。7. 在Star Schema中，可以有Junk dimension table. 里面可以存一些flag,type这种distinct value较少的属性。

2011-08-17 11:58:03 969

原创《Professional Linux Kernel Architecture》读书笔记 (1)

个人觉得读Linux内核架构是理解操作系统最好的方式，于是在实习之余开始读这本书。估计要很久才能读完。这是上周的笔记。1. 当Linux在中断模式的情况下，内核没有权限访问用户的内存空间。2. 对于32bit的操作系统，每个进程眼中的虚存都是4G，64位的会小于2

2011-08-13 12:59:38 1689

原创《Star Schema The Complete Reference》读书笔记（1）

现代数据仓库架构中，表结构以Star Schema为主。由于数据来源往往是类似于XML的半结构格式，如何转换为表结构存入数据库中，特别是Star Schema结构尤其重要。1. Star Schema由一个fact table和很多dimension tables 组成，首先

2011-08-13 12:36:55 1823

原创 Hadoop的M-R中间任务分配

Hadoop中，JobTracker会定期与tasktracker保持心跳。tasktracker会告知JobTracker是否上面有task在工作。如果没有，JobTracker会从task的队列中取出一个task交给相应的tasktracker。这个reducetask的ID

2010-08-01 21:37:00 870

原创 Hadoop数据分配

在Hadoop分配任务时，可以由一步MapReduce将数据拆分，每一份放在一个结点上。经过观察，每一份被分配到的结点是确定而非随机的。而HDFS上的文件，可以在Hadoopfs/data/current/ 下被本地访问。可以用文件创建时间来区分block（最新）.

2010-07-29 21:45:00 656

具体设置见那两个网页，一个是hadoop-gpl-compression 的wiki,一个是[hadoop系列]hadoop-gpl-compression的安装和编译 切记要 <property> <name>mapred.compress.map.output</name> <value>true</value> </property> <property> <name>mapred.map.output.com

2010-07-12 00:54:00 504

原创基于图的PageRank on Hadoop

老板一直希望我们能用图分割的方法来做PageRank on Hadoop。但是涉及困难很多，一直无法下手。今天看着程序慢慢的运行，感慨收敛速度慢的要死，终于有些新想法。也算是给基于图的PageRank on Hadoop开一个头。可以先将图分割，在这里可以分的多一点，例如50张。暂不考虑单机处理和单图收敛问题。如果某一张图判断已收敛，就将其遗弃。以减轻I/O。单张图收敛次数应该小于全局。使收敛更快。求图切割算法ing.

2010-06-27 16:47:00 913

原创 sequencefile 和arraywritable问题解

arraywritable的问题还是由sequencefile 来解决新的recordreader不再是继承sequencefilerecordreader，而是继承recordreader，按照sequencefilerecordreader的方式来写有个问题是nextkeyvalue函数里，都要求参数是object类型，在此可以用objectwritable来解决还有arraywritable没有参数个数为零的构造函数，会导致Map到Reduce过程中传输问题。可以继承arraywritable，自己来

2010-06-26 20:34:00 985

原创 Hadoop namenode宕机问题。

最近Hadoop平台常常出现问题，应该是namenode的问题，空间不足，无法写入之类。 现阶段发现的原因是tmp文件夹，都删除后格式化，问题暂时没再出现

2010-06-26 20:29:00 1978

原创 nutch 初体验

因为nutch中就有Hadoop，所以在其中配置Hadoop和原本的Hadoop配置几乎相同。 唯一不同的就是要配置 1.所有节点的nutch-site.xml文件 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <

2010-06-10 23:08:00 523

原创 Hadoop的sequence File

第一次写自定义类型的sequence File。 发现必须继承两个文件一个是sequenceFileinputformat,一个是sequenceFileRecordReader。 发现虽然Hadoop中有arraywritable类型，但是很难使用。 无论是哪种inputformat，其读取key/value对时，无论是以byte[]，还是String ,都无法将value还原回array。 如果用object，还是会降低效率。 最好都用Tex

2010-06-10 23:01:00 1492

原创 Hadoop的combiner尝试

Hadoop样例代码中的wordcount使用了combiner。但对于map的输出形式与reduce输出形式不一样的应用，直接使用reduce函数进行combiner会出错。因此，必须自己重写combiner。在撰写含有combiner的应用时，需注意，对于所有Map的输出，并非一定都经过combiner步骤，可能直接的读写就进入了reduce。而且combiner虽然能减少IO,但是会增加Map时间（等于多做了一次reduce)，能否提高总体性能要看实际情况而定。

2010-06-08 18:37:00 2033

liaosongbo的专栏