
HDOOP
文章平均质量分 77
Justing_tus
这个作者很懒,什么都没留下…
展开
-
HADOOP传值方式
写MapReduce程序的时候通常需要向Map中传递参数,比如在Map中过滤数据时往往需要一个过滤列表,传入的参数即为一个过滤数据的集合。 Hadoop参数传递有一种比较简单的方法,即使用Configuration的set()和get()方法: void Configuration.set(String key, String value) String Configuration....原创 2013-10-19 14:52:13 · 222 阅读 · 0 评论 -
Hadoop参数设置调优
JobConf.setNumMapTasks(n)是有意义的,结合block size会具体影响到map任务的个数,详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size,缺省为1的情况下,针对每个文件会按照min (totalsize[所有文件总大小]/mapnum[jobconf设置的mapnum], blocksize)为大小来拆分...原创 2013-10-19 14:57:10 · 434 阅读 · 0 评论 -
HDFS写文件过程 源码分析
HDFS写入文件的重要概念 HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位 进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默 认4Byte)并将校验和进行存储。 在写入一个block的时候,数据传输的基本单位是pac...原创 2013-10-19 14:59:53 · 336 阅读 · 0 评论