
hdfs
文章平均质量分 66
superye1983
这个作者很懒,什么都没留下…
展开
-
通过获取HDFS目录/文件夹大小来控制reduce个数
一般map的个数系统会根据文件block数量来获取而reduce个数一般默认1个,在每个JOB用户根据自己的需要自己调整但是往往同一个JOB在不同目录下获取的数据大小相差很多,所以要根据每次获取数据的大小来确定reduce public static long getDirSize(Path dir, Configuration conf) throws IOException{原创 2012-11-28 14:48:26 · 4259 阅读 · 0 评论 -
Hadoop Archive小记
Hadoop中所有文件的信息都记录在Namenode的内存中因为Hadoop的设计是处理大数据,理想的数据文件应该是BLOCKSIZE的倍数为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件不过har有可能使用的不是很多,在hive,pig,甚至hadoop中都有一些BUG,很多应用都有问题在这里做个记录1.文件夹模糊匹配 在使用hadoop原创 2012-12-03 16:21:33 · 1899 阅读 · 0 评论 -
Hadoop CDH5 手动安装伪分布式模式
CDH5已经使用了Hadoop2.2.0重新弄个虚拟机重头装一下由于Cloudera强烈建议使用rmp包或者apt-get的方式安装,一时半刻我都没有找到手动安装的说明,在安装的遇到多个问题,稍作记录首先环境要求 JDK1.7_u25+ Maven3.0.5 protoc2.5原创 2013-11-22 16:52:06 · 9856 阅读 · 1 评论