
hadoop
文章平均质量分 61
gong_xucheng
这个作者很懒,什么都没留下…
展开
-
Hbase入库因素小结
一、硬件因素Ø 内存Hbase对内存有特别的嗜好,因为内存越大,regionserver接受客户端传递来的数据时可以在内存中做缓存(memstore)以及排序,分配给region等操作的限度更大,相当于利用内存作为缓冲池,组织好hbase需要的数据之后再统一写的顺序写硬盘。*推荐32GB内存Ø CPUCPU参与边界计算以及数据排序等操作,当内存非常大时,CPU对内存中数据的组织转载 2013-01-31 09:17:19 · 1798 阅读 · 0 评论 -
MapReduce中第三方jar的存放
如果在MapReduce中用到了第三方的Jar包,怎么处理呢?据说有3种方法:要么-libjars,要么加到HADOOP_HOME/lib下(所有子节点),要么打包进目标jar。最简单的做法是:在classpath下建立 lib目录,将jar考到lib目录下。据说这是hadoop 的作者不知在什么会议上答复的。这里恍然大悟,为什么hadoop hbase下都有lib目录存放jar包,他原创 2013-12-10 19:31:30 · 1276 阅读 · 0 评论 -
MapReduce中设置全局变量
实际项目中遇到这样一个场景,需要运行一个MapReduce统计一些数据中的最大最小平均值等特性,将结果存入到HBase中。存结果的同时还要记录这次分析任务的编号,即所有的Reduce产生的结果中都要包含这个任务编号这个字段。当然我们可以把这个任务编号放到输入文件中的每一行中,作为输入数据的一部分,不过这样做显然太不专业,无端的增加了要处理的数据量,加重网络负担。经过网上搜索,发现可以用Config原创 2013-12-10 19:24:59 · 7664 阅读 · 0 评论 -
Hadoop源码浅析——Job提交相关
Configuration类是用来访问hadoop的配置参数的。Configuration类首先会通过静态代码段加载hadoop的配置文件core-default.xml和和core-site.xml,相关代码如下:[java] view plaincopy"font-size:16px;">static{ //print deprecation war转载 2013-12-18 15:56:57 · 871 阅读 · 0 评论 -
eclipse下提交job时报错mapred.JobClient: No job jar file set. User classes may not be found.
windows下,连接远程集群,直接在eclipse里运行mapreduce作业时,错误信息:11/10/14 13:52:07 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.11/1原创 2013-12-18 16:04:26 · 12571 阅读 · 3 评论 -
zookeeper 临时节点不消失的原因
如果客户端与服务器的时间相差比较大,客户端退出后,创建的临时节点不会自动退出。zookeeper版本3.4.6 操作系统 rhel6.3具体原因没来得及分析。原创 2015-03-17 09:19:39 · 12812 阅读 · 7 评论