
hadoop
文章平均质量分 53
tttjjjlll
这个作者很懒,什么都没留下…
展开
-
安装CDH5 hadoop2.2.0遇到的配置问题
hadoop版本: cloudera hadoop2.2 CDH5 今天在安装hadoop后,启动start-yarn.sh后,nodemanager起不起来,后来查看DN节点的日志,报了以下一个错误:[code="java"] FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error startin...原创 2013-11-06 18:24:57 · 189 阅读 · 0 评论 -
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError:
hadoop执行JOB在reduce阶段报了下面的错误:[code="java"]Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.r...原创 2014-03-01 23:17:22 · 2378 阅读 · 0 评论 -
关于Hadoop的shuffle
[size=medium] 我们知道每个reduce task输入的key都是按照key排序的。 但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。 在map结束之后shuffle要做的事情: map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序...原创 2014-03-03 11:16:40 · 122 阅读 · 0 评论 -
Hadoop : MapReduce中的Shuffle和Sort分析
[size=medium]MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算...原创 2014-03-03 14:06:11 · 106 阅读 · 0 评论 -
hadoop HA 备NN无法启动的问题
今天在把原来的hadoop HA的环境给变换了,在start-dfs.sh时,报了以下一个错误:013-09-23 16:39:33,248 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: Web-server up at: slave3:500702013-09-23 16:39:33,248 INFO org.apache.h...原创 2013-09-23 17:05:12 · 501 阅读 · 0 评论 -
Hadoop为什么处理小数据量时效果不好?
[size=medium]Every file, directory and block in HDFS is represented as an object in the namenode’s memory, each of which occupies 150 bytes, as a rule of thumb. So 10 million files, each using a blo...原创 2014-03-11 16:50:56 · 409 阅读 · 0 评论 -
hadoop参数配置优化
[size=medium]hadoop.tmp.dir默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值: 0说明: 这个是开启hdfs文件...原创 2014-03-13 15:12:37 · 103 阅读 · 0 评论 -
Map/Reduce Task JVM 堆大小设置优化
前一阵子发现用户提交的hive query和hadoop job会导致集群的load非常高,经查看配置,发现很多用户擅自将mapred.child.java.opts设置的非常大,比如-Xmx4096m(我们默认设置是-Xmx1024m), 导致了tasktracker上内存资源耗尽,进而开始不断swap磁盘上数据,load飙升TaskTracker在spawn一个map/reduce ta...原创 2014-03-13 15:15:33 · 322 阅读 · 0 评论 -
hadoop fsck命令详解
hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录 ...原创 2013-10-17 14:38:23 · 214 阅读 · 0 评论 -
关于hadoop的dfs.replication 的一个问题
今天在使用hadoop fsck / 命令查看hadoop dfs时,输出如下:............................................./user/hadoop/.staging/job_1381991904684_0036/libjars/zookeeper-3.4.5-cdh4.3.0.jar: Under replicated BP-2044520...原创 2013-10-18 10:12:48 · 504 阅读 · 0 评论 -
hadoop Caused by: java.io.IOException: Filesystem closed
今天在执行hive的时候报了下面的错:[code="java"] 2014-02-25 09:07:20,021 INFO [IPC Server handler 17 on 60055] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1393225005206_083...原创 2014-02-25 13:46:14 · 499 阅读 · 0 评论 -
hadoop CHD4 HA 详细安装和配置
准备:下载安装hadoopwget http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.3.0.tar.gz下载安装zookeeperwget http://archive.cloudera.com/cdh4/cdh/4/zookeeper-3.4.5-cdh4.3.0.tar.gz[b]1、当前hadoop集群...原创 2013-09-04 17:54:19 · 367 阅读 · 0 评论 -
安装CDH5 hadoop2.2.0遇到的配置问题(二)
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1今天在安装hadoop后,启动了namenode,在执行hadoop fs -put /tmp/test.dat /test命令后,报了下面的一个错:[code="java"]13/11/05 23:40:36 WARN util.NativeCodeLoader: Unable to load native...原创 2013-11-06 18:45:11 · 136 阅读 · 0 评论 -
hbase的基本安装和配置
hbase 版本:hbase-0.95.2-cdh5.0.0-beta-1.tar.gzhadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1.tar.gzzookeeper版本:zookeeper-3.4.5-cdh5.0.0-beta-1.tar.gzhadoop和zookeeper的安装这里不赘述,安装方式可以参考我写的其他的相应文章。服务器如下:...原创 2013-11-07 17:05:31 · 102 阅读 · 0 评论 -
执行mr时候报的一个错
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1今天在执行sqoop往hbase里导数的时候,DN节点报了下面的错:[code="java"]Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeExce...原创 2013-11-07 18:07:09 · 212 阅读 · 0 评论 -
hadoop详细安装和配置
hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1jdk版本:jdk-7u40-linux-x64环境准备:10.95.3.100 master110.95.3.101 master210.95.3.103 slave110.95.3.104 slave2说明:本安装没有进行hdfs HA配置,NameNode和SecondaryName...原创 2013-11-08 10:42:50 · 210 阅读 · 0 评论 -
Hadoop的JVM重用
Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks(hadoop2 为:mapreduce.job.jvm.numtasks),默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。 比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段,slave节...原创 2014-05-01 20:21:07 · 702 阅读 · 0 评论 -
Hadoop 归档 和HIVE 如何使用har 归档 文件
Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了,那这个文件就会按照dfs.block.size 的大小进行分块,因为hdfs为每个块的元数据大小大约为150个字节,如果众多小文件的存在(什么是小文件内,就是小于dfs.block.size 大小的文件,这样每个文件就是一个block)占用大量的namenode 堆内存空间,打成har 文件可以大大降低na...原创 2014-05-01 23:47:03 · 477 阅读 · 0 评论 -
Max block location exceeded for split
今天用sqoop往oracle导数据的时候报了下面的一个错:[code="java"]14/02/11 09:33:56 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: Max block location...原创 2014-02-11 10:11:14 · 729 阅读 · 0 评论 -
Error in storing RMDelegationToken with sequence number:
今天用oozie调度hadoop任务时,发现在每次在执行时,RM进程就被kill掉了,查看yarn-hadoop-resourcemanager-master1.log日志,报了下面的错:[code="java"] Error in storing RMDelegationToken with sequence number: 1962[/code]出现上面的错的原因是由于zo...原创 2014-02-20 11:05:23 · 140 阅读 · 0 评论 -
oozie CDH4和hadoop CDH4整合出现的问题(一)
最近在使用oozie和hadoop进行开发hadoop版本:hadoop-2.0.0-cdh4.3.0 oozie版本:oozie-3.3.2-cdh4.3.0 在使用oozie执行里面的例子时,oozie在向hadoop提交任务时报出了以下错误:[code="java"]Caused by: com.google.protobuf.ServiceExcepti...原创 2013-09-04 17:12:40 · 163 阅读 · 0 评论 -
Hadoop 优化总结(一)
1. 使用自定义Writable自带的Text很好用,但是字符串转换开销较大,故根据实际需要自定义Writable,注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ) output.collect(key,value)前者会产生大量的Te...原创 2014-04-27 12:09:38 · 140 阅读 · 0 评论