
hadoop
文章平均质量分 79
rzhzhz
不想一直菜下去……
展开
-
Hadoop 集群启动一直处于safemode解决方法
Hadoop集群启动的时候一切正常,但一直处于safemode,只能读不能写,这种时候应该查看namenode的logs,当然这可能会出现不同的情况... 下面仅介绍一种错误处理方案,希望能抛砖引玉,能对大家有所启发。以下是日志提示(此地只摘抄了重要部分) org.apache.hadoop.hdfs.server.namenode.SafeModeException: Can原创 2011-12-09 13:58:00 · 9944 阅读 · 0 评论 -
Hadoop InputFormat分析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一转载 2012-03-07 00:21:14 · 8323 阅读 · 0 评论 -
Hadoop的调度器总结
随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低转载 2012-03-07 00:23:44 · 7916 阅读 · 0 评论 -
Hadoop&Hbase 备份方案--AvatarNode
Hadoop&Hbase 备份方案--AvatarNode 需求实现namenode的双机热备,保证Hadoop&Hbase的高可用性(HA)。 方案描述当主namenode所在服务器宕机的时候,其服务和数据可迅速,完整,无缝的迁移到备份namenode从而保证hadoop集群的高可用性,持续的向外提供服务。 测试环境虚拟机5台(1G内存,40G硬盘,ubu原创 2012-04-11 10:36:52 · 15040 阅读 · 0 评论 -
Hadoop 双机热备-AvatarNode部署
Hadoop 双机热备--AvatarNode部署部署环境虚拟机5台(1G内存,40G硬盘,ubuntu操作系统,Hadoop-0.20.2)hadoop1-virtual-machine 10.10.11.250 AvatarNode(primary)hadoop2-virtual-machine 10.10.11.152 AvataDataNodehadoop3-v原创 2012-04-11 10:34:46 · 19790 阅读 · 13 评论 -
Hadoop中Speculative Task调度策略
1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动spec转载 2012-05-04 21:55:17 · 26291 阅读 · 3 评论 -
由hbase.client.scanner.caching参数引发的血案
环境描述Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 问题描述 前几天,在HIVE执行SQL查询的时候出现了一个很奇怪的问题:就是每个SQL(涉及到MapReduce的SQL任务)在执行到某个百分比的时候,整个JOB会出现假死的情况。 2012-04-28 18:22:33,661 Stage-1 map = 0%原创 2012-05-04 23:19:24 · 9193 阅读 · 6 评论 -
Hadoop DataXceiver java.io.IOException: Connection reset by peer
最近执行mapreduce的时候老出现mapreduce的task执行不稳定的情况,有时候某个任务一直在重试,导致整个mapreduce一直处于一个阶段,就像卡住了一样,重试N久,最后可能几小时才执行完。于是乎只好查看各个目录下的log(问题跟踪解决http://blog.youkuaiyun.com/rzhzhz/article/details/7536285),发现datanode下出现了如下错误20原创 2012-04-27 15:49:48 · 5001 阅读 · 0 评论 -
Hadoop MapReduce时Too many open files解决办法
在HIVE执行MR的时候,报如下错误java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException: Too many open files at org.apache.hadoop.ipc.Client.wrapException(Clien原创 2012-05-17 17:36:15 · 5411 阅读 · 0 评论 -
Hadoop动态添加删除datanode及tasktracker
首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xmldfs.hosts /usr/local/hadoop/conf/datanode-allow-li转载 2012-05-17 18:10:16 · 4936 阅读 · 0 评论 -
Hadoop Map/Reduce内存限制
如何设置hadoop Map/Reduce任务的内存限制? ParameterTypeMeaningmapred.cluster.map.memory.mbset by admin, cluster-wideCluster definition of memory per map slot. The maximum am原创 2012-06-13 17:43:44 · 7948 阅读 · 0 评论 -
HBase MapReduce与Speculative Task
Speculative Task(推测式任务)是mapreduce框架中一个比较重要的优化策略。当某个server某个时间段处于忙碌状态而无法快速完成某个task(当然也可能是server本身性能低下),从而拖延了整个job的完成进度,此时若启用Speculative Task策略,jobtacker会为执行慢的task启动speculative task,多个相同的任务同时运行,哪个task原创 2012-06-19 16:43:16 · 5608 阅读 · 0 评论 -
hadoop集群升级手札
之前集群的配置为hadoop-0.20.3,hbase-0.90.4,zookeeper-3.3.4,hive-0.8.1。hadoop还算稳定,基本没什么bug,而hive基于hbse查询时真是问题百出,hbase各种bug,比如丢数据,丢表,regionserver频繁宕机,各种打补丁,改错误搞得我脑袋都要爆了。于是决定给hbase来一个彻底的升级替换。一. 先是把hbase升级为原创 2012-06-29 11:51:37 · 10201 阅读 · 2 评论 -
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提转载 2013-03-18 00:17:16 · 5026 阅读 · 0 评论 -
Hadoop 优化(1)
1.概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1)Namenode/jobtracker单点故障。Hadoop采用的是master/slaves架构,该架构转载 2012-03-01 22:38:08 · 12854 阅读 · 0 评论 -
Hadoop 优化(2)
简介Hadoop 是一个灵活的开放源码 Java 框架,用于在一般硬件网络上执行大规模数据处理。它的思想来源于最初由 Google Labs 开发的 MapReduce 和 Global File System (GFS) 技术,由于具有高效、可靠和可伸缩的优点,它越来越流行了。Hadoop 现在是顶级 Apache 项目,IBM、Google、Yahoo! 和 Facebook 等许多公司都转载 2012-03-04 18:16:51 · 15354 阅读 · 1 评论 -
Hbase无法启动及web查看出现500错误的原因及解决方法
偶然一次停电,导致机房机器重启,于是很多机器静态IP冲突失效。好不容易把网络调整好,Hbase集群却无法正常启动,Hadoop却可以正常使用。大致情况如下:正常启动Hadoop和zookeeper,然后启动Hbase,jps查看一切正常。当打开web页面(60010)查看的时候却出现500错误,错误大致如下:HTTP ERROR: 500Trying to原创 2011-12-09 13:40:35 · 11025 阅读 · 0 评论 -
为Hadoop的namenode做NFS灾备步骤
这里我简单的描述下如何给Hadoop的namenode做NFS灾备(以ubuntu为例)1.首先选定一台灾备机器作为NFS服务器 (1)安装如下: apt-get install nfs-kernel-server (NFS服务器,提供nfs服务) apt-get instal原创 2011-12-09 13:48:06 · 8371 阅读 · 0 评论 -
Hadoop集群文件分发工具file-dispatcher.sh
此工具(file-dispatcher.sh)用于分发Hadoop集群文件(常用于jar包更新或版本升级),可省去一个一个替换的麻烦,希望能给大家带来便利!注:另外Hadoop集群配置文件分发工具(config-dispatcher.sh)见http://blog.youkuaiyun.com/rzhzhz/article/details/7056775脚本如下: #!/usr/bin原创 2011-12-09 13:50:43 · 2666 阅读 · 0 评论 -
Hadoop集群配置文件分发工具config-dispatcher.sh
此工具(config-dispatcher.sh)用于分发Hadoop集群的配置文件,可省去一个一个替换的麻烦,希望能给大家带来便利!注:另外Hadoop集群文件分发工具(file-dispatcher.sh)见http://blog.youkuaiyun.com/rzhzhz/article/details/7056761脚本如下: #!/usr/bin/env bash#此工具为Had原创 2011-12-09 13:52:33 · 3327 阅读 · 0 评论 -
Hadoop name -format后Incompatible namespaceIDS 错误解决办法
Hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下 Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespaceID=...错误, 原因是格式化namenode后会重新创建一个新的namespa原创 2011-12-09 13:59:25 · 4039 阅读 · 0 评论 -
Hadoop&Hbase 备份方案--NFS
Hadoop&Hbase 备份方案--NFS需求: 实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1. Hadoop本身提供了可利用secondarynamenode的备份数据来恢复nameno原创 2011-12-14 11:15:29 · 7049 阅读 · 0 评论 -
DRBD介绍
DRBD介绍 以下是关于DRBD的介绍,关于DRBD的部署请参考http://blog.youkuaiyun.com/rzhzhz/article/details/71071151. 介绍 DRBD (Distributed Replicated Block Device) 是 Linux 平台上的分散式储存系统。其中包含了核心模组,数个使用者空间管理程式及 she原创 2011-12-26 18:33:03 · 7499 阅读 · 0 评论 -
Pacemaker介绍
Pacemaker介绍 以下是关于Pacemaker的介绍,关于Pacemaker的部署请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7110188 1. 简介 Pacemaker是一个集群资源管理者。他用资源级别的监测和恢复来保证集群服务(aka.资源)的最大可用性。它可以用你所擅长的基础组件(Corosync或者是Hear原创 2011-12-26 21:33:59 · 19270 阅读 · 0 评论 -
Hadoop&Hbase 双机热备--Pacemaker&DRBD部署
Hadoop&Hbase 双机热备--Pacemaker&DRBD部署 相关文章 DRBD的介绍请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7103772 DRBD的部署请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7107115 Pacemaker的介绍请参原创 2011-12-29 19:07:14 · 26400 阅读 · 4 评论 -
Pacemaker部署
Pacemaker部署 以下是关于Pacemaker的部署,关于Pacemaker的介绍请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7104135 部署环境虚拟机2台(1G内存,40G硬盘,ubuntu操作系统)hadoop2-virtual-machine1 10.10.11.252 hadoop3-v原创 2011-12-28 22:22:17 · 29669 阅读 · 1 评论 -
Hadoop&Hbase 备份方案--Pacemaker&DRBD
Hadoop&Hbase 备份方案--Pacemaker&DRBD需求实现namenode的双机热备,保证Hadoop&Hbase的高可用性(HA)。方案描述当主namenode所在服务器宕机的时候,其服务和数据可迅速,完整,无缝的迁移到备份namenode从而保证hadoop集群的高可用性,持续的向外提供服务。测试环境虚拟机原创 2011-12-30 10:15:22 · 11531 阅读 · 0 评论 -
Hadoop NameNode单点问题解决方案之一 AvatarNode
本文转自:http://weilaiyxj.iteye.com/blog/979003 翻译自Facebook Hadoop架构师(Dhruba Borthakur)的一篇文章 我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。 我们的团队负责管理一个1200节点的集群(总大小12PB),目前是运行版本为H转载 2012-02-06 08:38:56 · 4383 阅读 · 0 评论 -
DRBD部署
DRBD部署以下是关于DRBD的部署,关于DRBD的介绍请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7103772部署环境虚拟机2台(1G内存,40G硬盘,ubuntu操作系统)primary节点: hadoop2-virtual-machine1 10.10.11.252 secondary原创 2011-12-27 21:17:22 · 11942 阅读 · 3 评论 -
PIG执行MR时报Connection refused错误
2015-01-23 09:45:56,132 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps2015-01-23 09:45:56,132 [main] INFO org.apache.原创 2015-01-23 11:04:37 · 2383 阅读 · 0 评论