
Hadoop
文章平均质量分 77
stream_tag
要有耐心
展开
-
Hadoop计算模型MapReduce及其体系结构
Hadoop计算模型MapReduce及其体系结构1. Hadoop计算模型一个MapReduce 作业(job) 通常会把输入的数据集切分为若干个独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会先对map的输出进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的原创 2013-11-06 14:16:34 · 1332 阅读 · 0 评论 -
hbase安装配置
base配置 下载:hbase-0.96.2-hadoop2-bin.tar.gz[root@db96 ~]# wget http://apache.dataguru.cn/hbase/hbase-0.96.2/hbase-0.96.2-hadoop2-bin.tar.gz[root@db96 ~]# tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz转载 2014-09-15 13:18:27 · 483 阅读 · 0 评论 -
hadoop集群监控工具Apache Ambari安装配置教程
Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。最近准备装ambari,在网上找了许久,没找到比较系统的ambari安装过程,于是,就根据官网进行了安装,下面是我推转载 2014-03-24 15:59:34 · 1180 阅读 · 0 评论 -
如何使用Python为Hadoop编写一个简单的MapReduce程序
在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapReduce程序。尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与Hadoop 关联进转载 2013-11-07 15:59:00 · 1591 阅读 · 0 评论 -
Hadoop公平调度器指南
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。转载 2014-03-20 15:31:35 · 710 阅读 · 0 评论 -
Hadoop Job Scheduler作业调度器
作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/fb84dd1e3558d8f8e0fe0b8e.htmlHadoop Job SchedulerHadoop的作业调度器,可以以插件的方式加载,常见的作业调度器有三种:默认调度算法转载 2014-03-19 11:30:25 · 953 阅读 · 0 评论 -
map-Reduce的运算过程
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0转载 2013-09-25 10:20:33 · 1172 阅读 · 0 评论 -
hadoop - jobTracker自动停止问题
这个问题貌似很少看到直接的解决方法啊,是大家都没遇到还是直接忽略了?该异常确实不影响整个hadoop系统任务的执行,但是对于我这个强迫症患者,天天看着任务报错还是很不爽的。找了很久,终于找到问题的本质和解决办法。以下为原博客内容,感谢(作者):------------------------------------------------------转载 2014-09-16 17:41:56 · 696 阅读 · 0 评论 -
hadoop运维汇总篇
在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。1、Namenode的高可靠性2、节点配置与管理3、Mapreduce的内存配置4、启用trash首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差的时候,其实是你对Hadoop的了解太少,Hadoop的效率没有转载 2015-03-09 13:25:39 · 665 阅读 · 0 评论 -
hadoop namenode ha方案
Hadoop 2.0 NameNode HA和Federation实践Posted on 2012/12/10一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布转载 2015-03-11 11:28:55 · 636 阅读 · 0 评论 -
利用streaming 编写 mapreduce
[root@hadoop-m test]# hadoop jar /hadoop/app/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -mapper /hadoop/app/hadoop-1.2.1/mapreduce/test/mappehadoop-1.2.1/mapreduce/test/reducer.sh -inp原创 2013-11-18 14:27:25 · 904 阅读 · 0 评论 -
hadoop namenodeID不一致问题解决
原因是因为你的hadoop.tmp.dir在/tmp目录下,而linux系统的/tmp文件夹内容能够是定时清理的,所以会导致你看hadoop使用不了了,就反复的格式化namenode会导致上述问题,也有可能是datanode长期没正常启动导致;找了一下资料,有三个解决方案:解決方法一:删除 datanode 的所有资料,主要指的是tmp目录和data目录,适用没存放过任何资料的HDFS;转载 2014-02-19 14:41:18 · 3098 阅读 · 0 评论 -
ZooKeeper安装过程
一、安装需求安装java 1.6及hadoop 0.20.x二、安装zookeeper1、下载zookeeperwget http://mirror.bit.edu.cn/apache//zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本)其他版本下载地址(最好使用stable转载 2014-09-15 13:14:05 · 502 阅读 · 0 评论 -
hadoop-hive安装配置
hadoop-hive安装配置下载hive-0.8.1.tar.gz ---------在ahdoop1.0.0这个版本上要使用这个版本以上 把这个文件解压在/hadoop/app目录下1.添加bin/hive-config.sh,添加jdk支持exportJAVA_HOME=/usr/java/jdk1.7.0_02exportHIVE_HOME原创 2013-11-04 13:11:32 · 1401 阅读 · 0 评论 -
hadoop 回收站 配置
hadoop 回收站 配置在需要开启回收站功能的hadoop客户端编辑hdfs-site.xml文件,内容如下:$ cat hdfs-site.xml fs.trash.interval 1440转载 2013-11-01 11:31:00 · 1759 阅读 · 0 评论 -
hadoop-lzo安装
1. 前提 概要 (需要软件包)hadoop 版本 1.0.3 已经安装完成 ,可以运行操作系统 centos 6.3 64位apache-ant-1.8.4hadoop-lzo2. 安装lzo 相关库及工具yum install lzo-devel.x86_64 lzop.x86_64 gcc --nogpgcheck转载 2013-10-30 10:58:36 · 3126 阅读 · 0 评论 -
hadoop安全模式理解
hadoop安全模式理解安全模式异常:在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面上来理解:“Name nodeis in safe mode.”转载 2013-10-28 17:17:07 · 1011 阅读 · 0 评论 -
hadoop fsck 使用方法
hadoop fsck 使用方法Usage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录转载 2013-10-28 16:58:17 · 914 阅读 · 0 评论 -
hadoop安全模式解除方法和为什么会安全模式
hadoop安全模式解除方法和为什么会安全模式运行hadoop程序时,有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode这个错误应该还满常见的吧(至少我运行的时候是这样的)那我们转载 2013-10-23 10:42:04 · 3759 阅读 · 0 评论 -
关于hadoop+kerberos安全认证问题的报错GSS initiate failed 解决
STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = cucrz-6/192.168.20.206STARTUP_MSG: args = []STARTUP_MSG: version = 1.2.1STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop原创 2013-09-22 17:04:07 · 38324 阅读 · 0 评论 -
hadoop-1.2.1公平调度算法
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自转载 2014-03-21 13:39:09 · 1297 阅读 · 0 评论 -
Hadoop使用lzo压缩提升I/O性能
Hadoop使用lzo压缩提升I/O性能参考文档:http://www.haogongju.net/art/1576460Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。下面是具体的安装与配置过程:1. 安装系统lzo转载 2013-10-29 10:58:21 · 1320 阅读 · 0 评论 -
Hadoop-2.3.0-cdh5.0.1分布式环境搭建
Hadoop-2.3.0-cdh5.0.1分布式环境搭建(NameNode,ResourceManagerHA)2014/6/25 12:07:32说明 本文搭建Hadoop CDH5.0.1 分布式系统,包括NameNode ,ResourceManger HA,忽略了Web Application Proxy 和Job His转载 2015-03-18 14:21:47 · 810 阅读 · 0 评论