
hadoop2
文章平均质量分 81
mmicky20110730
好几年没写博客了,准备重新开博,将这几年的一些经验和想法沉淀一下。
展开
-
eclipse开发hadooop2.2.0程序
1:下载hadoop2部署文件和源代码,解压缩至/app/hadoop/hadoop220和/app/hadoop/hadoop220_src。然后建立一个放置jar包的文件夹/app/hdaoop2lib,将/app/hadoop/hadoop220/share/hadoop各项目(common、hdfs、mapreduce、yarn)下的JAR包以其lib目录下的JAR包都复制到/app/hd原创 2014-05-13 15:22:29 · 1235 阅读 · 1 评论 -
HDFS HA系列实验之一:基础环境搭建
本系列实验主要测试hadoop2.2.0的新特性NameNode HA 和 Federation,本篇为基础环境搭建。1:虚拟机规划服务器:productserver 192.168.100.200 (DNS、NFS、Oracle、MySQL、Cluster Moniter)Hadoop集群1:product201 192.168.100.201 (NN1)product202 192.168.1原创 2014-05-13 15:22:53 · 1493 阅读 · 0 评论 -
hadoop优化之YARN篇
优化的资料比较零碎,开篇后会不断的增加相关的资料。原创 2014-05-13 15:23:23 · 2074 阅读 · 0 评论 -
Hadoop2.x的学习路线
正如人类社会的发展,计算机的计算开始了一场计算框架蜕变的运动,由“高富大”走向了“屌丝”计算的演变过程,而hadoop在这演变的过程中充当了急先锋的角色。从接触hadoop2.x开始,已经有很长一段时间,总结一下自己的学习路线:1:原理篇HDFS原理(计划中)MapReduce原理(计划中)YARN原理(计划中)2:运维hadoop2.2.0测试环境搭建Hadoop2.2.0生产环境模拟 hado原创 2014-05-13 15:24:22 · 3268 阅读 · 3 评论 -
hadoop2.2.0测试环境搭建
近几日,hadoop2.2.0稳定版发布,立即下载先搭建测试环境。1:规划centOS6.4上搭建hadoop2.2.0环境,java版本7UP21192.168.100.171 hadoop1 (namenode)192.168.100.172 hadoop2 (预留当namenode)192.168.100.173 hadoop3 (datanode)192.168.100.174 hadoo原创 2014-05-13 15:21:21 · 2973 阅读 · 0 评论 -
hadoop2.2.0源码编译(ubuntu)
1:下载相关的软件A:预安装相关软件包:mmicky@wyy:/app$ sudo apt-get -y install maven build-essential autoconf automake libtool cmake zlib1g-dev pkg-config libssl-devB:下载需要的软件* hadoop2.2.0_src http://hadoop.apache.org*原创 2014-05-13 15:21:23 · 1119 阅读 · 0 评论 -
HDFS HA系列实验之三:HA+NFS+zookeeper
由于时间关系,原规划在Hadoop cluster2上实施HA+NFS+zookeeper的,改成了在Hadoop cluster1上实施,这样省略了ssh无密码登陆配置环节和hadoop集群配置环节。本篇的配置环境是基于HDFS HA系列实验之二:HA+JournalNode+zookeeper 上进行的。1:原理图A:NN1、NN2(或者更多个NN节点)只有一个是Active状态,通过自带Z原创 2014-05-13 15:22:57 · 2274 阅读 · 0 评论 -
HDFS HA系列实验之二:HA+JournalNode+zookeeper
1:原理图 A:NN1、NN2(或者更多个NN节点)只有一个是Active状态,通过自带ZKFailoverController组件(zookeeper客户端)和zookeeper集群协同对所有NN节点进行检测和选举来达到此目的。B:Active NN 的EditLog 写入共享的JournalNode集群中,Standby NN通过JournalNode集群获取Editlog,并在本地运行来保持原创 2014-05-13 15:22:55 · 3141 阅读 · 0 评论 -
HDFS HA系列实验之四:HA+Federation
本篇的配置环境是基于HDFS HA系列实验之二:HA+JournalNode+zookeeper 上进行的。1:原理图 A:实验环境之组成DNS:productserverHA1(nameservices为cluster1):product201、product202HA2(nameservices为cluster2):product211、product212DN:product203、p原创 2014-05-13 15:23:00 · 1530 阅读 · 0 评论 -
zookeeper3.4.5安装笔记
1:解压 官网zookeeper.apache.org下载安装包,然后解压缩到hadoop1的/app/hadoop/zookeeper345目录,目录属于hadoop:hadoop。计划安装在hadoop2.2.0集群的5台虚拟机上,用hadoop:hadoop身份安装,虚拟机的配置:hadoop1 192.168.100.171hadoop2 192.168.100.172hado原创 2014-05-13 15:22:08 · 1814 阅读 · 0 评论 -
core-site.xml配置项
-->--> name value description hadoop.common.configuration.version 0.23.0 version of this configuration file hadoop.tmp.dir /tmp/hadoop-${user.name} A base for o原创 2014-05-13 15:22:01 · 3679 阅读 · 0 评论 -
Hive 0.11.0 远程模式搭建
1:安装计划hadoop1 192.168.100.171 (hadoop2.2.0 namenode)hadoop3 192.168.100.173 (hadoop2.2.0 datanode)hadoop4 192.168.100.174 (hadoop2.2.0 datanode)hadoop5 192.168.100.175 (hadoop2原创 2014-05-13 15:22:10 · 2236 阅读 · 0 评论 -
HDFS HA系列实验之七:NN故障转移处理
NN是HDFS的核心,一旦破坏,hadoop整个系统将瘫痪。hadoop2.2.0提供了NN HA,提高了NN的可用性。但如果发生了NN故障转移,那么需要处理故障点。本实验主要是针对NN故障转移的几种情况的处理:实验一:原Active NN意外挂机或JVM溢出等原因造成,但原Active NN文件系统完好实验二:原Active NN元数据损坏或重新部署新的NN本实验环境搭建指导:HDFS HA系列原创 2014-05-13 15:23:12 · 1505 阅读 · 0 评论 -
Windows下开发Hadoop2.2.0程序
在windows使用eclipse开发 hadoop2.2.0程序的时候,会提示没有winutils.exe的错误,需要在windows端编译源代码才能解决。 一:准备工作1:相关软件包下载并安装Apache Hadoop 2.2.0 Source codesMicrosoft Windows SDK for Windows 7 and .NET Framework 4MavenProtocol原创 2014-05-13 15:22:43 · 1476 阅读 · 0 评论 -
hadoop优化之MapReduce篇
优化的资料比较零碎,开篇后会不断的增加相关的资料。原创 2014-05-13 15:23:21 · 1087 阅读 · 0 评论 -
hadoop2.2.0源码编译(eclipse)
测试是在完成hadoop2.2.0源码编译(ubuntu)之后做的,其实在eclipse里编译和在ubuntu编译原理是一样的,只不过一个是图形界面,一个是命令行而已。1:SVN源码A:设置SVN源B:checkout在SVN Repository Exploring中找到branch-2.2.0 1530132后checkout2:设置编译环境切换到java perspective,选中chec原创 2014-05-13 15:22:15 · 990 阅读 · 0 评论 -
HDFS HA系列实验之五:client 配置
Hadoop client访问HDFS是通过client端的hadoop配置文件来访问hadoop集群的,一般的情况下我们在配置文件core-site.xml中配置fs.defaultFS是使用一个类似hdfs://hadoop1:8000/的固定地址和端口,显然这在访问HA时存在很大的局限性:HA如果切换了NN,那么就无法访问了;在federation中只能访问部分HDFS等等。那么在HA和Fe原创 2014-05-13 15:23:05 · 3911 阅读 · 0 评论 -
hadoop的优化之CentOS篇
优化的资料比较零碎,开篇后会不断的增加相关的资料。原创 2014-05-13 15:23:16 · 1204 阅读 · 0 评论 -
hadoop优化之HDFS篇
优化的资料比较零碎,开篇后会不断的增加相关的资料。原创 2014-05-13 15:23:19 · 1087 阅读 · 0 评论 -
HDFS实验之一:机架感知
1:背景 缺省情况下,hadoop的replication为3,3个副本的存放策略为:第一个block副本放在和client所在的datanode里(如果client不在集群范围内,则这第一个node是随机选取的)。第二个副本放置在与第一个节点不同的机架中的datanode中(随机选择)。 第三个副本放置在与第二个副本所在节点同一机架的另一个节点上。如果还有更多的副本就随机放在集群的da原创 2014-05-13 15:23:40 · 2596 阅读 · 0 评论 -
hadoop2.2.0源码编译(CentOS6.4)
由于测试所用虚拟机都是使用CentOS6.4,所以在Ubuntu上成功编译hadoop2.2.0之后就开始在CentOS上编译,花了不少时间,总是有错,最后发现原来是Maven版本的问题。刚开始使用的是Maven3.1.0,与Maven3.0.x存在兼容性问题,所以老是出现java.lang.NoClassDefFoundError: org/sonatype/aether/graph/Depen原创 2014-05-13 15:22:13 · 952 阅读 · 0 评论 -
HDFS HA系列实验之经验总结
1:Hadoop HA启动流程图注意,如果是使用JournalNode保存EditLog,那么除了第一次需要格式化HDFS需要手工先启动;正常使用的hadoop集群不需要手工启动JournalNode,因为start-dfs.sh中已经含有启动JournalNode的脚本。2:hdfs.xml配置要注意的地方 3:NFS配置客户端的NFS用户UID、GID要和服务器上的用户UID、GID最好一致原创 2014-05-13 15:23:02 · 1904 阅读 · 0 评论 -
sqoop1.4.4 for mysql
软件版本:hadoop2.2.0(参见 hadoop2.2.0测试环境搭建 )hbase0.96 (参见 Hbase0.96.0 +hadoop2.2.0安装 )MySQL5.6.12(参见 mysql5.6.12 for Linux安装 )实验环境:hadoop1 192.168.100.171(hadoop master、secondaryname、zookeeper、hbase HMast原创 2014-05-13 15:22:36 · 1030 阅读 · 0 评论 -
HDFS HA系列实验之六:Federation之增减NN和Balancer
正在撰写中,不日上传。。。原创 2014-05-13 15:23:07 · 1056 阅读 · 0 评论 -
HDFS实验之二:关于复制因子
Hadoop可以通过dfs.replication来设置block可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 70M logs/2可以通过命令来更改已经上传的文件的副本数:hadoop fs -setrep -R 3 /的复制数量。关于dfs.replication有以下几个特点:修改了dfs.replication,对已经上传了的原创 2014-05-13 15:23:42 · 5277 阅读 · 0 评论 -
hadoop 2.04测试环境搭建
1:规划oracle linux6.4上搭建hadoop2.0环境192.168.100.171 linux1 (namenode)192.168.100.172 linux2 (预留当namenode)192.168.100.173 linux3 (datanode)192.168.100.174 linux4 (datanode)192.168.100.175 linux5 (datanode原创 2014-05-13 15:20:51 · 1039 阅读 · 0 评论