Hadoop环境搭建之zookeeper安装

Hadoop环境搭建


一、预备知识


1.大数据导论


1.1 大数据概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

最小的基本单位是bit,按顺序给出所有单位:bitByte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M

1T = 1024G 1P = 1024T 1E = 1024P 1Z = 1024E

1Y = 1024Z 1B = 1024Y 1N = 1024B 1D = 1024N

在这里插入图片描述

如上图所示,1986年,全球只有0.02EB也就是约21000TB的数据量,而到了2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍。
而最近,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普及,平均每40个月,全球的数据量就会翻倍!如果这样说还没有什么印象,可以再举个简单的例子,在2012年,每天会产生2.5EB的数据量。基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!而到了2025年,全球会有163ZB的数据量!

由此可见,截至目前,全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!

1.2、大数据的特点(4V)

1)Volume(大量):

截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

在这里插入图片描述

2)Velocity(高速):

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

天猫双十一:2016年6分58秒,天猫交易额超过100亿

在这里插入图片描述

3)Variety(多样):

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

4)Value(低价值密度):

价值密度的高低与数据总量的大小成反比。比如,在一天监控视频中,我们只关心宋老师在健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

1.**3、**大数据能干啥

1)O2O:百度大数据+平台通过先进的线上线下打通技术和客流分析能力,助力商家精细化运营,提升销量。

在这里插入图片描述

2)零售:探索用户价值,提供个性化服务解决方案;贯穿网络与实体零售,携手创造极致体验。经典案例,子尿布+啤酒。

在这里插入图片描述

3)商品广告推荐:给用户推荐访问过的商品广告类型

4) 房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。

5)保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。

6)金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。

7)人工智能

1.4、大数据发展前景

1)党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。

2)国际数据公司IDC预测,到2020年,企业基于大数据计算分析平台的支出将突破5000亿美元。目前,我国大数据人才只有46万,未来3到5年人才缺口达150万之多。

1.5、企业数据部的业务流程分析

在这里插入图片描述

1.6、小结
  • 开发:JavaEE 企业项目 数据处理(CRUD)
  • 数据结构:
    • 结构化数据:传统关系型数据库
    • 半结构化数据:xml或json等
    • 非结构化数据:图片、视频、音频等
  • 大数据发展领域:电商(推荐系统)、银行(信用卡中心(征信))、三大运营商、医院、物联网(智能井盖)
  • 大数据处理流程及相关技术
    • 获取数据(爬虫、flume)
    • 传输数据(kafka)
    • 处理数据(hadoop、storm、spark)
    • 存储数据(hdfs、hbase)

2.服务器基本介绍

服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

在网络环境下,根据服务器提供的服务类型不同,分为文件服务器数据库服务器应用程序服务器、WEB服务器

服务器的构成包括处理器硬盘内存系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

可以简单的理解为服务器就是一台电脑,只不过硬盘比普通的PC机更大,CPU比普通的PC机处理速度更快,网卡比普通的PC机更快。。。

  • 服务器特点
    • 高处理能力
    • 高扩展性
    • 高可靠性

3.存储磁盘基本介绍

服务器需要存储数据,免不了得要磁盘的支持,磁盘就是一类存储介质,专门用于存储我们各种类型的数据,其中磁盘按照接口类型又可以有好多种分类,接下来我们来简单看一下不同接口的各类磁盘的基本特性吧


3.1、SCSI接口硬盘介绍

SCSi传统服务器老传输接口,转速为10kr 15kr。但是由于受到线缆及其阵列卡传输协议的限制,该盘片有固定的插法,例如要顺着末端接口开始插第一块硬盘,没有插硬盘的地方要插硬盘终结器等。该盘现已经完全停止发售。该盘只有3.5寸版。常见转速:10000转/分。

3.2、SAS接口硬盘介绍

SAS 该盘分为两种协议,即SAS1.0及SAS 2.0接口,SAS1.0接口传输带宽为3.0GB/s转速有7.2kr 10kr 15kr。该盘现已被SAS2.0接口盘取代,该盘尺寸有2.5寸及3.5寸两种。SAS2.0接口传输带宽为6.0GB/s转速有10kr 15kr,常见容量为73.6G 146G 300G 600G 900G。常见转速:15000转/分(3G/s)。

3.3、FDE/SDE接口硬盘介绍

FDE/SDE 该盘体前者为IBM研发的SAS硬件加密硬盘,该盘体性能等同于SAS硬盘,但是由于本身有硬件加密系统,可以保证涉密单位数据不外泄,该盘主要用于高端2.5寸存储及2.5寸硬盘接口的机器上。SED盘雷同,厂家不一样。

3.4、SATA硬盘基本介绍

SATA硬盘:用SATA接口的硬盘又叫串口硬盘,是以后PC机的主流发展方向,因为其有较强的纠错能力,错误一经发现能自动纠正,这样就大大的提高了数据传输的安全性。新的SATA 使用了差动信号系统“differential-signal-amplified-system”。这种系统能有效的将噪声从正常讯号中滤除,良好的噪声滤除能力使得SATA只要使用低电压操作即可,和 Parallel ATA 高达5V的传输电压相比,SATA 只要0.5V(500mv) 的峰对峰值电压即可操作于更高的速度之上。“比较正确的说法是:峰对峰值‘差模电压’”。常见转速:7200转/分。5000转/分

3.5、SSD硬盘介绍

SSD 该盘为固态硬盘,与个人PC不同的是该盘采用一类固态硬盘检测系统检测出场,并采用SAS2.0协议进行传输,该盘的性能也将近是个人零售SSD硬盘的数倍以上。

4.交换机基本介绍

基本介绍:交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。

主要作用:交换机的主要功能包括物理编址、网络拓扑结构、错误校验、帧序列以及流控。交换机还具备了一些新的功能,如对VLAN(虚拟局域网)的支持、对链路汇聚的支持,甚至有的还具有防火墙的功能

  • 交换机:局域网,形成网络拓扑图

5.网卡的介绍

网卡(Network Interface Card)是物理上连接计算机与网络的硬件设备,是计算机与局域网通信介质间的直接接口。由于网络技术的不同,网卡的分类也有所不同,如大家所熟知的ATM网卡、令牌环网卡和以太网网卡等。据统计,目前约有80 %的局域网采用以太网技术。

接口方式

当前台式机笔记本电脑中常见的总线接口方式都可以从主流网卡厂商那里找到适用的产品。但值得注意的是,市场上很难找到ISA接口的100M网卡。1994年以来,PCI总线架构日益成为网卡的首选总线,目前已牢固地确立了在服务器和高端桌面机中的地位。即将到来的转变是这种网卡将推广有的桌面机中。PCI以太网网卡的高性能、易用性和增强了的可靠性使其被标 准以太网网络所广泛采用,并得到了PC业界的支持。

技术方向

目前,以太网网卡有10M、100M、10M/100M及千兆网卡。对于大数据量网络 来说,服务器应该采用千兆以太网网卡,这种网卡多用于服务器与交换机之间的连接,以提高整体系统的响应速率.

对于通常的文件共享等应用来说,10M网卡就已经足够了,但对于将来可能的语音和视频等应用来说,100M 网卡将更利于实时应用的传输。

  • 跳板机/堡垒机,两张网卡,分别用于外网连接和局域网连接

6.局域网基本介绍

局域网(Local Area Network,LAN)是指在某一区域内由多台计算机互联成的计算机组。一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。

7.机架基本介绍

为了方便管理维护众多的服务器,以及在服务器出现问题时候快读的定位解决问题,我们可以使用机架的形式,将众多的服务器归纳到一个个的机架里面去。机架之间的通信问题可以使用交换机来组织成为局域网

在这里插入图片描述

8.IDC数据中心介绍

互联网数据中心(Internet Data Center)简称IDC,就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务

IDC主机托管主要应用范围是网站发布、虚拟主机和电子商务等。比如网站发布,单位通过托管主机,从电信部门分配到互联网

<think>首先,用户的问题是在Hadoop环境搭建安装Zookeeper的方法。用户提供了多个引用,这些是参考信息,我需要基于这些引用来构建回答。 关键点: - 引用[1]提到在安装Zookeeper之前需要先安装Hadoop。 - 引用[2]展示了修改Zookeeper配置文件(zoo.cfg)的示例,包括dataDir和集群配置。 - 引用[3]描述了如何将Zookeeper目录拷贝到其他节点。 - 引用[4]解释了HadoopZookeeper的协同工作,比如为NameNode高可用提供支持。 - 引用[5]给出了详细的安装步骤:下载、解压、修改配置文件、创建数据目录、设置myid文件、分发到其他节点。 用户明确说:“我想查找在Hadoop环境搭建安装Zookeeper的方法”,所以我需要专注于安装步骤。同时,系统指令要求: - 回答结构清晰,逐步解决问题。 - 使用中文。 - 生成相关问题。 - 在引用末尾添加引用标识。 - 对于数学表达式,使用$...$或$$...$$,但在这个上下文中,可能涉及不多,但如果有数字或配置,需要正确格式化。 结构化回答: 1. **介绍背景**:简要说明ZookeeperHadoop中的作用,比如支持NameNode高可用等(基于引用[4])。 2. **准备工作**:确保Hadoop安装(基于引用[1])。 3. **安装步骤**:详细步骤,基于引用[5]和其他引用: - 下载和解压Zookeeper。 - 修改配置文件(zoo.cfg)。 - 创建数据目录和设置myid文件。 - 分发到集群节点。 - 启动和验证。 4. **添加引用标识**:在引用的地方自然地添加,如[^1], [^2]等。 5. **生成相关问题**:在结尾添加相关问题。 步骤细节(基于引用[5]): - 下载和解压:使用wget下载,tar解压。 - 配置文件:修改zoo.cfg,设置dataDir和集群server配置。 - myid文件:在每个节点的data目录下创建myid文件,内容为服务器编号。 - 分发:使用scp拷贝到其他节点。 - 启动:在每个节点启动Zookeeper服务。 确保回答真实可靠:基于提供的引用,不添加外部知识。 最终回答结构: - 引言。 - 步骤列表。 - 相关问题。 </think>### Hadoop环境安装Zookeeper的方法 在Hadoop环境安装Zookeeper是为了支持分布式协调服务,例如实现Hadoop NameNode的高可用性(主备切换)和资源管理协调(如YARN框架)。Zookeeper通过集群配置确保Hadoop集群的稳定运行,这在引用中提到:Zookeeper可以为Hadoop提供分布式协调,确保当主NameNode故障时快速选举新节点[^4]。以下是基于参考引用的详细安装步骤。安装前提是Hadoop集群已部署完成(如果没有,请先参考Hadoop伪分布式或完全分布式集群搭建指南[^1])。整个过程包括下载、配置、分发和启动Zookeeper集群。 #### 安装步骤(以3节点集群为例:hadoop00, hadoop01, hadoop02) 1. **下载和解压Zookeeper** 在其中一个节点(如hadoop00)执行: ```bash # 下载Zookeeper安装包(使用清华镜像源加速) cd /home/software wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz --no-check-certificate # 解压到指定目录 tar -xvf apache-zookeeper-3.6.3-bin.tar.gz -C /home ``` 这将创建目录`/home/apache-zookeeper-3.6.3-bin`。此步骤基于引用[5]。 2. **修改配置文件** 进入Zookeeper配置目录,复制并编辑配置文件: ```bash cd /home/apache-zookeeper-3.6.3-bin/conf cp zoo_sample.cfg zoo.cfg # 复制模板文件 vim zoo.cfg # 编辑配置文件 ``` 在`zoo.cfg`中添加或修改以下内容(关键参数包括`dataDir`和集群server配置): ``` dataDir=/home/apache-zookeeper-3.6.3-bin/data/zkData # 数据存储目录 # 集群配置,server.{id}={hostname}:{follower端口}:{leader选举端口} server.1=hadoop00:2888:3888 server.2=hadoop01:2888:3888 server.3=hadoop02:2888:3888 ``` 保存退出。这里`dataDir`指定了Zookeeper的数据路径,集群配置定义了各节点的ID和通信端口(默认2888用于数据同步,3888用于选举)。此步骤参考引用[2]和[^5]。 3. **创建数据目录和设置myid文件** 在配置的`dataDir`路径下创建目录和myid文件: ```bash mkdir -p /home/apache-zookeeper-3.6.3-bin/data/zkData # 创建数据目录 cd /home/apache-zookeeper-3.6.3-bin/data/zkData echo "1" > myid # hadoop00节点的myid设置为1 ``` `myid`文件内容必须与`zoo.cfg`中的server ID一致(例如hadoop00对应1,hadoop01对应2)。此步骤确保每个节点有唯一标识,基于引用[5]。 4. **分发Zookeeper目录到其他节点** 使用`scp`命令将整个Zookeeper目录复制到集群其他节点: ```bash cd /home scp -r apache-zookeeper-3.6.3-bin root@hadoop01:/home # 分发到hadoop01 scp -r apache-zookeeper-3.6.3-bin root@hadoop02:/home # 分发到hadoop02 ``` 分发后,需在每个节点上修改`myid`文件: - 在hadoop01节点: ```bash cd /home/apache-zookeeper-3.6.3-bin/data/zkData echo "2" > myid # 设置ID为2 ``` - 在hadoop02节点: ```bash cd /home/apache-zookeeper-3.6.3-bin/data/zkData echo "3" > myid # 设置ID为3 ``` 此步骤确保集群配置一致,参考引用[^3]和[^5]。 5. **启动和验证Zookeeper集群** 在每个节点启动Zookeeper服务: ```bash cd /home/apache-zookeeper-3.6.3-bin/bin ./zkServer.sh start # 启动服务 ``` 验证集群状态: ```bash ./zkServer.sh status # 检查节点角色(leader或follower) ``` 输出应显示集群正常运行。例如,一个节点为leader,其他为follower。确保所有节点防火墙开放端口2181(客户端端口)、2888和3888。 #### 注意事项 - **依赖关系**:Zookeeper安装前必须确保Hadoop集群已部署,否则可能导致协调服务失效[^1]。 - **配置参数**:端口号(如2888, 3888)可根据需求自定义,但需与Hadoop配置兼容。 - **高可用集成**:安装后,需在Hadoop配置文件(如`hdfs-site.xml`)中启用Zookeeper-based HA,以实现NameNode故障切换[^4]。 - **性能优化**:集群节点应为奇数(如3个或5个),以避免选举僵局。Zookeeper集群的稳定性直接影响Hadoop任务调度效率[^4]。 通过以上步骤,您可以在Hadoop环境中成功搭建Zookeeper集群。此方法基于实际引用资料,确保可靠性和可重现性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值