
Hadoop
大数据之Hadoop生态圈技术
LBJ_小松鼠
这个作者很懒,什么都没留下…
展开
-
分布式资源管理系统Yarn
1.Yarn的介绍1:Yarn是一个通用的资源调度平台2:Yarn可以为很多计算框架(MR,Spark,Storm)提供资源调度任务3:Yarn本身也是一个集群,是一个主从架构集群,主节点:ResourceManager,从节点:NodeManager2. Yarn架构Client 提交任务:hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2原创 2020-12-08 18:01:01 · 289 阅读 · 0 评论 -
分布式计算系统MapReduce
1. 理解MapReduce的思想MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapReduce思想的体现。...原创 2020-12-07 22:51:28 · 252 阅读 · 0 评论 -
分布式文件管理系统HDFS
1.HDFS(Hadoop Distributed File System )分布式文件管理系统1.1.1 概述在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统原创 2020-12-04 20:33:22 · 746 阅读 · 0 评论 -
Hadoop分布式环境(高可用集群的搭建)
1.原理1.1 什么是高可用集群高可用集群就是当某一个节点或服务器发生故障时,另一个节点能够自动且立即向外提供服务,即将有故障节点上的资源转移到另一个节点上去,这样另一个节点有了资源既可以向外提供服务。高可用集群是用于单个节点发生故障时,能够自动将资源、服务进行切换,这样可以保证服务一直在线。在这个过程中,对于客户端来说是透明的。1.2 高可用集群的衡量标准高可用集群一般是通过系统的可靠性(reliability)和系统的可维护性(maintainability)来衡量的。通常用平均无故障时间(MT原创 2020-12-03 12:20:38 · 593 阅读 · 0 评论 -
HDFS的JavaAPI操作
1. HDFS的API操作HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。1.1 配置本地windows环境链接: https://pan.baidu.com/s/1O5iG3LhS_oTdatYScnV5OA提取码:ssbb搭建步骤:第一步:将已经编译好的Windows版本Hadoop解压到到一个没有中文没有空格的路径下面第二步:在windows上面配置hadoop的环境变量原创 2020-12-02 18:21:53 · 223 阅读 · 0 评论 -
Hadoop集群的搭建 完结
1. 集群环境准备集群模式主要用于生产环境部署,需要多台主机,并且这些主机之间可以相互访问,我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。1.1.1集群简介:HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode.YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、Nod原创 2020-11-30 18:59:50 · 208 阅读 · 0 评论 -
分布式协调框架------------zookeeper
1.概述1.1 ZooKeeper概述 Zookeeper是一个分布式协调服务的开源框架(Leader角色)。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。1.2 ZooKeeper特性 1.全局数据一致 2.可靠性 3.顺序性 4.数据更新原子性原创 2020-11-30 17:58:51 · 126 阅读 · 0 评论 -
ZooKeeper集群的搭建
1. Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台 server组成。这是因为为了保证Leader选举.(基于Paxos算法的实现)能够 得到多数的支持,所以ZooKeeper集群的数量一般为奇数。2. Zookeeper运行需要java环境,所以需要提前安装jdk。对于安装 leader+follower模式的集群,大致过程如下:leader+follower+ Observer 2.1 配置主机名称到IP地址映射配置 2.2 修改Zoo原创 2020-11-29 14:32:36 · 135 阅读 · 0 评论 -
hadoop集群搭建第一部分准备 3 台虚拟机
qqqq原创 2020-11-25 19:29:53 · 2324 阅读 · 0 评论