
Hadoop
hei bai ying
这个作者很懒,什么都没留下…
展开
-
Hadoop 系列(一)—— 分布式文件系统 HDFS
一、介绍 HDFS (Hadoop Distributed File System)是Hadoop下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 二、HDFS 设计原理 2.1 HDFS 架构 HDFS 遵循主/从架构,由单个NameNode(NN)和多个DataNode(DN)组成: NameNode : 负责执行有关文件系统命名空间的操作,例如打开,关闭、重...原创 2019-06-07 16:30:03 · 825 阅读 · 0 评论 -
Hadoop 系列(二)—— 集群资源管理器 YARN
一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在YARN上,由YARN进行统一地管理和资源分配。 二、YARN架构 1. ResourceManager ResourceManager通常在独立的机器上以后台进程的形式运行,它是整个...原创 2019-06-07 16:30:17 · 578 阅读 · 0 评论 -
Hadoop 系列(三)—— 分布式计算框架 MapReduce
一、MapReduce概述 Hadoop MapReduce是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集。 MapReduce作业通过将输入的数据集拆分为独立的块,这些块由map以并行的方式处理,框架对map的输出进行排序,然后输入到reduce中。MapReduce框架专门用于<key,value>键值对处理,它将...原创 2019-06-07 16:30:30 · 735 阅读 · 0 评论 -
Hadoop 系列(四)—— Hadoop单机伪集群环境搭建
一、前置条件 Hadoop的运行依赖JDK,需要预先安装,安装步骤见: Linux下JDK的安装 二、配置免密登录 Hadoop组件之间需要基于SSH进行通讯。 2.1 配置映射 配置ip地址和主机名映射: vim /etc/hosts # 文件末尾增加 192.168.43.202 hadoop001 2.2 生成公私钥 执行下面命令行生成公匙和私匙: ssh-keygen -t r...原创 2019-06-07 16:30:41 · 315 阅读 · 0 评论 -
Hadoop 系列(五)—— Hadoop集群环境搭建
一、集群规划 这里搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署NameNode和ResourceManager服务。 二、前置条件 Hadoop的运行依赖JDK,需要预先安装。其安装步骤单独整理至: Linux下JDK的安装 三、配置免密登录 3.1 生成密匙 在每台主机上使用ssh-keygen命令生成...原创 2019-06-07 16:30:52 · 318 阅读 · 1 评论 -
Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构 # 显示当前目录结构 hadoop fs -ls <path> # 递归显示当前目录结构 hadoop fs -ls -R <path> # 显示根目录下内容 hadoop fs -ls / 2. 创建目录 # 创建目录 hadoop fs -mkdir <path> # 递归创建目录 hadoop fs -mkdir -p...原创 2019-06-07 16:31:04 · 613 阅读 · 0 评论 -
Hadoop 系列(七)—— HDFS Java API
一、 简介 想要使用HDFS API,需要导入依赖hadoop-client。如果是CDH版本的Hadoop,还需要额外指明其仓库地址: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w...原创 2019-06-07 16:31:17 · 211 阅读 · 0 评论 -
Hadoop 系列(八)—— 基于ZooKeeper搭建Hadoop高可用集群
一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自:https://www.edur...原创 2019-06-07 16:31:33 · 512 阅读 · 0 评论