Hadoop学习日记


--------------------------------------------------------------------------------------------------------------------------、

1.1Hadoop的优势(4高)

  • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  • 高扩展性:在集群间分配任务数据,可方便的扩张数以千计的节点。
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理的速度。
  • 高容错性:能够自动将失败的任务重新分配

1.2标题Hadoop组成

hadoop的组成

1.2.1HDFS架构概述

  • NameNode(nn):存储文件的元数据:如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块儿所在的DataNode等。
  • DataNode(dn):在本地文件系统存储文件块儿数据,以及块儿数据的校验和。
  • Secondary NameNode(2nm):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。(如果nn挂了,2nn无法直接代替nn的作用)

1.2.2YARN架构概述

YARN架构概述
Resource Manager 和Node Mannager 是常住节点。
ApplicationMaster 和 Contanier 是非常住节点。有任务才出现。

1.2.3MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总

1.3大数据技术生态体系

在这里插入图片描述

  1. Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  2. Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  3. Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
    (1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
    (2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
    (3)支持通过Kafka服务器和消费机集群来分区消息。
    (4)支持Hadoop并行数据加载。
  4. Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
  5. Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
  6. Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
  7. Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  8. Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
  9. R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
  10. Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。
  11. ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

1.4虚拟机环境搭建

  • 安装java 和 hadoop
    hadoop目录结构
    (1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
    (2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
    (3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
    (4)sbin目录:存放启动或停止Hadoop相关服务的脚本
    (5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

  • 配置环境变量
    注:设置为全局变量:export

 	vim /etc/profile
 	#JAVA_HOME
	export JAVA_HOME=/opt/module/jdk1.8.0_144
	export PATH=$PATH:$JAVA_HOME/bin
	#HADOOP_HOME
	export HADOOP_HOME=/opt/module/hadoop-2.7.2
	export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • 让环境变量生效
	source /etc/profile

1.5Hadoop运行模式

1.5.1本地模式部署

1.5.1.1本地模式介绍

本地模式是最简单的模式,所有模块都运行与一个JVM进程中,使用的本地文件系统,而不是HDFS,本地模式主要是用于本地开发过程中的运行调试用。下载hadoop安装包后不用任何设置,默认的就是本地模式。

1.5.1.2解压hadoop后就是直接可以使用
1.5.1.3运行MapReduce程序,验证

我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。

  1. 准备mapreduce输入文件wc.input
	[hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.input
	hadoop mapreduce hive
	hbase spark storm
	sqoop hadoop hive
	spark hadoop
  1. 运行hadoop自带的mapreduce Demo
[hadoop@bigdata-senior01 hadoopstandalone]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2

在这里插入图片描述

这里可以看到job ID中有local字样,说明是运行在本地模式下的。

  1. 查看输出文件
    本地模式下,mapreduce的输出是输出到本地。
	[hadoop@bigdata-senior01 hadoopstandalone]$ ll output2
	total 4
	-rw-r--r-- 1 hadoop hadoop 60 Jul  7 12:50 part-r-00000
	-rw-r--r-- 1 hadoop hadoop  0 Jul  7 12:50 _SUCCESS

输出目录中有_SUCCESS文件说明JOB运行成功,part-r-00000是输出结果文件。

1.5.2伪分布式Hadoop部署过程

1.5.2.1启动HDFS并运行MapReduce程序
1.5.2.1.1配置core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://ysy100:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

注意:
(1) fs.defaultFS参数配置的是HDFS的地址。
(2) hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。

默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。

1.5.2.1.2配置:hdfs-site.xml
<!-- 指定HDFS副本的数量 -->
<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

注意:
dfs.replication配置的是HDFS存储时的备份数量,因为这里是伪分布式环境只有一个节点,所以这里设置为1。
默认 value 为3个

1.5.2.1.3格式化HDFS
[hadoop@bigdata-senior01 ~]$ hdfs namenode –format

格式化是对HDFS这个分布式文件系统中的DataNode进行分块,统计所有分块后的初始元数据的存储在NameNode中。

格式化后,查看core-site.xml里hadoop.tmp.dir(本例是/opt/data目录)指定的目录下是否有了dfs目录,如果有,说明格式化成功。

注意:

  1. 格式化前先重启,配置的core-site.xml和hdfs-site.xml才生效。
  2. 查看NameNode格式化后的目录。
   [hadoop@bigdata-senior01 ~]$ ll 格式化目录所在路径

在这里插入图片描述
(1)fsimage是NameNode元数据在内存满了后,持久化保存到的文件。

(2)fsimage*.md5 是校验文件,用于校验fsimage的完整性。

(3)seen_txid 是hadoop的版本

(4)vession文件里保存:

		namespaceID:NameNode的唯一ID。
		clusterID:集群ID,NameNode和DataNode的集群ID应该一致,表明是一个集群。
  1. 为什么不能一直格式化NameNode,格式化NameNode,要注意什么?
namenode
 [root@ysy100 current]# cat VERSION 
#Sat Jun 27 15:15:44 CST 2020
namespaceID=1883567005
clusterID=CID-0b20f54c-f134-4c59-be07-d09e8e8d45aa
cTime=0
storageType=NAME_NODE
blockpoolID=BP-404211597-192.168.182.128-1593242144299
layoutVersion=-63

datanode
[root@ysy100 current]# cat VERSION 
#Sat Jun 27 15:40:54 CST 2020
storageID=DS-d734caa8-36bf-4245-ba66-93d8080ded68
clusterID=CID-0b20f54c-f134-4c59-be07-d09e8e8d45aa
cTime=0
datanodeUuid=986fc91f-b8b5-4caa-a27a-4f7391101f6f
storageType=DATA_NODE
layoutVersion=-56

注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。

1.5.2.1.3启动NameNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode
或者
[hadoop@bigdata-senior01 hadoop-2.5.0]$ hadoop-daemon.sh start namenode
1.5.2.1.4启动DataNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode
或者
 [hadoop@bigdata-senior01 hadoop-2.5.0]$ hadoop-daemon.sh start datanode
1.5.2.1.5启动SecondaryNameNode
[hadoop@bigdata-senior01 hadoop-2.5.0]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh start secondarynamenode
或者
[hadoop@bigdata-senior01 hadoop-2.5.0]$ hadoop-daemon.sh start secondarynamenode

1.5.2.2启动YARN并运行MapReduce程序

1.5.2.2.1配置mapred-site.xml
<!-- Reducer获取数据的方式 -->
<property>
 		<name>yarn.nodemanager.aux-services</name>
 		<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>
1.5.2.2.2配置yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
1.5.2.2.3配置:mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
1.5.2.2.4配置: (对mapred-site.xml.template重新命名为) mapred-site.xml

注意:默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[root@ysy100 hadoop]$ mv mapred-site.xml.template mapred-site.xml

[root@ysy100 hadoop]$ vi mapred-site.xml
<!-- 指定MR运行在YARN上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

注意:启动前必须保证NameNode和DataNode已经启动

1.5.2.2.5启动Resourcemanager
[root@ysy100 hadoop]$ ${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager
1.5.2.2.6启动nodemanager
[root@ysy100 hadoop]${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager
1.5.2.2.7查看是否启动成功
[root@ysy100 hadoop]$ jps
4791 ResourceManager
5144 Jps
3420 NameNode
3596 DataNode
5103 NodeManager
1.5.2.2.8将文件上传至hdfs的根目录
[root@ysy100 hadoop-2.7.2]$ hadoop fs -put wcinput /
或者
[root@ysy100 hadoop-2.7.2]$ bin/hdfs dfs -put wcinput/wc.input /wcinput
1.5.2.2.9执行MapReduce程序
[root@ysy100 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput /wcoutput

在这里插入图片描述
注:向RM申请资源

1.5.2.3完全分布式安装

1.5.2.3.1服务器功能规划

ysy101ysy102ysy103
HDFSNameNodeSecondaryNameNode
HDFSDataNodeDataNodeDataNode
YARNNodeManagerResourceManagerNodeManager
NodeManager

1.5.2.3.2配置Hadoop JDK路径修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径:

export JAVA_HOME=/opt/module/jdk1.8.0_144

1.5.2.3.3配置core-site.xml

[root@ysy100 hadoop-2.7.2]$ vim etc/hadoop/core-site.xml

大数据开发中的shell学习日记可以包括以下内容: 1. 学习Linux命令和shell脚本:作为大数据开发者,在Linux下进行开发是常见的,因此了解一些基本的Linux命令和编写shell脚本的技能是必备的。 2. 学习Django:Django是一个常用的Python Web框架,对于大数据开发来说,掌握Django可以帮助你构建数据分析和机器学习的应用程序。 3. 数据分析与机器学习大数据开发中经常需要进行数据分析和机器学习的工作,因此学习相关的技术和算法是必要的。可以参考一些前人的经验贴和教程,了解常见的数据分析和机器学习方法。 4. 大数据组件:了解大数据开发中常用的组件,如Hadoop、Spark等,掌握它们的基本原理和使用方式。 5. 前端内容:虽然大数据开发主要是后端的工作,但了解一些基本的前端知识也是有帮助的,比如HTML、CSS和JavaScript。 6. 数据架构:了解大数据开发中的数据架构,包括数据采集层、数据存储与分析层、数据共享层和数据应用层等,这对于设计和搭建大数据系统是很重要的。 此外,你还可以在牛客网等平台上深入学习和交流大数据开发的经验和知识。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [java版斗地主源码-Interview-Summary:回顾这两年来学了些什么和日记,private](https://download.youkuaiyun.com/download/weixin_38592548/19393922)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [程序员必备学习资源资料库!!!免费开发书籍中文版大全](https://blog.youkuaiyun.com/qq_32146369/article/details/106194267)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [大数据平台架构--学习日记(一)](https://blog.youkuaiyun.com/lp279579561/article/details/104746083)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值