1. Hadoop 概览
Google 三篇论文(GFS -> HDFS,Map-Reduce -> MR,BigTable -> HBase)是 Hadoop 的思想之源。Hadoop 生态非常庞大,其最初两大核心是 HDFS 和 MR,分别负责存储和计算(Hadoop 1.x 中,MR 既负责计算又负责资源调度,Hadoop 2.x,搞出 Yarn 负责调度,MR 只负责计算),由于 MR 被 Spark 取代,下面只简要看下 HFDS 和 Yarn。
Hadoop 环境搭建参考博文,个人学习毕竟受限个人笔记本资源限制,故而使用伪分布式方式。启动后可以访问 http://localhost:50070/ 查看 HDFS 情况。
HDFS 架构概述
- NameNode,存储文件的元数据,如文件名、目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的 DataNode 等。
- DataNode,在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
HDFS 常见命令
注意结合 HDFS 的 UI 界面 http://localhost:50070/ 查看此文件系统的目录和文件(Utilities)等状态!
// 查看命令使用帮助
hadoop fs -help rm
// 查看根目录下文件(等价为 hadoop fs -ls hdfs://localhost:9000/,如果去掉最后边的 / ,将是查看最内层所有文件)
hadoop fs -ls /
// 递归创建目录(注意 / 开头)
hadoop fs -mkdir -p /test/test/test
// 递归删除目录(注意 / 开头)
hadoop fs -rm -r /test
HDFS 开发
在 Maven 中引入 HDFS 相关依赖包即可
Yarn 架构概述

2. 安装 VirtualBox
官网下载最新版本 VirtualBox 并安装,此过程简单,可结合百度。笔者使用 VirtualBox-6.1.10-138449-Win.exe。
3. 安装 Ubuntu
官网下载最新版本 Ubuntu 并安装到 VirtualBox 中,此过程简单,可结合百度。笔者使用 ubuntu-20.04-desktop-amd64.iso。最好开辟的硬盘空间大点,最起码 20G 吧,不然后续如果不够用,再扩容就比较麻烦了!!笔者在当前用户目录下建立了一个 env 文件夹,专门安装后面的各个环境。
4. 安装 Hadoop
3.1 安装 JDK
官网下载并解压到 env 文件夹,tar -xzf jdk-8u251-linux-x64.tar.gz,可利用mv jdk-8u251-linux-x64.tar.gz jdk重命名为 jdk。配置环境变量,在sudo vi ~/.bashrc最后加入下面的几行配置,并source ~/.bashrc生效,最后用javac和java试试是否安装成功。
export JAVA_HOME=jdk安装路径
export JRE_HOME=$JAVA_HOME/jre
export PATH=${
JAVA_HOME}/bin:$PATH
3.2 安装 Hadoop
官网下载并解压到 env 文件夹并重命名为 hadoop,笔者使用的是 hadoop-2.6.4.tar.gz 。如下配置环境变量并使之生效(类似于 JDK 环境变量配置)。并使用hadoop version试试是否安装成功。
export HADOOP_HOME=Hadoop安装路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
伪分布式配置 Hadoop
- 修改core-site.xml,将修改为:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:Hadoop解压路径/tmp</value>
<description>Abase for other temporary directories.</description>
<</

本文详细介绍了Hadoop和Hive的安装过程,包括环境搭建、配置及常见命令使用,同时提供了HDFS和Yarn的架构概述,以及Hive与MySQL的集成配置,适合初学者快速上手。

最低0.47元/天 解锁文章
1914

被折叠的 条评论
为什么被折叠?



