Windows10 + VirtualBox 从零搭建 Hadoop/Hive 环境及 Hive 入门

本文详细介绍了Hadoop和Hive的安装过程,包括环境搭建、配置及常见命令使用,同时提供了HDFS和Yarn的架构概述,以及Hive与MySQL的集成配置,适合初学者快速上手。

1. Hadoop 概览

Google 三篇论文(GFS -> HDFS,Map-Reduce -> MR,BigTable -> HBase)是 Hadoop 的思想之源。Hadoop 生态非常庞大,其最初两大核心是 HDFS 和 MR,分别负责存储和计算(Hadoop 1.x 中,MR 既负责计算又负责资源调度,Hadoop 2.x,搞出 Yarn 负责调度,MR 只负责计算),由于 MR 被 Spark 取代,下面只简要看下 HFDS 和 Yarn。

Hadoop 环境搭建参考博文,个人学习毕竟受限个人笔记本资源限制,故而使用伪分布式方式。启动后可以访问 http://localhost:50070/ 查看 HDFS 情况。

HDFS 架构概述

图片来自官方文档
在这里插入图片描述

  • NameNode,存储文件的元数据,如文件名、目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的 DataNode 等。
  • DataNode,在本地文件系统存储文件块数据,以及块数据的校验和。
  • Secondary NameNode,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

HDFS 常见命令

注意结合 HDFS 的 UI 界面 http://localhost:50070/ 查看此文件系统的目录和文件(Utilities)等状态!

// 查看命令使用帮助
hadoop fs -help rm

// 查看根目录下文件(等价为 hadoop fs -ls hdfs://localhost:9000/,如果去掉最后边的 / ,将是查看最内层所有文件)
hadoop fs -ls /

// 递归创建目录(注意 / 开头)
hadoop fs -mkdir -p /test/test/test

// 递归删除目录(注意 / 开头)
hadoop fs -rm -r /test

更多命令见官网,用时结合百度查看使用即可。

HDFS 开发

在 Maven 中引入 HDFS 相关依赖包即可

Yarn 架构概述

在这里插入图片描述

2. 安装 VirtualBox

官网下载最新版本 VirtualBox 并安装,此过程简单,可结合百度。笔者使用 VirtualBox-6.1.10-138449-Win.exe。

3. 安装 Ubuntu

官网下载最新版本 Ubuntu 并安装到 VirtualBox 中,此过程简单,可结合百度。笔者使用 ubuntu-20.04-desktop-amd64.iso。最好开辟的硬盘空间大点,最起码 20G 吧,不然后续如果不够用,再扩容就比较麻烦了!!笔者在当前用户目录下建立了一个 env 文件夹,专门安装后面的各个环境。

4. 安装 Hadoop

3.1 安装 JDK

官网下载并解压到 env 文件夹,tar -xzf jdk-8u251-linux-x64.tar.gz,可利用mv jdk-8u251-linux-x64.tar.gz jdk重命名为 jdk。配置环境变量,在sudo vi ~/.bashrc最后加入下面的几行配置,并source ~/.bashrc生效,最后用javacjava试试是否安装成功。

export JAVA_HOME=jdk安装路径
export JRE_HOME=$JAVA_HOME/jre
export PATH=${
   
   JAVA_HOME}/bin:$PATH

3.2 安装 Hadoop

官网下载并解压到 env 文件夹并重命名为 hadoop,笔者使用的是 hadoop-2.6.4.tar.gz 。如下配置环境变量并使之生效(类似于 JDK 环境变量配置)。并使用hadoop version试试是否安装成功。

export HADOOP_HOME=Hadoop安装路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

伪分布式配置 Hadoop

  1. 修改core-site.xml,将修改为:
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:Hadoop解压路径/tmp</value>
        <description>Abase for other temporary directories.</description>
    <</
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值