Windows10 + VirtualBox 从零搭建 Hadoop/Hive 环境及 Hive 入门

原创

已于 2023-06-01 23:54:28 修改 · 2.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #hive #大数据

于 2020-07-06 13:17:05 首次发布

本文详细介绍了Hadoop和Hive的安装过程，包括环境搭建、配置及常见命令使用，同时提供了HDFS和Yarn的架构概述，以及Hive与MySQL的集成配置，适合初学者快速上手。

1. Hadoop 概览

Google 三篇论文（GFS -> HDFS，Map-Reduce -> MR，BigTable -> HBase）是 Hadoop 的思想之源。Hadoop 生态非常庞大，其最初两大核心是 HDFS 和 MR，分别负责存储和计算（Hadoop 1.x 中，MR 既负责计算又负责资源调度，Hadoop 2.x，搞出 Yarn 负责调度，MR 只负责计算），由于 MR 被 Spark 取代，下面只简要看下 HFDS 和 Yarn。

Hadoop 环境搭建参考博文，个人学习毕竟受限个人笔记本资源限制，故而使用伪分布式方式。启动后可以访问 http://localhost:50070/ 查看 HDFS 情况。

HDFS 架构概述

图片来自官方文档
在这里插入图片描述

NameNode，存储文件的元数据，如文件名、目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的 DataNode 等。
DataNode，在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

HDFS 常见命令

注意结合 HDFS 的 UI 界面 http://localhost:50070/ 查看此文件系统的目录和文件（Utilities）等状态！

// 查看命令使用帮助
hadoop fs -help rm

// 查看根目录下文件（等价为 hadoop fs -ls hdfs://localhost:9000/，如果去掉最后边的 / ，将是查看最内层所有文件）
hadoop fs -ls /

// 递归创建目录（注意 / 开头）
hadoop fs -mkdir -p /test/test/test

// 递归删除目录（注意 / 开头）
hadoop fs -rm -r /test

更多命令见官网，用时结合百度查看使用即可。

HDFS 开发

在 Maven 中引入 HDFS 相关依赖包即可

Yarn 架构概述

在这里插入图片描述

2. 安装 VirtualBox

官网下载最新版本 VirtualBox 并安装，此过程简单，可结合百度。笔者使用 VirtualBox-6.1.10-138449-Win.exe。

3. 安装 Ubuntu

官网下载最新版本 Ubuntu 并安装到 VirtualBox 中，此过程简单，可结合百度。笔者使用 ubuntu-20.04-desktop-amd64.iso。最好开辟的硬盘空间大点，最起码 20G 吧，不然后续如果不够用，再扩容就比较麻烦了！！笔者在当前用户目录下建立了一个 env 文件夹，专门安装后面的各个环境。

4. 安装 Hadoop

3.1 安装 JDK

官网下载并解压到 env 文件夹，tar -xzf jdk-8u251-linux-x64.tar.gz，可利用mv jdk-8u251-linux-x64.tar.gz jdk重命名为 jdk。配置环境变量，在sudo vi ~/.bashrc最后加入下面的几行配置，并source ~/.bashrc生效，最后用javac和java试试是否安装成功。

export JAVA_HOME=jdk安装路径
export JRE_HOME=$JAVA_HOME/jre
export PATH=${
   
   JAVA_HOME}/bin:$PATH

3.2 安装 Hadoop

官网下载并解压到 env 文件夹并重命名为 hadoop，笔者使用的是 hadoop-2.6.4.tar.gz 。如下配置环境变量并使之生效（类似于 JDK 环境变量配置）。并使用hadoop version试试是否安装成功。

export HADOOP_HOME=Hadoop安装路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

伪分布式配置 Hadoop

修改core-site.xml，将修改为：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:Hadoop解压路径/tmp</value>
        <description>Abase for other temporary directories.</description>
    <</

最低0.47元/天解锁文章