Hive 实验

这篇博客详细介绍了在Hive中进行数据处理的步骤,包括创建数据库、导入数据、执行wordcount统计、创建外部表和ORC事务表。还涉及到单值分区表和ORC分区分桶表的创建,展示了Hive在大数据处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

// 创建数据库并导入数据

1. create database {database_name};

2. use {database_name};

3. create table docs(line string);

4. load data inpath '/training/{student_name}/inceptor_data/wordcount' into table docs;

//创建结果表

create table wc(word string, totalword int);

// wordcount统计

from (select explode(split(line, ' ')) as word from docs) w

insert into table wc

select word, count(1) as totalword

group by word

order by word;

// 查看分析结果

select * from wc;

// 创建外表

 create external table ext_table(rowkey string, num int, country int, rd string) row format delimited fields terminated by ',' location '/images/inceptor_data';

//创建ORC事务表

// 设置开启事务

1. set transaction.type=inceptor;

// 设置PLSQL编译器不检查语义

2. set plsql.compile.dml.check.semantic=false;

### 设置和运行 Hive 数据仓库实验 #### 准备工作 为了在 VM 虚拟机上成功设置并运行 Hive 数据仓库实验,需先完成一系列准备工作。 确保虚拟机已按照指定流程配置完毕[^1]。这包括但不限于安装 CentOS 7 系统、正确配置网络参数以及确保能够通过远程终端工具连接到虚拟机。 #### 安装 Java 和 Hadoop 由于 Hive 是构建在 Hadoop 上的数据仓库基础设施,因此需要预先安装好 JDK 及 Hadoop 并验证其正常运作。 对于 JDK 的安装,在目标节点 `hadoop102` 执行相应命令来获取适合版本的 JDK,并将其加入环境变量中以便后续操作可以直接调用 java 命令。 接着同样是在该节点部署 Hadoop,解压至特定目录下,编辑必要的配置文件如 core-site.xml, hdfs-site.xml 等以适应当前环境需求。 ```bash export JAVA_HOME=/usr/local/jdk1.8.0_XXX export PATH=$JAVA_HOME/bin:$PATH ``` #### 获取并配置 Hive 下载最新稳定版 Hive 发行包放置于合适位置后解压缩: ```bash tar -zxvf apache-hive-x.x.x-bin.tar.gz -C /opt/ cd /opt/apache-hive-x.x.x-bin/ ``` 创建所需的存储路径供 Hive 使用,并赋予适当权限给用户;同时调整 hive-env.sh 文件中的 HIVE_CONF_DIR 参数指向实际存放配置的地方。 另外还需注意 metastore 数据库的选择,默认情况下会采用 Derby 内嵌数据库仅适用于单用户场景测试目的,建议切换成 MySQL 或 PostgreSQL 来满足多并发访问的需求。 #### 初始化 Metastore 如果选择了外部关系型数据库作为元数据管理方案,则要提前准备好 JDBC 驱动程序并将之置于 $HIVE_HOME/lib 下面,之后利用 schematool 工具初始化 schema 结构。 ```sql schematool -dbType mysql -initSchema ``` #### 启动服务与验证功能 启动 Hadoop 相关守护进程(NameNode/DataNode/YARN ResourceManager/NodeManager),随后尝试开启 Hive CLI 或 Beeline 接口来进行基本指令交互测试,比如查看已有数据库列表、表结构定义或是简单查询语句执行情况等。 ```sql hive> show databases; hive> use default; hive> create table test(id int); hive> insert into test values(1); hive> select * from test; ``` 以上步骤完成后即表示已经在本地虚拟化平台上搭建起了一个简易却完整的 Hive 实验环境[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值