Hive使用入门

最新推荐文章于 2024-03-12 09:47:13 发布

原创最新推荐文章于 2024-03-12 09:47:13 发布 · 915 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hdfs #hadoop

hadoop 同时被 2 个专栏收录

45 篇文章

订阅专栏

hadoop

17 篇文章

订阅专栏

先介绍一些基本的命令：

1、进入hive命令行，这种方式进入之后，操作结果展示时带有执行mapreduce的调试信息；

hive --service cli //等同于直接输入hive

2、进入hive命令行静默模式,不输出调试信息；

hive -S //静默模式

3、查看表信息，查看函数信息，查看表字段信息,每一条hiveql语句后面都要跟分号(;)结尾

show tables;
show functions;
desc xx_user;

4、查看hdfs文件信息，查看linux文件信息

dfs -ls /usr; --查看hdfs文件系统信息
!ls ;         --查看linux文件系统信息

5、hive在linux命令行下的交互模式,静默模式

hive -e "show tables"    //交互模式
hive -S -e "show tables" //静默的交互模式

6、hive执行sql文件

第一种方式，在linux命令行下

hive -f queryall.sql

第二种方式，在hive命令行下

source queryall.sql

hive数据存储：

hive数据存储基于HDFS,没有专门的数据存储格式。

hive可以直接加载本地文本文件(.txt)，同时创建表可以指定间隔符。

表分为内部表、分区表、外部表、桶表。

a)默认创建的表是内部表：

create table student(id int,name string) location '/user/feiy/student';

b)分区表

create table student_all(id int,name string) partitioned by (gender string) row format delimited fields terminated by '\t';

c)外部表

hive目前不支持insert into table table_name values(x,x,x,x);的方式插入数据
只能是
1、导入外部数据
2、创建时查询别的表
3、插入时查询别的表

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

luffy5459

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Hive基础教程 Hive入门

果子哥丶的博客

02-22

7386

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。

【Hive】快速入门~

关注我！菜鸟进阶站

08-20

1942

快速掌握一门语言是每个程序员必备的技能

参与评论您还未登录，请先登录后发表或查看评论

Hive快速入门系列(1) | Hive的基本概念(超详细，入门推荐！)

不温卜火

05-03

6006

经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。目录基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点1.4 Hive架构1.5 执行过程1.6 Hive与Hadoop的关系1.7 Hiv...

Hive入门

m0_61332144的博客

04-10

2305

Hive是基于Hadoop的一个数据仓库工具，它可以将结构化或板结构换的数据文件转化为一张数据库表，并提供简单的sql查询功能。一、Hive简介

HIVE从入门到精通.pdf

01-17

### HIVE从入门到精通知识点概述 #### 一、Hive简介 - **背景与需求**：随着商业智能领域数据量的急剧增加，传统的数据仓库解决方案成本高昂，难以满足需求。Hadoop作为一种流行且开源的MapReduce实现，在Yahoo、...

Hive编程指南+HIVE从入门到精通+Hive高级编程+Apache Oozie

11-15

Hive是基于Hadoop的数据仓库工具，它允许用户使用SQL（HQL）查询和管理大规模数据集。而Oozie是Hadoop生态系统中的工作流调度系统，用于管理Hadoop作业的生命周期。 **Hive编程指南** Hive的核心理念是将SQL语句...

精选资源

Hive从入门到精通资源.zip

05-15

本资源包“Hive从入门到精通资源.zip”包含了学习Hive所需的基本资料和依赖库，旨在帮助初学者快速掌握Hive的使用，并逐步晋升为高级用户。 1. **Hive简介** Hive是Facebook开源的一款基于Hadoop的数据仓库工具，...

《Hive系列》Hive快速入门教程

https://blog.datasource.space

05-11

1813

我们默认使用的存储元数据的是hive自带的derby数据库。这个数据库最大的缺点是只支持单session。新建数据库(可视化工具中操作)HDFS/YARN开启。

hive入门

又小雨的博客

07-10

381

一、简介 hive是基于Hadoop的一个数据仓库工具。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单。 hive十分适合对数据仓库进行统计分析。延迟较高(MapReduce本身延迟，Hive SQL向MapReduce转化优化提交)，适合做大数据的离线处理(TB PB级别的数据，统计结果延迟1天产出)。

Hive 快速入门

u012351661的专栏

06-26

4401

原文 http://gitbook.cn/books/5924bd0523245b0aa3776b65/index.html Hive 快速入门作者：鸣宇淳前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍，这篇文章是基于hive-1.0.0版本介绍的，这个版本的Hive是运行在MapReduce上的，新的版本可以运行在Tez上，会有一些不同。 Hive是对数据仓库进

最详Hive入门指南

Mikkkee的博客

03-12

1858

基于Hadoop的⼀个数据仓库⼯具，可以将结构化的数据⽂件映射为⼀张表，并提供类SQL查询功能。本质就是一个hadoop的客户端，将HIve SQL转化成MapReduce程序如果不指定地址，那么就是默认地址下的自己构建的表名字，在此默认路径下创建了这么一个表的目录然后我们只要和表中对应数据格式一样的数据传到hdfs下的表目录下，就可以将数据存储到表中了。

hadoop hdfs命令

窦永厚

10-10

448

版本：Hadoop 2.7.4 – 查看hadoop fs帮助信息 [root@hadp-master sbin]# hadoop fs Usage: hadoop fs [generic options] [-appendToFile … ] [-cat [-ignoreCrc] …] [-checksum …] [-chgrp [-R] GROUP PATH…] [-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…] [-chown [-R] [O

Hive 安装-使用HDFS文件系统

GYT0313

11-24

6237

1.下载、解压Hive 下载网站：http://www.apache.org/dyn/closer.cgi/hive/ 百度网盘：链接：https://pan.baidu.com/s/16QzSgxa_VLnJ7ksnLUrtEw 提取码：ef9b 这里下载的是2.3.4 版本。解压到 /home/hadoop/目，并修改名称： tar -zxvf apache-hive-2.3.4-bin...

hive数据处理及hdfs文件操作

最新发布

03-26

### Hive 快速入门教程 #### 1. Hive 是什么？ Hive 是一种基于 Hadoop 的数据仓库工具，它允许用户通过类 SQL 查询语言（称为 HiveQL 或 HQL）来分析存储在 HDFS 中的大规模结构化数据[^1]。Hive 将用户的查询转换为 MapReduce、Tez 或 Spark 作业，在分布式环境中执行。 #### 2. Hive 底层如何运行？ Hive 的底层依赖于 Hadoop 生态系统的多个组件： - 数据存储：Hive 使用 HDFS 来存储其管理的数据[^5]。 - 执行引擎：Hive 的查询被编译成一系列的 MapReduce/Spark/Tez 任务并提交到 YARN 进行调度和执行。 #### 3. Hive 架构概述 Hive 的核心架构由以下几个部分组成： - **驱动器 (Driver)**：负责解析 SQL 并将其转化为可执行的任务序列[^4]。 - **元数据存储 (Metastore)**：用于保存表定义、分区信息和其他元数据的信息。 - **执行引擎**：实际执行生成的计划，通常会调用 MapReduce 或其他计算框架完成具体的工作。 #### 4. 快速入门环境准备为了能够顺利使用 Hive，需要安装以下软件及其版本兼容性设置： ##### 4.1 软件需求 - **Hadoop**：作为基础平台提供分布式存储与计算能力。 - **JDK**：Java 开发包是运行 Hive 和相关服务的基础。 - **MySQL**（或其他关系型数据库）：用来持久化 Hive 的元数据。 ##### 4.2 安装步骤概览以下是简化版的安装指南： 1. 下载并解压 Hive 发行版至目标路径； 2. 编辑 `hive-site.xml` 文件指定 MySQL 地址以及端口等连接参数[^3]； 3. 启动 Hadoop 集群确保 NameNode 和 DataNodes 正常运作； 4. 初始化 Metastore 表结构并通过命令 `schematool -initSchema -dbType mysql` 创建必要的库表； 5. 测试 Hive CLI 是否可以正常访问默认数据库 default。 #### 5. 示例操作下面是一个简单的例子展示如何向已存在的分区表插入新记录： ```sql INSERT OVERWRITE TABLE student PARTITION(month='202107') SELECT * FROM temp_student WHERE month='202107'; ``` 此脚本的作用是从临时表 `temp_student` 提取符合条件的所有字段值覆盖写入目标表 `student` 对应月份分区内。 --- ###