Hive分享教程1-Hive简介

最新推荐文章于 2024-01-03 13:08:57 发布

原创最新推荐文章于 2024-01-03 13:08:57 发布 · 157 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

Hive分享专栏收录该内容

33 篇文章

订阅专栏

本文介绍了Hive作为SQL解释引擎如何将SQL语句转换为MapReduce任务在Hadoop上执行，实现对大规模数据集的高效处理。文章还探讨了Hive表的组织方式、查询语法及数据类型。

HIVE是一个SQL解释引擎，它将SQL语句转译成M/R JOB，然后在Hadoop执行，来达到快速开发的目的。Hive的表其实就是一个Hadoop的目录/文件（HIVE默认表存放路径一般是工作目录的Hive目录里面），按表名做文件夹分开，如果有分区表，分区值都是子文件夹，可以直接在其他的M/R JOB里面直接应用这部分数据。

Hive的特点有一下几点：
1.为超大数据集设计的计算/拓展能力-based on Hadoop
2.支持SQL like查询语言
3.统一的元数据管理
Hive与SQL类似，使用的语句区别不大，如：


    select word,count(*) from(select expolde(split(sentence,' '))) word from article) t group by word;

Hive的数据类型有以下分类：
原始类型：int/bigint/smallint/tinyint/boolean/double/float/string
数组类型：Array
映射：Map
结构：Struct
备注：原始类型长度跟平常的大小无异，其中HiveQL没有date/datetime类型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_1344

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive知识分享

qq_33912088的博客

06-03

1447

表 table内外部表及其创建分区表及其创建重命名表重命名字段导入数据导入本地数据导入集群数据向表中插入数据（到对应分区） Flask简介 Flask是一个使用 Python 编写的轻量级 web 应用框架简单易用，上手快安装使用 pip install flask 一个具体应用结构 cloud/ static/ templates/ a.py a.py解析 #!/usr

hive分享

wspiderw的专栏

01-30

283

开发常用日期处理函数 No.1 sysdate(int) 语法：sysdate(整数数字) 返回值：string类型的日期说明：返回系统当前日期加上括号中的整数数字对应的日期，如sysdate(-1)返回昨天的日期‘2015-01-27’，sysdate(0)返回今天‘2015-01-28’，sysdate(1)返回明天‘2015-01-29’，以此类推。举例：输入：Se...

参与评论您还未登录，请先登录后发表或查看评论

Hive的知识分享

chuanchenyi的博客

05-11

526

## 创建数据库 ##### 语法 ```sql CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; ``` **创建一个数据库，指定数据库在** **HDFS** **上存放的位置** ```sql hive (default)> creat

Hive内容分享(一)：Hive介绍

热门推荐

alanchanchn的专栏

06-05

7万+

用户接口包括 CLI、JDBC/ODBC、WebGUI。CLI(command line interface)为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议WebGUI是通过浏览器访问Hive元数据存储通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。Driver驱动程序。

hive-jdbc-2.1.1-cdh6.1.0-standalone.jar

03-16

hive JDBC jar包。由于项目使用，此jar包从国外下载费了好大劲，现分享给大家。 hive JDBC jar包。由于项目使用，此jar包从国外下载费了好大劲，现分享给大家。 hive JDBC jar包。由于项目使用，此jar包从国外下载费...

hive-jdbc-uber-2.6.5.0-292.jar

06-01

这个jar包可以用于使用DateGrip连接Hive时添加jdbc驱动时使用。详细的可以参考我的一篇教程《使用DataGrip连接Hive》

hive-jdbc-2.1.0-standalone.jar

01-22

hive-jdbc-2.1.0-standalone.jar

hive-exec-*.jar包

02-27

Missing Hive Execution Jar: /hive/hive1.2.1/lib/hive-exec-*.jar

hive-jdbc-1.1.0驱动相关jar包

11-09

通常，除了`hive-jdbc-1.1.0.jar`之外，可能还需要Hive的其他依赖，例如`hadoop-client`、`hive-exec`、`hive-service`等。这些依赖确保了驱动能正确地与Hadoop集群通信。在Java代码中，可以使用`Class.forName()`...

Hive

王帆的专栏

10-16

1215

一、hive简介 1. Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。 2. Hive是SQL解析引擎，它将SQL语句转

记录中的最大行max_row

valder fields

05-26

3226

import java.util.Arrays; import java.util.ArrayList; import java.util.List; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.hadoop.hive.ql....

HIVE MAP排序 GenericUDF

valder fields

07-03

1305

package com.duowan.hive.udf.generic; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.LinkedHashMap; import j...

Hive授权（Security配置）

valder fields

05-08

1133

摘：https://cwiki.apache.org/Hive/languagemanual-auth.html https://cwiki.apache.org/Hive/authdev.html http://grokbase.com/t/hive/user/11aksphhas/authorization-and-remote-connectio...

HIVE 窗口及分析函数应用场景

valder fields

07-16

939

窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() 返回数据项在分组中的排名，排名相等会在名次中留下空位 DENSE_RANK() 返回数据项在分组中的排名，排名相等会在名次中不会留下空位 NTILE() 返...

再谈GenericUDAF（以collect_set源码分析）

valder fields

05-25

894

最近对Generic UDAF思索了一下，感觉最关键的是理解UDAF执行的每一步过程的输入与输出，其实步骤根据说明来编写相关代码就基本没问题，但是需要注意的是，数据类型需要统一，建议使用 Hadoop 数据类型，即分布式对象。实践中证实使用writable系列的类型比java系列的类型简单. 不要尝试同时使用二种系列的类型, 中间容易出现ClassCastException. ...

hive并发调用的运行方式-个人经验篇

valder fields

04-17

860

前言使用hive，我们很多情况下会并发调用hive程序，将sql任务转换成mapreuce提交到hadoop集群中，而在本人使用hive的过程中，发现并发调用hive有几个问题,在这个和大家分享下. 正文默认安装hive，hive是使用derby内存数据库保存hive的元数据，这样是不可以并发调用hive的，需要配置为使用mysql保存hive的元数据。运行hive，可...

Java连接Hive必备：hive-jdbc-1.2.1-standalone及依赖包介绍

标题中的 "hive-jdbc-1.2.1-standalone" 指的是一款针对Apache Hive的独立版Java数据库连接（JDBC）驱动程序。此驱动程序允许Java应用程序通过JDBC API连接到Hive，执行SQL查询并处理结果集。它是Hive数据仓库项目的...