-
1.Hive简介
-
2.Hive部署方式
-
3.Hive的架构图
-
4.Hive初体验
-
5.Hive SQL语法--DDL操作数据库
1.Hive简介
Apache Hive是建立在Hadoop之上的一个数据仓库工具,它提供了一种类似于SQL的查询语言,称为HiveQL,用于查询和分析存储在Hadoop分布式文件系统(HDFS)中的大规模结构化数据。以下是Hive的一些主要特点和介绍:
1. 类SQL查询语言: HiveSQL是Hive的查询语言,它类似于传统数据库中的SQL。这使得对Hadoop中的数据执行查询变得更加容易,尤其是对那些熟悉SQL的用户。
2. 数据仓库和ETL工具: Hive被设计为一种数据仓库工具,适用于大规模数据的存储、查询和分析。它还可以用作ETL(Extract, Transform, Load)工具,支持将数据从不同来源导入到Hadoop中。
3. 扩展性: Hive是建立在Hadoop生态系统之上的,因此可以轻松扩展到大规模的数据集。它利用Hadoop的分布式计算能力,可以处理PB级别的数据。
4. Hive表和分区: Hive中的数据组织成表,并且可以根据需要进行分区。这使得对大型数据集进行更有效的管理和查询成为可能。
5. 元数据存储: Hive使用元数据存储来跟踪表、分区和其他元素的信息。这些元数据存储在关系型数据库中(默认是Derby),并可由Hive管理器访问。
6. 用户自定义函数(UDF): Hive允许用户编写自定义函数,以满足特定的数据处理需求。这使得Hive可以通过用户定义的函数进行更高级的数据处理。
7. 优化和执行计划: Hive执行计划使用MapReduce来处理查询,但Hive也支持其他执行引擎,例如Tez。优化器在执行计划中进行优化,以提高查询性能。
8. 集成其他工具: Hive可以与其他Hadoop生态系统工具集成,例如Apache HBase、Apache Spark等,以实现更丰富的数据处理和分析功能。
总体而言,Apache Hive是一个强大的工具,使得在Hadoop平台上执行SQL样式的查询变得更加容易,同时提供了对大规模结构化数据的存储和处理的能力。
什么是分布式SQL?
通过分布式的方式, 执行SQL语句, 获取分析结果.
为啥要学Apache Hive呢?
-
通过Java 或者 Python直接操作MapReduce, 也可以做分析, 但是开发难度稍大.举例在SQL中计算表数据中有多少个‘word’这个单词只需要轻飘飘的一个selece查询一行代码即可,但是在Java,Python这种语言中却需要很多行代码才能完成,所以通过SQL做分析, 相对简单易上手
-
Apache