大数据-Hive

最新推荐文章于 2024-01-18 00:16:22 发布

原创最新推荐文章于 2024-01-18 00:16:22 发布 · 263 阅读

CC 4.0 BY-SA版权

文章标签：

62 篇文章

订阅专栏

Hive

Apache Hive是一个数据仓库软件在Hadoop中处理结构化数据，有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive

优点

（1）操作接口采用类SQL语法，简单、快速

（2）可以替代MapReduce程序，sqoop

（3）可以处理海量数据

（4）支持UDF，自定义函数

缺点

（1）处理数据延迟高，慢

（2）HQL的表达能力有限

在这里插入图片描述

（1）用户通过客户端的CLI和JDBC来操作Hive

（2）Hive将元数据存储在数据库中，如mysql、derby

（3）SQL解析器、编译器、query优化器和execution执行器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成

（4）生成的查询结果存储在HDFS中

（5）调用底层MapReduce进行查询和计算