数据分析系统Hive

最新推荐文章于 2024-10-29 17:30:54 发布

yunpiao123456

最新推荐文章于 2024-10-29 17:30:54 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据学习

本文链接：https://blog.youkuaiyun.com/yunpiao123456/article/details/51897075

大数据学习专栏收录该内容

9 篇文章

订阅专栏

Hive概述

Hive是由facebook开源，最初用于解决海量结构化的日志数据统计问题。其是构建在Hadoop之上的数据仓库。数据计算使用MR，数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL。类似SQL，但不完全相同。通常用于进行离线数据处理（采用MapReduce）。可认为Hive是一个HQL-MR的语言翻译器。

上述代码是mapreduce实现的wordcount。但是，利用Hive实现上述功能只需要一行命令。SELECT word, COUNT(*) FROM doc LATERAL VIEW explode(split(text, ' ')) lTable as word GROUP BY word。

Hive典型应用场景

日志分析统计网站一个时间段内的pv、uv多维度数据分析。大部分互联网公司使用Hive进行日志分析，包括百度、淘宝等。其他场景如：海量结构化数据离线分析和低成本进行数据分析（不直接编写MR）。

Hive简单，容易上手提供了类SQL查询语言HQL。为超大数据集设计了计算/扩展能力。MR作为计算引擎，HDFS作为存储系统。其具有统一的元数据管理（HCalalog）。并且可与Pig、Presto等共享。

Hive基本架构

用户接口包括 CLI，JDBC/ODBC，WebUI 。元数据存储（metastore）是默认存储在自带的数据库derby中，线上使用时一般换为MySQL 。驱动器（Driver）包括：解释器、编译器、优化器以及执行器。负责将HQL语句翻译为Map/Reduce Job。Hive与Hadoop交互。用 MapReduce 进行计算，用 HDFS 进行存储。