大数据处理技术之Hive 概览
1. 大数据架构
- 如我另一篇博客了所述,大数据处理技术架构和业务应用,大数据业务和技术架构简图如下:
- 整个大数据技术可以分为3大块,数据存储、数据处理和分析、数据展示。三大板块都可以独立和业务系统对接,但一般这三者都会形成一个技术体系对外部的技术体系提供服务。
- 例如一家公司内部的大数据部门负责存储从业务体系中获取到的海量数据如日志、业务数据等等,然后通过mapreduce、hive、spark、flink等技术进行分析处理,之后再通过OLAP对外进行数据展示或者提供对外API给公司内部或者外部客户进行调用。
2. Hive是什么
- hive就是用于分析处理海量结构化日志的一种技术。由facebook开源出来。
- 本质是将sql语句转化为mapreduce程序进行数据分析处理。
- hive不是一个数据库,是一个数据仓库工具,可以把结构化数据映射为一张表,同时对外提供类似sql的查询
- 注意SQL只是一种规范,很多数据库或者框架都会尽可能遵循SQL规范,也就是确保主要的SQL语句功能是通用的,但细微部分肯定会有差异。这样带来的好处是只要会使用SQL,就能使用大部分框架提供的能力,所以Hive、Clickhosue等数据处理框架都会提供SQL支持