概述
数据仓库的体系结构
数据仓库存储大量的历史数据,数据仓库中的数据不会频繁发生变化,甚至根本不发生变化,数据源中的数据,抽取、装换、加载到数据仓库中之后,很多情况下就只读了
数据仓库底层存储数据所需要的数据库产品还是传统的关系数据库。
传统数据仓库面临的挑战
现在大企业动辄一天几个TB,几十个TB的数据生成速度,对于传统的数据仓库来讲是很难应付的
传统数据仓库是基于关系型数据库构建的,只能支持结构化数据存储,没办法存储很多类型的非结构化数据,比如日志
Hive
Hive是Facebook开发的,后来贡献给Apache了
Hive是构建在Hadoop平台之上的,顶层的一个数据仓库,支持大规模的数据存储分析
Hive本身只能把它看做是一个面向用户的编程接口,只相当于给用户提供了一种编程语言,让用户通过类似SQL的语言,去编写它的分析需求
Hive既依赖于HDFS又依赖于MapReduce
Hive的两个特性
Hive和其他大数据组件
Pig是一种面向流式处理的一种语言,类似于SQL语句。Pig里面提供的语言叫Pig Latin,可以通过编写Pig Latin脚本语言,非常容易地去运行一些基本的数据仓库数据分析工作,而不需要去编写非常复杂的Java代码
Hive和HBase 也是一种互补的关系
Hive适合海量数据批处理,HBase适合交互式实时分析查询
Hive做海量数据的批处理,批处理肯定不能给你实时响应,一般都是分钟级的响应
Hive在企业大数据分析平台中的应用
Hive系统架构
三个核心模块:用户接口模块、驱动模块、元数据存储模块
Hive HA
数据仓库Hive
最新推荐文章于 2024-11-18 15:32:43 发布