数据仓库Hive

最新推荐文章于 2025-02-13 10:31:55 发布

Co_zy

最新推荐文章于 2025-02-13 10:31:55 发布

阅读量468

点赞数

分类专栏： BigData

BigData 专栏收录该内容

9 篇文章

订阅专栏

数据仓库概念

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
根本目的 是为了支持企业内部的商业分析和决策,基于数据仓库的分析结果,做出相关的经营决策.

数据仓库的体系结构

在这里插入图片描述

数据仓库与数据库的区别

数据仓库中的数据比较稳定,保留了大量历史数据;
而数据库只保存某一时刻的数据.

Hive

对于传统数据仓库来说,既是数据存储产品也是分析产品,但Hive并不提供这些功能,它提供了类似关系数据库SQL语言的查询语言HiveQL,可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身将HiveQL语句转换为MapReduce任务进行运行.
两个方面特性
(1)采用批处理方式处理海量数据
(2)Hive提供了一系列对数据进行提取,转换,加载ETL的工具

Hive与其他组件的关系

在这里插入图片描述

Hive在企业中的应用

在这里插入图片描述
Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。
BI（Business Intelligence） 即商务智能，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确地提供报表并提出决策依据，帮助企业做出明智的业务经营决策。

Hive系统架构

用户接口模块
包括CLI、HWI (HiveWebInterface)、JDBC、ODBC、Thrift Server
驱动模块
包括编译器、优化器、执行器,负责把HiveQL转化为一系列MapReduce作业
元数据存储模块

SQL转换成MapReduce基本原理
(1)join的实现原理
在这里插入图片描述
(2) group by的实现原理

Hive安装

http://dblab.xmu.edu.cn/blog/1080-2/

Hive数据类型
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。