数据仓库（data warehouse）-简介

最新推荐文章于 2025-10-11 13:00:13 发布

原创

最新推荐文章于 2025-10-11 13:00:13 发布 · 2.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据仓库是按照主题组织的、集成的、稳定的数据集合，主要用于决策支持。它反映了历史变化，不支持UPDATE和DELETE操作。Hive作为数据仓库工具，依赖HDFS存储数据，通过将SQL转换为MapReduce任务简化分布式计算。Hive的元数据存储了表与数据文件的关系、字段定义等信息，并可通过外部数据库如MySQL管理。在Hadoop集群上，Hive支持SQL查询分析，但不支持UPDATE和DELETE操作，适合离线批量数据处理。

数据仓库：组织数据的方式，按照主题来进行组织（多张事实表+多张维度表）集成的相对稳定，没有update和delete操作

反映历史变化（Time Variant）：历史数据，每条记录都是表示过去某个时刻的一条事实

数据仓库的价值：用于支持管理决策（Decision Marking Support）

数据仓库：历史数据，标准化结构数据，文本数据，进行查询分析，支持sql中的select语法

hive依赖于hdfs存储数据，hive的本质是将sql语句转换为Map Reduce任务运行，使得Map Reduce用户很方便的利用Hql处理和计算hdfs上的结构化数据，适用于离线的批量数据计算，极大简化分布式计算程序的编写，将精力集中于业务逻辑。

执行流程：driver接收语句-->compiler变成抽象语法树,逻辑执行计划，优化-->optimizer物理执行计划，优化-->executor执行

hdfs中的元数据（大文件的存储文件：分散存储+冗余存储）

目录树空间
每个大文件都对应到哪些小文件呢
一个数据块有三个副本，这个数据块的三个副本到底存储在哪三个节点呢？

hive的元数据：把存储在hdfs上的结构化数据想象成一张二维表

表名（表和数据文件之间的映射关系）
字段定义（由哪些字段组成的）
行列分隔符（行与行的界限，列与列的界限）
表中的数据（表对应到哪些文件呢）

hive的元数据管理借助于一个关系型数据库（hive自带一个嵌入性小型RDBM：derby）企业级应用建议用MySQL

hive环境搭建：

hadoop集群，不管是单机，伪分布式，分布式，ha,联邦
安装MySQL 权限问题：access denied 解决方法：远程连接权限

简单的建表语句

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。