搭建Hive数据仓库爬过的坑-数据仓库设计要点

resin_404

于 2019-07-29 15:13:11 发布

阅读量1.2k

点赞数 1

分类专栏： hive数据仓库文章标签：数据仓库 HIVE 数据仓库设计数据仓库问题解决 hive优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/resin_404/article/details/97641605

版权

本文详述了在搭建Hive数据仓库时遇到的问题，包括HDFS列分隔符设定、表类型与分区选择、增删改操作、ETL过程、元数据管理、数据分层设计、缓慢变化维处理以及计算效率优化。提出了具体的解决方案，如使用不可见字符作为分隔符、选择外部表、优化SQL和设置分区。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

开篇

基于大数据的时代背景，分布式计算框架已经是无可替代的计算工具。那么数据仓库的运行环境就不只是拘泥于关系型数据库了，在数据量比较大的前提下，分布式计算将会比关系型数据库更胜一筹。

那么数据仓库环境从关系型数据到分布式计算框架的迁移过程中要考虑哪些问题或者需要解决哪些问题，下面我们具体详细讲解。

数据仓库环境： Hadoop + HDFS + Hive

数据仓库整体架构图

在这里插入图片描述

问题清单（本文会依次讲解下面所有问题）

1 HDFS是基于文件存储的，那么列的分隔符应该怎么设定？
2 在hive中表的类型怎样选择？分区又该怎样设置？
3 hive直接操作文件，那么它的增删改怎样实现？
4 ETL过程中数据抽取和转化应该怎样实现？
5 元数据怎样管理？
6 数据分层应该怎样设计？
7 缓慢变化维（SCD）的处理方法
8 计算效率怎样提升？hive计算逻辑都做了哪些优化
9 遇到过的哪些问题汇总？

问题回答：

1 HDFS是基于文件存储的，那么列的分隔符应该怎么设定？

整个数据仓库的数据都是存储于HDFS上，HDFS是分布式文件系统，所以底层的数据是以文件的形式存在，那么文件要和HIVE中的表字段对应上就必须按照一定的分隔符分割，所以分隔符的选取是十分重要的。如果选取的分隔符在某个字段的内容中出现，就会导致表字段错位，导致查表时数据异常。
我们在数据仓库中指定的分隔符如下：

row format delimited fields terminated by '\u0007'

控制字符“^G” 也就是“\u0007” 是个不可见字符。在linux环境下cat 和 more命令下是看不见此分隔符的。只有在vim命令下才可以看见“^G”的分隔符。这样就能避免在字段内容里出现分隔符而导致的数据异常问题。

2 在hive中表的类型怎样选择？分区又该怎样设置？

hive的表有两种类型，一种是管理表，另一种是外部表。其中最大的区别就是外部表可以在drop table后HDFS上的数据依然不丢失。而管理表在执行drop语句后表结构和表数据都会删除。考虑到我们在ETL操作过程过程中可能会使用删除操作，并且为了保证数据不轻易丢失，我们决定使用外部表。另外ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。