hive基本概念

最新推荐文章于 2022-04-26 17:51:53 发布

原创最新推荐文章于 2022-04-26 17:51:53 发布 · 179 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

1.1 Hive简介
什么是Hive
是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能。

Hive的意义是什么
背景：hadoop是个好东西，但是学习难度大，成本高，坡度陡。
意义（目的）：降低程序员使用hadoop的难度。降低学习成本。

Hive可以对数据进行存储与计算
存储使用HDFS存储
计算使用MapReduce进行计算。

Hive的特性
1、扩展性： Hive的扩展性与集群的扩展性相同
2、延展性：Hive支持用户自定义函数，编写符合自己业务需求的函数。
3、容错性：节点出现问题（宕机/断电）SQL仍可完成执行。

1.2 Hive架构
架构图

基本组成:
元数据：描述数据的数据（属性）
表名称、字段名，字段的数据类型。
内部执行流程
解释器 -> 编译器 -> 优化器 -> 执行器

1.3 Hive与Hadoop的关系
Hive利用HDFS存储数据，利用MapReduce查询分析数据

1.4 Hive与传统数据库对比
hive用于海量数据的离线数据分析

数据格式：
Hive中没有定义专门的数据格式

数据格式部分自定义：
列分隔符（通常为空格、”\t”、”\x001″）
行分隔符（”\n”）
读取文件数据的方法（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。
Hive在加载数据的过程就是拷贝数据的过程，不需要特定的转化。不会对数据本身进行任何修改，甚至不会对数据
进行扫描。
Hive 中不支持对数据的改写和添加（对文本内数据的添加），
Hive 在加载数据的过程中不会对数据中的某些 Key 建立索引。所以Hive不适合在线数据查询（要求相应速度快）。

总结：hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析

1.5 Hive支持的数据格式
可支持Text，
SequenceFile，
ParquetFile，
ORC格式
RCFILE等

博客等级

码龄6年

21
原创

37
点赞

5
收藏

19
粉丝

关注

私信

TA的精选

TA的历史创作历程

上一篇：: hive添加数据时出错

下一篇：: hive

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。