hive存储数据格式主要分类

weixin_42497376

于 2023-10-24 18:35:53 发布

阅读量161

点赞数 1

分类专栏： hive 文章标签： 1024程序员节 hive 数据仓库 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42497376/article/details/134018865

版权

hive 专栏收录该内容

35 篇文章

订阅专栏

本文介绍了Hive在Hadoop平台上作为数据仓库工具支持的不同数据存储格式，包括Text、SequenceFile、列存储的ORC和Parquet、Avro以及RCFile，强调了根据具体场景选择合适格式的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive是建立在Hadoop上的一种数据仓库工具，它支持多种数据存储格式，如下：

文本格式（Text）：纯文本行的数据文件，每行以换行符结束。Hive可以将文本格式数据转换成表格格式数据并进行查询。例如：

1, John, 26, male
2, Sarah, 22, female
3, Tom, 30, male

序列化文件格式（SequenceFile）：由Hadoop序列化文件（SequenceFile）生成的二进制文件，通常用来存储序列化的复杂数据类型（如对象）。例如：

Key: 1	Value: {name: "John", age: 26, gender: "male"}
Key: 2	Value: {name: "Sarah", age: 22, gender: "female"}
Key: 3	Value: {name: "Tom", age: 30, gender: "male"}

列存储格式（Columnar）：基于列存储的数据格式，不同于行存储，它把表中每一列的数据存储在一起形成一个文件，具有更高的压缩比和更好的查询性能。Hive支持多种列式存储格式，如ORC（Optimized Row Columnar）、Parquet等。
Avro格式（Avro）：Avro是一种基于Schema的数据交换格式，使用JSON来序列化数据。Hive支持Avro格式的数据，可以通过Hive-Serde（Hive的序列化/反序列化库）来读取和写入Avro数据。
RC文件格式（RCFile）：RC（Record Columnar）文件格式是一种基于行的列存储格式，它将行拆分为不同的列块，每个列块都是一个二进制数据。RC文件格式包含一个头文件和多个数据文件，其中头文件包含了各个数据块的位置和大小等信息。

以上是Hive支持的主要数据存储格式，不同格式的数据适用于不同的场景，需要根据实际需求选择合适的数据存储格式。

weixin_42497376

博客等级

码龄7年

69
原创

171
点赞

107
收藏

93
粉丝

关注

私信

热门文章

分类专栏

linux 5篇
hadoop 15篇
hive 35篇
java 16篇
数据治理 9篇
spark 5篇

展开全部收起

上一篇：: sqoop一次同步MySQL数据库所有表

下一篇：: hivesql调优常用方法

最新评论

hive数仓分层dws和ads区别
weixin_42497376: system还是service，可以根据具体的业务使用
hive数仓分层dws和ads区别
Flickers_one: DWS是Data Warehouse Service，ADS是Data Warehouse Service吧
使用java实现Sparkstreaming读取Hbase数据
小强签名设计: 博主你这个HBaseUtils是从哪里来的，能否告知一下，多谢。
Hive-weekofyear年末跨年显示1问题
优快云-Ada助手: 很棒的博客，对Hive-weekofyear的问题进行了深入的探讨。希望你能继续分享关于数据处理和编程方面的知识，这对读者来说都是非常有价值的。另外，除了探讨Hive-weekofyear的问题，你还可以深入了解一下数据仓库和数据挖掘的相关知识，这些都是与你博客内容相关的扩展知识，也许对你会有所帮助。期待你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive-常用日期函数
优快云-Ada助手: 恭喜作者发布了新的博客，内容涉及Hive常用日期函数，非常有深度和实用性。希望作者能继续保持创作的热情，为读者带来更多有价值的内容。或许下一步可以考虑探讨Hive在大数据处理中的应用案例，让读者更深入地了解技术在实践中的运用。期待作者的下一篇作品！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。