kafka-spark-hive

最新推荐文章于 2024-05-13 02:23:45 发布

露落梨花

最新推荐文章于 2024-05-13 02:23:45 发布

阅读量702

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark-System Hadoop-System 文章标签： spark hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40126236/article/details/83794914

Spark-System 同时被 2 个专栏收录

5 篇文章

订阅专栏

2 篇文章

订阅专栏

本文探讨了大规模数据处理场景下，利用Spark Streaming从Kafka读取500亿条日数据并写入Hive表的过程。介绍了如何通过动态分区与ORC压缩算法优化Hive表存储，实现高效数据导入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、场景介绍：数据发往kafka（500亿条每天），用spark读取kafka的数据，写入到hive表里面（ORC压缩算法，一个分区字段）

2、hive的介绍：hive表是分区表分区的字段是一个，想要使用动态分区，hive的压缩算法是ORC FILE

使用spark的组件spark streaming 可以流式的读取kafka的数据，并且直接写入到HDFS上。首先说一下hive的分区表，由于是动态的分区表就不能够使用load这样的直接导入数据（load的数据只能静态的分区），再一个就是指定的压缩算法是ORC，不能够将数据直接的写入到hive表的文件里面，只能做load或者是insert的怎样的操作，进行导数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。