Spark+Hbase 亿级流量分析实战（小巧高性能的ETL）

最新推荐文章于 2024-01-28 14:32:40 发布

叫我不矜持

最新推荐文章于 2024-01-28 14:32:40 发布

阅读量705

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/SmallCatBaby/article/details/93545608

本文介绍了在生产环境中，如何利用Spark进行亿级流量日志的分析和ETL工作，重点在于实现易懂、小巧、简洁、高性能的解决方案。内容包括扫描增量日志并写入Hbase，处理大文件，避免重复读取，防止非活跃文件影响性能，以及确保增量数据稳定写入。通过设计特定的读取和进度保存方法，以及使用Hbase连接池，实现了占用内存小且功能精炼的ETL程序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一篇文章大猪已经介绍了日志存储设计方案，我们数据已经落地到数据中心上了，那接下来如何ETL呢？毕竟可是生产环境级别的，可不能乱来。其实只要解决几个问题即可，不必要引入很大级别的组件来做，当然了各有各的千秋，本文主要从易懂、小巧、简洁、 高性能 这三个方面去设计出发点，顺便还实现了一个精巧的 Filebeat。

要实现的功能就是扫描每天的增量日志并写入Hbase中

需要搞定下面几个不务正业的小老弟

需要把文件中的每一行数据都取出来
能处理超过10G以上的大日志文件，并且只能占用机器一定的内存，越小越好
从上图可以看到标黄的是已经写入Hbase的数据，不能重复读取
非活跃文件不能扫，因为文件过多会影响整体读取IO性能
读取中的过程要保证增量数据不能录入，因为要保证offset的时候

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。