springboot实现读kafka数据写入文件并按指定行数分割文件

最新推荐文章于 2022-11-21 10:26:16 发布

未竟

最新推荐文章于 2022-11-21 10:26:16 发布

阅读量1.2k

点赞数 1

分类专栏：数据治理消息队列文章标签： kafka 文件指定大小 springboot 数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zwahut/article/details/104550848

版权

1、需求描述

大致需求是这样的，kafka作为数据缓存通道，接收前端设备上传的数据，现在需要实现读取kafka的数据，再保存到文件，但是不能全部写入一个文件，会导致一个文件过大，需要按照指定行数分割文件，按行数是为了方便核对数据量，前端上传了多少数据，kafka接收了多少数据，最终写入文件多少数据。

另外需要说明传入的数据是一个复杂的json字符串，嵌套了很多内容，而且还有图片的base64字符串。

2、实现方法

方式一：

采用spark streaming读kafka数据写本地文件，每个时间间隔一个小文件，会导致大量的小文件存在，这样是有问题的，所以没有深入研究

方式二：

采用springboot java代码读kafka写本地文件，可以实现需求，而且更加灵活，可以灵活解析复杂的json，也可以把base64图片保存为图片文件。

方式三：

采用kettle读kafka，可以指定文件命名规则，带日期的，指定每个文件多少行数据，方便数据量核对。达到指定行数才会生成新文件，所以可能指定的文件行数过大，内存不够的话可能会存在问题！解析复杂的json存在问题，用组件拼接太繁琐，尝试了一下放弃了，另外base64图片转为文件也是个问题。。

方式四：

采用sdc读kafka写文件，可以指定文件命名规则，带日期，指定每个文件多少行数据，或者每个文件大小，建议使用记录数分割，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。