1、需求描述
大致需求是这样的,kafka作为数据缓存通道,接收前端设备上传的数据,现在需要实现读取kafka的数据,再保存到文件,但是不能全部写入一个文件,会导致一个文件过大,需要按照指定行数分割文件,按行数是为了方便核对数据量,前端上传了多少数据,kafka接收了多少数据,最终写入文件多少数据。
另外需要说明传入的数据是一个复杂的json字符串,嵌套了很多内容,而且还有图片的base64字符串。
2、实现方法
方式一:
采用spark streaming读kafka数据写本地文件,每个时间间隔一个小文件,会导致大量的小文件存在,这样是有问题的,所以没有深入研究
方式二:
采用springboot java代码读kafka写本地文件,可以实现需求,而且更加灵活,可以灵活解析复杂的json,也可以把base64图片保存为图片文件。
方式三:
采用kettle读kafka,可以指定文件命名规则,带日期的,指定每个文件多少行数据,方便数据量核对。达到指定行数才会生成新文件,所以可能指定的文件行数过大,内存不够的话可能会存在问题!解析复杂的json存在问题,用组件拼接太繁琐,尝试了一下放弃了,另外base64图片转为文件也是个问题。。
方式四:
采用sdc读kafka写文件,可以指定文件命名规则,带日期,指定每个文件多少行数据,或者每个文件大小,建议使用记录数分割,