- 博客(4)
- 收藏
- 关注
原创 聚合服务计划重启-ETL
问:我已经使用Apache Spark Scala超过5年了(学术和专业经验).我总是发现Spark / Scala是用于构建任何类型的批处理或流式ETL / ELT应用程序的强大组合之一. 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch: >从MongoDB中读取 – >业务逻辑 – >写入JSON文件(~2GB | 600k行)>阅读Cassandra – >业务逻辑 – >写JSON文件(~4GB | 2M行) 这个企业级决策令我
2021-08-28 23:48:33
216
原创 使用springbatch实现批处理(自带分页)
我个人理解springbatch虽然是一门古老的艺术,在传统金融行业的日切/日终结算中发挥着余光,但是在目前的微服务架构或者中台架构设计中还是存有一席之地的。 在微服务和中台架构设计中经常碰到的场景,如数据批处理(群发短信/邮件,批量数据同步分发)。 个人整理一个数据分发场景,为了不侵入业务,分为待分发数据初始化 / 增量待分发数据初始化 / 数据分发。 首先,maven加入依赖: <dependency> ...
2021-03-10 16:15:35
2718
1
转载 Flume-NG源码分析-整体结构及配置载入分析
在 http://flume.apache.org 上下载flume-1.6.0版本,将源码导入到Idea开发工具后如下图所示:一、主要模块说明 flume-ng-channels 里面包含了filechannel,jdbcchannel,kafkachannel,memorychannel通道的实现。 flume-ng-clients 实现了log4j相关的几个Appen...
2019-01-23 11:16:39
271
转载 flume1.8 TailDirSource断点续传与文件更名后数据重复采集的bug修复
简介 flume1.7新增了组件Taildir Source(详情参见官方链接:http://flume.apache.org/FlumeUserGuide.html#taildir-source),此组件支持断点续传功能。但是此组件有个bug,即如果有个A文件,被更名为B文件后,A中的数据会被重复采集一次。这里需要做出修复环境及软件准备 flume采集环境,flume...
2019-01-23 10:57:35
925
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅