ch_bobo-优快云博客

原创聚合服务计划重启-ETL

问：我已经使用Apache Spark Scala超过5年了(学术和专业经验).我总是发现Spark / Scala是用于构建任何类型的批处理或流式ETL / ELT应用程序的强大组合之一. 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch： >从MongoDB中读取 – >业务逻辑 – >写入JSON文件(~2GB | 600k行)>阅读Cassandra – >业务逻辑 – >写JSON文件(~4GB | 2M行) 这个企业级决策令我

2021-08-28 23:48:33 216

原创使用springbatch实现批处理（自带分页）

我个人理解springbatch虽然是一门古老的艺术，在传统金融行业的日切/日终结算中发挥着余光，但是在目前的微服务架构或者中台架构设计中还是存有一席之地的。在微服务和中台架构设计中经常碰到的场景，如数据批处理（群发短信/邮件，批量数据同步分发）。个人整理一个数据分发场景，为了不侵入业务，分为待分发数据初始化 / 增量待分发数据初始化 / 数据分发。首先，maven加入依赖： <dependency> ...

2021-03-10 16:15:35 2718 1

转载 Flume-NG源码分析-整体结构及配置载入分析

在 http://flume.apache.org 上下载flume-1.6.0版本，将源码导入到Idea开发工具后如下图所示：一、主要模块说明 flume-ng-channels 里面包含了filechannel，jdbcchannel，kafkachannel,memorychannel通道的实现。 flume-ng-clients 实现了log4j相关的几个Appen...

2019-01-23 11:16:39 271

转载 flume1.8 TailDirSource断点续传与文件更名后数据重复采集的bug修复

简介 flume1.7新增了组件Taildir Source（详情参见官方链接：http://flume.apache.org/FlumeUserGuide.html#taildir-source），此组件支持断点续传功能。但是此组件有个bug，即如果有个A文件，被更名为B文件后，A中的数据会被重复采集一次。这里需要做出修复环境及软件准备 flume采集环境，flume...

2019-01-23 10:57:35 925

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 聚合服务计划重启-ETL

原创 使用springbatch实现批处理（自带分页）

转载 Flume-NG源码分析-整体结构及配置载入分析

转载 flume1.8 TailDirSource断点续传与文件更名后数据重复采集的bug修复

空空如也

空空如也

原创聚合服务计划重启-ETL

原创使用springbatch实现批处理（自带分页）