自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 聚合服务计划重启-ETL

问:我已经使用Apache Spark Scala超过5年了(学术和专业经验).我总是发现Spark / Scala是用于构建任何类型的批处理或流式ETL / ELT应用程序的强大组合之一. 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch: >从MongoDB中读取 – >业务逻辑 – >写入JSON文件(~2GB | 600k行)>阅读Cassandra – >业务逻辑 – >写JSON文件(~4GB | 2M行) 这个企业级决策令我

2021-08-28 23:48:33 216

原创 使用springbatch实现批处理(自带分页)

我个人理解springbatch虽然是一门古老的艺术,在传统金融行业的日切/日终结算中发挥着余光,但是在目前的微服务架构或者中台架构设计中还是存有一席之地的。 在微服务和中台架构设计中经常碰到的场景,如数据批处理(群发短信/邮件,批量数据同步分发)。 个人整理一个数据分发场景,为了不侵入业务,分为待分发数据初始化 / 增量待分发数据初始化 / 数据分发。 首先,maven加入依赖: <dependency> ...

2021-03-10 16:15:35 2718 1

转载 Flume-NG源码分析-整体结构及配置载入分析

在 http://flume.apache.org 上下载flume-1.6.0版本,将源码导入到Idea开发工具后如下图所示:一、主要模块说明 flume-ng-channels 里面包含了filechannel,jdbcchannel,kafkachannel,memorychannel通道的实现。 flume-ng-clients 实现了log4j相关的几个Appen...

2019-01-23 11:16:39 271

转载 flume1.8 TailDirSource断点续传与文件更名后数据重复采集的bug修复

简介     flume1.7新增了组件Taildir Source(详情参见官方链接:http://flume.apache.org/FlumeUserGuide.html#taildir-source),此组件支持断点续传功能。但是此组件有个bug,即如果有个A文件,被更名为B文件后,A中的数据会被重复采集一次。这里需要做出修复环境及软件准备       flume采集环境,flume...

2019-01-23 10:57:35 925

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除