webmote
一位资深系统架构师、70后大龄码农、擅长.net core、微服务、前端Vue、大数据ETL、系统DevOps运维、CentOS等,关注我,和我一起平坑码代码,组团打怪兽。
展开
-
StreamSets 重置管道状态——管道的数据记忆
StreamSets 的管道 在运行过程中,会记录某些组件的状态,那这会影响啥呢?1、数据持久化当你停止管道时, StreamSets会记录它停止位置时的处理组件的位置。当你重新启动管道时,它会从中断的地方继续。有哪些组件会被保留状态呢?以下是这些组件的列表:Amazon S3Azure Data Lake Storage Gen1Azure Data Lake Storage Gen2DirectoryElasticsearchFile TailGoogle Cloud Sto.原创 2021-04-07 13:53:06 · 1232 阅读 · 2 评论 -
StreamSets 3.22.x 已经发布,下载在文后百度网盘
下载过StreamSets的同学,应该深有体会,那速度,比龟速还慢,因为它老断,实在是没法下载,这不,为了解决这个问题,我特意架上云梯拉了回来。1、来自愚人节的发布首先这不是一个谎言,新版本增加了一些功能和修正了一些bug。版本3.22.1-2021年4月1日版本3.22.0-2021年3月23日2、新功能和增强功能2.1 组件增强JDBC Lookup processor : 处理器包括新的“验证列映射”属性。选中后,列映射列表中的所有列必须存在于管道启动时的数据库。默认情况下,.原创 2021-04-06 22:22:02 · 2743 阅读 · 19 评论 -
利用StreamSet抓取MySql数据在ElasticSearch中建立索引
ElasticSearch,简称ES,是非常好用的一款分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种数据组合搜索应用。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。1、ES入门知识点ES是集合了搜索引擎Lucense的一款集成工具,其知识点非常多,这里仅仅介绍概念性的大纲。一图胜万言:2、完成数据采集及建立索引我们的数据源来自MySql,由MySql 日志记录中读取数据,已经讲了好多回了,这里再回顾一下。2.原创 2021-03-29 17:59:28 · 979 阅读 · 1 评论 -
DNB(挪威最大的金融服务集团)的13种最佳大数据挖掘分析工程实践
DNB是挪威最大的金融服务集团,在整个地区被誉为最值得信赖的金融机构。在本来文中,DNB数据工程实践中心团队–客户洞察部门运营负责人Saleem Pothiwala,软件工程师Jones Mabea Agwata和数据工程师Bikram Rout分享了他们利用数据的力量进行数字转换的最佳实践。1、背景在DNB,一般都会致力于实施数据工程最佳实践,以可靠的方式提供干净,可用和准时的数据。我们将其视为客户洞察力和数据分析计划成功的主要标准。我们使用数据来生成报告,见解,大屏,其他下游系统的提要,并提供数.原创 2021-03-29 12:19:35 · 1294 阅读 · 0 评论 -
Streamsets定时拉取接口数据同步到HBase集群
最近有个项目,需要同步数据到ES,在这个项目之前,有一位订阅者求助,其需要完成一项定时拉取api接口数据,并同步到HBase的应用需求,在配置的环节发生了一些问题,需要我协助解决,在解决了问题后,征得他的同意,我截取了相关图片分享给大家。1、同步主流程根据应用需求可知,其必须用到定时器,HBase;因此把定时器作为数据源,把HBase作为数据目的地,其他的再增加Http请求处理,中间的一些列处理,即可完成该需求。完成后的流程如下图所示。2、定时器Cron组件配置这里我们设定为1分钟采集一次。.原创 2021-03-04 23:24:25 · 958 阅读 · 4 评论 -
Streamsets爬取优快云博客之星统计数据并入库
StreamSets 在爬取数据上也有着惊人的表现,它可以方便的调用接口,并简单的转换为json对象,然后进行入库,整个操作过程行云流水一般。学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接-ETL之StreamSet学习之旅三数据对接-ETL之StreamSet学习之旅四数据对接-ETL之StreamSet学习之旅五数据对接-ETL之StreamSet学习之旅六数据对接-ETL之StreamSet学习之旅七 微服务数据对接.原创 2021-01-14 22:14:13 · 719 阅读 · 5 评论 -
StreamSets 表达式语言篇
StreamSets提供了强大的表达式语言,通过这些表达式语言能够完成源字段、源属性的获取,以便更好的组织数据传递给目标组件进行处理。因此熟练的掌握表达式语言,才能提高你的StreamSets的开发能力。学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接-ETL之StreamSet学习之旅三数据对接-ETL之StreamSet学习之旅四数据对接-ETL之StreamSet学习之旅五数据对接-ETL之StreamSet学习之旅六数.原创 2021-01-13 22:07:15 · 842 阅读 · 0 评论 -
数据对接-ETL之StreamSet学习之旅十一Mysql同步到Snowflake
目录学习系列1、设定Mysql数据库支持binlog2、安装Streamset对Mysql的驱动支持3、绘制流程3.1 配置参数3.2、 怎么使用参数3.3 对删除单独处理3.4、 删除的处理方式4、运行例程,修改数据结语学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接-ETL之StreamSet学习之旅三数据对接-ETL之StreamSet学习之旅四数据对接-ETL之StreamSet学习之旅五数据对接-ETL之StreamSet原创 2020-12-04 20:32:30 · 658 阅读 · 3 评论 -
数据对接-ETL之StreamSet学习之旅十与RabbitMq面对面
很多朋友咨询过我,说怎么能够和MQ进行通信,怎么配置参数,和监听消息,这里我就以一个消费者的身份,来消费来自MQ的消息目录学习系列连接MQ一个小坑:连接限制读取速度数据处理MQ处理的遗憾我的MQ链接配置如下:小结学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接-ETL之StreamSet学习之旅三数据对接-ETL之StreamSet学习之旅四数据对接-ETL之StreamSet学习之旅五数据对接-ETL之StreamSet学习.原创 2020-11-14 20:24:45 · 644 阅读 · 0 评论 -
数据对接-ETL之StreamSet学习之旅九Pipelines的状态监听之WebHook钉钉篇
有博友留言,让我介绍下StreamSets的状态监听以及钉钉的webhook的互联,这位博友问的恰是时候,不久前我刚刚对接过钉钉的机器人,这次看到这个问题,对我来说,应该轻车熟路了,那就有了这篇博文,状态监听之钉钉篇。Pipelines的状态监听熟悉Pipelines的童鞋,应该注意过在Pipelines的配置项内,有一项是通知,大概的位置如下:在这里可以采用Email方式或者Webhooks方式对状态的变化进行监听。状态监听包含以下状态:序号状态描述1Running.原创 2020-09-25 15:29:49 · 1109 阅读 · 9 评论 -
数据对接-ETL之StreamSet学习之旅八定时启动
很多朋友咨询过我,说怎么能够设置StreamSets为定时启动模式,或者定时干某件事,我都很肯定的告诉他,StreamSets不是这么用的,它一旦启动,就会一直跑,只能设定采集速度模糊控制时间。随着新版本的发布,有这方面需求的小伙伴们,你们有福了。这篇文章会隆重介绍新明星组件:CRON目录学习系列1、定时启动组件CRON2、Cron表达式3、来个栗子:定时监控微服务4、监控结果5、总结学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接.原创 2020-08-22 12:16:09 · 1106 阅读 · 2 评论 -
StreamSet 3.17版本及下载
最近带领团队完成一款产品,忙的焦头烂额,昏天昏地,完全没有精力照顾StreamSet,心中实在抱歉,这里放出一些新的资源,相信大家如果下载过StreamSets的话,都知道看着1.0k的速度而望洋兴叹。Data Collector 3.17.0版包含以下新功能和增强功能:新阶段此版本包括以下新组件:SAP HANA查询使用者画布增强此版本包括以下阶段增强功能:Control Hub API处理器-处理器可以处理任何大小的响应。以前,最大响应大小为50,000个字符。Elastics.原创 2020-08-21 17:24:57 · 1457 阅读 · 1 评论 -
新冠疫情后时代如何根据业务调整数据实践
来自国外的StreamSet专家们也经历了新冠病毒的考验,在后疫情时代,怎么进行业务的数字化转型,显然是当下很多企业关心的热点,本文也阐述了自己的看法。目录业务改变一夜之间转型数字化快速制定以数据为依据的决策比以往任何时候都更为重要。提高数据基础架构的投资回报率。授权您的员工减轻风险。暂时休眠精确地确定精简位置降低数据基础架构成本。最大化您的任何人的生产率。打开现金流。疯狂的需求数据是您的客...原创 2020-05-07 06:38:23 · 721 阅读 · 0 评论 -
StreamSets 运行性能检测和优化
目录学习系列1、看性能统计2、优化堆内存3、优化并发管道数4、如何减少从原始系统读取之间的延迟?5、我如何知道正在减慢速度的是什么?6、如何改善总体管道性能?学习系列数据对接-ETL之StreamSet学习之旅一数据对接-ETL之StreamSet学习之旅二数据对接-ETL之StreamSet学习之旅三数据对接-ETL之StreamSet学习之旅四数据对接-ETL之StreamSet...原创 2020-04-13 13:34:46 · 2892 阅读 · 7 评论 -
StreamSet 3.14 来袭
最近计划升级下StreamSet平台,因为随着迭代,StreamSets已经升级到3.14版本了,看了下更新日志,还是有很多的性能改善地方,因此就升级下吧。从亚马逊云下载大包是个痛苦的过程,这里共享出我的网盘,供大家快速下载,注意,5G左右的下载包,小心你的磁盘~~~~~# 3.13的下载地址。官方下载: [https://streamsets.com/products/dataops-...原创 2020-04-08 14:21:25 · 1631 阅读 · 2 评论 -
数据对接-ETL之StreamSet学习之旅七微服务
StreamSet作为大数据ETL工具的选择,当然需要处理数据的合并与转存,其大部分功能集中于此。有些场景可能需要其对外提供个接口,可以被调用,StreamSets能做到吗?答案是能!并且能做当今流行的微服务,啊!好高大上~,今天就来看看吧。目录学习系列1、Restful风格的Api2、建立Api3、测试一下3.1 大名鼎鼎的Postman,后端程序员必备3.2 测试专业级Jmeter3.3...原创 2020-01-16 12:00:13 · 2608 阅读 · 0 评论 -
StreamSets的应用——SqlServer CDC的使用
目录SqlServer的CDC和CT区别SqlServer的CDC配置配置同步流程小坑1:主子表外键关联小坑2: 同步主表,自动生成多张子表小结系统的新旧数据需要同步,但两个系统表结构差异较大,因此决定选用StreamSet完成数据的同步,也即SqlServer和MySql的同步。SqlServer的CDC和CT区别StreamSets提供了CDC和Change Tracking两种凡是...原创 2019-12-11 15:09:47 · 2903 阅读 · 1 评论 -
大数据迁移分析——Canal尝试
目前使用StreamSets作为数据ETL工具,迁移MySql 时遇到了致命问题,大致涵盖堆栈内存溢出、找不到指定的binaryLog文件、数据重复挂起等问题,以致于在商用的时候步履维艰!项目面临严重的拖期甚至于死掉,而我作为此事情的主要执行人,也受到各方责难!我对StreamSets的信心也是与日递减,为了让事情变得可行,必须跳出原有的固有思维,先以解决问题为目的,寻找备选方案。目的转变为...原创 2019-10-15 11:10:28 · 2365 阅读 · 0 评论 -
数据对接-ETL之StreamSet学习之旅二
目录1、测试Ftp取文件2、解析Excel3、修改映射列4、处理后的数据执行5、结语引用链接1、测试Ftp取文件利用搭建好的StreamSet平台,配置Ftp客户端连接,并拉取某个Excel文件。利用StreamSet提供的Ftp客户端组件,进行ftp连接。配置 如下:Resource URL: ftp://192.168.1.100/abc/2018/0103/File Name ...原创 2018-11-22 11:33:14 · 4877 阅读 · 5 评论 -
数据对接-ETL之StreamSet学习之旅三
目录目标JavaScript Evaluator结论引用链接本篇文章是StreamSet的进阶篇,主要讲述其Js脚本评估器的用法。目标本次的目标是,对文本文件进行解析,读取的文本文件已经按 回车换行分隔成Records数组,我们要做的是,按照固定长度对Records的内容进行解析,拆分成一个json对象。因为拆分字符串比较复杂,因此,首先是使用脚本解析。JavaScript Eva...原创 2018-12-07 12:00:02 · 4067 阅读 · 0 评论 -
数据对接-ETL之StreamSet学习之旅四
本篇文章是StreamSet的进阶篇,主要讲述其表达式评估器的用法。目录表达式评估器组件表达式评估器修改范围表达式支持数据流的分流从流组织数据到Json一个Demo结论引用链接表达式评估器组件StreamSet Expression Evaluator执行计算并将结果写入新字段或现有字段。您还可以使用Expression Evaluator添加或修改记录标题属性和字段属性。要创建表达式...原创 2018-12-12 11:22:52 · 3808 阅读 · 1 评论 -
数据对接-ETL之StreamSet学习之旅五
本篇文章是StreamSet的进阶篇,主要讲述其流的拆分和合并的用法。目录StreamSet的理解Record集对多个流Record的拆分对单个Record的某字段进行拆分对多个Record进行合并结语引用链接StreamSet的理解持续使用了StreamSet软件一段时间,对其理解越来越深了,其软件命名为StreamSet,可简单翻译为流集合,的确,其软件正式流的集合,处理来自源的流集...原创 2018-12-26 10:29:36 · 3491 阅读 · 1 评论 -
数据对接-ETL之StreamSet学习之旅六
StreamSet作为大数据ETL工具的选择,当然需要处理数据的合并与转存,这里介绍针对mysql数据库的同步转存,采用mysql的binary Log方式进行。学习系列数据对接-ETL之StreamSet学习之旅一 数据对接-ETL之StreamSet学习之旅二 数据对接-ETL之StreamSet学习之旅三 数据对接-ETL之StreamSet学习之旅四 数据对接-E...原创 2019-03-06 11:09:38 · 4449 阅读 · 18 评论 -
StreamSet 使用入门翻译——界面介绍
简介StreamSet Data Collector(以下简称为StreamSet, 官网) 是一个轻量级,功能强大的设计和执行引擎,使用其可以完成路由和处理数据流中的数据。其采用管道任务的概念组织和定义一个个要完成的数据流处理任务,管道由表示管道的起源、目标以及您要执行的任何其他处理组成。StreamSet在数据到达源时处理数据,并在不需要时静默等待。您可以查看有关数据的实时统计信息,在数...原创 2019-09-10 10:56:05 · 9313 阅读 · 3 评论 -
数据对接-ETL之StreamSet学习之旅一
目录StreamSet介绍StreamSet安装1. RPM安装2. Docker镜像安装存储应用引用链接StreamSet介绍StreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控。该应用更侧重...原创 2018-11-20 09:45:42 · 12892 阅读 · 14 评论