阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
flink通过sink的方式写入dorisdb数据源
我们在之前的文章中已经 通过 mongodbsource获取了 相关数据,详情参考flink读取mongodb数据源批处理全量获取实践本篇文章 记录把获取到的数据 sink导入到 dorisdb。创建erp_order_test表在dorisdb的shell命令行中使用命令创建表格create table erp_order_test (order_id STRING, order_time DATETIME) DISTRIBUTED by hash(order_id) BUCKETS 10 P原创 2022-03-09 11:40:51 · 6460 阅读 · 0 评论 -
flink读取mongodb数据源批处理全量获取实践
本章记录 flink读取mongodb数据源的实践,主要用于 全量 批处理获取mongodb的数据。我们在前面的文章中已经学习了如何写一个简单的flink-job项目打包jar包运行详情参考编写flink任务jar包–helloworld我们在flink-job项目基础上新增读取mongodb数据源的功能。引入jar包使用官方driver连接器 <dependency> <groupId>org.mongodb<原创 2022-03-08 11:41:28 · 5045 阅读 · 0 评论 -
flink on k8s模式通过web UI界面查看任务运行情况
我们之前已经成功部署了flink on k8sflink on k8s部署方案实践–详细步骤单纯看pod的log,是无法查看和排查所有情况的。 有时候需要查看job的运行情况。一般我们在运行flink任务时,需要查看它的job运行情况。比较常用的方式就是在flink的UI界面上查看。一般的flink 因为jobmanager 所在的node是固定的,ip也就是固定的,所以能够通过ip或者域名映射后即可很方便的进行访问。flink on k8s比较特别的是jobmanager 是一个在k8s集群中原创 2022-03-08 11:15:49 · 4648 阅读 · 0 评论 -
编写flink任务jar包--helloworld
我们在之前的文章中已经成功部署了flink on k8s,并且成功运行了 wordcount.jar完成了单词统计的任务。flink on k8s部署方案实践–详细步骤那如果我们需要实现自己的处理逻辑和任务呢? 比如说 打印一个helloworld,我们就需要自己写一个jar包了,没有现成的包可以直接用了。本篇文章记录如果写一个简单的jar包并在flink中运行,工具使用idea。新建maven项目File --》 New --》 Project默认使用maven1.8版本 点击 next原创 2022-03-04 19:18:51 · 2959 阅读 · 0 评论 -
flink on k8s部署方案实践--详细步骤
背景Flink-operator极大的方便了我们管理 Flink 集群及其作业,我们只需要自定义yaml文件就可以做到。Flink 官方还未给出 flink-operator 方案,不过 GoogleCloudPlatform 提供了一种基于 kubebuilder 构建的 flink-operator方案。接下来,将介绍 flink-operator 的安装方式和详细步骤。Flink-operator环境搭建完毕之后,这个operator服务作为flink的控制器,打通了flink和k8s的界限,原创 2022-03-03 19:47:04 · 4473 阅读 · 0 评论 -
flink on k8s部署方案调研
背景flink是目前最常用的大数据流计算处理引擎,一共有local,standalone,yarn,kubernetes四种安装部署机构方案。通常使用yarn进行管理,随着k8s云计算体系越来越成熟, 把flink部署在k8s中,是一种很好的趋势。Standalone和yarn架构模式原理参考Flink 选择 Kubernetes 作为其底层资源管理平台,原因包括两个方面:1)Flink 特性:流式服务一般是常驻进程,经常用于电信网质量监控、商业数据即席分析、实时风控和实时推荐等对稳定性要求比较高的原创 2022-02-10 19:01:18 · 2337 阅读 · 1 评论 -
flink实时读取mongodb方案调研-实现mongodb cdc
背景介绍mongodb目前是很多企业业务上常用的nosql数据库。我们需要对这些业务mongodb数据库进行 数据同步到 数据仓库中进行 数据分析处理。技术选型CDC介绍CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术CDC 技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。CDC 的技术方案非常多,目前业界主流的实现机制可以分为两种:原创 2022-02-09 23:00:00 · 4624 阅读 · 0 评论