- 博客(55)
- 收藏
- 关注
原创 基于FlinkCDC-3.1.1&Flink-1.18实现MySQL DDL审计告警
当前项目属于V0.1版本,里面支持的数据源不是很全面,告警渠道也有限。如果有需要的小伙伴,可以自行下载代码,然后做二次开开发。FlinkCDC 3.0版本提供了很多新能力,为数据同步提供了更多的保障机制和可能性,后续会继续探索其他新功能和新使用场景。有需要交流的小伙伴,欢迎关注我的公众号,一起交流学习。如果需要源码的小伙伴,关注公众号后回复"SQL审计"自动获取代码地址。
2024-07-24 11:26:09
1377
原创 【数据中台建设系列之二】数据中台-数据采集
数据采集简单来说就是从各种数据源中抓取、捕获和传输数据的一个过程。数据采集的质量和效率直接影响到数据的可用性和及时性,进而影响到组织的决策制定和业务运营,因此数据采集是数据中台建设的关键一环,也是数据中台建设不可或缺的一部分。本篇文章主要介绍了数据采集功能的架构设计和功能设计,其实在实际开发过程中,远远比当前文档描述的要复杂的多,但大致思路就是这样,希望能够给大家提供一点灵感和思路。
2023-10-24 16:03:14
1840
原创 【数仓建设系列之六】数仓管理利器-数据中台
数据中台是企业内部集中管理和运营数据资源的管理架构,用于帮助企业管理和利用数据资产。它能够将来自不同源系统的数据进行整合、处理和分析,支持业务部门的决策和数据驱动的创新,是一个真正实现D2V(Data to value)的跨部门的数据共享和协作平台
2023-09-20 17:05:18
296
原创 【数仓建设系列之五】数仓选型架构概览
离线数仓(Offline Data Warehouse)和实时数仓(Real-time Data Warehouse)是数仓领域两种常见的数据存储和处理架构,它们在数据处理的方式、目标和时间性上有所不同,本文将重点介绍目前主流实时数仓架构设计。
2023-09-11 17:41:32
2357
原创 【数仓建设系列之四】数据建设通用规范设计
上篇文章我们讲到了数仓建模中几种常见模型优劣势对比以及数仓完整性建设方案,相信大家对此已经有了初步的了解,本篇文章我们将继续对维度建模中一些通用规范展开讨论。
2023-09-01 17:05:49
490
原创 【数仓建设系列之三】数仓建模方式及如何评估数仓完善性
数仓维度建模是一种强大的方法,用于将复杂的业务现实映射到易于理解的数据结构中,它是构建数据仓库的核心技术之一,能够帮助企业将分散和不一致的数据整合到一个一致性高、可查询的数据存储中。通过将业务过程、维度信息和度量指标等要素转化为清晰的关系模型,揭示出隐藏在数据背后的模式和趋势
2023-08-25 16:21:55
497
原创 【数仓建设系列之二】数仓基本概念介绍
OLTP和OLAP是我们常见的两种数仓解决方案。从功能定位来看,OLTP数据库是一种严格意义上的事务性和关系型数据库(MySQL就是典型的OLTP之一),它更多的是支持业务侧的更新操作(CRUD),要求能够提供实时在线处理事务的能力,更加注重操作的上的ACID(一致性,原子性,隔离性和持久性)。OLAP数据仓库则更加注重复杂场景下数据整合能力和查询分析能力,它是解决数据孤岛和提供多维分析的主要保障之一
2023-08-21 09:44:03
229
原创 【数仓建设系列之一】什么是数据仓库?
数据仓库是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等,为企业决策提供一定程度上的支持和帮助。
2023-08-15 11:08:41
2454
原创 Java代码完美实现ChatGPT问答能力(可嵌入项目中)
看到如此强大的`GPT`,此时是否在考虑如何嵌入到自己的工程项目中,并发挥出其强大的数据处理能力和逻辑处理能力?下面这个Demo就是一个简单的java嵌入,供大家学习参考
2023-07-24 14:16:07
1864
1
原创 Apache Doris 0.15.3升级至1.1.5避坑实用总结
`Apache Doris` 从0.15到1.1.5属于一个大版本升级,部分语法和使用方式也发生了较大的变化,本文除前期兼容性调研(可以通过官网查到到一部分兼容性问题)已知问题外,生产环境正式升级之后遇到的突发问题进行整理总结
2023-07-07 17:47:04
1124
原创 Apache Doris使用部分日期函数导致分区裁剪失效总结
Doris内置了很多日期函数,但在分区字段上使用部分日期函数会导致分区裁剪异常,导致谓词无法下推,全量扫描数据。
2023-06-27 18:22:16
1741
原创 Flink自定义触发器
Apache Flink是一个流处理框架,它提供了许多内置的触发器来控制流处理作业的执行。但是,有时候内置的触发器不能满足我们的需求,这时候我们就需要自定义触发器
2023-05-30 18:40:48
1858
原创 Flink作业任务的9种状态简单介绍
当创建一个Flink任务后,该任务可能会经历多种状态。目前Flink给任务共定义了9种状态,包括:`Created`,`Running`,`Finished`,`Cancelling`,`Canceled`,`Restarting`,`Failing`,`Failed`,`Suspended`。
2023-05-01 10:12:37
5896
原创 利用Flink(1.17)滚动窗口实时统计Apache Doris审计日志
统计每30S内各用户访问数仓的频次,同时过滤出慢查询,将慢查询单独输出,用于后期分析
2023-04-21 18:42:12
1136
原创 BloomFilter在Drois中的应用
BloomFilter索引也是以Block为粒度创建的。每个Block中,指定列的值作为一个集合生成一个BloomFilter索引条目,用于在查询是快速过滤不满足条件的数据
2023-04-18 17:28:25
732
原创 RPC调用框架简单介绍
Apache Doris目前使用的RPC调度框架,Apache Flink目前数据传输主要是基于Netty来实现的(Spark也是),Apache Flink目前TaskManager,jobManager,jobClient之间通信主要是基于Akka来实现的
2023-04-12 11:23:01
807
原创 Doris(0.15.1-rc09)使用Datax-DorisWrite导致BE固定节点streamLoad任务过多问题排查
Doris(0.15.1-rc09)使用Datax-DorisWrite导致BE固定节点streamLoad任务过多问题排查
2022-11-17 15:49:28
1214
原创 猿创征文|Apache Doris物化视图介绍
doris的物化视图是一种能够快速提高查询效率的预聚合机制,能够帮助用户解决大量频繁重复的查询效率瓶颈问题
2022-06-17 13:59:31
1281
2
原创 猿创征文|通过优化Doris表结构(Partitions & bucket数量)提升Doris查询性能
通过调整Doris建表结构提升Doris查询性能
2022-06-09 17:19:26
4699
4
原创 Apache Doris0.15.3 使用SQL_BLOCK_RULE导致集群FE元数据异常Down机解决方案
背景生产Doris集群是0.15.3版本,今天在创建SQL_BLOCK_RULE 的sqlHash规则时,导致Doris集群的FE节点同步元数据时出现空指针异常,集群3个FE节点全部挂掉且无法正常启动的情况。异常操作行为及报错信息1.创建SQL_BLOCK_RULE的sqlHash规则:CREATE SQL_BLOCK_RULE test_rule_1PROPERTIES( "sqlHash"="60c546559e91250393023573061921e0", "global"="f
2022-05-26 15:18:35
557
原创 Doris升级至1.0发行版后MySQL ODBC 不可用解决方案
背景 近期在做Doris集群的升级工作,准备将doris版本从Doris-0.15.1-rc09升级至doris-1.0.0-incubating。前期按照官网集群升级要求做了升级准备,顺利完成了集群的升级工作。但升级完成后,发现doris的MySQL ODBC有问题,具体报错如下:ERROR 1105 (HY000): errCode = 2, detailMessage = driver connect Error: HY000 [MySQL][ODBC 8.0(w) Driver]SS
2022-05-20 16:38:11
4063
原创 利用Flink-CDC和flink-doris-connector技术实现Mysql数据全量或增量同步至Doris
简介Flink CDC: 解决了传统数据库实时同步的痛点, 该技术抛弃了其他第三方组件(例如Kafka等),能够实时读取Mysql master节点全量和增量数据,能够捕获所有数据的变化,同时它完全与业务解耦,运维也及其简单。具体介绍请参考:Flink_CDC搭建及简单使用 及 flink-cdc-connectors。Apache Doris:它是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常
2022-05-14 10:52:26
8676
16
原创 DataX同步离线数据基础使用教程
DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理
2022-05-05 11:15:33
600
原创 Prometheus通过Process-exporter实现任务进程监控
1.下载process-exporterwget https://github.com/ncabatoff/process-exporter/releases/download/v0.7.10/process-exporter-0.7.10.linux-amd64.tar.gz2.安装部署process-exporter在要监控的机器上,安装proces-exporter。tar -xvf process-exporter-0.7.10.linux-amd64.tar.gzmv process-
2022-04-15 15:20:00
3801
原创 yum安装mysql5.7教程
1.下载yum→ wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm→ yum -y install mysql57-community-release-el7-10.noarch.rpm→ yum -y install mysql-community-server(可能会出现以下报错)注意:在安装mysql-community-server可能会出现以下报错:Retrieving key
2022-04-12 10:58:12
6167
原创 Prometheus通过Kafka_exporter监控kafka并发送钉钉报警
1.下载kafka_exporter相关包:wget https://github.com/danielqsj/kafka_exporter/releases/download/v1.4.2/kafka_exporter-1.4.2.linux-amd64.tar.gz2.解压注意:一个kafka集群(CDH kafka集群同样适用),只需要配置一个kafka_exporter即可,同时kafka_exporter必须部署在kafka节点上。tar -xf kafka_exporter-1.4.2
2022-04-11 11:21:22
4769
原创 Prometheus通过Mysqld_exporter监控Mysql并发送钉钉报警
1.下载kafka_exporter相关包:官网地址: https://github.com/prometheus/mysqld_exporter→ wget https://github.com/prometheus/mysqld_exporter/releases/download/v0.13.0/mysqld_exporter-0.13.0.linux-amd64.tar.gz2.解压→ tar -zxvf mysqld_exporter-0.13.0.linux-amd64.tar.gz
2022-04-07 10:21:47
1957
原创 Canal-adapter实时增量同步Mysql数据到Doris
一.版本介绍:canal.admin :1.1.4canal.deployer :1.1.4canal.adapter :1.1.4Doris :0.14/0.15三.多源配置:1.部署Canal不做详细介绍,可以参考官网部署。地址:https://github.com/alibaba/canal2.部署DorisApache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维
2022-03-11 10:31:42
4506
原创 Canal-adapter实时增量同步多数据源数据(Mysql-Mysql)
Canal-adapter实时增量同步多数据源数据(Mysql-Mysql)一.版本介绍:canal.admin 1.1.4canal.deployer 1.1.4canal.adapter 1.1.4二.背景:最近项目在采用Canal-adapter来实时增量同步多个mysql数据源的数据到指定数据库,本次同步的数据源有17个。最开始是打算部署3个Canal-adapter实例,将17个数据源大致均分到每个实例下同步数据,结果在官网并没有找到相关的多个数据源配置教程,由于项目紧张,所以采用了
2022-03-11 10:00:42
4687
原创 DataX同步离线数据基础使用教程
DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Write
2021-12-17 15:10:54
1117
2
原创 Prometheus+PushGateway+Python实现服务监控
背景: 目前prometheus监控组件主要是通过其他组件提供的metrics接口来获取组件的指标监控项,然后设定相关规则(报警阈值),最后通过alertmanager将达到阈值的指标发送给相关运维人员(可以发送到微信,钉钉,邮件等)。 那么,如果公司想通过prometheus监控自己开发的应用服务,并且该服务并没有提供metrics接口,就可以通过pushGateway的方式,将自定义的指标数据推送到网关,然后prometheus会定期从gateway拉取指标数据,从而达到目的。本
2021-12-14 15:36:34
6014
原创 Flink_CDC搭建及简单使用
Flink_CDC搭建及简单使用1.CDC简介: CDC (Change Data Capture) ,在广义的概念上,只要能捕获数据变更的技术,都可以称为 CDC 。但通常我们说的CDC 技术主要面向数据库(包括常见的mysql,Oracle, MongoDB等)的变更,是一种用于捕获数据库中数据变更的技术。 目前市面上的CDC技术非常多,常见的主要包括Flink CDC,DataX,Canal,Sqoop,Kettle,Oracle Goldengate,Debezi
2021-11-16 18:26:51
26989
13
原创 prometheus配置alertmanager告警-钉钉告警
Prometheus配置Alertmanager告警-钉钉告警创建用户和用户组本次安装使用我们自建的 prometheus 用户启动服务,用户和用户组的创建不在赘述。使用二进制包部署AlertManagerAlertmanager最新版本的下载地址可以从Prometheus官方网站https://prometheus.io/download/获取tar xvf alertmanager-0.23.0.linux-amd64.tar.gz -C /softcd /softmv alertman
2021-11-10 16:55:38
4525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人