- 博客(2147)
- 资源 (42)
- 收藏
- 关注

原创 深入浅出理解kafka原理相关技术博客汇总
深入浅出理解kafka原理相关技术博客汇总文章内容链接CentOS7搭建Kafka2.7分布式集群CentOS7搭建Kafka2.7分布式集群Kafka操作命令Kafka操作命令分布式消息队列Kafka原理分布式消息队列Kafka原理新版Kafka Manager CMAK安装的详细文档新版Kafka Manager CMAK安装的详细文档CentOS7安装kafka-managerCentOS7安装kafka-manager通信原理和认识kaf
2021-12-17 18:51:34
1301

原创 Pandas和Spark知识汇总
Spark开发汇总文章内容链接pyspark之DataFrame操作大全pyspark之DataFrame操作大全pandas数据处理—Series、DataFrame对象pandas数据处理—Series、DataFrame对象Pandas数据处理—Series、DataFrame对象索引Pandas数据处理—Series、DataFrame对象索引Pandas数据处理—清理、转换、合并、重塑Pandas数据处理—清理、转换、合并、重塑pyspark读
2021-01-03 23:16:00
975
1

原创 Linux常用命令详解和服务器知识汇总
Linux常用命令详解和服务器知识汇总文章内容链接linux常用命令详解(持续更新) linux常用命令详解(持续更新)ShellShellShell编程Shell编程linux知识点linux知识点redhat7配置本地yum源和阿里源redhat7配置本地yum源和阿里源...
2021-01-01 21:08:38
611

原创 Docker容器原理详解和实战应用
Docker容器原理详解和实战应用文章内容链接Docker核心原理,Docker在线安装和离线安装Docker核心原理,Docker在线安装和离线安装Docker 安装mysql5.7Docker 安装mysql5.7Docker 使用Dockerfile创建镜像Docker 使用Dockerfile创建镜像Docker 镜像和容器Docker 镜像和容器Docker修改国内镜像源,同时搭建本地私有镜像仓库,配置其他docker服务器从私有镜像仓库拉取镜
2021-01-01 20:54:29
551

原创 Spark、HDFS、YARN、Zookeeper、Kafka、Hive、HBase等原理详解
Spark、HDFS、YARN、Zookeeper、Kafka、Hive、HBase等原理详解文章内容链接分布式文件系统HDFS基本原理分布式文件系统HDFS基本原理计算引擎Spark基本原理计算引擎Spark基本原理分布式协调服务ZooKeeper原理分布式协调服务ZooKeeper原理分布式消息队列Kafka原理分布式消息队列Kafka原理Hive与Spark SQL原理详解Hive与Spark SQL原理详解分布式列簇式存储系统HBase原
2021-01-01 20:10:10
1310

原创 Python基础知识汇总和应用示例
Python基础知识汇总和应用示例文章内容链接python库下载网站python库下载网站python读取csv文件python读取csv文件Python3基础知识:三元表达式、元祖、sort函数、sorted函数、enumerate函数、zip函数、del函数、pop函数、update函数、字典Python3基础知识:三元表达式、元祖、sort函数、sorted函数、enumerate函数、zip函数、del函数、pop函数、update函数、字典python
2021-01-01 14:12:51
2510
1

原创 Kettle详细使用教程
Kettle详细使用教程文章内容链接Kettle 插入更新、自定义常量数据与删除、增加常量、增加序列Kettle 插入更新、自定义常量数据与删除、增加常量、增加序列Kettle字段选择、剪切字符串、字符串替换、Concat fields、字符串操作Kettle字段选择、剪切字符串、字符串替换、Concat fields、字符串操作Kettle 排序记录、去除重复记录、拆分字段、值映射、替换NULL值Kettle 排序记录、去除重复记录、拆分字段、值映射、替换NULL值
2021-01-01 13:19:24
1104

原创 Scala基础知识汇总和应用示例
Scala基础知识汇总和应用示例文章内容链接Scala连接Mysql数据库和Sqlserver数据库,增量抽取数据存储到Hive数据库Scala连接Mysql数据库和Sqlserver数据库,增量抽取数据存储到Hive数据库Scala语法之变量和数据类型Scala语法之变量和数据类型Scala语法之if…else、for循环、while循环、Break和ContinueScala语法之if…else、for循环、while循环、Break和ContinueSca
2021-01-01 13:10:51
343

原创 Java基础知识汇总
Java基础知识汇总文章内容链接Java从入门到精通 第一章 初识JavaJava从入门到精通 第一章 初识JavaJava从入门到精通 第二章 开发工具IDEA使用教程Java从入门到精通 第二章 开发工具IDEA使用教程Java从入门到精通 第三章 Java语言基础Java从入门到精通 第三章 Java语言基础Java从入门到精通 第四章流程控制Java从入门到精通 第四章流程控制Java从入门到精通 第五章字符串Java从入门到精通 第五章字符串
2021-01-01 12:47:58
378

原创 SQL Server语法大全和函数使用方法汇总
SQL Server函数大全和使用方法汇总文章内容链接SQL Server 2019 Linux安装教程SQL Server 2019 Linux安装教程SQL Server 2019 Windows安装教程SQL Server 2019 Windows安装教程SQLServer变量、流程控制、嵌套查询SQLServer变量、流程控制、嵌套查询SQLServer日期相关函数SQLServer日期相关函数 GETDATE、DATEADD、DATEDIFF、DAT
2021-01-01 12:13:22
763

原创 ELK集群搭建和使用详解:filebeat、Logstash、Kibana、Elasticsearch
ELK集群搭建和使用详解:filebeat、Logstash、Kibana、Elasticsearch文章分类链接服务器环境服务器环境搭建filebeatCentOS7下安装filebeat-7.3filebeatwindows下安装filebeat-7.3.2LogstashCentOS7下安装Logstash-7.3.2Logstashwindows下安装Logstash-7.3.2LogstashLogstash配置文件语法Logs
2020-12-18 11:32:52
383

原创 大数据集群搭建:安装部署MySQL、SQL Server、Zookeeper、Hadoop、Spark、Flink、Kafka、Kettle、Airflow、Flume、Zeppelin集群
大数据集群搭建:安装部署mysql、sqlserver、Zookeeper、Hadoop、Spark、Flink、Kafka、kettle、airflow集群文章分类链接大数据集群环境搭建大数据集群环境搭建:Hadoop、Spark、Flink分布式集群环境mysql5.7mysql5.7数据库主从同步、双机热备、读写分离高可用集群的实现mysql5.7CentOS7离线安装mysql5.7.32mysql8CentOS7离线安装mysql-8.0.19
2020-12-18 11:08:38
1443

原创 大数据集群环境搭建:Hadoop、Spark、Flink分布式集群环境
Centos7上搭建hadoop3.2.1分布式集群一、安装虚拟机VMware Workstation安装CentOS7.4服务器:https://blog.youkuaiyun.com/zhengzaifeidelushang/article/details/102557805准备三台CentOS7服务器,三台服务器主机名和IP地址如下:主机名IP地址bigdata1192.168.239.131bigdata2192.168.239.132bigdata3192.16
2020-04-08 16:00:59
1413
1
原创 Debezium系列之:使用Debezium和Apache Iceberg构建数据湖
Debezium系列之:使用Debezium和Apache Iceberg构建数据湖
2025-03-28 14:33:05
216
原创 Debezium日常分享系列之:Debezium 3.1.0.CR1发布
这个新版本包括对JDBC接收器和MySQL连接器的多项改进,支持ISO字符串时间值和使用Vitess的键空间心跳,基于键的RabbitMQ路由等。让我们深入了解这些新功能和改进。
2025-03-26 10:50:39
687
原创 数据库系列之:认识mongodb数据库的恢复令牌和mongodb数据库的oplog,基于oplog获取debezium使用的恢复令牌
数据库系列之:认识mongodb数据库的恢复令牌和mongodb数据库的oplog,基于oplog获取debezium使用的恢复令牌
2025-03-22 14:19:42
37
原创 Debezium系列之:认识mongodb数据库的恢复令牌和mongodb数据库的oplog,基于oplog获取debezium使用的恢复令牌
Debezium系列之:认识mongodb数据库的恢复令牌和mongodb数据库的oplog,基于oplog获取debezium使用的恢复令牌
2025-03-22 14:17:24
41
原创 Debezium报错处理系列之第126篇:resume of change stream was not possible, as the resume token was not found.
Debezium报错处理系列之第126篇:resume of change stream was not possible, as the resume token was not found.
2025-03-22 12:07:24
23
原创 数据库系列之:Sqlserver 表开启cdc后,对应的ct表数据保存时间
关于CT表中数据的保存时间,SQL Server并没有一个默认的固定时间,而是通过配置保留期(retention period)来控制。在SQL Server中,启用变更数据捕获(CDC)功能后,系统会自动创建一个与源表对应的变更表(CT表),用于存储源表的所有更改记录。需要注意的是,更改保留期后,SQL Server将在下一个清理周期自动删除超过保留期的数据。总之,通过合理设置CDC数据的保留期,可以有效地管理CT表中的数据量,避免因数据量过大而影响性能。存储过程来修改CDC数据的保留期。
2025-03-22 11:38:42
41
原创 Debezium报错处理系列之第125篇:Caused by: com.mongodb.MongoCommandException: Command failed with error 13
Debezium报错处理系列之第125篇:Caused by: com.mongodb.MongoCommandException: Command failed with error 13 Unauthorized: 'not authorized on admin to execute command
2025-03-22 11:22:53
20
原创 Debezium日常分享系列之:Debezium Charts
从现在开始,我们的图表包(Debezium operator and Debezium platform)将作为 GitHub 发布工件在其各自的仓库中发布,并且如前所述,Helm 图表索引将包含两个图表版本。到目前为止,我们仅为我们的Debezium Server Operator 发布了 Helm 图表,对于那些已经开始使用它的人应该知道,我们在charts.debezium.io上发布了它。这是因为,随着图表从 1 个增加到 2 个,我们决定统一我们的图表,以便您可以在一个地方轻松找到它们。
2025-03-22 11:05:15
338
原创 Java系列之:面向对象和集合框架知识汇总
实例方法中可以出现this关键字,类方法中不可以出现this关键字。工具类没有创建对象的需求,建议将工具类的构造器进行私有。类方法中可以直接访问类成员,不可以直接访问实例成员。实例方法中既可以访问类成员,也可以直接访问实例成员。类方法最常见的应用场景是做工具类。
2025-03-16 14:12:43
238
原创 Debezium日常分享系列之:Debezium 3.1.0.Beta1发布
此版本包含了许多特性和改进,包括但不限于 Debezium Server UI 的首个官方发布、CloudEvent traceparent 支持、Debezium 的 PubSub 和 RabbitMQ 源的新功能、WASM 转换中的模式访问,以及许多其他特性。让我们深入了解这些新特性和改进。
2025-03-14 20:07:05
714
原创 Debezium日常分享系列之:Debezium 3.0.8.Final发布
Debezium日常分享系列之:Debezium 3.0.8.Final发布
2025-03-04 19:40:25
690
原创 Debezium报错处理系列之第124篇:Decimal value has mismatching scale for given Decimal schema. Schema has scale
Debezium报错处理系列之第124篇:Caused by: org.apache.kafka.connect.errors.DataException: Decimal value has mismatching scale for given Decimal schema. Schema has scale 2, value has scale 3.
2025-02-26 21:36:23
43
原创 Debezium日常分享系列之:Debezium 3.1.0.Alpha2发布
Debezium日常分享系列之:Debezium 3.1.0.Alpha2发布
2025-02-24 16:07:18
955
原创 flink系列之:使用flink cdc3从mysql数据库同步数据到doris和starrocks
当上游数据库新增表时,CDC YAML 能够自动识别并同步这些表的数据,而无需重新配置作业。下载Pipeline Connectors Jars和Source Connector Jars到lib目录。如上所示,成功在starrocks表中创建了表,并完成了历史数据和增量数据的同步。查看flink web ui,{ip}:{port}修改flink配置文件config.yaml。flink web ui查看任务。设置flink 环境变零。启动flink cdc。starrocks表。
2025-02-22 14:11:37
1328
原创 Kafka系列之:记录一次源头数据库刷数据,造成数据丢失的原因
偏移量超出范围:在Kafka中,每个分区都有一个从0开始的连续的偏移量序列。当消费者尝试获取的偏移量不在当前分区的有效范围内时,Kafka会返回一个“偏移量超出范围”(offset out of range)的错误。这条日志记录了一个Kafka消费者在尝试从特定分区获取消息时发现偏移量超出范围,并自动重置偏移量的情况。:这是日志的主要内容,说明了一个特定的日志段(Log Segment)将被删除。源头数据库在很短的时间内刷了大量的数据,部分数据在hdfs丢失了。
2025-02-22 10:52:21
210
原创 Debezium日常分享系列之:解码逻辑解码消息内容
在SMT应用这些更改后,记录可以更容易地被下游消费者或其他SMT处理,比如Debezium Outbox Event Router。以下表格列出了您可以在DecodeLogicalDecodingMessageContent SMT中使用的配置选项。示例1. 应用DecodeLogicalDecodingMessageContent SMT的效果。以下示例显示了在应用转换之前和之后事件记录的键和值。SMT处理记录前的事件键。SMT处理记录前的事件值。SMT处理记录后的事件键。SMT处理记录后的事件值。
2025-02-12 22:15:13
376
1
原创 Debezium系列之:时区转换器,时间戳字段转换到指定时区
SMT还允许将源信息块中的事件元数据字段(例如ts_ms)转换为目标时区。为了转换元数据字段,必须在include.list或exclude.list配置选项的字段名中包含源前缀。
2025-02-12 21:52:53
295
1
原创 Debezium系列之:使用Debezium和Python进行实时数据复制
此示例演示了一种从数据库中捕获变更数据并使用Debezium和DLT将其加载到数据仓库的强大且简单的方法。这些工具的组合提供了CDC场景的强大且简单的解决方案,实现了实时数据同步和分析。使用Python和pydbzengine使将Debezium集成到现有的Python工作流程中变得容易。DltChangeHandler提供了清晰的关注点分离,处理与DLT的集成和数据加载过程。基于Debezium,pydbzengine使使用Python建立低延迟数据摄取流水线变得非常简单。
2025-02-05 11:53:37
80
原创 Debezium日常分享系列之:Debezium 3.1.0.Alpha1发布
3.1.0.Alpha1版本包括了许多新功能,包括JDBC sink对PostgreSQL和MySQL的向量数据类型支持,新的自适应时间精度模式,MariaDB的SSL支持等等。
2025-01-26 01:31:56
752
原创 Debezium日常分享系列之:对于从Oracle数据库进行快照的性能优化
我特别观察了一个指标,即源记录的轮询速率。在我的测试中,这个指标作为一个有用的第一指示器,用于判断性能是好还是坏。通过使用这些设置,我们能够实现25%的优化:从最初的8小时,我们将完整快照的时间缩短到了6小时(见图1)。如果轮询是正常的,但推送到Kafka的速度不够快,那么源记录活动计数可能是一个标识符。图3显示,在我们的情况下,我们不必担心任何阻塞情况。我在测试中尝试了这些属性,并获得了有趣的见解。当然,我们尽力提高速度,并测试了一些其他设置和它们的组合。在我的测试中,我主要关注性能相关的属性。
2025-01-19 12:17:38
1107
原创 flume系列之:flume落cos
将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.version}-{cosn.version}.jar和cos_api-bundle-5.x.x.jar)放置到。
2025-01-19 11:53:49
637
原创 Java系列之:读写文件、Callable接口、Runnable接口、线程池
Java系列之:读写文件、Callable接口、Runnable接口、线程池
2024-12-31 21:48:30
870
Debezium Server offset编辑器
2023-10-19
labview数据采集系统
2022-10-09
ansible-flume-auto-deployment.tar.gz
2021-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人