大数据_CarsonBigData的博客-优快云博客

大数据

关注

文章平均质量分 62

关注数：文章数：40 文章阅读量：108329 文章收藏量：323

作者: CarsonBigData

不积硅步，无以至千里。不积小流，无以成江海。

展开

专栏收录文章

如何实现MySQL对某一张表的binlog日志进行记录

在 MySQL 中，使用触发器（Triggers）来记录表的变更是一种常见的方法。接下来，需要创建触发器来监控表的变更并将变更记录到日志表中。• old_data：变更前的数据（适用于 UPDATE 和 DELETE）。• new_data：变更后的数据（适用于 INSERT 和 UPDATE）。：触发器会对表操作增加额外的开销，特别是在高频次的操作场景中，可能会影响性能。：触发器操作会在事务中执行，如果事务回滚，触发器的操作也会被回滚。：如果触发器未按预期工作，请检查触发器的定义以及表结构是否匹配。

原创 2024-07-31 00:00:52 · 695 阅读 · 1 评论
如何实现PostgreSQL对某一张表的WAL日志进行记录

PostgreSQL 没有内置的 binlog（binary log）机制像 MySQL 那样。它使用 Write-Ahead Logging (WAL) 来记录数据库的变更。要将这些变更记录到某张表中，通常可以使用逻辑复制（Logical Replication）和触发器（Triggers）来实现。

原创 2024-07-30 23:48:55 · 1048 阅读 · 0 评论
DataX二次开发——（10）新增hudiwriter

由于离线同步采用Flink或者Spark进行入湖操作需要极大的成本，而且如果遇到跨网络环境，整个Spark和Flink集群都需要通外网，所以考虑采用DataX实现轻量级的离线入湖。

原创 2023-06-08 09:11:48 · 1151 阅读 · 0 评论
各大数据组件数据倾斜的原因和解决办法

在处理大规模数据时，数据倾斜是一个常见的问题。数据倾斜指的是在分布式环境中处理数据时，某些节点上的任务会比其他节点更加繁重，这可能导致性能下降、资源浪费等问题。数据倾斜可能会出现在不同层次的数据处理过程中，例如 map 阶段、reduce 阶段、join 操作等。数据倾斜的背景可以从以下几个方面来解释：数据量分布不均在分布式环境中，数据量分布不均可能导致数据倾斜。通常情况下，每个节点应该处理相同数量的数据，但如果某个节点上的数据量过大或过小，则可能导致该节点上的任务更加繁重或者空闲。

原创 2023-06-01 10:31:54 · 2230 阅读 · 0 评论
Flink实战- （8）Flink UDF实现数据脱敏

在Flink环境实现数据实时同步的过程中，需要对某些字段进行脱敏处理或者特殊处理，这是需要自己定义UDF函数进行转换。

原创 2023-05-31 20:52:16 · 1214 阅读 · 0 评论
Hive结合Apache Ranger进行数据脱敏

Apache Hive是构建在Hadoop之上的数据仓库，支持通过SQL接口查询分析存储在Hadoop中的数据。在Hive出现之前，数据分析人员需要编写MapReduce作业分析Hadoop中的数据，这种方式繁琐低效，对数据分析人员不友好，因为数据分析人员大部分比较精通SQL，但是编程功底较浅。在这种背景下，2007年Facebook在论文。

原创 2023-04-18 10:42:59 · 1594 阅读 · 0 评论
DataX二次开发——Doris写入时报Content-Length header already present异常处理

【代码】DataX二次开发——Doris写入时报Content-Length header already present异常处理。

原创 2023-04-11 17:08:47 · 1929 阅读 · 1 评论
CDH6.3.2集成Apache Atlas2.1.0

CDH6.3.2集成Apache Atlas2.1.0

原创 2022-12-22 08:54:21 · 1514 阅读 · 0 评论
DataX二次开发——（9）新增s3reader和s3writer模块

DataX3.0支持阿里的OSS的读写，但没支持S3的读写，虽然OSS的也是基于S3协议去做二开的，但是一些参数有点区别，所以按照阿里的OSSReader和OSSWriter开发了S3Reader和S3Writer。

原创 2022-11-23 16:03:46 · 3001 阅读 · 0 评论
Greenplum——大数据量写入和更新的性能优化之路

2、在/home/gpadmin下面创建insert.sql文件，向表中插入一条随机数据。3、在/home/gpadmin下面创建read.sql文件，从表中读取一条随机数据。-- 业务库insert和update的数据：tmp_incr_data。-- 目标表里不需要更新的数据：tmp_not_update_data。1、链接数测试，模拟224个客户端连接，8个线程，每个客户端8个事务。-- 今天过来的最新数据：tmp_update_data。：增量数据和目标表数据合并到临时表，然后覆盖目标表。....

原创 2022-08-10 13:56:50 · 3734 阅读 · 0 评论
DataX二次开发——（8）rdbms的达梦8数据库的支持

目前GitHub上的DataX3.0开源版本，rdbms里面默认是达梦7的驱动，因此，如果像链接达梦8需要替换驱动。

原创 2022-10-27 13:53:54 · 8577 阅读 · 12 评论
DataX二次开发——（7）kingbaseesreader86、kingbaseeswriter86的开发

Kingbasees86Reader插件实现了从KingbaseES读取数据。在底层实现上，Kingbasees86Reader通过JDBC连接远程KingbaseES数据库，并执行相应的sql语句将数据从KingbaseES库中SELECT出来。Kingbasees86Writer插件实现了写入数据到 KingbaseES主库目的表的功能。

原创 2022-10-25 14:38:11 · 2809 阅读 · 7 评论
Spark——0基础入门数据湖Hudi的读写

【代码】Spark——数据湖Hudi的读写。

原创 2022-09-26 10:01:49 · 1544 阅读 · 0 评论
Kafka实战——简单易懂的生产者消费者demo

单线程版本适合本地调试，多线程版本适合做压测。

原创 2020-06-04 17:15:06 · 1516 阅读 · 0 评论
DataX二次开发——（6）kafkareader、kafkawriter的开发

基于阿里开源DataX3.0版本，开发kafka的读写驱动，可以实现从mysql、postgresql抽取数据到kafka，从kafka 消费消息写入hdfs等功能。

原创 2022-09-09 14:00:21 · 7739 阅读 · 13 评论
Greenplum——基于Greenplum-Spark Connector的Spark脚本开发及遇到的坑

分别上传greenplum-spark_2.12-2.1.0.jar 和 gsc-scala-test-1.0-SNAPSHOT.jar 这两个包到 spark的bin目录下。1、Greenplum-Spark Connector驱动和Spark的版本兼容问题。目前只支持Spark2.x版本的环境，如果用Spark3.x会报错，后续应该会支持。

原创 2022-08-24 11:27:12 · 2083 阅读 · 3 评论
Spark——基于JDBC connector读写MySQL、Oracle、PostgreSQL、Greenplum

在大数据开发场景中，数据同步有很多种工具可以实现，其中包括DataX、FlinkCDC、Spark、Canal、sqoop等等，这边文章主要是描述Spark做多种数据源的同步，原理是基于jdbc驱动。

原创 2022-08-18 10:57:24 · 2198 阅读 · 0 评论
DataX二次开发——（5）基于CopyIn原理新增greenplumwriter

GreenplumWriter插件实现了写入数据到 Greenplum Database 主库目的表的功能。在底层实现上，GreenplumWriter通过JDBC连接远程 Greenplum 数据库，并执行相应的 Copy FROM 语句将数据写入 Greenplum。GreenplumWriter面向ETL开发工程师，他们使用GreenplumWriter从数仓导入数据到Greenplum。同时 GreenplumWriter亦可以作为数据迁移工具为DBA等用户提供服务。......

原创 2022-08-12 14:20:01 · 1763 阅读 · 0 评论
Greenplum——copy insert的Java工具类

【代码】Greenplum copy in的Java工具类。

原创 2022-08-12 10:16:05 · 854 阅读 · 0 评论
DataX二次开发——（4）新增hivereader、hivewriter

DataX3.0 官方版本里面目前只支持了hdfs的读写，不支持hive的读写，基于原有的hdfsreader和hdfswriter开发了hivereader和hivewriter。

原创 2022-08-08 23:32:44 · 5858 阅读 · 5 评论
DataX二次开发——（3）新增数据加密脱敏插件

在数据同步的场景中，时常会有部分字段需要加密脱敏处理，但是DataX3.0是没有开发这个插件的，那我们可以开发一个EncryptTransformer来做数据的加密处理。目前开发的插件支持AES、RSA、SM4、MD5加密方式。

原创 2022-07-29 09:25:20 · 4827 阅读 · 8 评论
DataX二次开发——（2）解决MySQL8不兼容问题

(同理，替换reader和writer是一样)

原创 2022-07-28 16:29:15 · 2165 阅读 · 4 评论
Flink实战-（5）Flink Kafka实时Error日志告警

Maven配置application.properties配置2.1 工具类2.2 反序列化类2.3 日志结构设计样例数据：2.4 主类2.5 模拟日志生成类3 本地运行运行成功！

原创 2022-06-22 00:01:39 · 1026 阅读 · 0 评论
Docker搭建Kafka集群

这是基于docker-compose，单机版的部署方式，适合于功能测试。wurstmeister/kafkahttps://github.com/wurstmeister/kafka-docker/特点：docker hub star数最多，版本更新到 Kafka 2.0 ，zookeeper与kafka分开于不同镜像。假设docker、docker-compose等工具已经安装。1、下载zookeeper和 kafka 镜像:2、用户目录下创建一个docker-compose.yml文件内容

原创 2022-06-16 22:57:25 · 634 阅读 · 0 评论
异构数据源DDL转换的两种方式

dbswitch是一款数据库迁移工具，它可以帮助用户轻松地将一个数据库系统中的数据迁移到另一个数据库系统中。它支持多种常见的关系型数据库系统，例如MySQL、Oracle、SQL Server、PostgreSQL等。dbswitch提供了丰富的转换选项和功能，可以帮助用户解决在不同数据库系统之间存在的格式差异、数据类型转换、编码转换等问题，确保迁移后的数据准确、完整、一致性。dbswitch的优势在于它的灵活性和可定制性。

原创 2022-06-16 09:57:07 · 2434 阅读 · 0 评论
基于H3Core分区的司机轨迹实时存储的技术方案

由数据分析师提出的要求，需要分析每10s各个区域（颗粒度到H3Code 8级面积约0.7平方公里）的司机分布情况，实现准实时的区域司机分布。H3Code的概念可以参考以下博客：Uber H3简单介绍_Scc_hy的博客-优快云博客一、什么是H3？将地球空间划分成可是识别的单元。将经纬度H3编码成六边形的网格索引。二、为什么用H3？

原创 2023-04-28 16:54:03 · 1526 阅读 · 0 评论
Flink实战-（4）Flink Kafka实时同步到Hbase

2 Java代码2.1 Kafka生产者2.2 主类3、本地运行控制台 Hbase控制台这样就说明在本地运行成功了完成了生产者->Kafka->消费者(Flink)->数据仓库（Hbase）在Hbase查找Rowkey=2162成功...

原创 2022-06-09 00:43:11 · 1670 阅读 · 1 评论
Flink实战-（3）Flink Kafka实时同步到MySQL

背景：以用户日志为例，写一个从Kafka实时同步到MySQL的实战Demo2、Maven3、Java类实体类Kafka模拟生产者类写入MySQL的Sink类Kafka同步到MySQL的主类4、本地执行记得这个要勾上不然会报错执行成功查看数据库.........

原创 2022-06-08 01:10:40 · 2617 阅读 · 7 评论
DataX二次开发——（1）新增HANA数据源

到编译打包好的datax目录下/plugin/reader/rdbmsreader/libs 和 /plugin/reader/rdbmswriter/libs 下面看一下是否拥有我们添加的jar包。把下载好的放到对应的maven的仓库，MAVEN_HOME/repository/eigenbase/eigenbase-properties/1.1.4/下，把别的文件都删了。链接: https://pan.baidu.com/s/1EmwnU7JbEql54r-1XZHVuQ 提取码: 7s06。

原创 2022-06-06 13:54:41 · 2396 阅读 · 0 评论
Greenplum——Master自动fail-over高可用方案

参考博客：keepalived，虚拟ip（vip）实践。_Danger_Life的博客-优快云博客_keepalived vipkeepalived实现greenplum的自动切换高可用_Danger_Life的博客-优快云博客

原创 2022-05-23 08:38:06 · 713 阅读 · 0 评论
Flink实战-（2）Flink-CDC MySQL同步到MySQL（binlog）

1、maven<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o

原创 2022-04-22 22:54:27 · 3874 阅读 · 21 评论
Flink实战-（1）Flink-CDC MySQL同步到MySQL（select）

flink-cdc

原创 2022-04-22 14:23:59 · 9396 阅读 · 27 评论
数据字典服务端采集方案-基于Springboot Starter开发

字段）分别对应了四种映射字段值和字段值描述的方法，只需要根据具体需要，按照其中一个方法实现即可。里面一些包名和数据库名这些配置可以考虑在yml去加数据字典的采集如果网络不通，无法jdbc直连，可以考虑用restful-api或者mq去接收也是可以。方法返回当前应用的数据库模型所在的包路径，支持配置多个路径。扫描模型字段的字典值定义，集中存储各服务数据库字段的字典值信息，以便日常查询及脚本转换使用。字段指定某个能获取字段字典值的静态方法，且该方法的返回类型为。有，则使用字段名转换成下划线格式的名称。

原创 2022-04-21 10:48:19 · 794 阅读 · 0 评论
CM和CDH在安装的时候遇到的问题

1、CM和CDH在安装的时候遇到的问题：通过Cloudera WEB界面安装Hadoop过程中，在安装Parcel步骤时，一个节点分配激活失败，报错信息显示”主机运行状况不良”，如下图所示。解决方法：删除agent目录下面的cm_guid文件，并重启失败节点的agent服务恢复。那一台服务器的状况不良，在哪一台中执行。cd /var/lib/cloudera-scm-agent/rm -rf cm_guidservice cloudera-scm-agent res..

原创 2022-04-18 22:31:09 · 2728 阅读 · 0 评论
Cloudera Manager安装CDH6教程-（二）搭建Cloudera和CDH6

手把手搭建CM和CDH

原创 2022-04-18 22:18:21 · 3355 阅读 · 0 评论
Cloudera Manager安装CDH6教程-（一）虚拟环境安装配置

一 CentOs7安装1.1选择创建好的虚拟机，”开启此虚拟机“1.2选择安装centos71.3选择英文版安装1.4配置时间1.5软件选择1.6系统分区设置这里使用自动也是可以的，就不需要做如下的自定义配置1.7网关配置1.8开始安装1.9修改密码（一定要记住哦），选择是否创建用户(这里没有创建)，等待安装完成1.10同意协议，配置相关信息二配置IP2.1查看原有IPifconfig2.2修改网络配置文件#进入

原创 2022-04-18 22:09:59 · 2088 阅读 · 3 评论
DolphinScheduler二次开发

官方网站：https://dolphinscheduler.apache.org/zh-cn/doc未完待续

原创 2022-01-13 09:58:27 · 7081 阅读 · 21 评论
关于大数据BI工具的技术调研和选型分析

Davinci是一款开源的数据可视化工具，由华为公司自主研发，并于2020年正式发布。它的设计理念是简单、易用、高效，旨在帮助用户快速进行数据探索和可视化分析。Davinci以简洁大方的UI设计而著称，并且提供了多种数据可视化方式，如折线图、柱状图、散点图、热力图、雷达图等，同时还支持交互式查询和过滤器，使用户能够直观、灵活地操作数据。Davinci的特点在于采用了基于WebGL的渲染引擎，以及大数据量的数据传输、分页和渲染技术，保证了在处理大量数据时的稳定性和高效性。

原创 2020-10-21 17:21:06 · 841 阅读 · 0 评论
数据血缘——基于单机版Neo4j实现数据血缘的管理

本文章仅仅提供了Neo4j做数据血缘的设计，提供Restful-Api 对数据血缘的增删查改，至于数据血缘的解析，需要先在另外的模块进行处理。

原创 2021-09-16 11:17:41 · 4274 阅读 · 10 评论
DataX快速入门Demo

1、环境准备 JDK1.8 Python2.6+（一定要python2） DataX（点击下载Datax下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz点击下载）2、配置2.1 DataX存放路径2.1 Data的Job mysql2mysql.json{ "job": { "content": [ { ...

原创 2021-11-01 15:33:11 · 868 阅读 · 0 评论

大数据

作者: CarsonBigData

如何实现MySQL对某一张表的binlog日志进行记录

如何实现PostgreSQL对某一张表的WAL日志进行记录

DataX二次开发——（10）新增hudiwriter

各大数据组件数据倾斜的原因和解决办法

Flink实战- （8）Flink UDF实现数据脱敏

Hive结合Apache Ranger进行数据脱敏

DataX二次开发——Doris写入时报Content-Length header already present异常处理

CDH6.3.2集成Apache Atlas2.1.0

DataX二次开发——（9）新增s3reader和s3writer模块

Greenplum——大数据量写入和更新的性能优化之路

DataX二次开发——（8）rdbms的达梦8数据库的支持

DataX二次开发——（7）kingbaseesreader86、kingbaseeswriter86的开发

Spark——0基础入门数据湖Hudi的读写

Kafka实战——简单易懂的生产者消费者demo

DataX二次开发——（6）kafkareader、kafkawriter的开发

Greenplum——基于Greenplum-Spark Connector的Spark脚本开发及遇到的坑

Spark——基于JDBC connector读写MySQL、Oracle、PostgreSQL、Greenplum

DataX二次开发——（5）基于CopyIn原理新增greenplumwriter

Greenplum——copy insert的Java工具类

DataX二次开发——（4）新增hivereader、hivewriter

DataX二次开发——（3）新增数据加密脱敏插件

DataX二次开发——（2）解决MySQL8不兼容问题

Flink实战-（5）Flink Kafka实时Error日志告警

Docker搭建Kafka集群

异构数据源DDL转换的两种方式

基于H3Core分区的司机轨迹实时存储的技术方案

Flink实战-（4）Flink Kafka实时同步到Hbase

Flink实战-（3）Flink Kafka实时同步到MySQL

DataX二次开发——（1）新增HANA数据源

Greenplum——Master自动fail-over高可用方案

Flink实战-（2）Flink-CDC MySQL同步到MySQL（binlog）

Flink实战-（1）Flink-CDC MySQL同步到MySQL（select）

数据字典服务端采集方案-基于Springboot Starter开发

CM和CDH在安装的时候遇到的问题

Cloudera Manager安装CDH6教程-（二）搭建Cloudera和CDH6

Cloudera Manager安装CDH6教程-（一）虚拟环境安装配置

DolphinScheduler二次开发

关于大数据BI工具的技术调研和选型分析

数据血缘——基于单机版Neo4j实现数据血缘的管理

DataX快速入门Demo