CarsonBigData-优快云博客

原创常见的Web安全漏洞——XSS

跨站脚本攻击(XSS），指攻击者通过篡改网页，嵌入恶意脚本程序，在用户浏览网页时，控制用户浏览器进行恶意操作。

2024-11-28 16:57:19 1156

经过这轮的开发，基本可以掌握OpenRASP插件的二次开发了，以反序列化插件作为入门场景是现在浅显易懂的，不过也不要过度乐观的认为OpenRASP二开很简单，因为后续会有一些比较深入的场景，当前的开发模式不一定满足，本人也是入门小白一枚，欢迎各位同行留言交流进步！在com.baidu.openrasp.plugin.js.JS类的pluginConfig中，追加新增的插件类型，这里是deserialization。注意：这个不能漏，漏了调用JS代码的时候会有超时问题。

2024-10-21 15:10:41 1089

原创如何实现MySQL对某一张表的binlog日志进行记录

在 MySQL 中，使用触发器（Triggers）来记录表的变更是一种常见的方法。接下来，需要创建触发器来监控表的变更并将变更记录到日志表中。• old_data：变更前的数据（适用于 UPDATE 和 DELETE）。• new_data：变更后的数据（适用于 INSERT 和 UPDATE）。：触发器会对表操作增加额外的开销，特别是在高频次的操作场景中，可能会影响性能。：触发器操作会在事务中执行，如果事务回滚，触发器的操作也会被回滚。：如果触发器未按预期工作，请检查触发器的定义以及表结构是否匹配。

2024-07-31 00:00:52 559 1

原创如何实现PostgreSQL对某一张表的WAL日志进行记录

PostgreSQL 没有内置的 binlog（binary log）机制像 MySQL 那样。它使用 Write-Ahead Logging (WAL) 来记录数据库的变更。要将这些变更记录到某张表中，通常可以使用逻辑复制（Logical Replication）和触发器（Triggers）来实现。

2024-07-30 23:48:55 818

原创数据开发流程图

分析：原有业务采集混乱，不受调度管理监控，数据不存储不统一，需要频繁转换。背景：公司处于数仓开发的起步阶段，需要构建一个数据开发的流程。行动：改造原有业务，数据开发流程图如下。结果：统一了数据采集方式和数据入仓方式。

2024-03-02 13:52:20 1375

原创关于allatori代码混淆技术的一次实践

allatori官方网站：https://allatori.com/proguard官网： https://www.guardsquare.com/proguard.

2023-10-13 14:38:48 3921 2

原创关于业务库从MySQL迁移到DM8的操作指南

序号问题原因解决方案备注1生成id问题dm不支持UUID可使用sys_guid代替例如：sys_guid AS bill_Id2求两个时间相差天数dm不支持DATEDIFF可使用BIGDATEDIFF代替例如：BIGDATEDIFF(DAY,admission_time,discharge_time)3group by 关键字后面不能使用字段的别名直接使用字段本身4group by 时 select 除了聚合字段和聚合参数，其他字段不允许查询默认标准select限制。

2023-09-25 22:20:32 685

原创 JVM调优工具详解以及实战

事先启动一个web应用程序，用jps查看进程id，接着用各种jdk自带的命令优化应用。

2023-08-03 20:38:12 394

原创 DataX二次开发——（10）新增hudiwriter

由于离线同步采用Flink或者Spark进行入湖操作需要极大的成本，而且如果遇到跨网络环境，整个Spark和Flink集群都需要通外网，所以考虑采用DataX实现轻量级的离线入湖。

2023-06-08 09:11:48 1064

原创各大数据组件数据倾斜的原因和解决办法

在处理大规模数据时，数据倾斜是一个常见的问题。数据倾斜指的是在分布式环境中处理数据时，某些节点上的任务会比其他节点更加繁重，这可能导致性能下降、资源浪费等问题。数据倾斜可能会出现在不同层次的数据处理过程中，例如 map 阶段、reduce 阶段、join 操作等。数据倾斜的背景可以从以下几个方面来解释：数据量分布不均在分布式环境中，数据量分布不均可能导致数据倾斜。通常情况下，每个节点应该处理相同数量的数据，但如果某个节点上的数据量过大或过小，则可能导致该节点上的任务更加繁重或者空闲。

2023-06-01 10:31:54 2127

原创 Flink实战- （8）Flink UDF实现数据脱敏

在Flink环境实现数据实时同步的过程中，需要对某些字段进行脱敏处理或者特殊处理，这是需要自己定义UDF函数进行转换。

2023-05-31 20:52:16 1097 1

原创 Clickhouse 常见问题及解决方案汇总

程序是运行在OS 和硬件上的，程序和 OS 息息相关，程序的一些问题会反馈到 OS 的指标上，OS 上的指标也能看出来程序运行的一些问题，所以只有掌握如何看机器负载，对相关指标有清晰的认识才能更好的做好排障工作。

2023-05-09 15:26:09 2483

原创 Kafka上的优化经验

从图中可以看出，原始版本在这种情况下会造成⼤量的磁盘读，⽽ Kafka cache。据，不会出现读⼤量磁盘数据的问题，仅仅多了⼀个副本的流量，基本对系统⽆影响。版本，其他版本不⽀持，如果我们引⼊的话，需要针对⽣产环境上的版本进⾏代码修改。是操作系统层⾯的缓存，难于控制，有些时候，会受到污染，从⽽导。开始拷⻉数据，这会导致⼤量读磁盘，消耗⼤量的 I/O。这样就保障了阻塞⼀条链路，其他的处理链路是畅通的。的写⼊出现延迟，例如是由于磁盘繁忙导致，则会最终将。的整体设计，可以看出，已经很好地解决了上述的两个对。

2023-05-03 21:21:38 1246

原创基于H3Core分区的司机轨迹实时存储的技术方案

由数据分析师提出的要求，需要分析每10s各个区域（颗粒度到H3Code 8级面积约0.7平方公里）的司机分布情况，实现准实时的区域司机分布。H3Code的概念可以参考以下博客：Uber H3简单介绍_Scc_hy的博客-优快云博客一、什么是H3？将地球空间划分成可是识别的单元。将经纬度H3编码成六边形的网格索引。二、为什么用H3？

2023-04-28 16:54:03 1406

原创 Flink实战-（6）FlinkSQL实现CDC

下载改JAR包，把它加到Flink下的lib路径下，然后重启sql-client；上传相关的依赖包，这几个包在网上很容易找到。进入Flink的lib目录。启动 Flink客户端。

2023-04-26 15:10:33 3152

原创采用seatunnel提交Flink和Spark任务

seatunnel 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。seatunnel 让Spark和Flink的使用更简单，更高效。特性。

2023-04-25 08:02:49 3023 2

原创 DataX GroovyTransformser 实现自定义函数UDF

在数据同步的过程中，会出现一些字段需要脱敏、替换、或者进行特定处理的情况，通常有两种方式，一种是写一个Transformser，然后打包编译进去，这种方式不太灵活。另一种是使用DataX自带的GroovyTransformser插件，

2023-04-24 11:34:08 1106

原创 Hive结合Apache Ranger进行数据脱敏

Apache Hive是构建在Hadoop之上的数据仓库，支持通过SQL接口查询分析存储在Hadoop中的数据。在Hive出现之前，数据分析人员需要编写MapReduce作业分析Hadoop中的数据，这种方式繁琐低效，对数据分析人员不友好，因为数据分析人员大部分比较精通SQL，但是编程功底较浅。在这种背景下，2007年Facebook在论文。

2023-04-18 10:42:59 1477

原创 DataX二次开发——Doris写入时报Content-Length header already present异常处理

【代码】DataX二次开发——Doris写入时报Content-Length header already present异常处理。

2023-04-11 17:08:47 1733 1

原创 CDH6.3.2集成Apache Atlas2.1.0

CDH6.3.2集成Apache Atlas2.1.0

2022-12-22 08:54:21 1455

原创 DataX二次开发——（9）新增s3reader和s3writer模块

DataX3.0支持阿里的OSS的读写，但没支持S3的读写，虽然OSS的也是基于S3协议去做二开的，但是一些参数有点区别，所以按照阿里的OSSReader和OSSWriter开发了S3Reader和S3Writer。

2022-11-23 16:03:46 2717 8

原创 DataX二次开发——（8）rdbms的达梦8数据库的支持

目前GitHub上的DataX3.0开源版本，rdbms里面默认是达梦7的驱动，因此，如果像链接达梦8需要替换驱动。

2022-10-27 13:53:54 7888 12

原创 DataX二次开发——（7）kingbaseesreader86、kingbaseeswriter86的开发

Kingbasees86Reader插件实现了从KingbaseES读取数据。在底层实现上，Kingbasees86Reader通过JDBC连接远程KingbaseES数据库，并执行相应的sql语句将数据从KingbaseES库中SELECT出来。Kingbasees86Writer插件实现了写入数据到 KingbaseES主库目的表的功能。

2022-10-25 14:38:11 2608 6

原创 Spark——0基础入门数据湖Hudi的读写

【代码】Spark——数据湖Hudi的读写。

2022-09-26 10:01:49 1469

原创 DataX二次开发——（6）kafkareader、kafkawriter的开发

基于阿里开源DataX3.0版本，开发kafka的读写驱动，可以实现从mysql、postgresql抽取数据到kafka，从kafka 消费消息写入hdfs等功能。

2022-09-09 14:00:21 7371 14

原创 Greenplum——基于Greenplum-Spark Connector的Spark脚本开发及遇到的坑

分别上传greenplum-spark_2.12-2.1.0.jar 和 gsc-scala-test-1.0-SNAPSHOT.jar 这两个包到 spark的bin目录下。1、Greenplum-Spark Connector驱动和Spark的版本兼容问题。目前只支持Spark2.x版本的环境，如果用Spark3.x会报错，后续应该会支持。

2022-08-24 11:27:12 1976 3

原创 Spark——基于JDBC connector读写MySQL、Oracle、PostgreSQL、Greenplum

在大数据开发场景中，数据同步有很多种工具可以实现，其中包括DataX、FlinkCDC、Spark、Canal、sqoop等等，这边文章主要是描述Spark做多种数据源的同步，原理是基于jdbc驱动。

2022-08-18 10:57:24 2132

原创 DataX二次开发——（5）基于CopyIn原理新增greenplumwriter

GreenplumWriter插件实现了写入数据到 Greenplum Database 主库目的表的功能。在底层实现上，GreenplumWriter通过JDBC连接远程 Greenplum 数据库，并执行相应的 Copy FROM 语句将数据写入 Greenplum。GreenplumWriter面向ETL开发工程师，他们使用GreenplumWriter从数仓导入数据到Greenplum。同时 GreenplumWriter亦可以作为数据迁移工具为DBA等用户提供服务。......

2022-08-12 14:20:01 1689

原创 Greenplum——copy insert的Java工具类

【代码】Greenplum copy in的Java工具类。

2022-08-12 10:16:05 798

原创 Greenplum——大数据量写入和更新的性能优化之路

2、在/home/gpadmin下面创建insert.sql文件，向表中插入一条随机数据。3、在/home/gpadmin下面创建read.sql文件，从表中读取一条随机数据。-- 业务库insert和update的数据：tmp_incr_data。-- 目标表里不需要更新的数据：tmp_not_update_data。1、链接数测试，模拟224个客户端连接，8个线程，每个客户端8个事务。-- 今天过来的最新数据：tmp_update_data。：增量数据和目标表数据合并到临时表，然后覆盖目标表。....

2022-08-10 13:56:50 3550

原创 DataX二次开发——（4）新增hivereader、hivewriter

DataX3.0 官方版本里面目前只支持了hdfs的读写，不支持hive的读写，基于原有的hdfsreader和hdfswriter开发了hivereader和hivewriter。

2022-08-08 23:32:44 5558 5

原创 DataX二次开发——（3）新增数据加密脱敏插件

在数据同步的场景中，时常会有部分字段需要加密脱敏处理，但是DataX3.0是没有开发这个插件的，那我们可以开发一个EncryptTransformer来做数据的加密处理。目前开发的插件支持AES、RSA、SM4、MD5加密方式。

2022-07-29 09:25:20 4539 8

原创 DataX二次开发——（2）解决MySQL8不兼容问题

(同理，替换reader和writer是一样)

2022-07-28 16:29:15 2069 4

原创 Flink实战-（5）Flink Kafka实时Error日志告警

Maven配置application.properties配置2.1 工具类2.2 反序列化类2.3 日志结构设计样例数据：2.4 主类2.5 模拟日志生成类3 本地运行运行成功！

2022-06-22 00:01:39 985

原创 Docker搭建Kafka集群

这是基于docker-compose，单机版的部署方式，适合于功能测试。wurstmeister/kafkahttps://github.com/wurstmeister/kafka-docker/特点：docker hub star数最多，版本更新到 Kafka 2.0 ，zookeeper与kafka分开于不同镜像。假设docker、docker-compose等工具已经安装。1、下载zookeeper和 kafka 镜像:2、用户目录下创建一个docker-compose.yml文件内容

2022-06-16 22:57:25 581

原创异构数据源DDL转换的两种方式

dbswitch是一款数据库迁移工具，它可以帮助用户轻松地将一个数据库系统中的数据迁移到另一个数据库系统中。它支持多种常见的关系型数据库系统，例如MySQL、Oracle、SQL Server、PostgreSQL等。dbswitch提供了丰富的转换选项和功能，可以帮助用户解决在不同数据库系统之间存在的格式差异、数据类型转换、编码转换等问题，确保迁移后的数据准确、完整、一致性。dbswitch的优势在于它的灵活性和可定制性。

2022-06-16 09:57:07 2343

原创 Flink实战-（4）Flink Kafka实时同步到Hbase

2 Java代码2.1 Kafka生产者2.2 主类3、本地运行控制台 Hbase控制台这样就说明在本地运行成功了完成了生产者->Kafka->消费者(Flink)->数据仓库（Hbase）在Hbase查找Rowkey=2162成功...

2022-06-09 00:43:11 1610 1

原创 Flink实战-（3）Flink Kafka实时同步到MySQL

背景：以用户日志为例，写一个从Kafka实时同步到MySQL的实战Demo2、Maven3、Java类实体类Kafka模拟生产者类写入MySQL的Sink类Kafka同步到MySQL的主类4、本地执行记得这个要勾上不然会报错执行成功查看数据库.........

2022-06-08 01:10:40 2533 8

原创 DataX二次开发——（1）新增HANA数据源

到编译打包好的datax目录下/plugin/reader/rdbmsreader/libs 和 /plugin/reader/rdbmswriter/libs 下面看一下是否拥有我们添加的jar包。把下载好的放到对应的maven的仓库，MAVEN_HOME/repository/eigenbase/eigenbase-properties/1.1.4/下，把别的文件都删了。链接: https://pan.baidu.com/s/1EmwnU7JbEql54r-1XZHVuQ 提取码: 7s06。

2022-06-06 13:54:41 2262