- 博客(11)
- 收藏
- 关注
原创 【数据同步】DataX3.0
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。 经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。二、DataX3.0框架设计。
2023-01-06 18:22:36
1097
原创 【Hive】Hive数据倾斜以及解决方案
数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。
2022-08-08 14:53:18
3268
原创 【数据治理】数据安全-数据脱敏方案
数据脱敏又分为 动态数据脱敏(DDM)和 静态数据脱敏(SDM):动态数据脱敏(DDM):一般用在生产环境,访问敏感数据时实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。注意 :在抹去数据中的敏感内容同时,也需要保持原有的数据特征、业务规则和数据关联性,保证我们在开发、测试以及数据分析类业务不会受到脱敏的影响,使脱敏前后的数据一致性和有效性。...
2022-08-08 14:11:02
967
原创 【Linux】Centos设置Python的软链接
1 背景几乎所有的装好的centos系统都会预支着Python2环境,还需要自己装好Python3的环境(本文这里假设安装好了)但是因为py2的环境官方维护到2020年1月1日,而且很多三方库和py3不兼容(py3不向下兼容py2)因此,即便系统中安装了py3,由于系统预装了py2,导致,在home路径下,直接python,只会出现python2的环境,如果进入py3的环境还需要切换,很麻烦,尤其在于偶尔开发时忘记切换环境导致代码运行出错。2 设置软链接设置软链接,简单来说就是保证你在终端默认的Py
2022-04-28 16:28:21
2705
原创 【Mysql】慢SQL优化详解 Mysql案例
前言影响查询性能因素–(定量为同一数据库 且并发 数据量一致)依次是机器配置查询引擎表设计索引SQL语句什么是慢SQL比通常执行慢、或者超过最大执行限定时间,通常是500ms慢SQL危害每个SQL执行都需要消耗一定I/O资源SQL执行时间长,用户的体验较差慢SQL排查定位方法slow logMYSQL开启slow log :SET GLOBAL slow_query_log=1;查看slowlog:SHOW GLOBAL STATUS LIKE ‘%Slow_querie
2022-04-26 18:18:54
1018
原创 【Linux】logrotate切割Tomcat日志并轮转(Flume采集准备工作适用)
logrotate切割Tomcat日志并轮转(Flume采集准备工作适用)背景及使用场景系统及软件环境解决方案及具体操作logrotate配置文件编辑logrotate全部配置参数解析测试验证遇到的问题参考文献背景及使用场景需要Flume采集Tomcat的日志catalina.out,就需要按天切分日志。防止日志文件累计过大占用空间影响服务器稳定性,并为了便于维护和查看日志。系统及软件环境CentOS 7.3、Tomcat 8.5.51、logrotate 3.8.6解决方案及具体操作Ce
2022-02-10 15:36:37
567
原创 【Linux】linux 终端报Message from syslogd
最近有一台Linux服务器,用xshell连接上去之后终端一直报Message from syslogd敲个命令,都被打断了。解决方式编译配置文件vim /etc/rsyslog.conf注视掉蓝色部分# Everybody gets emergency messages#*.emerg *重启rsyslog服务systemctl restart rsyslog过几分钟,就再也没有看到烦人的输出了。转载于:https://blog..
2022-02-09 16:01:58
6961
原创 【Hive】Hive锁机制分析及任务问题处理
1.背景在数据仓库开发中,遇到了读取数据任务导致锁表问题,发现是因为补数据或月度大任务跨天运行,此时凌晨定时的写入操作就会被阻塞进入等待状态(如果超过最大等待时间会失败),直到读取任务完成写入任务才可以继续运行,导致当天结果层数据输出延迟。因此分析并总结下锁表机制原理以及解决方式。2.锁机制及原理分析Hive 目前主要有两种锁,SHARED(共享锁 S)和 Exclusive(排他锁 X),同时又分表锁与分区锁,分区锁为最小粒度;共享锁 S 和 排他锁 X 它们之间的兼容性矩阵关系如下:.
2021-09-04 10:23:56
2563
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人