- 博客(62)
- 收藏
- 关注
原创 ModuleNotFoundError:如何解决 no module named Python 错误?
如何解决 no module named Python 错误?
2024-03-05 17:16:23
938
1
原创 热数据存储在HDFS,冷备数据存储于对象存储中
将日常常用热数据采用HDFS存储(存储时间2~3个月),超过该时间段数据采用对象存储。改方案均采用同一套Hadoop架构,使用hive均可以读取到,在降低成本的同时提高数据的利用率。
2024-02-05 11:21:08
1089
原创 Flume拦截器使用-实现分表、解决零点漂移等
使用flume做数据传输时,可能遇到将一个数据流中的多张表分别保存到各自位置的问题,同时由于采集时间和数据实际发生时间存在差异,因此需要根据数据实际发生时间进行分区保存。
2024-02-05 11:19:23
1479
原创 DolphinScheduler实现隔几天调度
olphinscheduler(海豚)定时器模块-定时调度时每3秒|每3分钟|每3天这种定时,不能够跨分钟,跨小时,跨月,每次跨月等都会从每个月的第1天(第几天开始可以设定)开始重新计时。为解决此问题,可以采用整天运行,并使用dolphinscheduler自带的switch判断模块组合实现每隔几天的需求。
2024-02-04 20:53:38
1141
原创 Hive使用shell调用命令行特殊字符处理
数据处理常用hive -e的方式,通过脚本操作数仓,过程中常常遇到特殊字符的处理,如单双引号、反斜杠、换行符等处理
2024-01-15 20:29:06
1303
原创 Hive命令行运行SQL将数据保存到本地如何去除日志信息
hive命令行查询数据保存到本地如何不打印任何(warn/info/error等)日志信息
2024-01-13 22:57:21
848
原创 最全对象存储(云盘)挂载本地主机或服务器
如何将本地各主机文件共享,腾讯云cos、阿里云oss、华为云BOS、亚马逊云s3等对象存储挂载Linux系统、Windows系统、MacOS系统详细操作命令,以及开机自启动配置
2024-01-13 22:55:37
3520
原创 Logstash应用-同步ES(elasticsearch)到HDFS
数据采集存在时间漂移问题,数据保存时使用的是采集时间而不是数据生成时间,采用webhdfs无法对文件大小进行设置,解决@timestamp时区问题
2024-01-11 21:16:33
1514
原创 Python处理字符串-正则提取遇到的第一个完整括号内容处理后替换
使用正则表达式处理字符串内第一个完整的括号内容,一个括号内可能会含有一个括号,多个括号自行扩展正则即可,处理完成后再替换到括号的内容
2024-01-09 20:34:56
707
原创 批量生成datax同步JSON(tidb到doris)
使用datax同步tidb数据到doris,表的数量过多,写datax的配置文件很麻烦。鉴于此,编写了一个datax的配置文件生成脚本,可以灵活的实现一键生成配置文件,提高生产效率。
2024-01-08 21:51:15
713
原创 批量生成datax同步JSON(postgresql到doris)
使用datax同步psql数据到doris,表的数量过多,写datax的配置文件很麻烦。鉴于此,编写了一个datax的配置文件生成脚本,可以灵活的实现一键生成配置文件,提高生产效率。
2024-01-08 21:50:26
1449
1
原创 flink on yarn任务启停脚本(实现一键读取ck启动,保存ck停止)
shell脚本编写了一套启停代码,可以自动的停止flink任务并保存savepoint,读取检查点启动,也可以实现批量的启停
2024-01-04 15:50:03
1028
原创 批量生成datax同步JSON(mysql到doris)
使用datax同步mysql数据到doris,表的数量过多,写datax的配置文件很麻烦。鉴于此,编写了一个datax的配置文件生成脚本,可以灵活的实现一键生成配置文件,提高生产效率。
2024-01-04 15:45:29
930
原创 Prometheus查询语法总结
Prometheus通过指标名称(metrics name)以及对应的一组标签(labelset)唯一定义一条时间序列。指标名称反映了监控样本的基本标识,而label则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度过滤,聚合,统计从而产生新的计算后的一条时间序列。PromQL是Prometheus内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在Prometheus的日常应用当中,包括对数据查询、可视化、告警处理当中。
2023-12-30 23:44:41
1831
原创 Grafana无法发送告警消息的飞书webhook(机器人)
Grafana无法向飞书机器人发送报警消息,实测使用Grafana自带的webhook也不好使,使用PrometheusAlert快速配置告警
2023-12-29 23:06:21
2874
原创 Grafana告警发送至飞书配置指定at某人或所有人
通过webhook向飞书机器人发送消息,@某人或者@所有人,如何获取飞书用户的open_id
2023-12-29 23:04:22
3015
3
原创 [BUG] Hadoop-3.3.4集群yarn管理页面子队列不显示任务
在CapacityScheduler页面上单击叶队列(或子队列)时,不会显示应用程序任务信息,root队列可以显示任务。此外,FairScheduler页面是正常的
2023-12-28 23:27:13
922
原创 [BUG]Datax写入数据到psql报不能序列化特殊字符
Datax写入数据到psql报不能序列化特殊字符,org.postgresql.util.PSQLException: ERROR: invalid bytesequence for encoding "UTF8": 0x00
2023-12-28 23:25:23
1069
原创 Flink on K8S生产集群使用StreamPark管理
StreamPark on k8s操作,flink on k8s使用StreamPark 管理
2023-12-27 22:27:13
2600
原创 Kubernetes(k8s)部署DolphinScheduler
DolphinScheduler使用Kubernetes 部署,云原生部署DolphinScheduler
2023-12-26 18:37:41
2574
2
原创 Flink on K8S集群搭建及StreamPark平台安装
Flink on K8S集群搭建及StreamPark平台安装,在k8s集群中安装StreamPark平台,并管理flink任务
2023-12-26 18:35:07
2267
原创 Hadoop-3.3.4集群部分lib缺失问题
Failed to load libisal.so.2问题 Cannot load libcrypto.so 问题 hadoop checknative
2023-12-25 17:14:42
879
原创 Spark生产集群各种使用
spark on yarn 操作doris数据配置及使用,spark操作对象存储(cos)作为存储系统,spark操作HDFS作为存储系统,spark生产集群配置,hive生产集群配置
2023-12-25 17:12:52
770
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人