- 博客(26)
- 收藏
- 关注

原创 如何在CDH5上部署Dolphin Scheduler 1.3.1
点击蓝色字关注!本篇文章大概8440字,阅读时间大约20分钟本文记录了在CDH5.16.2集群上集成Dolphin Scheduler 1.3.1的详细流程,特别注意一下MySQL数据库...
2020-07-14 06:00:00
1136
2

原创 DolphinScheduler-1.3.0-dev新功能尝鲜
1DolphinScheduler是什么Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖...
2020-05-30 06:00:00
2126
3
原创 Hbase1.2.0-cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常
点击蓝色字关注!本篇文章大概1700字,阅读时间大约5分钟Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compa...
2021-03-13 06:00:00
695
原创 Flink(1.12.1)日志配置Logback实现日志切分和kafka发送
文档主要内容产线环境上的Flink应用是长时运行的应用,日志量较大,需要将flink应用的日志发送到外部系统,方便进行日志检索。最近,在开发环境上遇到了,Flink连接kafka报错刷出大...
2021-02-27 06:00:00
2209
原创 如何处理Canal集群Server切换&表DDL变化造成的binlog无法解析问题
点击蓝色字关注!本篇文章大概3976字,阅读时间大约10分钟Canal集群在启用HA的情况下,如果配置了tsdb为内嵌的H2数据库,在Server宕机发生切换的情况下,同时MySQL的D...
2020-11-20 06:00:00
1948
原创 如何使用kafka-eagle-2.0.2管理Kafka集群
点击蓝色字关注!本篇文章大概2537字,阅读时间大约13分钟Kafka产线环境需要管理的Topic和Consumser越来越多,使用命令行工具进行管理会非常繁杂。因此,大数据平台上需要一...
2020-10-23 06:00:00
975
2
原创 如何将Flink应用的日志发送到kafka
点击蓝色字关注!本篇文章大概4833字,阅读时间大约13分钟产线环境上的Flink应用是长时运行的应用,日志量较大,通过flink web页面查看任务日志会导致浏览器卡死,通过日志排查问...
2020-09-09 06:00:00
1667
原创 如何使用Canal同步MySQL的Binlog到Kafka
点击蓝色字关注!本篇文章大概5525字,阅读时间大约15分钟Canal是阿里开源的增量解析MySQL binlog组件。通过将binlog投递到kafka,一方面可以直接进行指标计算。另...
2020-09-04 06:00:00
1436
1
原创 Flume拦截器实现按照事件时间接入HDFS
点击上方蓝字关注我吧!本篇文章大概6457字,阅读时间大约17分钟Flume作为一个数据接入组件,广泛应用于Hadoop生态中。在业务时间混乱的情况下,按照机器数据在HDFS上分区会降低...
2020-09-03 06:00:00
853
原创 如何配置CDH的企业微信-群机器人告警
点击蓝字关注!本篇文章大概1968字,阅读时间大约5分钟采用Cloudera Mananger提供的自定义告警脚本的方式,收集告警信息并转发到企业微信群中~(企业微信群机器人)1文档主要...
2020-07-21 06:00:00
1012
原创 Hive常用窗口函数实战
点击蓝字关注!本篇文章大概3799字,阅读时间大约10分钟本文介绍了Hive常见的序列函数,排名函数和窗口函数。结合业务场景展示了Hive分析函数的使用Hive作为一个分析型的数据仓库组...
2020-07-10 06:00:00
689
3
原创 HDFS oiv解析Fsimage OOM异常处理
本篇文章大概1152字,阅读时间大约4分钟本文记录hdfs oiv命令解析fsimage文件过程中的OOM异常处理解决方案HDFS的Fsimage文件记录了集群的元数据信息,是进行集群健...
2020-07-08 06:00:00
1531
原创 HDFS元数据管理:fsimage&edits
本篇文章大概2353字,阅读时间大约6分钟介绍HDFS的元数据管理机制,说明fsimage文件和edits的作用,给出解析fsimage文件和edits文件的demoHDFS是一个分布式...
2020-07-06 06:00:00
435
原创 Flink命令行 - 1.10
本篇文章大概3155字,阅读时间大约8分钟结合Flink官方文档,整理关于Flink命令行的操作参数,包含命令行接口和Scala Shell1文档编写目的整理Flink官方文档中命令行接...
2020-06-28 06:00:00
3543
原创 Flink运行架构及编程模型
本篇文章大概2515字,阅读时间大约7分钟翻译Flink官网关于flink运行架构及编程模型的内容,本文的图片来自flink官网。计划今年下半年将flink应用到生产环境,最近在进行fl...
2020-06-26 06:00:00
400
原创 Flink on Yarn - CDH5
本篇文章大概2892字,阅读时间约8分钟根据Flink官网资料,实操CDH5.16.2上配置Flink on yarn,给出了flink on yarn的集成方式和HA的配置方式1文档编...
2020-06-19 06:00:00
1744
1
原创 构建第一个Flink应用-WordCount
本篇文章大概5143字,阅读时间大约13分钟体验flink的hello world使用maven初始化第一个flink的wordcount应用,将应用打包上传到flink-standa...
2020-06-16 06:00:00
252
原创 Flink 1.10.1源码编译(CDH5.16.2)
1文档编写目的Flink1.10.1版本编译集成CDH5.16.2前置条件jdkmavennvm2源码编译拉取flink1.10.1的代码后,idea中全局查找一下flink.sha...
2020-06-15 06:00:00
920
1
原创 从0-1搭建Spark本地开发环境(idea)
1文档编写目的记录spark本地开发环境的搭建过程环境依赖操作系统 mac osideascala 2.11.12spark2.4.0 - 根据集群版本选择jdk2Scala-2.11....
2020-06-13 06:00:00
461
原创 从0-1搭建DolphinScheduler开发环境
1文档编写目的记录从0-1搭建DolphinScheduler开发环境的过程(mac)便于更多有意愿贡献ds的老铁搭建开发环境参与贡献2所需前置条件需要安装好-jdk maven mys...
2020-06-11 10:12:36
1999
2
原创 Flume - Error while trying to hflushOrSync异常处理
文档编写目的记录Flume的Error while trying to hflushOrSync异常处理流程集群环境CDH5.16.21问题描述业务场景采用Flume消费Kafka的一个...
2020-05-19 06:00:00
3200
2
原创 Prometheus监控Kafka
1背景介绍大数据组件中,Kafka使用非常广泛。而提及Kafka的监控,历来都是个头疼的事情,Kafka的开源社区在监控框架上并没有投入太多的精力。(Cloudera倒是有一个关于Kaf...
2020-05-01 06:00:00
1988
1
原创 Grafana安装部署
1Grafana安装部署Prometheus+Grafana=监控全家桶Grafana支持Cloudera Manager数据源,因此可以搞一波把大数据集群中各种组件的监控都做到Graf...
2020-04-30 06:00:00
1720
原创 Prometheus监控工具安装部署
1组件介绍Prometheus是一个开放性的监控解决方案,其灵感来自于Google的Borgmon,于2016年5月继k8s后加入CNCF基金会。Prometheus具备易于管理,高效,...
2020-04-29 06:00:00
599
原创 Impala负载均衡异常处理
1背景介绍文档编写目的记录Impala的负载均衡踩坑记录Hue配置Impala的负载均衡Java应用将Impala作为查询引擎环境介绍CDH5.16.2HA-proxy实现impala的...
2020-04-27 14:50:02
2546
2
原创 Dolphin Scheduler 1.1.0升级1.2.0避坑指南
1组件介绍Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即...
2020-03-11 22:12:30
1461
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人