自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(309)
  • 资源 (1)
  • 收藏
  • 关注

原创 记录用yarn restfulapi 取消或者杀死任务historyserver不记录问题

flink historyserver flink on yarn restful api调用获取yarn任务的checkpoint路径

2022-06-17 10:50:45 1311 1

原创 Flink cdc 2.1.1 bug问题

cdc数据越界,cdc 2.1.1 bug

2022-05-16 11:01:38 3746 1

转载 转载,通过 Prometheus Alertmanager 模块发送 Doris 异常信息至钉钉报警群

基础环境1.Prometheus 版本:2.22.2下载地址:https://github.com/prometheus/prometheus/releases/download/v2.22.2/prometheus-2.22.2.linux-amd64.tar.gz2.Alertmanager 版本:0.23下载地址:https://github.com/prometheus/alertmanager/releases/download/v0.23.0/alertmanager-0..

2022-02-18 09:22:06 709

原创 Flink cdc +doris生产遇到的问题汇总-持续更新

版本:Flink版本 1.13Flink cdc版本 2.1.1场景说明:使用flink cdc stream api 读取mysql整库数据直接写入doris大概100G数据量,大概几十个表,大表小表,字段多,字段少,单个字段类型复杂等等情况都包含了。出现情况:任务运行一段时间之后挂掉,出现问题:2022-02-11 18:33:59,461 INFO com.ververica.cdc.connectors.mysql.source.enumerator.My.

2022-02-14 09:32:32 12201 5

原创 Flink 1.13 cdc 任务 on yarn 日志查询详解

目录一,正常部署之后,flink on yarn 任务查看二,shell命令查看具体日志三,开启historyserver四,使用yarn的restfulApi查看信息五,总结:一,正常部署之后,flink on yarn 任务查看1,正在运行任务:2,杀死任务之后:3,我们点击History按钮进入页面:这并不是我们想要的效果,so,我们要看看具体的操作。二,shell命令查看具体日志在shell命令执行:..

2022-01-15 12:00:43 5080 3

原创 Flink on yarn 的restful api 简单备份实践

业务需求: 通过yarn的restful api简单的对提交到yarn的flink任务进行运行状态预警监控。官方文档地址:Apache Hadoop 3.2.2 – ResourceManager REST APIs.yarn的restful api: 1, 2, 3, 4, 5, 6,...

2022-01-15 12:00:04 2763 1

原创 flink 1.13.0的一些特性备份记忆

1,最基础的设置flinksql名称:Configuration conf = tEnv.getConfig().getConfiguration(); conf.setString("pipeline.name", "kafka_test");-- set up a catalogCREATE CATALOG hive_catalog WITH ('type' = 'hive');USE CATALOG hive_catalog;-- or use temporary ...

2021-12-09 11:37:29 1648

原创 Flink CDC 2.1.0关于checkpoint恢复的问题。

2021-12-08 14:37:30 6661

原创 Flink cdc+ doris 大宽表实践~

还没整理好,别慌。

2021-11-19 16:23:32 7205 8

原创 Flink cdc 2.1.0发布测试

1,最简单的代码:package com.ververica.cdc.connectors.mysql.source;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import com.ververica.cdc.connectors.mysql.testu..

2021-11-17 11:04:50 3059

原创 flink cdc 2.0.2 针对mysql Date类型数据的解决思路

1,实践了flinkcdc的小伙伴肯定会遇到时间字段的问题,以mysql作为数据源为案例我们读取的数据为Date类型实际打印写入doris之后发现是:2,在社区里询问通过issues了解到Flink-CDC 在同步字段为timestamp类型的数据时,初始化数据和增量数据时区不一致 · Issue #317 · ververica/flink-cdc-connectors · GitHub从这里我找到了自己想要的信息:3,我们找到RowDataDebe...

2021-11-10 14:17:01 9355 6

原创 java API 远程SSH 调用flink任务运行

参考文档:Jsch(SSH)工具-JschUtil · Hutool 参考文档

2021-11-02 17:46:47 1902 1

原创 flink on yarn 命令详细解释

Apache Flink 1.11 Documentation: ConfigurationCDH 6.xflink任务提交之后数据乱码的问题。1,代码设置(但是flink默认就是utf-8,没必要)设置了也没效果:一个简单的命令设置格式:#bashecho '开始启动任务.........'/wyyt/software/flink-1.11.2/bin/flink run \-d \-m yarn-cluster \-ynm Ods2dwd_test \-yjm ...

2021-10-29 16:31:17 2609 2

原创 flink CDC实践

1. FlinkCDC项目:GitHub - ververica/flink-cdc-connectors: Change Data Capture (CDC) Connectors for Apache Flink欢迎关注(star)2. 项目文档:Welcome to Flink CDC — Flink CDC 2.0.0 documentation3. 社区论坛:鼓励在论坛中提问,技术专家值守,保证有问必答https://github.com/ververica...

2021-10-27 19:37:12 2057

原创 Doris SQL日志审计部署,以及sql收集输出kafka,后续血缘分析

1,介绍 Doris 的审计日志插件是一个可选插件。用户可以在运行时安装或卸载这个插件,该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中,以方便用户通过 SQL 对审计日志进行查看和分析,这里的数据其实是Doris FE log目录下的fe.audit.log文件中的数据。 我们要做的是安装这个插件,然后我们可以通过dorissql去对应的表查询sql语句,也可以通过doris目录下的fe.audit.log文件将日志接出之后写入外部操作。 通过filebeat...

2021-10-09 14:01:04 2243 3

原创 海豚调度器(dolphinscheduler)再次使用,添加钉钉预警

1,首先我们部署是海豚调度器 1.3.8版本,由于页面只有邮件预警,所以在了解源码的同时,需要添加钉钉预警2,说明,这一块是同事搞的,不是我搞的,新版本的dolphinscheduler已经有了钉钉模块,只是新版本还没有发布3,我们现在只是添加简单的钉钉预警,任务成功或者失败会发送邮件+钉钉4,具体操作找到最新的源码devhttps://github1s.com/apache/dolphinscheduler/blob/dev/dolphinscheduler-alert/src/ma...

2021-09-29 13:59:38 2873

原创 spark sql读取hive数据直接写入doris,离线批量导入

一,sparksql读取hive表二,spark自定义输出三,通过streamload方式数据写入doris四,测试五,总结

2021-09-16 16:29:37 3093 5

原创 Flink janino,跟老铁又学到了

1,janino在flink-table里面有2,它的功能其实跟AviatorEvaluator类似,我们还有对两者的用法跟功能做对比。3,找找相关的文档:https://blog.youkuaiyun.com/inrgihc/article/details/104399439/ Janino 是一个极小、极快的 开源Java 编译器(Janino is a super-small, super-fast Java™ compiler.)。Janino 不仅可以像 ...

2021-09-09 17:13:15 1173

原创 海豚调度器初次使用 .......

一,部署部分省略,官网有详细的教程,顺着步骤做就好了。二,先说说调用spark运行wordcount案例流程1,编写代码2,上传jar包3,执行任务4,查询任务运行过程5,总结问题。6,未完待续...

2021-09-08 11:09:46 3782 1

原创 Doris Studio安装使用

一,页面效果二,安装部署 部署地址:http://palo.baidu.com/docs/%E4%B8%8B%E8%BD%BD%E4%B8%93%E5%8C%BA/DorisStudio%E9%83%A8%E7%BD%B2%E6%89%8B%E5%86%8C最简单安装:三,启动之后登陆web端,这里很多人不知道账号密码,默认是:Studio预置系统管理员账号用户名:Admin密码:Admin@123四,注册...

2021-09-01 10:51:19 763

原创 java获取kafka的元数据信息

1,java代码获取kafka的基础信息,查出所有的topic,然后遍历信息package kafkamonitor;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.google.common.collect.Maps;import kafka.api.PartitionOffs

2021-07-27 10:41:06 2886 1

原创 Zeppelin client执行flink sql on hive流程备份

主要目的:防止自己忘记,重新记录一下1,Flink 1.11.2版本 集群配置查看官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/hive/找到对应hive版本:下载这几个依赖包,放入到Flink集群lib下:2, zeppelin的flink和hive配置整合地址:https://www.yuque.com/jeffzhangji...

2021-07-21 14:19:29 470

原创 Flink cep监控 Flink任务日志

1,配置flink的log4j(idea本地测试)2, bbb3, ccc

2021-06-22 09:43:10 853 2

转载 Flink jvm参数配置GC日志---转载(有待实践认证)

生产环境上,或者其他要测试 GC 问题的环境上,一定会配置上打印GC日志的参数,便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”,要么是打印的内容过少,要么是输出到控制台,要么是一个大文件被覆盖,要么是……本文带你一步一步,配置一个完美的 GC 日志打印策略打印内容为了保留足够多的“现场证据”,最好是把 GC 相关的信息打印的足够完整。而且你的程序真的不差你GC时打印日志I/O消耗的那点性能打印基本 GC 信息打印 GC 日志的第一步,就是开启 GC 打印的参数了,也是

2021-06-07 09:39:16 2108

原创 doris 错误代码表

| 错误码 | 错误信息 || :----- | :----------------------------------------------------------- || 1005 | 创建表格失败,在返回错误信息中给出具体原因 || 1007 | 数据库已经存在,不能创建同名的数据库 || 1008...

2021-05-28 15:52:55 2281

原创 Flink-doris-connector sql写入doris on zeppelin优化版

要是一,代码开发二,打包细节三,zeppelin执行四,总结

2021-05-28 15:31:51 2202 20

原创 Flink metric 简单尝试

参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/monitoring/metrics.html实际代码:package metricimport java.util.Propertiesimport com.sjb.constant.Constantsimport org.apache.flink.api.common.functions.RichMapFunctio...

2021-05-21 18:00:04 385

原创 Caused by: java.io.NotSerializableException: org.apache.parquet.schema.MessageType

目前没解决,本地代码可以运行,打包集群运行也没问题,可能是zeppelin哪里的依赖包冲突。scala任务代码Headdefault%flink.confflink.execution.packages org.apache.flink:flink-connector-kafka_2.11:1.11.2,com.alibaba:fastjson:1.2.60,org.apache.flink:flink-parquet_2.11:1.1...

2021-05-21 13:50:25 1109

原创 flink 读取hive表 写入到kafka方案

场景:使用flinksql读取hive表数据写入到kafkahive表大约80个字段 500W数据遇到问题:内存爆炸,4G内存都不够,这肯定不行。GC严重:解决方案:无总结:目前不可用。

2021-05-19 11:43:48 2452

转载 实时数仓建设思考与方案记录-转载

前言 随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。动机随着业务快速增长,传统离线数仓的不足暴露出来: 运维层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长; 业务层面——数据按T+1更新,延迟高,数据时效价值打折扣,无法精细化运营与及时感知异常。 实时数仓即离线数仓的..

2021-05-18 10:24:05 618

原创 笔记备份

1,打包编译mvn clean install -Drat.skip=true -Pscala-2.11 -DskipTests -s ~/Downloads/apache-maven-3.6.3/conf/settings.xml -Dcheckstyle.skip=true -Dscala-2.11 -Dcheckstyle.skip=true -Dspotless.check.skip=true编译打包命令:mvn clean install -Drat.skip=true -Pscal...

2021-05-17 10:38:29 229

原创 hudi的操作记录备份以及文档

Flinkdatagen代码:public class TestDataKafka2doris { private static final String JDBC_SQL = "CREATE TABLE join_test (\n"+ " id INT,\n" + " name STRING\n"+ " ) WITH (\n"+ " 'connector' = 'jdbc',\n"...

2021-05-17 10:27:57 1390 3

原创 hudi同时读写遇到的问题,以及疑惑汇总

1,创建一个kafka的表%flink.ssqlDROP TABLE IF EXISTS logtail;--创建kafka表CREATE TABLE logtail (order_state_tag int ......................) WITH ('connector' = 'kafka','topic' = 'ods.rds_core.plateform_stable.assure_orders','prop...

2021-05-07 15:37:45 5259 6

转载 转载-flink优化

转载地址:https://mp.weixin.qq.com/s/LF05t77N8xWkoH1xrUgPrQ1 ,配置内存操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。GC的配置:在客户端的"conf/fl...

2021-04-29 13:54:52 345

原创 基于zeppelin使用hive或Flink查询hudi的数据

目录目标:一,导入jar二,创建hudi表:mor:cow:写入数据:三,创建hive外部表四,查询结果五,问题总结最后提醒:目标:像iceberg一样,在hive能直接查询hudi表数据。一,导入jar将hudi-hadoop-mr-bundle-0.9.0-SNAPSHOT.jar放入到hivelib下面;二,创建hudi表:mor:cow:写入数据:三,创建h...

2021-04-28 16:39:02 1400 1

原创 基于zeppelin,Flink操作hudi 草稿

声明测试是CDH环境Flink 1.12.2hudi是最新版本1,flinklib下面hudi-flink-bundle_2.11-0.9.0-SNAPSHOT.jar这个包是大佬编译的,解决了hive的依赖冲突,已经提到社区了,后续会合并到分支。2,zeppelin操作...

2021-04-27 19:23:12 459 4

原创 iceberg整合hive(从hive读取iceberg表数据)实践02

目录实现目标:1,创建hadoop catalog在zeppelin创建hadoop catalog2,创建基于hadoop_catalog的iceberg表 3,从hadoop_catalog来创建hive表,在hive shell执行4,向iceberg插入数据验证5,hive查询实现目标: 在hive查询iceberg表数据1,创建hadoop catalog在zeppelin创建hadoop catalogCREATE CAT...

2021-04-26 20:19:39 5883 6

原创 元数据管理-Github 1.9K Star的数据治理框架-Amundsen

参考地址:https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw

2021-04-26 14:01:49 744

原创 基于zeppelin ,Flink sql 读取kafka数据写入数据到iceberg

目录一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoint2,创建iceberg表3,切换catalog ,创建kafka表usecataloghive;​4,执行sql插入数据​5,查看iceberg二、参考文章总结一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoin...

2021-04-23 17:58:00 821

原创 CDH集群下,Flink+hive+iceberg+zeppelin实践—01

实操记录版本:Flink 1.11.2iceberg最新版本zeppelinhive是基于cdh 6.3.2版本下的hive 2.1注意,iceberg只支持2.x以上,官网说的。一,保证Flink on zeppelin查询hive没问题 1)Zeppelin flink 参数配置:Flink sql 读写hive1)Jar包放入Flink lib下: flink-connector-hive_2.11-1.11.2.jar hive...

2021-04-22 18:03:05 2252 3

数据治理及数据资产化创新实践-京东.pdf

数据治理及数据资产化创新实践-京东

2021-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除