- 博客(309)
- 资源 (1)
- 收藏
- 关注
原创 记录用yarn restfulapi 取消或者杀死任务historyserver不记录问题
flink historyserver flink on yarn restful api调用获取yarn任务的checkpoint路径
2022-06-17 10:50:45
1311
1
转载 转载,通过 Prometheus Alertmanager 模块发送 Doris 异常信息至钉钉报警群
基础环境1.Prometheus 版本:2.22.2下载地址:https://github.com/prometheus/prometheus/releases/download/v2.22.2/prometheus-2.22.2.linux-amd64.tar.gz2.Alertmanager 版本:0.23下载地址:https://github.com/prometheus/alertmanager/releases/download/v0.23.0/alertmanager-0..
2022-02-18 09:22:06
709
原创 Flink cdc +doris生产遇到的问题汇总-持续更新
版本:Flink版本 1.13Flink cdc版本 2.1.1场景说明:使用flink cdc stream api 读取mysql整库数据直接写入doris大概100G数据量,大概几十个表,大表小表,字段多,字段少,单个字段类型复杂等等情况都包含了。出现情况:任务运行一段时间之后挂掉,出现问题:2022-02-11 18:33:59,461 INFO com.ververica.cdc.connectors.mysql.source.enumerator.My.
2022-02-14 09:32:32
12201
5
原创 Flink 1.13 cdc 任务 on yarn 日志查询详解
目录一,正常部署之后,flink on yarn 任务查看二,shell命令查看具体日志三,开启historyserver四,使用yarn的restfulApi查看信息五,总结:一,正常部署之后,flink on yarn 任务查看1,正在运行任务:2,杀死任务之后:3,我们点击History按钮进入页面:这并不是我们想要的效果,so,我们要看看具体的操作。二,shell命令查看具体日志在shell命令执行:..
2022-01-15 12:00:43
5080
3
原创 Flink on yarn 的restful api 简单备份实践
业务需求: 通过yarn的restful api简单的对提交到yarn的flink任务进行运行状态预警监控。官方文档地址:Apache Hadoop 3.2.2 – ResourceManager REST APIs.yarn的restful api: 1, 2, 3, 4, 5, 6,...
2022-01-15 12:00:04
2763
1
原创 flink 1.13.0的一些特性备份记忆
1,最基础的设置flinksql名称:Configuration conf = tEnv.getConfig().getConfiguration(); conf.setString("pipeline.name", "kafka_test");-- set up a catalogCREATE CATALOG hive_catalog WITH ('type' = 'hive');USE CATALOG hive_catalog;-- or use temporary ...
2021-12-09 11:37:29
1648
原创 Flink cdc 2.1.0发布测试
1,最简单的代码:package com.ververica.cdc.connectors.mysql.source;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import com.ververica.cdc.connectors.mysql.testu..
2021-11-17 11:04:50
3059
原创 flink cdc 2.0.2 针对mysql Date类型数据的解决思路
1,实践了flinkcdc的小伙伴肯定会遇到时间字段的问题,以mysql作为数据源为案例我们读取的数据为Date类型实际打印写入doris之后发现是:2,在社区里询问通过issues了解到Flink-CDC 在同步字段为timestamp类型的数据时,初始化数据和增量数据时区不一致 · Issue #317 · ververica/flink-cdc-connectors · GitHub从这里我找到了自己想要的信息:3,我们找到RowDataDebe...
2021-11-10 14:17:01
9355
6
原创 flink on yarn 命令详细解释
Apache Flink 1.11 Documentation: ConfigurationCDH 6.xflink任务提交之后数据乱码的问题。1,代码设置(但是flink默认就是utf-8,没必要)设置了也没效果:一个简单的命令设置格式:#bashecho '开始启动任务.........'/wyyt/software/flink-1.11.2/bin/flink run \-d \-m yarn-cluster \-ynm Ods2dwd_test \-yjm ...
2021-10-29 16:31:17
2609
2
原创 flink CDC实践
1. FlinkCDC项目:GitHub - ververica/flink-cdc-connectors: Change Data Capture (CDC) Connectors for Apache Flink欢迎关注(star)2. 项目文档:Welcome to Flink CDC — Flink CDC 2.0.0 documentation3. 社区论坛:鼓励在论坛中提问,技术专家值守,保证有问必答https://github.com/ververica...
2021-10-27 19:37:12
2057
原创 Doris SQL日志审计部署,以及sql收集输出kafka,后续血缘分析
1,介绍 Doris 的审计日志插件是一个可选插件。用户可以在运行时安装或卸载这个插件,该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中,以方便用户通过 SQL 对审计日志进行查看和分析,这里的数据其实是Doris FE log目录下的fe.audit.log文件中的数据。 我们要做的是安装这个插件,然后我们可以通过dorissql去对应的表查询sql语句,也可以通过doris目录下的fe.audit.log文件将日志接出之后写入外部操作。 通过filebeat...
2021-10-09 14:01:04
2243
3
原创 海豚调度器(dolphinscheduler)再次使用,添加钉钉预警
1,首先我们部署是海豚调度器 1.3.8版本,由于页面只有邮件预警,所以在了解源码的同时,需要添加钉钉预警2,说明,这一块是同事搞的,不是我搞的,新版本的dolphinscheduler已经有了钉钉模块,只是新版本还没有发布3,我们现在只是添加简单的钉钉预警,任务成功或者失败会发送邮件+钉钉4,具体操作找到最新的源码devhttps://github1s.com/apache/dolphinscheduler/blob/dev/dolphinscheduler-alert/src/ma...
2021-09-29 13:59:38
2873
原创 spark sql读取hive数据直接写入doris,离线批量导入
一,sparksql读取hive表二,spark自定义输出三,通过streamload方式数据写入doris四,测试五,总结
2021-09-16 16:29:37
3093
5
原创 Flink janino,跟老铁又学到了
1,janino在flink-table里面有2,它的功能其实跟AviatorEvaluator类似,我们还有对两者的用法跟功能做对比。3,找找相关的文档:https://blog.youkuaiyun.com/inrgihc/article/details/104399439/ Janino 是一个极小、极快的 开源Java 编译器(Janino is a super-small, super-fast Java™ compiler.)。Janino 不仅可以像 ...
2021-09-09 17:13:15
1173
原创 海豚调度器初次使用 .......
一,部署部分省略,官网有详细的教程,顺着步骤做就好了。二,先说说调用spark运行wordcount案例流程1,编写代码2,上传jar包3,执行任务4,查询任务运行过程5,总结问题。6,未完待续...
2021-09-08 11:09:46
3782
1
原创 Doris Studio安装使用
一,页面效果二,安装部署 部署地址:http://palo.baidu.com/docs/%E4%B8%8B%E8%BD%BD%E4%B8%93%E5%8C%BA/DorisStudio%E9%83%A8%E7%BD%B2%E6%89%8B%E5%86%8C最简单安装:三,启动之后登陆web端,这里很多人不知道账号密码,默认是:Studio预置系统管理员账号用户名:Admin密码:Admin@123四,注册...
2021-09-01 10:51:19
763
原创 java获取kafka的元数据信息
1,java代码获取kafka的基础信息,查出所有的topic,然后遍历信息package kafkamonitor;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.google.common.collect.Maps;import kafka.api.PartitionOffs
2021-07-27 10:41:06
2886
1
原创 Zeppelin client执行flink sql on hive流程备份
主要目的:防止自己忘记,重新记录一下1,Flink 1.11.2版本 集群配置查看官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/hive/找到对应hive版本:下载这几个依赖包,放入到Flink集群lib下:2, zeppelin的flink和hive配置整合地址:https://www.yuque.com/jeffzhangji...
2021-07-21 14:19:29
470
转载 Flink jvm参数配置GC日志---转载(有待实践认证)
生产环境上,或者其他要测试 GC 问题的环境上,一定会配置上打印GC日志的参数,便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”,要么是打印的内容过少,要么是输出到控制台,要么是一个大文件被覆盖,要么是……本文带你一步一步,配置一个完美的 GC 日志打印策略打印内容为了保留足够多的“现场证据”,最好是把 GC 相关的信息打印的足够完整。而且你的程序真的不差你GC时打印日志I/O消耗的那点性能打印基本 GC 信息打印 GC 日志的第一步,就是开启 GC 打印的参数了,也是
2021-06-07 09:39:16
2108
原创 doris 错误代码表
| 错误码 | 错误信息 || :----- | :----------------------------------------------------------- || 1005 | 创建表格失败,在返回错误信息中给出具体原因 || 1007 | 数据库已经存在,不能创建同名的数据库 || 1008...
2021-05-28 15:52:55
2281
原创 Flink-doris-connector sql写入doris on zeppelin优化版
要是一,代码开发二,打包细节三,zeppelin执行四,总结
2021-05-28 15:31:51
2202
20
原创 Flink metric 简单尝试
参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/monitoring/metrics.html实际代码:package metricimport java.util.Propertiesimport com.sjb.constant.Constantsimport org.apache.flink.api.common.functions.RichMapFunctio...
2021-05-21 18:00:04
385
原创 Caused by: java.io.NotSerializableException: org.apache.parquet.schema.MessageType
目前没解决,本地代码可以运行,打包集群运行也没问题,可能是zeppelin哪里的依赖包冲突。scala任务代码Headdefault%flink.confflink.execution.packages org.apache.flink:flink-connector-kafka_2.11:1.11.2,com.alibaba:fastjson:1.2.60,org.apache.flink:flink-parquet_2.11:1.1...
2021-05-21 13:50:25
1109
原创 flink 读取hive表 写入到kafka方案
场景:使用flinksql读取hive表数据写入到kafkahive表大约80个字段 500W数据遇到问题:内存爆炸,4G内存都不够,这肯定不行。GC严重:解决方案:无总结:目前不可用。
2021-05-19 11:43:48
2452
转载 实时数仓建设思考与方案记录-转载
前言 随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。动机随着业务快速增长,传统离线数仓的不足暴露出来: 运维层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长; 业务层面——数据按T+1更新,延迟高,数据时效价值打折扣,无法精细化运营与及时感知异常。 实时数仓即离线数仓的..
2021-05-18 10:24:05
618
原创 笔记备份
1,打包编译mvn clean install -Drat.skip=true -Pscala-2.11 -DskipTests -s ~/Downloads/apache-maven-3.6.3/conf/settings.xml -Dcheckstyle.skip=true -Dscala-2.11 -Dcheckstyle.skip=true -Dspotless.check.skip=true编译打包命令:mvn clean install -Drat.skip=true -Pscal...
2021-05-17 10:38:29
229
原创 hudi的操作记录备份以及文档
Flinkdatagen代码:public class TestDataKafka2doris { private static final String JDBC_SQL = "CREATE TABLE join_test (\n"+ " id INT,\n" + " name STRING\n"+ " ) WITH (\n"+ " 'connector' = 'jdbc',\n"...
2021-05-17 10:27:57
1390
3
原创 hudi同时读写遇到的问题,以及疑惑汇总
1,创建一个kafka的表%flink.ssqlDROP TABLE IF EXISTS logtail;--创建kafka表CREATE TABLE logtail (order_state_tag int ......................) WITH ('connector' = 'kafka','topic' = 'ods.rds_core.plateform_stable.assure_orders','prop...
2021-05-07 15:37:45
5259
6
转载 转载-flink优化
转载地址:https://mp.weixin.qq.com/s/LF05t77N8xWkoH1xrUgPrQ1 ,配置内存操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。GC的配置:在客户端的"conf/fl...
2021-04-29 13:54:52
345
原创 基于zeppelin使用hive或Flink查询hudi的数据
目录目标:一,导入jar二,创建hudi表:mor:cow:写入数据:三,创建hive外部表四,查询结果五,问题总结最后提醒:目标:像iceberg一样,在hive能直接查询hudi表数据。一,导入jar将hudi-hadoop-mr-bundle-0.9.0-SNAPSHOT.jar放入到hivelib下面;二,创建hudi表:mor:cow:写入数据:三,创建h...
2021-04-28 16:39:02
1400
1
原创 基于zeppelin,Flink操作hudi 草稿
声明测试是CDH环境Flink 1.12.2hudi是最新版本1,flinklib下面hudi-flink-bundle_2.11-0.9.0-SNAPSHOT.jar这个包是大佬编译的,解决了hive的依赖冲突,已经提到社区了,后续会合并到分支。2,zeppelin操作...
2021-04-27 19:23:12
459
4
原创 iceberg整合hive(从hive读取iceberg表数据)实践02
目录实现目标:1,创建hadoop catalog在zeppelin创建hadoop catalog2,创建基于hadoop_catalog的iceberg表 3,从hadoop_catalog来创建hive表,在hive shell执行4,向iceberg插入数据验证5,hive查询实现目标: 在hive查询iceberg表数据1,创建hadoop catalog在zeppelin创建hadoop catalogCREATE CAT...
2021-04-26 20:19:39
5883
6
原创 元数据管理-Github 1.9K Star的数据治理框架-Amundsen
参考地址:https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw
2021-04-26 14:01:49
744
原创 基于zeppelin ,Flink sql 读取kafka数据写入数据到iceberg
目录一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoint2,创建iceberg表3,切换catalog ,创建kafka表usecataloghive;4,执行sql插入数据5,查看iceberg二、参考文章总结一、基于zeppelin ,Flink sql读取kafka数据写入数据到iceberg 1,首先一定要添加checkpoin...
2021-04-23 17:58:00
821
原创 CDH集群下,Flink+hive+iceberg+zeppelin实践—01
实操记录版本:Flink 1.11.2iceberg最新版本zeppelinhive是基于cdh 6.3.2版本下的hive 2.1注意,iceberg只支持2.x以上,官网说的。一,保证Flink on zeppelin查询hive没问题 1)Zeppelin flink 参数配置:Flink sql 读写hive1)Jar包放入Flink lib下: flink-connector-hive_2.11-1.11.2.jar hive...
2021-04-22 18:03:05
2252
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人