黄瓜炖啤酒鸭-优快云博客

原创记录用yarn restfulapi 取消或者杀死任务historyserver不记录问题

flink historyserver flink on yarn restful api调用获取yarn任务的checkpoint路径

2022-06-17 10:50:45 1311 1

原创 Flink cdc 2.1.1 bug问题

cdc数据越界，cdc 2.1.1 bug

2022-05-16 11:01:38 3746 1

转载转载，通过 Prometheus Alertmanager 模块发送 Doris 异常信息至钉钉报警群

基础环境1.Prometheus 版本：2.22.2下载地址：https://github.com/prometheus/prometheus/releases/download/v2.22.2/prometheus-2.22.2.linux-amd64.tar.gz2.Alertmanager 版本：0.23下载地址：https://github.com/prometheus/alertmanager/releases/download/v0.23.0/alertmanager-0..

2022-02-18 09:22:06 709

原创 Flink cdc +doris生产遇到的问题汇总-持续更新

版本：Flink版本 1.13Flink cdc版本 2.1.1场景说明：使用flink cdc stream api 读取mysql整库数据直接写入doris大概100G数据量，大概几十个表，大表小表，字段多，字段少，单个字段类型复杂等等情况都包含了。出现情况：任务运行一段时间之后挂掉，出现问题：2022-02-11 18:33:59,461 INFO com.ververica.cdc.connectors.mysql.source.enumerator.My.

2022-02-14 09:32:32 12201 5

原创 Flink 1.13 cdc 任务 on yarn 日志查询详解

目录一，正常部署之后，flink on yarn 任务查看二，shell命令查看具体日志三，开启historyserver四，使用yarn的restfulApi查看信息五，总结：一，正常部署之后，flink on yarn 任务查看1，正在运行任务：2，杀死任务之后：3，我们点击History按钮进入页面：这并不是我们想要的效果，so，我们要看看具体的操作。二，shell命令查看具体日志在shell命令执行：..

2022-01-15 12:00:43 5080 3

原创 Flink on yarn 的restful api 简单备份实践

业务需求：通过yarn的restful api简单的对提交到yarn的flink任务进行运行状态预警监控。官方文档地址：Apache Hadoop 3.2.2 – ResourceManager REST APIs.yarn的restful api： 1， 2， 3， 4， 5， 6，...

2022-01-15 12:00:04 2763 1

原创 flink 1.13.0的一些特性备份记忆

1，最基础的设置flinksql名称：Configuration conf = tEnv.getConfig().getConfiguration(); conf.setString("pipeline.name", "kafka_test");-- set up a catalogCREATE CATALOG hive_catalog WITH ('type' = 'hive');USE CATALOG hive_catalog;-- or use temporary ...

2021-12-09 11:37:29 1648

原创 Flink CDC 2.1.0关于checkpoint恢复的问题。

2021-12-08 14:37:30 6661

原创 Flink cdc+ doris 大宽表实践~

还没整理好，别慌。

2021-11-19 16:23:32 7205 8

原创 Flink cdc 2.1.0发布测试

1，最简单的代码：package com.ververica.cdc.connectors.mysql.source;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import com.ververica.cdc.connectors.mysql.testu..

2021-11-17 11:04:50 3059

原创 flink cdc 2.0.2 针对mysql Date类型数据的解决思路

1，实践了flinkcdc的小伙伴肯定会遇到时间字段的问题，以mysql作为数据源为案例我们读取的数据为Date类型实际打印写入doris之后发现是：2，在社区里询问通过issues了解到Flink-CDC 在同步字段为timestamp类型的数据时，初始化数据和增量数据时区不一致 · Issue #317 · ververica/flink-cdc-connectors · GitHub从这里我找到了自己想要的信息：3，我们找到RowDataDebe...

2021-11-10 14:17:01 9355 6

原创 java API 远程SSH 调用flink任务运行

参考文档：Jsch(SSH)工具-JschUtil · Hutool 参考文档

2021-11-02 17:46:47 1902 1

原创 flink on yarn 命令详细解释

Apache Flink 1.11 Documentation: ConfigurationCDH 6.xflink任务提交之后数据乱码的问题。1，代码设置（但是flink默认就是utf-8，没必要）设置了也没效果：一个简单的命令设置格式：#bashecho '开始启动任务.........'/wyyt/software/flink-1.11.2/bin/flink run \-d \-m yarn-cluster \-ynm Ods2dwd_test \-yjm ...

2021-10-29 16:31:17 2609 2

原创 flink CDC实践

1. FlinkCDC项目：GitHub - ververica/flink-cdc-connectors: Change Data Capture (CDC) Connectors for Apache Flink欢迎关注（star）2. 项目文档:Welcome to Flink CDC — Flink CDC 2.0.0 documentation3. 社区论坛：鼓励在论坛中提问，技术专家值守，保证有问必答https://github.com/ververica...

2021-10-27 19:37:12 2057

原创 Doris SQL日志审计部署，以及sql收集输出kafka，后续血缘分析

1，介绍 Doris 的审计日志插件是一个可选插件。用户可以在运行时安装或卸载这个插件，该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中，以方便用户通过 SQL 对审计日志进行查看和分析，这里的数据其实是Doris FE log目录下的fe.audit.log文件中的数据。我们要做的是安装这个插件，然后我们可以通过dorissql去对应的表查询sql语句，也可以通过doris目录下的fe.audit.log文件将日志接出之后写入外部操作。通过filebeat...

2021-10-09 14:01:04 2243 3

原创海豚调度器（dolphinscheduler）再次使用，添加钉钉预警

1，首先我们部署是海豚调度器 1.3.8版本，由于页面只有邮件预警，所以在了解源码的同时，需要添加钉钉预警2，说明，这一块是同事搞的，不是我搞的，新版本的dolphinscheduler已经有了钉钉模块，只是新版本还没有发布3，我们现在只是添加简单的钉钉预警，任务成功或者失败会发送邮件+钉钉4，具体操作找到最新的源码devhttps://github1s.com/apache/dolphinscheduler/blob/dev/dolphinscheduler-alert/src/ma...

2021-09-29 13:59:38 2873

原创 spark sql读取hive数据直接写入doris，离线批量导入

一，sparksql读取hive表二，spark自定义输出三，通过streamload方式数据写入doris四，测试五，总结

2021-09-16 16:29:37 3093 5

原创 Flink janino，跟老铁又学到了

1，janino在flink-table里面有2，它的功能其实跟AviatorEvaluator类似，我们还有对两者的用法跟功能做对比。3，找找相关的文档：https://blog.youkuaiyun.com/inrgihc/article/details/104399439/ Janino 是一个极小、极快的开源Java 编译器（Janino is a super-small, super-fast Java™ compiler.）。Janino 不仅可以像 ...

2021-09-09 17:13:15 1173

原创海豚调度器初次使用 .......

一，部署部分省略，官网有详细的教程，顺着步骤做就好了。二，先说说调用spark运行wordcount案例流程1，编写代码2，上传jar包3，执行任务4，查询任务运行过程5，总结问题。6，未完待续...

2021-09-08 11:09:46 3782 1

原创 Doris Studio安装使用

一，页面效果二，安装部署部署地址：http://palo.baidu.com/docs/%E4%B8%8B%E8%BD%BD%E4%B8%93%E5%8C%BA/DorisStudio%E9%83%A8%E7%BD%B2%E6%89%8B%E5%86%8C最简单安装：三，启动之后登陆web端，这里很多人不知道账号密码，默认是：Studio预置系统管理员账号用户名：Admin密码：Admin@123四，注册...

2021-09-01 10:51:19 763

原创 java获取kafka的元数据信息

1，java代码获取kafka的基础信息，查出所有的topic，然后遍历信息package kafkamonitor;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.google.common.collect.Maps;import kafka.api.PartitionOffs

2021-07-27 10:41:06 2886 1

原创 Zeppelin client执行flink sql on hive流程备份

主要目的：防止自己忘记，重新记录一下1，Flink 1.11.2版本集群配置查看官网地址：https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/connectors/hive/找到对应hive版本:下载这几个依赖包，放入到Flink集群lib下:2, zeppelin的flink和hive配置整合地址：https://www.yuque.com/jeffzhangji...

2021-07-21 14:19:29 470

原创 Flink cep监控 Flink任务日志

1,配置flink的log4j（idea本地测试）2, bbb3, ccc

2021-06-22 09:43:10 853 2

转载 Flink jvm参数配置GC日志---转载（有待实践认证）

生产环境上，或者其他要测试 GC 问题的环境上，一定会配置上打印GC日志的参数，便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”，要么是打印的内容过少，要么是输出到控制台，要么是一个大文件被覆盖，要么是……本文带你一步一步，配置一个完美的 GC 日志打印策略打印内容为了保留足够多的“现场证据”，最好是把 GC 相关的信息打印的足够完整。而且你的程序真的不差你GC时打印日志I/O消耗的那点性能打印基本 GC 信息打印 GC 日志的第一步，就是开启 GC 打印的参数了，也是

2021-06-07 09:39:16 2108

原创 doris 错误代码表

| 错误码 | 错误信息 || :----- | :----------------------------------------------------------- || 1005 | 创建表格失败，在返回错误信息中给出具体原因 || 1007 | 数据库已经存在，不能创建同名的数据库 || 1008...

2021-05-28 15:52:55 2281

原创 Flink-doris-connector sql写入doris on zeppelin优化版

要是一，代码开发二，打包细节三，zeppelin执行四，总结

2021-05-28 15:31:51 2202 20

原创 Flink metric 简单尝试

参考文档：https://ci.apache.org/projects/flink/flink-docs-release-1.3/monitoring/metrics.html实际代码：package metricimport java.util.Propertiesimport com.sjb.constant.Constantsimport org.apache.flink.api.common.functions.RichMapFunctio...

2021-05-21 18:00:04 385

原创 Caused by: java.io.NotSerializableException: org.apache.parquet.schema.MessageType

目前没解决，本地代码可以运行，打包集群运行也没问题，可能是zeppelin哪里的依赖包冲突。scala任务代码Headdefault%flink.confflink.execution.packages org.apache.flink:flink-connector-kafka_2.11:1.11.2,com.alibaba:fastjson:1.2.60,org.apache.flink:flink-parquet_2.11:1.1...

2021-05-21 13:50:25 1109

原创 flink 读取hive表写入到kafka方案

场景：使用flinksql读取hive表数据写入到kafkahive表大约80个字段 500W数据遇到问题：内存爆炸，4G内存都不够，这肯定不行。GC严重：解决方案：无总结:目前不可用。

2021-05-19 11:43:48 2452

转载实时数仓建设思考与方案记录-转载

前言随着我司业务飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。本文简单松散地记录一下想法，不涉及维度建模方法论的事情（这个就老老实实去问Kimball他老人家吧）。动机随着业务快速增长，传统离线数仓的不足暴露出来：运维层面——所有调度任务只能在业务闲时（凌晨）集中启动，集群压力大，耗时越来越长；业务层面——数据按T+1更新，延迟高，数据时效价值打折扣，无法精细化运营与及时感知异常。实时数仓即离线数仓的..

2021-05-18 10:24:05 618

原创笔记备份

1,打包编译mvn clean install -Drat.skip=true -Pscala-2.11 -DskipTests -s ~/Downloads/apache-maven-3.6.3/conf/settings.xml -Dcheckstyle.skip=true -Dscala-2.11 -Dcheckstyle.skip=true -Dspotless.check.skip=true编译打包命令:mvn clean install -Drat.skip=true -Pscal...

2021-05-17 10:38:29 229

数据治理及数据资产化创新实践-京东.pdf

空空如也