
Flink
文章平均质量分 67
訾零
做喜欢的事,过玩味的生活。
展开
-
Mac M1 VM Centos7 大数据数据湖测试
Mac M1 通过VMan安装Centos7.9,并搭建 Hadoop/Hive/Kafka/Flink/Iceberg 本地进行数据湖测试。问题:Paralles Desktop 没找到免费的,所以用了VM,VM也可以网上找。Centos7.9官方版本在VM中不成功,所以使用了别人编译的版本:在m1芯片的MacBook上安装centos7JDK使用 yum 安装 arm64架构的1.8.322版本。MySQL使用官网下载arm64版本。大数据相关组件使用官网二进制包。集.原创 2022-05-26 00:26:44 · 933 阅读 · 0 评论 -
Flink Hudi 测试
组件版本 组件 版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.2 hudi 0.9.0 Hadoop 2.9.2 Hive 2.3.6 将hdfs-site.xml,core原创 2021-09-30 14:33:16 · 1454 阅读 · 4 评论 -
Flink Iceberg 测试
本地搭建单节点Hadoop,根据官网示例进行Iceberg功能测试。组件版本 组件 版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.5 Iceberg 0.12.0 Hadoop 2.9.2 Hive .原创 2021-09-27 12:52:30 · 998 阅读 · 1 评论 -
Flink 自定义UDTF
Flink自定义函数实现列传行,数据格式为Json数据:[{"key1":"value1","key2":"value2"...}]Java@FunctionHint(output = @DataTypeHint("ROW<drugUniversalName string, specifications string, goodsUnit string, " + "location string, instruction string, consumption strin.原创 2021-08-11 11:16:28 · 1869 阅读 · 0 评论 -
Flink run application 提交 job
1. 上传 flink 相关 plugins 到hdfs2. 上传 flink 相关 依赖到 hdfs3. 上传用户 jar 到 hdfs4. 提交任务flink run-application -t yarn-application \-c com.sm.analysis.rdw.SdkDataEtlOdsToDwd \-Djobmanager.memory.process.size=1600m \-Dtaskmanager.memory.process.size=2048原创 2021-02-20 17:54:59 · 2417 阅读 · 1 评论 -
FlinkSQL 数据去重,读写HBase,Kafka
需求:日活明细分析,需要保存日活明细数据。通过对登录数据去重得到日活,但是因为乱序数据,客户端时间可能会存在变化。1. Flink窗口排序去重,写入HBase。import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.res..原创 2020-10-22 17:54:05 · 1935 阅读 · 1 评论 -
FlinkSQL Kafka to Hive
import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}import org.apache.flink.streaming.api.environme.原创 2020-10-22 16:36:32 · 2316 阅读 · 6 评论 -
FlinkSQL MySQL CDC
package com.sm.jobimport com.sm.function.udf.{ParseDeviceCode, ParsePopularize}import com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j...原创 2020-10-22 16:20:53 · 3031 阅读 · 0 评论 -
FlinkSQL 读写 MySQL
package com.sm.jobimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j.Levelimport org.slf4j.LoggerFactory/** * flinkSQL 读写 mysql.原创 2020-10-22 15:41:32 · 7704 阅读 · 2 评论 -
FlinkSQL MySQL维表关联
需求:消费Kafka数据,进行数据清洗及维表关联补齐字段,最后结果写入Kafka。import java.time.Durationimport com.sm.function.udf._import com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.restartstrategy..原创 2020-10-22 15:25:33 · 2410 阅读 · 1 评论 -
FlinkSQL Kafka to Kafka
FlinkSql 1.11 读写 Kafka 简单测试。FlinkSql 读 Kafkaimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.flink.types.Row.原创 2020-08-12 23:39:34 · 1099 阅读 · 0 评论 -
Flink 侧输出流拆分流应用
业务场景:使用Flink同步Kafka数据近实时写入MySQL,需要将登录数据拆分为登录,日活,新增分别入三个MySQL表。采用侧输出流将流拆分为多个流,分别进行处理。/** * Flink 读取 Kafka,每秒聚合一次数据,批量写入 MySQL * * create by LiuJinHe 2020/5/26 */object CpDataKafkaToMySQL { private val logger = LoggerFactory.getLogger(thi...原创 2020-05-27 14:51:53 · 1283 阅读 · 0 评论 -
Flink 消费 Kafka 数据批量写入 MySQL 多个表
业务场景:sdk 数据统一入Kafka 的一个 topic(topic_sdk_log),其中包含多种事件类型数据,如:登录,注册,激活等,需要将 Kafka 中数据根据事件类型分别写入 MySQL 多个表。这里使用 Flink 每5秒写入 MySQL 不同表。数据示例:{"key":"login","data":{"_game_version":"","_package...原创 2020-04-01 10:20:40 · 4177 阅读 · 0 评论 -
Flink 1.9.1 安装及启动
这里部署环境为CDH6.2 集群,三个节点,Flink 版本为编译的 Flink1.9.1 版本。Flink集群有两种部署的模式,分别是 Standalone 以及 YARNCluster 模式。Standalone 模式,Flink 必须依赖于 ZooKeeper 来实现 JobManager 的 HA(Zookeeper 已经成为了大部分开源框架 HA 必不可少的模块)。在 Zook...原创 2020-01-09 17:56:35 · 6387 阅读 · 0 评论 -
Flink On YARN
1. 两种模式1. 共用一个 yarn-session在 YARN 中初始化一个 Flink 集群,初始化好资源,提交的任务都在这个集群执行,共用集群的资源。这个 Flink集群常驻在 YARN 集群中,要关闭可以手动停止。2. 每个Job启动一个集群每次提交都会创建一个新的 Flink 集群,Job之间是互相独立的。任务执行完之后集群会注销。2. yarn-s...原创 2020-01-04 15:25:53 · 1025 阅读 · 0 评论 -
Flink 配置文件说明
master集群的 master 节点slaves集群中所有的工作节点flink-conf.yaml1. 基础配置# JobMaster节点IP地址jobmanager.rpc.address# JobMaster端口号,默认6123jobmanager.rpc.port:6123# JM 节点可分配的最大内存,master 主要管理集群资源...原创 2020-01-03 15:10:07 · 3103 阅读 · 0 评论 -
Flink 编译 Flink1.9.1-CDH6.2 对应版本
Flink 的 Standalone Cluster 模式直接使用相应版本即可,部署 Flink on YARN 需要重新编译对应 Hadoop版本。这里编译 Flink1.9.1 ,CDH6.2 平台 Hadoop 版本是 hadoop-3.0.0-cdh6.2.0。目录 1. Git 方式 1. 下载编译 flink-shade 2. 下载 Flink-1.9.1 源码 3...原创 2020-01-02 13:33:01 · 2769 阅读 · 5 评论