
flink/spark
疯琴
这个作者很懒,什么都没留下…
展开
-
Flink DataSet Sink 写入 Kafka
借鉴这篇博客,由于flink没有提供将DataSet写入kafka的API,所以自己写了一个。通过实现org.apache.flink.api.common.io.OutputFormat接口,参照JDBCOutputFormat,加入了自定义分区器。 Github KafkaOutputFormat.java package com.yngwiewang; import org.apache....原创 2019-07-01 16:34:05 · 1513 阅读 · 0 评论 -
win10 spark scala 本地运行wordcount
注意 每次修改环境变量都要重启cmd 本机运行需要hadoop common,可以从 github 下载 zip,解包以后设置 HADOOP_HOME 环境变量指向它,然后在 PATH 里加上 HADOOP_HOME\bin,特别注意,hadoop common 的版本要和 spark 的 hadoop 版本匹配 spark 的 scala 和 本机的 scala 大版本要匹配 Exceptio...原创 2019-07-20 10:22:36 · 561 阅读 · 0 评论 -
Flink Dataset join+sortPartition
业务需求 表1大量数据,表2小量数据,表1通过join表2补充数据,将表1按照某个条件分区然后各分区排序,用dataset批处理 从hdfs并发读表1并加工过滤inner join两张表并过滤无效数据从hdfs读表2分区排序写入hdfs 表1有1275个gz文件,每个500多M,解压后1.8G,gz文件只能单线程读,所以并发数设成文件数 主要问题 flink的官方文档还比较好,api说明挺清楚,y...原创 2019-06-19 18:03:33 · 2334 阅读 · 1 评论 -
Flink 使用 BucketingSink 分桶写入HSDFS 方便Hive查询
需求: 用BucketingSink进行分桶sink,按照event time每小时一个分桶,即一个文件夹,方便Hive查询 文件分桶说明 在每个分桶文件夹内有若干文件,文件名为_part-8-0.in-progress或_part-81-0.pending或part-8-0,分别代表处于in-progress、pending和finish状态。 文件关闭后就由in-progress转变到pen...原创 2019-07-22 14:35:13 · 2148 阅读 · 2 评论