
Flink
文章平均质量分 64
启四
这个作者很懒,什么都没留下…
展开
-
Task not serializable的原因及解决方法
Task not serializable的原因及解决方法原因及解决方法:项目场景:问题描述:报错内容报错代码原因分析:解决方案: 原因及解决方法: 这是一个比较常见的问题,flink、spark,都有可能遇到类似问题。 由于两者都是分布式计算引擎,都不能在算子中传入未经序列化的数据。 所以此类问题: 原因:基本上都是因为在算子中传入了未经序列化的数据。 解决方法:就是找到那个未经序列化的数据,然后在算子前提前定义或者序列化。 项目场景: 我需要将一个util.HashMap[Integer, DataS原创 2021-05-30 17:07:55 · 4625 阅读 · 0 评论 -
Flink 集群安装部署和 HA 配置
Flink 常见的部署模式 环境准备 推荐在 Mac OS 或者 Linux 环境下运行 Flink 集群模式,那么可以在自己电脑上安装虚拟机 所有的机器上都应该安装 JDK 和 SSH Local 模式 本地解压直接启动 # ./bin/start-cluster.sh 测试任务 ./bin/flink run examples/batch/WordCount.jar Standalone 模式 和yarn模式相比: Standalone 模式的原创 2020-07-11 01:15:50 · 856 阅读 · 0 评论 -
Flink SQL & Table 编程和案例
Flink Table & SQL 概述 背景 Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 DataStream 和 DataSet 两套 API,并没有做到事实上的批流统一,因为用户还是使用了2套API。正是因为 Flink Table & SQL 的加入,可以说 Flink 在某种程度上做到了事实上的批流一体。 原理 1、上图是一张经典的 Flink Table & SQL原创 2020-07-11 01:14:46 · 856 阅读 · 0 评论 -
Flink 常用的 DataSet 和 DataStream API
说好的流批一体呢? 现状是截止1.10版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用场景。 DateSet 和 DataStream 的区别和联系 1、Apache Flink 在诞生之初的设计哲学是:用同一个引擎支持多种形式的计算,包括批处理、流处理和机器学习等。尤其是在流式计算方面,Flink 实现了计算引擎级别的流批一体 2、对于DataSet而言,Source部分来源于文件、表或者Java集合 3、对于DataStream而言,Source原创 2020-07-11 01:11:16 · 737 阅读 · 0 评论 -
Flink 入门程序 WordCount 和 SQL 实现
Flink提供的快速创建工程的方法: curlhttps://flink.apache.org/q/quickstart.sh| bash -s 1.10.0 自动生成的项目 pom.xml 文件中对于 Flink 的依赖注释掉 scope DataSet WordCount DataStream WordCount 问题1:使用 netcat 命令启动一个端口 nc -lk 9000要改为nc -l -p 9000 问题2:尽量使用Java原生的函数,不要过多使用lambda ..原创 2020-07-04 02:26:50 · 512 阅读 · 0 评论 -
Flink的应用场景和架构模型
Flink实际应用场景 实时数据计算 传统分析方式:批查询 Flink:批流一体 数据实时采集、实时计算和下游发送 实时数据仓库和 ETL 状态管理 丰富的API 包括 Stream API、Table API 及 Flink SQL; 生态完善 支持多种存储(HDFS、ES 等); 批流一体 一套API既能实现流计算又能实现批计算 事件驱动型应用 高效的状态管理 自带的 State Backend 可以很好的存储中间状态信息; .原创 2020-07-03 00:29:36 · 346 阅读 · 0 评论