
Flink学习
PanicJaw
这个作者很懒,什么都没留下…
展开
-
Flink中Java开发的必要辅助(一)——Scala
Flink中Java开发的必要辅助(一)——Scala主要是一些基本的语法点两者还是很像的,都是基于JVM运行的,因为看很多论文中的实现部分都是通过Scala实现的,所以大致根据官网的文档和自己查的一些资料,总结一下Scala和Java相同和一些不同之处。一、类和主函数声明方式Java中class 类名 public static void main(String[] args)Scala中object 名 def main(args:Array[String])Scala中所原创 2020-08-01 11:05:38 · 531 阅读 · 0 评论 -
Flink导入IDEA&源码构建Flink
Flink导入IDEA&源码构建Flink因为涉及到可能要更改源码,和最后在集群上跑实验,所以整理一下打包运行和源码编译的过程。根据官网整理导入Flink到IDE中并且编译将Flink源码clone到本地git clone https://github.com/apache/flink.git在windows下需要安装git,并且在cmd使用git命令时,因为国内访问速度慢,如果配置代理的话,可以参考这篇博客配置cmd中代理。在目标文件夹中可以得到flink命名的文件,其中内原创 2020-07-13 23:58:43 · 2772 阅读 · 1 评论 -
Flink中常用的API(二)——内置窗口使用
Flink中常用的API(二)——内置窗口使用续Flink中常用的API一、Flink基本编程框架在主函数中获取当前运行环境:StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();运行环境控制Flink运行——可以设置并行度、设置检查点参数、同时指定数据获取的方式(通过Kafka等connector还是端口或者时文件、手动输入数据等)。通过env获取数据得到DataStream原创 2020-07-12 23:19:48 · 280 阅读 · 0 评论 -
Flink中Time机制总结
最近做的实验涉及到Flnik的时间戳机制,系统的总结一下Flink的time机制一、Flink中timestamp和watermark使用在数据源中指定时间戳和水位线在这里插入代码片原创 2020-07-04 23:41:04 · 305 阅读 · 0 评论 -
Flink中常用的API
Flink中常用的API(一)首先明确,因为Flink会利用Java序列化机制把所有函数对象序列化后发送到对应的工作进程,所以用户自定义的函数的全部内容就必须是可序列化的,所以所有对外的API都封装在类中多数的函数接口设计为SAM(single abstract method),就是一个抽象类中封装了一个抽象方法转换操作定义初始的source数据源用于后面的说明DataStream<Tuple2<String,Integer>> sourcemap操作//对每个输原创 2020-06-03 12:15:32 · 369 阅读 · 0 评论 -
《基于 Apache Flink 的流处理》阅读笔记(三)
《基于 Apache Flink 的流处理》阅读笔记(二)Apache Flink架构运行时架构:四个JVM进程运行在不同的物理节点上JobManager:主进程控制单个应用程序执行,每个应用程序都有一个JobManager进行控制包括:JobGraph(Dataflow图,执行时转化为物理Dataflow图)+ 类库资源的 JAR 包根据物理 Dataflow 图(Exec...原创 2020-04-20 21:26:13 · 1164 阅读 · 0 评论 -
《基于 Apache Flink 的流处理》阅读笔记(二)
第二章 流处理基础Dataflow图至少有一个输入源一个输出汇,是一个有向图;算子是Dataflow中基本的功能单元。从不同的抽象层次将Dataflow分为宏观上的逻辑图和实际运行时的物理结构图并行性的体现:数据并行:将输入数据分组,让执行同一操作的不同算子实例作用在不同的数据子集上;均衡负载任务并行:将输入数据复制多份,交给执行不同操作的算子实例处理数据交换策略...原创 2020-03-29 15:21:01 · 2709 阅读 · 0 评论 -
《基于 Apache Flink 的流处理》阅读笔记
第一章 :状态化流处理概述数据处理框架把数据处理框架分为两类事物型处理:企业日常运营业务中的各类应用企业资源规划(ERP),客户关系管理(CRM)还有一些基于Web的应用独立的数据处理层:也就是应用程序本身:连接外部用户或者服务,处理操作传入的数据,每次操作都会访问数据库读取或者更新状态数据存储层:事物型数据库,外部操作就会访问这个数据库这种“单点”在扩容更新会有问题,现在...原创 2020-03-15 00:34:27 · 1842 阅读 · 0 评论 -
Flink基础(一)基本概念
Flink基础(一)基本概念Flink是什么是一个分布式,有状态,流处理引擎(SPE),实现低延时,高吞吐。分布式(Distributed):有多个物理节点来处理数据,各个物理节点之间通过网络相连,用来传输数据或者控制信息。有状态(Stateful):这里引用在一篇论文中看到的来描述状态:“the intermediate value of a specific comput...原创 2019-10-23 23:09:37 · 401 阅读 · 2 评论