- 博客(7)
- 收藏
- 关注
原创 Apache Flink(七):Flink Window
Flink Window 窗口计算 窗口计算是流计算的核心,通过使用窗口对无限的流数据划分成固定大小的 buckets,然后基于落入同一个bucket(窗口)中的元素执行计算。Flink将窗口计算分为两大类: 基于keyed stream窗口计算,使用的窗口分配器为window 基于non-keyed stream窗口计算,使用的窗口分配器为windowAll Window Assigners...
2019-11-20 22:19:52
219
原创 Apache Flink(六):Flink中的 State 和 Fault Tolerance
State 和 Fault Tolerance 状态和容错 Flink将流计算的状态分为两类:Keyed Sate \ Opertator State.其中Keyed Sate状态是和操作符中的key绑定,而 Operator State只可以和操作符绑定。无论是Keyed state还是Operator State,Flink对状态的管理都分为两种形式: Managed State 和 Raw ...
2019-11-19 19:56:49
516
原创 Apache Flink(五): Flink Operator
Operator(操作符) DataStream Transformations 数据流转换 Datastream -> Datasteam Map(映射) 取一个元素并产生一个元素,是一个映射函数。下面的例子为使用Map将输入流的值加倍 dataStream.map { x => x * 2 } FlatMap(展开) 取一个元素并产生零个,一个或多个元素。FlatMap可将英文短...
2019-11-16 15:29:02
431
原创 Apache Flink(四):Flink对接Sink
Data Sink Data sinks负责消费Data Stream的数据,将数据写出到外围系统。例如:文件/网络/NoSQL/RDBMS/Message Queue等。Flink底层也预定义了一些常用的Sinks,同时用户也可以根据实际需求定制Data Sink通过集成SinkFunction或者RichSinkFunction。 File Based writeAsText()|write...
2019-11-15 10:51:18
516
原创 Apache Flink(三):Flink对接DataSource
DataSource DataSource指定了流计算的输入,用户可以通过flink运行环境的addSource()方法 添加自数据源,Flink已经预先实现了一些DataSource的实现,如果用户需要自定义自己的实现可以通过实现SourceFunction接口(非并行Source)或者ParallelSourceFunction 接口(实现并行Source)或者继承RichParallelSo...
2019-11-15 09:17:54
238
原创 Apache Flink(二):Flink的环境搭建和入门程序
Flink环境搭建 设置CentOS进程数和文件数(重启生效) -可选 [root@Spark ~]# vi /etc/security/limits.conf * soft nofile 204800 * hard nofile 204800 * soft nproc 204800 * hard nproc 204800 配置主机名(重...
2019-11-13 21:46:13
220
原创 Apache Flink(一):Flink的入门和架构
Apache Flink Flink 概述 Flink是构建在Data Stream之上一款有状态计算框架,被人们认为是第3代流计算框架 三代大数据计算框架 代数 处理引擎 第一代 批处理:MapReduce 流处理:Storm 第二代 批处理:Spark RDD 流处理:使用micro-batch模拟流处理,例如DStream、StructuredStreaming ...
2019-11-13 21:28:23
272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人