静水流深3721-优快云博客

原创 Apache Flink（七）：Flink Window

Flink Window 窗口计算窗口计算是流计算的核心，通过使用窗口对无限的流数据划分成固定大小的 buckets，然后基于落入同一个bucket（窗口）中的元素执行计算。Flink将窗口计算分为两大类: 基于keyed stream窗口计算，使用的窗口分配器为window 基于non-keyed stream窗口计算，使用的窗口分配器为windowAll Window Assigners...

2019-11-20 22:19:52 219

原创 Apache Flink（六）：Flink中的 State 和 Fault Tolerance

State 和 Fault Tolerance 状态和容错 Flink将流计算的状态分为两类：Keyed Sate \ Opertator State.其中Keyed Sate状态是和操作符中的key绑定，而 Operator State只可以和操作符绑定。无论是Keyed state还是Operator State，Flink对状态的管理都分为两种形式： Managed State 和 Raw ...

2019-11-19 19:56:49 516

原创 Apache Flink（五）: Flink Operator

Operator（操作符） DataStream Transformations 数据流转换 Datastream -> Datasteam Map（映射）取一个元素并产生一个元素，是一个映射函数。下面的例子为使用Map将输入流的值加倍 dataStream.map { x => x * 2 } FlatMap（展开）取一个元素并产生零个，一个或多个元素。FlatMap可将英文短...

2019-11-16 15:29:02 431

原创 Apache Flink（四）：Flink对接Sink

Data Sink Data sinks负责消费Data Stream的数据，将数据写出到外围系统。例如：文件/网络/NoSQL/RDBMS/Message Queue等。Flink底层也预定义了一些常用的Sinks，同时用户也可以根据实际需求定制Data Sink通过集成SinkFunction或者RichSinkFunction。 File Based writeAsText()|write...

2019-11-15 10:51:18 516

原创 Apache Flink（三）：Flink对接DataSource

DataSource DataSource指定了流计算的输入，用户可以通过flink运行环境的addSource()方法添加自数据源,Flink已经预先实现了一些DataSource的实现，如果用户需要自定义自己的实现可以通过实现SourceFunction接口（非并行Source）或者ParallelSourceFunction 接口（实现并行Source）或者继承RichParallelSo...

2019-11-15 09:17:54 238

原创 Apache Flink（二）：Flink的环境搭建和入门程序

Flink环境搭建设置CentOS进程数和文件数(重启生效) -可选 [root@Spark ~]# vi /etc/security/limits.conf * soft nofile 204800 * hard nofile 204800 * soft nproc 204800 * hard nproc 204800 配置主机名(重...

2019-11-13 21:46:13 220

原创 Apache Flink（一）：Flink的入门和架构

Apache Flink Flink 概述 Flink是构建在Data Stream之上一款有状态计算框架，被人们认为是第3代流计算框架三代大数据计算框架代数处理引擎第一代批处理：MapReduce 流处理：Storm 第二代批处理：Spark RDD 流处理：使用micro-batch模拟流处理，例如DStream、StructuredStreaming ...

2019-11-13 21:28:23 272

qq_38310603的博客