Flink DataStream API Programming Guide (四)

本文深入探讨了Flink的DataStream API,详细介绍了数据来源的各种方式,包括基于文件、Socket、集合和自定义输入等。特别关注了文件读取API的工作原理和注意事项,以及常见连接器如Kafka的使用。

前言,API分为三个模块:Source、transformation、sink。

换言之数据怎么来的?数据怎么算的?算好的数据沉降(保存)到哪里?

 

 

DataStream API --- DataSources

 

 基于文件

        因为是流处理,所以读取文件的API不经常用。

        readTextFile(path)

               - 读取文本文件,即逐行遵循TextInputFormat规范的文件,并将它们作为字符串返回。

        readFile(fileInputFormat, path)
               
                - 按指定的文件输入格式指定读取(一次)文件。

        readFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo) 
               - 不常用 解释如下:
                 在引擎盖下,Flink将文件读取过程分为两个子任务,即目录监控和数据读取。这些子任务中的每一个都由单独的实体实现。监视由单个非并行(并行性= 1)任务实现,而读取由并行运行的多个任务执行。后者的并行性等于工作并行性。单个监视任务的作用是扫描目录(定期或仅一次,具体取决于watchType),找到要处理的文件,将它们分成分割,并将这些分割分配给下游读取器。读者是那些将阅读实际数据的人。每个分割仅由一个读取器读取,而读取器可以逐个读取多个分割。

                - 重要笔记:
                如果watchType设置为FileProcessingMode.PROCESS_CONTINUOUSLY,则在修改文件时,将完全重新处理其内容。这可以打破“完全一次”的语义,因为在文件末尾附加数据将导致其所有内容被重新处理。
如果watchType设置为FileProcessingMode.PROCESS_ONCE,则源扫描路径一次并退出,而不等待读者完成读取文件内容。当然读者将继续阅读,直到读取所有文件内容。在该点之后关闭源将导致不再有检查点。这可能会导致节点故障后恢复速度变慢,因为作业将从上一个检查点恢复读取。

 

基于Socket (测试常用)

socketTextStream - 从套接字读取。元素可以用分隔符分隔。

 

基于集合 (测试常用)

fromCollection(Collection) 
    - 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。

fromCollection(Iterator, Class) 
    - 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
fromElements(T ...) 
    - 从给定的对象序列创建数据流。所有对象必须属于同一类型。
fromParallelCollection(SplittableIterator, Class)
    - 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
generateSequence(from, to) 
    - 同时生成给定间隔中的数字序列。

 

用户自定义输入 提供一些connectors (连接器)

  例如Kafka 是真实生产环境中开发常用的。

addSource
    - 附加新的源功能。例如,要从Apache Kafka读取,您可以使用addSource(new FlinkKafkaConsumer08 <>(...))。可以看Streaming Connectors​​​​​​​

链接---> Streaming Connectors

连接器种类:

Apache Kafka (source/sink)
Apache Cassandra (sink)
Amazon Kinesis Streams (source/sink)
Elasticsearch (sink)
Hadoop FileSystem (sink)
RabbitMQ (source/sink)
Apache NiFi (source/sink)
Twitter Streaming API (source)

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值