Flink中的Source-优快云博客

本文链接：https://blog.youkuaiyun.com/xieyichun_/article/details/144038622

一、概述

Data Sources 是数据的来源地，对于 Apache Flink 这款流式计算框架来说，无论是批处理还是流处理，数据源都是数据输入的起点。Flink 中常见的数据源主要分为两大类：预定义 Source 和自定义 Source。

预定义 Source 包括基于本地集合的 Source（如 env.fromElements()、env.fromCollection() 和 env.generateSequence()）、基于文件的 Source（如 env.readTextFile() 和 env.readCsvFile()）以及基于网络套接字的 Source（如 socketTextStream()）。

自定义 Source 则允许用户根据具体需求编写自己的数据源，通常通过实现 SourceFunction 接口来实现。这些多样化的数据源使得 Flink 在处理不同类型的数据时非常灵活和强大。

二、预定义Source

2.1、基于本地集合的 Source

在flink最常见的创建DataStream方式有四种：

l 使用env.fromElements()，这种方式也支持Tuple，自定义对象等复合形式。

注意：类型要一致，不一致可以用Object接收，但是使用会报错，比如：env.fromElements("haha", 1);

l 使用env.fromCollection(),这种方式支持多种Collection的具体类型，如List，Set，Queue

l 使用env.generateSequence()方法创建基于Sequence的DataStream --已经废弃了

l 使用env.fromSequence()方法创建基于开始和结束的DataStream

一般用于学习测试时编造数据时使用

1.env.fromElements(可变参数);

2.env.fromColletion(各种集合);

3.env.fromSequence(开始,结束);

package com.bigdata.source;
 
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
 
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
 
public class _01YuDingYiSource {
 
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
 
        // 各种获取数据的Source
        DataStreamSource<String> dataStreamSource = env.fromElements("hello world txt", "hello nihao kongniqiwa");
        dataStreamSource.print();

       
        DataStreamSource<Tuple2<String, Integer>> elements = env.fromElements(
                Tuple2.of("张三", 18),
                Tuple2.of("lisi", 18),
                Tuple2.of("wangwu", 18)
        );
        elements.print();

 
        // 有一个方法，可以直接将数组变为集合  复习一下数组和集合以及一些非常常见的API
        String[] arr = {"hello","world"};
        System.out.println(arr.length);
        System.out.println(Arrays.toString(arr));
        List<String> list = Arrays.asList(arr);
        System.out.println(l