flink Streaming从kafka接收数据

本文探讨了使用Apache Flink从Kafka消费JSON数据的方法,包括使用SimpleStringSchema、JSONKeyValueDeserializationSchema以及自定义DeserializationSchema进行数据反序列化的实践。通过具体代码示例,展示了如何将JSON数据转换为特定的POJO类,适用于实时数据处理场景。

 

今天测试今天尝试了flink从kafka获取数据的测试程序编写,主要测试的kafka发送json的接收例子,尝试了几个kafka的DeserializationSchema(反序列化模式),包括了SimpleStringSchema,JSONKeyValueDeserializationSchema以及自定义DeserializationSchema.代码通过Flink计算引擎从Kafka相应的Topic中读取数据,通过FlinkKafkaConsumer010来实现.

1.SimpleStringSchema

官网上有SimpleStringSchema的示例,它可以构建DataStream[String],返回的就是kafka生产者发过来的信息。

以下是代码:

package whTest

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import java.util.Properties

import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.api.common.state.StateTtlConfig.TimeCharacteristic
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.api.scala._

object Fromkafka {
  case class Person (name:String,sex:String,age:Int)
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //开启checkPoint, Time interval between state checkpoints 5000 milliseconds.
    /**
      * 如果我们启用了Flink的Checkpint机制,
      * 那么Flink Kafka Consumer将会从指定的Topic中消费消息,
      * 然后定期地将Kafka offsets信息、状态信息以及其他的操作信息进行Checkpint。
      * 所以,如果Flink作业出故障了,Flink将会从最新的Checkpint中恢复,
      * 并且从上一次偏移量开始读取Kafka中消费消息。
      */
    env.enableCheckpointing(5000)
    import org.apache.flink.streaming.api.TimeCharacteristic
    //设置系统基本时间特性为事件时间
   // env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
   //kafka连接配置信息
    val properties = new Properties()
    properties.setProperty("bootstrap.servers", "localhost:9092")
    properties.setProperty("zookeeper.connect", "localhost:2181")
    properties.setProperty("group.id", "test")
    val kafkaStream = env
      .addSource(new FlinkKafkaConsumer010[String]("test", new SimpleStringSchema(), properties))
      .print()
    
    // execute program
    env.execute("kafkaTest")
  }
}

测试结果:

{"ID_Link":"11111","CarNum":100,"speed":10.0}//即为生产者发送的信息

如果我们需要将消息进行封装,DataStream[String]->DataStream[MyType],可以在DataStream[String]后追加map函数进行转换,当然也可以使用下文的自定义DeserializationSchema。

2. JSONKeyValueDeserializationSchema

JSONKeyValueDeserializationSchema可以将序列化的JSON转换为ObjectNode对象,可以用objectNode.get("field")访问字段。新建JSONKeyValueDeserializationSchema需要带一个boolean类型参数,为true表示需要指明是否需要包含“元数据”、偏移量、分区和主题等信息,为false表明只需要数据。
以下是代码和结果:

package whTest

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import java.util.Properties

import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.api.common.state.StateTtlConfig.TimeCharacteristic
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.api.scala._

object Fromkafka {
  case class Person (name:String,sex:String,age:Int)
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //开启checkPoint, Time interval between state checkpoints 5000 milliseconds.
    /**
      * 如果我们启用了Flink的Checkpint机制,
      * 那么Flink Kafka Consumer将会从指定的Topic中消费消息,
      * 然后定期地将Kafka offsets信息、状态信息以及其他的操作信息进行Checkpint。
      * 所以,如果Flink作业出故障了,Flink将会从最新的Checkpint中恢复,
      * 并且从上一次偏移量开始读取Kafka中消费消息。
      */
    env.enableCheckpointing(5000)
    import org.apache.flink.streaming.api.TimeCharacteristic
    //设置系统基本时间特性为事件时间
   // env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    val properties = new Properties()
    properties.setProperty("bootstrap.servers", "localhost:9092")
    // only required for Kafka 0.8
    properties.setProperty("zookeeper.connect", "localhost:2181")
    properties.setProperty("group.id", "test")
    val kafkaStream = env
      .addSource(new FlinkKafkaConsumer010("test", new JSONKeyValueDeserializationSchema(true), properties))
      .print()
  
    // execute program
    env.execute("kafkaTest")
  }
}

结果:

  // new JSONKeyValueDeserializationSchema(true)   send json :{"name":"limei","age":12,"sex":"f"}        get : {"value":{"name":"limei","age":12,"sex":"f"},"metadata":{"offset":10,"topic":"test","partition":0}}
    //  new JSONKeyValueDeserializationSchema(false)   send json :{"name":"limei","age":12,"sex":"f"}        get :{"value":{"name":"limei","age":12,"sex":"f"}}

3.自定义DeserializationSchema

自定义DeserializationSchema需要实现DeserializationSchema接口,这一部分代码可以参考官方代码org.apache.flink.streaming.examples.statemachine.kafka.EventDeSerializer。
我需要实现的是将从kafka获取到的json数据转化为我需要的自定义pojo类(VideoData)。
主要是要实现DeserializationSchema方法的deserialize方法,这个方法的输入是byte[] message类型,我们需要将其转换为String类型,然后通过Json工具类解析成POJO类。这里我使用的是google的Gson框架。

以下是DeserializationSchema类和POJO类代码

package whTest;

import com.google.gson.Gson;
import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.typeinfo.TypeInformation;

import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.nio.charset.Charset;
import java.nio.CharBuffer;
import java.nio.charset.CharsetDecoder;

public class VideoDataDeSerializer implements DeserializationSchema<VideoData> {
    private static final long serialVersionUID = 1L;
    @Override
    public VideoData deserialize(byte[] message) throws IOException {
        ByteBuffer buffer = ByteBuffer.wrap(message).order(ByteOrder.LITTLE_ENDIAN);
             
        String mess = this.byteBuffertoString(buffer);
                //封装为POJO类
        Gson gson = new Gson();
        VideoData data = gson.fromJson(mess, VideoData.class);
        return data;
    }

    @Override
    public boolean isEndOfStream(VideoData nextElement) {
        return false;
    }

    @Override
    public TypeInformation<VideoData> getProducedType() {
        return null;
    }

    /**
     * 将ByteBuffer类型转换为String类型
     * @param buffer
     * @return
     */
    public static String byteBuffertoString(ByteBuffer buffer)
    {
        Charset charset = null;
        CharsetDecoder decoder = null;
        CharBuffer charBuffer = null;
        try
        {
            charset = Charset.forName("UTF-8");
            decoder = charset.newDecoder();
            // charBuffer = decoder.decode(buffer);//用这个的话,只能输出来一次结果,第二次显示为空
            charBuffer = decoder.decode(buffer.asReadOnlyBuffer());
            return charBuffer.toString();
        }
        catch (Exception ex)
        {
            ex.printStackTrace();
            return "";
        }
    }
}

POJO类:

package whTest;

public class VideoData {
    public VideoData(String ID_Link,int CarNum,float speed){
        this.ID_Link =ID_Link;
        this.CarNum = CarNum;
        this.speed = speed;
    }
    private String ID_Link;
    private int CarNum;
    private float speed;

    public void setID_Link(String ID_Link) {
        this.ID_Link = ID_Link;
    }

    public void setCarNum(int carNum) {
        CarNum = carNum;
    }

    public void setSpeed(float speed) {
        this.speed = speed;
    }

    public String getID_Link() {
        return ID_Link;
    }

    public int getCarNum() {
        return CarNum;
    }

    public float getSpeed() {
        return speed;
    }
}

主函数只需要把DeserializationSchema类修改为自定义的VideoDataDeSerializer,当kafka生产者发送过来用VideoData转换的Json类型时,返回的就是我们需要的DataStream[VideoData]。这就不需要后面再用map函数将String转换为VideoData类型了。

 

 

<think>嗯,用户现在想知道FlinkKafka读取数据的核心步骤。结合之前的讨论,用户已经对Kafka的核心概念有一定了解,现在转向了Flink的集成使用。从引用内容看,用户提供的参考资料主要集中在Flink连接Kafka的代码实现和常见问题上,特别是引用[1][2]详细列出了所需的依赖和API。 用户可能是个大数据开发工程师,正在搭建实时数据处理流水线。ta需要具体的操作指引而非理论概念,这点从ta明确要求"核心步骤"就能看出。有趣的是,在之前的对话中用户表现出对Kafka架构的深入理解,现在转向Flink消费端实现,说明ta的项目可能进入开发阶段。 需要特别注意三个技术要点:第一是连接器的演进,Flink官方推荐使用新版KafkaSource而非旧版FlinkKafkaConsumer,这点在引用[1][2]的对比中很明显;第二是反序列化机制,SimpleStringSchema是最基础的处理方式;第三是Exactly-Once保障,用户虽然没明说但引用[3]的超速监控案例暗示了准确性要求。 准备用四步结构回答:环境准备→数据源配置→执行逻辑→结果输出。其中要强调新版API的builder模式,因为引用[1]显示这是当前最佳实践。对于用户可能遇到的版本兼容问题(如引用[4]的类找不到异常),考虑在注意事项里提前预警。 相关问题的设计要延续技术纵深,比如Exactly-Once配置和水位线机制都是实际开发中的高频痛点。特别加入"窗口处理"这个问题,因为用户引用[3]的车流监控案例显然会用到窗口计算。 </think>以下是 FlinkKafka 读取数据的核心步骤及详细说明: --- ### **核心步骤详解** #### 1. **环境准备** ```xml <!-- 必需依赖 --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka</artifactId> <version>${flink.version}</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java</artifactId> <version>${flink.version}</version> </dependency> ``` > 注意:Flink 1.14+ 推荐使用 `KafkaSource` 替代旧版 `FlinkKafkaConsumer`[^1][^2] #### 2. **配置 Kafka 数据源** ```java // 新版 API (推荐) KafkaSource<String> source = KafkaSource.<String>builder() .setBootstrapServers("kafka-server:9092") // Kafka 集群地址 .setTopics("topic-name") // 目标 Topic .setGroupId("flink-group") // 消费者组 .setValueOnlyDeserializer(new SimpleStringSchema()) // 反序列化器 [^1] .setStartingOffsets(OffsetsInitializer.earliest()) // 从最早位点消费 .build(); DataStream<String> stream = env.fromSource( source, WatermarkStrategy.noWatermarks(), "Kafka Source" ); ``` #### 3. **旧版 API 兼容方案** (适用于早期版本) ```java // 旧版 FlinkKafkaConsumer Properties props = new Properties(); props.setProperty("bootstrap.servers", "kafka-server:9092"); props.setProperty("group.id", "flink-group"); DataStream<String> stream = env.addSource( new FlinkKafkaConsumer<>( "topic-name", new SimpleStringSchema(), props ) // 对应引用 [2] 的构造函数 ); ``` #### 4. **数据处理与输出** ```java stream.map(record -> { // 业务逻辑处理(如解析 JSON) return process(record); }).addSink(new KafkaSink<>(...)); // 可写回 Kafka 或其他存储 ``` --- ### **关键配置说明** | **配置项** | **作用** | **示例值** | |---------------------|--------------------------------------------------------------------------|--------------------------| | `bootstrap.servers` | Kafka 集群地址 | `"kafka01:9092,kafka02:9092"` | | `group.id` | 消费者组 ID(实现并行消费) | `"flink-consumer-group"` | | `auto.offset.reset` | 初始消费位点策略 | `earliest` / `latest` | | `enable.auto.commit`| 是否自动提交偏移量(建议设为 `false`,由 Flink Checkpoint 管理) | `false` | --- ### **执行流程** ```mermaid graph TD A[启动 Flink Job] --> B[连接 Kafka 集群] B --> C[分配 Topic Partition] C --> D[拉取数据流] D --> E[反序列化消息] E --> F[执行用户逻辑] F --> G[Checkpoint 提交偏移量] ``` --- ### **注意事项** 1. **反序列化选择** - 文本数据:`SimpleStringSchema` - 二进制数据:`KafkaRecordDeserializationSchema` - **自定义格式**需实现 `DeserializationSchema` 接口[^2] 2. **容错机制** 启用 Checkpoint 保证 Exactly-Once 语义: ```java env.enableCheckpointing(5000); // 每 5s 做一次 Checkpoint ``` 3. **并行度优化** Kafka Partition 数量应与 Flink 算子并行度匹配,避免资源闲置。 --- > **常见问题**:若出现 `ClassNotFoundException: org.apache.kafka.clients.admin.DescribeTopicsResult`,需检查 Kafka 客户端版本兼容性(添加 `kafka-clients` 依赖)[^4]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值