structured streaming ——wordcounts_kafka

最新推荐文章于 2024-01-13 18:03:53 发布

丹江怒潮

最新推荐文章于 2024-01-13 18:03:53 发布

阅读量301

点赞数

分类专栏： spark kafka

spark 同时被 2 个专栏收录

23 篇文章

订阅专栏

kafka

15 篇文章

订阅专栏

本文介绍如何使用Apache Spark进行流处理，通过从Kafka订阅主题并处理实时数据流，实现数据的读取、转换及存储。具体步骤包括配置Spark Streaming任务，设置Kafka参数，读取特定主题的数据，以及将处理后的数据写入文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

// Subscribe to 1 topic  从数据库读取偏移量。todo
val words = spark
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "topic1")
  .load()
  .selectExpr("CAST(value AS STRING)")  .as[(String)]
// DataFrame 的一些API
    val wordCounts = words.groupBy("name").count()

val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds))
      .outputMode("complete")
      .foreach(new ForeachWriter[Row] {
      var fileWriter: FileWriter = _
      override def process(value: Row): Unit = {
//记录偏移量。
        fileWriter.append(value.toSeq.mkString(","))
      }

      override def close(errorOrNull: Throwable): Unit = {
        fileWriter.close()
      }

      override def open(partitionId: Long, version: Long): Boolean = {
        FileUtils.forceMkdir(new File(s"/tmp/example/${partitionId}"))
        fileWriter = new FileWriter(new File(s"/tmp/example/${partitionId}/temp"))
        true
      }
    }).start()