关于kafka数据实时落地至hdfs

最新推荐文章于 2024-08-21 00:07:41 发布

原创

最新推荐文章于 2024-08-21 00:07:41 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #spark

本文介绍如何利用Spark Streaming和Kafka实现数据的实时采集，并将这些数据以Parquet格式存储到HDFS中，同时提供了完整的代码示例。

关于kafka数据实时落地至hdfs

好久没有写博客了！

关于如何使用spark streaming +kafka工具实现实时数据落地至hdfs目录

import java.time.ZonedDateTime
import java.time.format.DateTimeFormatter

import com.alibaba.fastjson.{JSON, JSONArray}
import com.ipinyou.cdp.common.SparkBase
import com.ipinyou.cdp.util.KafkaUtil
import com.typesafe.config.ConfigFactory
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, OffsetRange}
import org.json4s.NoTypeHints
import org.json4s.jackson.Serialization
import org.slf4j.LoggerFactory

/** 实时信息落地到hdfs中，测试人员测试 */
object RTChangeNotice2Hdfs extends SparkBase {

  val logger = LoggerFactory.getLogger(this.getClass)
  /** 拉取kafka的topic和group */
  private val conf = ConfigFactory.load("rm_cdm.c