关于kafka数据实时落地至hdfs
好久没有写博客了!
关于如何使用spark streaming +kafka工具实现实时数据落地至hdfs目录
import java.time.ZonedDateTime
import java.time.format.DateTimeFormatter
import com.alibaba.fastjson.{JSON, JSONArray}
import com.ipinyou.cdp.common.SparkBase
import com.ipinyou.cdp.util.KafkaUtil
import com.typesafe.config.ConfigFactory
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, OffsetRange}
import org.json4s.NoTypeHints
import org.json4s.jackson.Serialization
import org.slf4j.LoggerFactory
/** 实时信息落地到hdfs中,测试人员测试 */
object RTChangeNotice2Hdfs extends SparkBase {
val logger = LoggerFactory.getLogger(this.getClass)
/** 拉取kafka的topic和group */
private val conf = ConfigFactory.load("rm_cdm.c

本文介绍如何利用Spark Streaming和Kafka实现数据的实时采集,并将这些数据以Parquet格式存储到HDFS中,同时提供了完整的代码示例。
最低0.47元/天 解锁文章
2347

被折叠的 条评论
为什么被折叠?



