spark streaming 接收kafka数据写入Hive分区表

最新推荐文章于 2024-02-04 12:26:44 发布

周葱

最新推荐文章于 2024-02-04 12:26:44 发布

阅读量5.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： spark kafka hive 分区表

本文链接：https://blog.youkuaiyun.com/weixin_44278340/article/details/85260073

本文介绍了如何利用Spark Streaming从Kafka数据源中实时读取数据，并将其有效写入Hive分区表的过程，提供了一段关键的实现代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

直接上代码

object KafkaToHive{
	def main(args: Array[String]){
		val sparkConf = new SparkConf().setAppName("KafkaToHive")
		val sc = new SparkContext(sparkConf)
		val ssc = new StringContext(sc,Seconds(60))
		// 创建kafka参数
		val kafkaParams = Map[String,Object](
			//ip为kafka集群ip,端口为集群端口
			"bootstrap.servers" -> "ip1:port1,ip2:port2,ip:port3",
			"group.id" -> "KafkaToHive_group1",  //自定义组名称
			"auto.offset.reset" -> "earliest",
			"enable.auto.commit" -> "false")
		val topics = Array("test1")
		val stream = KafkaUtils.createDirectStreaming[String,String](
			ssc,PreferConsistent,
			Subscribe[String,String](topics,kafkaParms)
		stream.foreachRDD(rdd=>{
			if(rdd.count>0){
				val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
				//TODO 具体处理逻辑
				//写入Hive
				//value为实际操作中的结果集，即是//TODO返回的结果集
				val subRdd = rdd.sparkContext.parallelize(value)
				val sqlContext : SQLContext = new HiveContext(rdd.sparkContext)
				sqlContext.setConf("hi