【Spark实战系列】sparkstreaming 结合 sparksql-2.x 实时写数据到 hive

最新推荐文章于 2025-06-27 17:48:45 发布

JasonLee实时计算

最新推荐文章于 2025-06-27 17:48:45 发布

阅读量8.4k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： Spark 实战系列文章标签： hive sparkstreaming spark2.3 实时

本文链接：https://blog.youkuaiyun.com/xianpanjia4616/article/details/80958975

Spark 实战系列专栏收录该内容

41 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍在Spark 2.x版本中，如何利用SparkSQL与SparkStreaming实现实时将数据写入Hive。内容涉及Spark SQL操作Hive的写法，注意配置spark.sql.warehouse.dir，并讨论了因生成过多小文件导致的性能问题，提出通过创建分区表或使用INSERT OVERWRITE合并小文件的解决方案。参考Apache Spark 2.2.0官方文档，欢迎讨论和指正。

今天主要来介绍一下SparkSql,2.x新版本操作hive的一个写法.

Spark SQL 的功能之一是执行 SQL 查询.Spark SQL 也能够被用于从已存在的 Hive 环境中读取数据

废话不多说,直接上代码:

package spark

import java.io.File
import java.util
import kafka.{PropertiesScalaUtils, RedisKeysListUtils}
import kafka.SparkStreamingKafka.{dbIndex, kafkaStreams}
import net.sf.json.JSONObject
import org.apache.kafka.common.TopicPartition
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010.{ConsumerStr