Spark 读写hive 表

最新推荐文章于 2023-02-01 18:35:16 发布

weixin_33769125

最新推荐文章于 2023-02-01 18:35:16 发布

阅读量571

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/parkin/p/7919866.html

本文介绍了如何使用SparkSession读取Hive表，并详细讲解了使用DataFrame进行数据写入的不同方式，包括插入到已存在的分区表及指定特定的数据格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark 读写hive表主要是通过sparkssSession

读表的时候，很简单，直接像写sql一样sparkSession.sql("select * from xx") 就可以了。

这里主要是写数据，因为数据格式有很多类型，比如orc,parquet 等，这里就需要按需要的格式写数据。

首先，对于特殊的格式这里就要制定

　　 dataFrame.write.format("orc")的方式。

其次，对于写入分区表有2种方式，insertInto 和saveAsTable,

　　a) insertInto 不需要制定分区，分区应该是你创建表的时候已经写明了的。

  insertInto() can't be used together with partitionBy().Partition columns have already be defined for the table. It is not necessary to use partitionBy().

　　b) saveAsTable 抛异常：提示你用 insertInto，忘了把日志保存了。暂时记着吧。

类似问题：

http://blog.youkuaiyun.com/lc0817/article/details/78211695?utm_source=debugrun&utm_medium=referral

https://stackoverflow.com/questions/32362206/spark-dataframe-saveastable-with-partitionby-creates-no-orc-file-in-hdfs

转载于:https://www.cnblogs.com/parkin/p/7919866.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33769125

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark操作Hive分区表

主要分享大数据相关的知识，如Spark、Hudi

12-07

1万+

我的原创地址：https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言前面学习总结了Hive分区表，现在学习总结一下Spark如何操作Hive分区表，包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据，并记录一下遇到的问题以及如何解决。 1、Spark创建分区表只写主要代码，完整代码见附录......

mysql 删除分区表_MySQL中的分区表（下）

weixin_33238239的博客

01-31

5794

参与评论您还未登录，请先登录后发表或查看评论

MYSQL创建分区时报错Partitioning can not be used stand-alone in query near 'partition by hash(id) partition

一个抽风的女Ren的博客

10-31

3336

Partitioning can not be used stand-alone in query near 'PARTITION BY RANGE COLUMNS(stats_dt) 其实是简单的错误，建立mysql分区时，语句，写错了，在在之前，多了一个分号，报错。分号，应该在建表最后才对。分区不能单独创建，在建表的时候就要创建一个分区表。需要分区的字段必须是在 prima...

spark读取数据写入hive数据表

wangwangstone的博客

02-01

6240

pyspark 从已有数据表读取数据写入目标hive表的代码模板

hive语法之insert overwrite/insert into

cclovezbf的博客

09-05

7686

这里提到了hive2.3.0之后如果表属性有("auto.purge"="true")，当insert overwrite的时候，之前的数据是不会移动到垃圾箱的(会移动哪里呢？这里提到了一个比较有意思的参数("immutable"="true") 这个单词是不可变的意思，insert into本身是追加的意思，加了这个参数后，就代表数据/分区只能被插入一次。---其实这个没啥说的主要是我在hive3.1看到表创建自动带purge=ture ，以为会有详细的解释的。

6、INSERT INTO 语句

未名胡的博客

08-04

1446

insert into 语句用于向表中插入新记录。语法 INSERT INTO 语句可以有两种编写形式。第一种形式无需指定要插入数据的列名，只需提供被插入的值即可： INSERT INTO table_name VALUES (value1,value2,value3,...);第二种形式需要指定列名及被插入的值： INSERT INTO table_name (column

【Hive|Spark】spark写入hive表存储格式问题

hyj

10-14

3167

The format of the existing table default.student is `HiveFileFormat`. It doesn't match the specified format `OrcFileFormat`.;

hive查询不加分区的一个异常

qq_38472465的博客

09-03

309

hive查询不加分区的一个异常

Spark并行度的设定

走向程序的康庄大道

06-21

2672

今天有同事问起Spark中spark.default.parallelism参数的意义，以及该如何设置。故在这里留个记录，算是做个小结。Spark并行度设置的相关因素Spark并行度的设置在Spark任务中是常常会谈及的问题，它是由partition的数量决定的。而partition的数量是由不同的因素决定的，它和资源的总cores、spark.default.parallelism参数、读取数据...

【Pyspark】如何读取和存储hive表

u012067933的专栏

05-17

2553

读取hive表 # sql版本 data = spark.sql("select * from hive_database.hvie_table") # table版本 data = spark.table("hive_database.hvie_table") 存储为hive表 # 临时表 data.registerTempTable("data_tmp") # 创建方式 spark.sql("create table hive_database.hvie_table as select * f

Spark SQL：Hive数据源复杂综合案例实战

weixin_34390996的博客

09-28

223

一、Hive数据源实战 Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。HiveContext继承自SQLContext，但是增加了在Hive元数据库中查找表，以及用HiveQL语法编写SQL的功能。除了sql()方法，HiveContext还提供了hql()方法，从而用Hive语法来编译sql。使用Hiv...

Spark连接Hive，进行Hive数据表的读写操作

sgyuanshi的博客

02-27

1956

基础环境 Hadoop安装-1，hadoop安装-2 spark安装 Hive安装配置将Hive的conf目录下的hive-site-xml文件拷贝到spark的conf目录下；将Hive中的mysql驱动包（mysql-connector-java-8.0.22.jar，根据自己mysql的版本进行选择）也拷贝到spark的jars目录下； spark-shell 当完成了上面的步骤之后，在spaek-shell中，就可以访问hive了。 import org.apache.spark.sq

Hadoop与Spark并行度设置问题（mr、spark任务提交参数的设置、spark-submit参数调优）

zxlove

07-02

1721

并行度的影响合理的并行度，不能太小也不要过大。并行度较小：并发度小，执行效率低；（失去分布式计算的意义）并行度过大：资源申请上的劣势。导致ApplicationMaster在向yarn提交资源申请时不能做到数据本地化（分配执行任务的机器不是数据所在机器，yarn resourcemanager在分配资源时选择数据本地、同机架、集群随机三种方式，优先级从前到后），甚至由于集群剩余资源不足而处于排队等待状态，申请资源时间成为整个任务执行时间的瓶颈；每个task的初始化时间拖了任务执行时间的后腿（一

解决 need to specify partition columns because the destination table is partitioned

热门推荐

alongwaywith的博客

03-22

1万+

原因是这个表是分区表，需要制定分区。即在后面加上 partition（分区=“”）

Spark读取hive表

Mophistoliu的博客

02-23

4032

Spark读取hive表 hive相关安装问题，请参见别的资料由于在hive里面操作表是通过mapreduce的方式，效率较低，本文主要描述如何通过spark读取hive表到内存进行计算。第一步，先把$HIVE_HOME/conf/hive-site.xml放入$SPARK_HOME/conf内,使得spark能够获取hive配置本次主要遇到两个坑 Hive在spark2.0.0启动时无...

配置支持Spark操作Hive表数据，使用Intellij

weixin_38670967的博客

01-15

899

spark2版本使用SparkSession作为统一入口，所以第一步就是给SparkSession增加Hive支持： enableHiveSupport（） val spark = SparkSession .builder() .appName("Spark Hive Example").master("local[*]") .enableHiveSuppor...

pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题

qq_34446614的博客

08-25

1317

文章目录pyspark 操作hive表1> `saveAsTable`写入2> `insertInto`写入2.1> 问题说明2.2> 解决办法3>`saveAsTextFile`写入直接操作文件 pyspark 操作hive表 pyspark 操作hive表，hive分区表动态写入；最近发现spark动态写入hive分区，和saveAsTable存表方式相比，文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。 1> saveAsTab

spark优化之分区插入

大怀特的博客

09-23

1379

spark.sql.sources.partitionOverwriteMode STATIC When INSERT OVERWRITE a partitioned data source table, we currently support 2 modes: static and dynamic. In static mode, Spark deletes all the partitions that match the partition specification(e.g.

Spark读写Hive与MySQL数据实战指南

下面将详细介绍如何使用Spark读写Hive和MySQL的相关知识点。 ### Spark与Hive的集成 Apache Hive是一个建立在Hadoop之上的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能...