spark和Hive统计结构不一样的问题解决

最新推荐文章于 2024-05-16 20:12:02 发布

黑肚皮的窝

最新推荐文章于 2024-05-16 20:12:02 发布

阅读量726

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据行舟文章标签： hive spark big data

本文链接：https://blog.youkuaiyun.com/joomlaer/article/details/120901304

大数据行舟专栏收录该内容

4 篇文章

订阅专栏

博客内容讲述了在使用Spark-SQL读取Hive表时遇到无结果的问题，经检查发现可能是由于Spark与Hive的元数据存在冲突。通过在Spark-SQL命令中添加配置参数`spark.hadoop.metastore.catalog.default=hive`和`spark.sql.hive.convertMetastoreOrc=false`，成功解决了这个问题。该问题涉及到Hive表的ORC压缩格式和Spark对Hive元数据的处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：

select * from dws.dws_example where dt = '2021-10-19' limit 10;

用Hive可以读取。

但是用spark-sql读取没有结果。

并且读取另外的分区，

select * from dws.dws_example where dt = '2021-10-19' limit 10;

都能读取到记录。

解决思路：

到hive里show create table

得到结果:

|   'orc.compress'='SNAPPY',

怀疑这个问题是spark和hive元数据冲突。

查看spark文档，得到解决方案。

spark-sql --conf spark.hadoop.metastore.catalog.default=hive --conf spark.sql.hive.convertMetastoreOrc=false

问题搞定。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑肚皮的窝

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop、Spark和Hive调优优化原理

AI天才研究院

08-03

1235

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架，包括Hadoop、Pig、Hive、Mahout、Storm等。

Hive on Spark 与 Spark SQL 的区别

最新发布

2401_83088008的博客

03-21

839

Hive on Spark 和 Spark SQL 虽然都用于处理结构化数据，但它们在本质、架构、语法使用、性能特点、数据处理能力、生态系统集成和使用场景等方面存在着明显的区别。Hive on Spark 是 Hive 执行引擎的扩展，更适合传统的数据仓库场景，利用 Spark 提升 Hive 查询性能；而 Spark SQL 是 Spark 的一个模块，具有独立的查询优化器，更适合交互式查询和实时数据处理场景。在实际项目中，我们需要根据具体的需求和场景来选择合适的工具。

参与评论您还未登录，请先登录后发表或查看评论

spark和hive在一些函数上的不同

DCHAO的博客

07-29

563

spark和hive在一些函数上的不同

同一条sql语句，使用Spark Sql 和 hive Sql查询数据结果不一致

Tate的博客

10-12

2300

同一条sql语句，使用Spark Sql 和 hive shell 查询数据结果不一致 1、sql语句 2、spark sql 执行结果 3、hive sql 执行结果 4、原因 Hive写入Parquet/Orc表时，实现了自己的一个SerDe，Spark觉的Hive的SerDe性能比较低，于是实现了自己的SerDe。因此碰到Parquet、Orc的表数据写入时，SparkSQL默认使用自己内部的SerDe。 5、解决方式 .config(“spark.sql.hive.convertMetast

Hive与SparkSQL语法差异

书忆江南的IT博客

10-31

6219

解决方案：（1）修改UDF代码，把static相关变量去掉换成非static的变量（2）把SimpleDateFormat设置成ThreadLocal的：（3）使用 joda-time来转换日期时间。

hive on spark: 数据统计分析

eyeofeagle的博客

10-22

1030

1, 需求分析数据源/数据格式　: 某医院的hbase表–> 映射hive 外表–> 使用hive函数分析数据 person_name oper_code oper_time oper_group_num person1 1 2018/9/3 12:23 person1_0001 person1 2 ...

Spark实现HIVE统计结果导入到HBase操作

大数据挖掘SparkExpert的博客

12-31

4788

由于HIVE更新的机制极其不适应SPARK环境，于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问，得到RDD，再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步： (1)开启hive连接器，实现spark + hive的访问，得到dataframe对象。

Hadoop生态简介，Hive、Spark、HBase等

随便写写，随便写写

05-16

9620

Hadoop生态全景介绍，Spark、Hive、HBase等

spark＋hive系统和spark＋spring系统一样不

03-02

### Spark与Hive集成系统和Spark与Spring集成系统的异同 #### 不同点 - **技术栈差异** - 在 Spark 和 Hive 的集成中，主要涉及大数据处理框架之间的交互。这种集成允许通过 Hive 查询引擎利用 Spark 的分布式...

大数据最佳实践-hive on spark

m0_57468722的博客

11-27

2002

目录 Hive on Spark与SparkSQLSpark 内存配置spark动态分配Hive Hive on Spark与SparkSQL Hive是Hadoop中的标准SQL引擎，也是最古老的引擎之一。H...

Spark SQL实战：使用Spark SQL 连接hive ，将统计结果存储到 mysql中

Movle

05-19

1930

1.需求：使用Spark SQL 连接hive ，读取数据，将统计结果存储到 mysql中 2.将写好的代码打包上传的集群，然后提交spark运行，前提是hive，HDFS已经启动 3.代码： (1)pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>

spark sql读取不到orc格式hive表数据问题

03-04

9121

1、问题在做spark数据对账时，对于部分orc格式的hive表，会有spark sql读取表数据为空的情况排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放数据文件，而是先有子目录HIVE_UNION_SUBDIR_x，子目录下再存放数据文件参考文章： https://support.huaweicloud.com/cmpntguide-mrs/mrs_01_2309.html https://bl

Hive上游为ORC格式的表，下游读取不完整

hsh9794的博客

02-14

620

下游读取数据的时候，一直反复尝试，数据仍然不完整，理论上来说上游有四条数据，下游始终只能读到一条，反复排查后发现上游的任务都是spark类型，下游是用hive进行处理的时候会遇到这种问题，原因是下游的hive和上游的spark对于ORC格式的处理方式有所区别，spark底层对于读和写替换了原有的hive方案，所以导致两边不兼容，引发了数据不对齐的情况。遇到同类问题，采用spark.sql.hive.convertMetastoreParquet=false也可以解决问题。

Spark&Hive互通

Nice789987的专栏

07-24

900

目录问题配置原理问题通过hive beeline进入后建的表与通过spark-sql进入建表互相不可见配置 //变量位置：org.apache.hadoop.hive.metastore.conf.MetastoreConf.ConfVars#CATALOG_DEFAULT//默认值CATALOG_DEFAULT("metastore.catalog.default","metastore.catalog.default","hive", "T..

ambari spark连接hive出现的问题和解决

Sivan

01-11

2445

1.使用spark连接hive时，数据目录总是spark的目录，而不是hive的元数据目录官网说的是需要把hive-site.xml还有hadoop和hdfs的核心配置拿到spark的conf下，经过测试，其实只需要把hive-site复制过去就可以。但是spark的conf下已经有了一个hive-site，经过比对，这两个hive-site的内容是不一样的，所以如果在这个时候运行sparksql的话，加载的是spark的warehouse。这个可以理解成spark的内置hive，必须要把这个内置的hi

Apache Spark源码走读之13 -- hiveql on spark实现详解

weixin_34255055的博客

06-04

193

欢迎转载，转载请注明出处，徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块，更为引人注意的是对hive中的hiveql也提供了良好的支持，作为一个源码分析控，了解一下spark是如何完成对hql的支持是一件非常有趣的事情。 Hive简介 Hive的由来以下部分摘自Hadoop definite guide中的Hive一章 “Hive由Facebook出品，其设计之初...

Ambari Spark 集成Hive

qq_39937778的博客

09-09

2024

Ambari、Spark、Hive、ES Ambari中Spark与Hive的集成

Spark 2.0的SparkSession详解

躬行谷

01-15

5474

Apache Spark 2.0引入了SparkSession，为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是，它减少了用户需要了解的一些概念，使得我们可以很容易地与Spark交互。本文将介绍在Spark 2.0中如何使用SparkSession。

Spark SQL兼容Hive及扩展

junerli的博客

11-28

4602

前言相比于Shark对Hive的过渡依赖，Spark SQL在Hive兼容层面仅依赖HQL Parser、Hive Metastore和Hive SerDes。也就是说，从HQL被解析成抽象语法树(AST)起，就全部由Spark SQL接管了，执行计划生成和优化都由Catalyst负责。本文接下来对于Spark SQL在兼容Hive过程中对于Catalog，SqlParser，A