0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析

最新推荐文章于 2023-03-05 02:44:53 发布

原创

最新推荐文章于 2023-03-05 02:44:53 发布 · 624 阅读

3 ·

CC 4.0 BY-SA版权

本文分析了Spark在读取由Impala创建的Parquet文件时遇到的字符串显示为二进制的问题，详细介绍了问题的原因、如何通过Spark SQL、定义schema以及启动参数来解决这个问题，并提供了相应的配置参考。

Fayson的github： https://github.com/fayson/cdhproject

推荐关注微信公众号：“Hadoop实操”，ID：gh_c4c535955d0f

1 问题重现

测试环境：

1.RedHat7.4
2.CDH6.1.1
3.使用root进行操作

1.使用Impala创建Parquet表并插入数据

create table test_parquet(id int,name string) stored as parquet;
insert into test_parquet values(1,'test'),(2,'vivi');

在这里插入图片描述
2.使用Impala查看数据，数据显示正常。

select * from test_parquet;

在这里插入图片描述
3.使用CDH6.1.1中的Spark2.4访问该数据文件。

val df=spark.read.parquet("hdfs://ip-172-31-6-83.ap-southeast-1.compute.internal:8020/user/hive/warehouse/test_parquet")
df.show()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hadoop_SC

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

列存格式详解：Parquet / ORC / CarbonData 技术原理、对比与应用选型

AI天才研究院

04-15

470

格式核心优势主要劣势最佳应用场景Parquet嵌套数据支持、生态系统广泛、跨平台兼容性点查询性能较弱、不支持更新删除批处理分析、复杂嵌套数据、跨平台数据交换ORC高压缩率、内置索引、Hive优化嵌套数据支持较弱、生态系统相对局限Hive查询、存储敏感场景、ETL管道CarbonData多维索引、更新删除支持、OLAP优化配置复杂、资源消耗较高OLAP多维分析、实时数据仓库、混合查询负载。

0487-CDH6.1的新功能

Hadoop_SC的博客

01-12

7724

北京时间2018年12月19日，Cloudera正式发布Cloudera Enterprise 6.1.0，上次发布CDH6.0是8月30日，差不多过去了3个多月的时间，参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新，但更新内容较多，在开始接下来的细化功能讨论前，我们先看看几项重点更新的内容： 1...

参与评论您还未登录，请先登录后发表或查看评论

spark连接Impala，查询返回Json

我在深圳的这些日子的博客

03-10

2210

1、Impala介绍 Impala是大数据实时查询分析引擎。直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，也就是说hive活着，impala才能存在，否则随着消失。 2、Impala特点基于内存进行计算，能够对PB级数据进行交互式实时查询/分析；无需转换为MR，直接读取HDFS数据 C++编写，LLVM统一编译运行兼容HiveSQL 具有数据仓库的特性，可对hi

parquet文件上传到hdfs_0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析

weixin_39939530的博客

12-20

264

作者：冉南阳1.问题重现测试环境：1.RedHat7.42.CDH6.1.13.使用root进行操作1.使用Impala创建Parquet表并插入数据。create table test_parquet(id int,name string) stored as parquet;insert into test_parquet values(1,'test'),(2,'vivi');2.使用Imp...

spark访问impala_Impala原理|Impala元数据简介

weixin_39613692的博客

12-18

1040

点击上方“hadoop123”关注我们知名的大数据中台技术分享基地，涉及大数据架构(hadoop/spark/flink等)，数据平台(数据交换、数据服务、数据治理等)和数据产品(BI、AB测试平台)等，也会分享最新技术进展，大数据相关职位和求职信息，大数据技术交流聚会、讲座以及会议等。背景Impala是一个高性能的OLAP查询引擎，与其它SQL-on-Hadoop的ROLAP解决方案如...

impala查询语句_06396.1.1Spark读取由Impala创建的Parquet文件异常分析

weixin_36260304的博客

12-30

277

作者：冉南阳1问题重现测试环境：1.RedHat7.42.CDH6.1.13.使用root进行操作1.使用Impala创建Parquet表并插入数据。createtabletest_parquet(idint,namestring)storedasparquet;insertintotest_parquetvalues(1,'test'),(2,'vivi');2.使...

spark读取impala表（未认证Kerberos）

wenwen1542的博客

02-14

456

spark读取impala表

Hadoop数据模型：Avro与Parquet文件格式探秘

它采用了分布式文件系统（HDFS）和分布式计算框架（MapReduce）来处理海量数据。在Hadoop中，数据被分割成多个块并分布在不同的节点上进行并行处理。 Hadoop的数据模型是基于键值对（Key-Value）的，其中Key是数据...

从入门到精通 - Fayson带你玩转CDH

Hadoop_SC的博客

09-22

4275

Fayson保持每天推一篇文章，本文随之每天更新。以下所有文章均为超链接，可以直接点击文章名跳转。还没附上超链接的文章是还没上传的，会再后续更新后陆续补上 1.规划设计 1.1.on-premise部署规划 0001-《CDH网络要求(Lenovo参考架构)》 0062-《如何为Hadoop集群选择正确的硬件》 0158-《如何给Hadoop集群划分角色》 1.2.on private c...

spark 通过kerberos认证连接impala 获取ResultSet集合转为DataFrame 并写入hive

qq_52095156的博客

06-20

1014

def main(args: Array[String]): Unit = { val impala_db = args(2) // 查询impala库 val impala_tab = args(3) // 查询表名 val query_where = args(4) //查询条件如Scan全表传空字符串 val LOGGER = LoggerFactory.getLogger(RimpalaDemo2.getClass)//设置日志 // jdbc url 使用kerbero

【Spark】Spark的DataFrame向Impala写入数据异常及源码解析

善皮之的博客

03-05

1301

spark使用impala jdbc 写入数据会发生报错。

redis（解决方案）

weixin_45650737的博客

10-05

261

缓存预热服务器启动后迅速宕机 1.请求数量较高 2.主从之间数据吞吐量较大，数据同步操作频度较高解决方案前期准备工作 1.日常例行统计数据访问记录，统计访问频度较高的热点数据 2.利用LRU数据删除策略，构建数据留存队列，例如:storm与kafka配合准备工作： 3.将统计结果中的数据分类，根据级别，redis优先加载级别较高的热点数据 4.利用分布式多服务器同时进行数据读取，提取数据加载过程实施： 1.使用脚本程序固定触发数据预热过程 2.如果条件允许，使用CDN（内容分发方案），效果会更好

parquet文件在spark中的读取

大鱼的博客

07-11

2679

parquet文件本质是json文件的压缩版，这样不仅大幅度减少了其大小，而且是压缩过的，比较安全一点，spark的安装包里面提供了一个例子，在这个路径下有一个parquet文件： spark-2.0.1-bin-hadoop2.7/examples/src/main/resources 我们可以查看一下： [root@hadoop001 resources]# cat users.par...

Spark实战2：实现impala的分桶查询

慎在于畏小，智在于治大

05-07

2134

Spark实战2：实现impala的分桶查询问题来了问题场景需求分析分析结果解决之前的文章中博主讲过对parquet文件进行了按照时间（年月日）的分区，是为了减少每次日常离线任务，所需要加载的数据量。这样按照year=2019/month=01/day=01的分区，可以使spark作业每天准确的加载前一天的数据进行计算。但是，还有一个问题在这样的分区下无法解决。那么，问题来了。问题来了虽然按...

生态圈辅助工具_Day04_Apache Kudu-（安装部署、Java操作、Spark操作、整合impala、数据模型、读写流程）

qq_40233706的博客

11-03

193

今日收获： Apache Kudu 掌握Apache Kudu概述和应用场景理解Apache Kudu架构掌握Apache Kudu 安装部署掌握Apache Kudu java操作掌握Apache Kudu spark操作掌握Apache Kudu 集成impala 理解Apache Kudu 原理 ...

spark读写kudu

Yuan_CSDF的博客

12-05

1112

def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[*]") .appName("SparkKudu") .enableHiveSupport() .getOrCreate() val kuduMaster...

spark 让binary 格式数据自动转成string

遥望......

12-11

4203

conf.set("spark.sql.parquet.binaryAsString","true") new String(x.getAs[Array[Byte]]("field"))

Spark SQL的Parquet那些事儿.docx

大数据星球-浪尖

04-28

1774

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对par...

parquet-tools工具使用

一名程序猿的博客

02-09

2824

parquet-tools工具的使用及出现的问题解决

掌握LFS-6.1.1教程，快速成为Linux系统老手

【压缩包子文件的文件名称列表】中的"LFS-6.1.1"表明相关的文件或资料包中包含了LFS-6.1.1版本的指导书，以及可能包括的源代码、补丁和其他辅助文件。 LFS的构建过程大致可以分为以下几步： 1. 准备构建环境：包括...