spark-shell 显示乱码

最新推荐文章于 2022-10-23 11:14:08 发布

转载最新推荐文章于 2022-10-23 11:14:08 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/parkin/p/7879221.html

文章标签：

#大数据 #shell

本文介绍如何在Spark环境中解决读取Orc格式文件出现乱码的问题。通过修改字符集为UTF-8，并引入相应的解码类，最终解决了乱码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用spark shell 进入console环境

查看字符集

scala> System.getProperty("file.encoding")
res5: String = ISO-8859-1

修改字符集为UTF-8

scala> System.setProperty("file.encoding","UTF-8")
res4: String = ISO-8859-1  // 这里返回的结果显示非utf-8 ，但是再用上面查看的命令发现，其实已经设置成功。

到此我的问题，其实并没解决。

情况依旧。

然后发现文件在hdfs上以OrcOutputFormat格式存储，所以显示乱码。

需要引入解码类

scala> textFile.first()
res7: String = ORC ???b?b?????Em????????d??! ?.o%U.~?T ???0M5MK?L5??W0??K????9???�{
ke9??8?????

scala> import org.apache.spark.sql.hive.orc._
import org.apache.spark.sql.hive.orc._

　／／以上操作后，问题解决。

转载于:https://www.cnblogs.com/parkin/p/7879221.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33794672

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

解决Python shell中Delete-Backspace键乱码问题

howard2005的专栏

02-22

1219

解决Python shell中Delete-Backspace键乱码问题

Spark基础学习笔记27：Spark SQL数据源 - Hive表

howard2005的专栏

05-12

1226

利用Spark SQL读取和写入Hive表

参与评论您还未登录，请先登录后发表或查看评论

Spark 处理中文乱码问题（UTF-8编码）

热门推荐

Amber_amber的专栏

12-03

3万+

问题场景要用spark处理一大堆微信日志数据，日志存放在HDFS上，是xml格式，里面有大量的中文。用scala + java实现了xml的处理逻辑，其中有一步是要获取xml中的一个title字段，中文。不管怎么抓取，最终得到的中文都会变成一堆“？？？？？”，乱码了。从xml中获取非中文字段，没有任何问题。也就是说，代码的逻辑是没什么问题的。

spark加载中文乱码

龍博客

07-18

7740

spark加载中文乱码在有些时候，spark加载HDFS或者本地文件中的中文时候会出现乱码的现象，因此需要在加载的时候进行一些字符的编码设置，将加载的文件的编码格式设置为UTF-8 以下是现有的解决方案和案例（直接读取hadoop file） val rdd = sc.hadoopFile(file_path, classOf[TextInputFormat], classOf[Long

Spark 处理中文字符乱码问题

weixin_40448238的博客

06-10

3644

今天使用Spark将处理文本数据并写入mysql中时出现了中文字符是乱码的问题。刚开始，所有的中文字符都是**??**,查了很多的文档之后，将mysql的默认字符集修改为utf-8,但是中文仍然是乱码。插入mysql时，连非中文字段也收到了影响：最后的解决方法是：在提交spark任务时，添加命令行参数： –conf spark.executor.extraJavaOptions="-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8" 数据库显示正常：

2.1、spark shell中使用hive

weixin_30521649的博客

10-16

221

显示所有数据库 scala> val df = spark.sql("show databases") df: org.apache.spark.sql.DataFrame = [databaseName: string] scala> df.show +------------+ |databaseName| +------------+ | bigda...

Spark访问HIVE

weixin_45495389的博客

09-11

342

Spark访问HIVE 知识点1：Spark访问HIVE上面的数据配置注意点：. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你sparkhome/lib中（spark2.0之后是{spark_home}/lib中（spark2.0之后是sparkhome/lib中（spark2.0之后是{spark_home}/jars下），不清楚就全部拷贝过去 2.将Hive的配置文件hive-site.xml拷贝到${spark_home}/conf目录下 3.

Spark-Streaming实时数据分析

努力的凹凸曼的博客

04-30

2645

1.Spark Streaming功能介绍 1）定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams 2.NC服务安装并运行Spark ...

安装启动Spark并使用spark完成java程序及读写Mysql数据库

ANDEL2001的博客

12-09

4515

目录实践目标实践步骤一、安装CentOS二、安装Spark1.下载spark压缩包2. 新建spark专用文件夹3.解压spark包到指定路径/usr/spark下4. 移动spark-3.0.1-bin-hadoop3.2下所有文件5. 修改文件权限6. 验证是否安装成功7. 测试spark shell交互式命令界面8. 查看spark集群三、Spark独立应用程序编程1. 安装sbt2. 编写应用程序3. sbt打包程序4.通过spark-submit提交并运行程序四、Java独立程序1. 安装mave

spark 中文编码处理

weixin_30709929的博客

06-09

948

日志的格式是GBK编码的，而hadoop上的编码是用UTF-8写死的，导致最终输出乱码。研究了下Java的编码问题。网上其实对spark输入文件是GBK编码有现成的解决方案，具体代码如下 import org.apache.hadoop.io.LongWritable import org.apache.hadoop.io.Text import org.apache....

linux解决中文乱码问题

12-09

解决linux环境中出现中文乱码的情况。

解决spark中文乱码

u012893747的博客

06-02

1万+

由于spark在读取文件时的默认编码格式为utf-8，所以spark在处理gbk格式的文件时会出现乱码问题，以下代码则可以解决这一问题import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.hadoop.io.LongWritable import org.apache.hado

mac电脑shell中的字符乱码

kookbook的专栏

02-07

1996

mac shell乱码

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

ghw666666666的博客

10-23

2万+

（1）安装Spark 1.先用xftp将安装包传到home/hadoop/Downloads文件夹下，然后解压安装。 2.解压缩： 3. 更改文件夹名称： 4.修改hadoop用户对文件夹spark的访问权限：（2）配置 1.复制一份由Spark安装文件自带的配置文件模板：如图所示：返回结果：Pi is roughly 3.144115720578603。

离线轻量级大数据平台Spark之中文字符显示问题的解决

医疗影像检索

11-23

4713

问题：spark读取文本文件转化成JavaRDD后发现中文字符显示乱码。在spark-shell环境里执行：System.getProperty("file.encoding")，返回GB2312，和文本文件UTF-8编码不一样。解决：在spark的Java代码中加入字符集设置即可。 //第一步：设置Java环境字符集，避免中文乱码 Properties pps=System.getP

SecureCRT运行SparkShell 删除键出现乱码的解法

敏叔

06-18

618

SecureCRT 通过spark-shell启动控制台之后发现没办法进行删除操作一直按删除健没用选择----->会话选项---->映射键---->勾选两个勾仿真---->终端选择linux 乱码问题，调整一下编码记得重启一下,后面界面也会变成linux的画风哦...

Spark 2.0系列之SparkSession详解

imgxr的博客

08-23

5648

原文链接：How to use SparkSession in Apache Spark 2.0 作者：Jules Damji 译者：刘旭坤责编：郭芮，关注大数据领域，寻求报道或投稿请发邮件guorui@youkuaiyun.com。另有优快云 Spark用户微信群，请添加微信guorui_1118并备注公司+实名+职位申请入群。 Spark2.0中引入了SparkSession...

Linux使用退格键时出现 H 解决方法,Linux使用退格键时出现^H解决方法

weixin_36258014的博客

05-13

4779

以前在linux下执行脚本不注意输错内容需要删除时总是出现^H ，以前不知道真相的我没办法只有再重头运行一次脚本，后来发现其实时有解决办法的，所以记录一下。^H不是H键的意思，是backspace。主要是当你的终端backspace有问题的时候才需要设置。解决方法有两种：1、要使用回删键(backspace)时，同时按住ctrl键2、设定环境变量在脚本的开头或结尾参数 stty erase ^H...

解决Linux下Spark的乱码问题

稀有猿诉

11-04

2036

1，找到jre路径，创建fallback文件夹代码:#cd /home/gaoyibo/comodo/openfire/Spark/jre/lib/fonts #mkdir fallback#cd /home/gaoyibo/comodo/openfire/Spark/jre/lib/fonts # mkdir fallback 2，进入fallback文件夹，链接中文字体（我选的是文泉驿正黑）代码:#cd fallback #ln -s /usr/share/fonts/truetype/

spark－shell显示系统找不到文件

06-02

如果您在运行 Spark-shell 时遇到“显示系统找不到文件”的错误，可能是以下原因导致： 1. 您没有正确设置 Spark-shell 的路径或者环境变量。 2. 您的 Spark-shell 安装文件被删除或者移动到了其他位置。 3. 您的操作系统或者软件存在问题。您可以按照以下步骤尝试解决问题： 1. 确认您的 Spark-shell 安装文件是否存在，并且路径是否正确。 2. 检查您的操作系统和软件是否存在问题，例如是否需要更新或者修复。 3. 确认您是否正确设置了 Spark-shell 的路径和环境变量。 4. 尝试重新安装 Spark-shell，确保安装时没有出现任何错误。 5. 如果以上步骤都不能解决问题，您可以尝试在 Spark-shell 的启动命令中指定正确的文件路径。希望以上建议能帮助您解决问题。