Spark 读取文件中文乱码解决

最新推荐文章于 2022-05-25 16:49:16 发布

原创最新推荐文章于 2022-05-25 16:49:16 发布 · 7.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #scala #java

Spark篇专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一种解决Spark处理中文文本时出现乱码的方法。通过先读取文本到内存中，并转换为List，再转化为Spark所需的格式来规避乱码问题。同时也提供了使用HadoopFile API读取文件并指定字符集的示例。

部署运行你感兴趣的模型镜像

当我们获取文本文件数据源是，直接使用如下代码会出现中文乱码问题

val txt = sc.textFile(rootPath+ "/4/*")

解决方案：将文本先用数据流读进内存，转化成list，在转化成spark需要的格式。

 val files = Source.fromFile("i:\\1\\1.txt","gbk" ).toList
  val rddt = sc.parallelize(files)
  
  rddt.foreach { print }

 sc.hadoopFile(rootPath+ "/1/1.txt",classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{
      pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_13851

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【spark sedona geospark】sedona读取shp文件中文乱码问题

m0_53928179的博客

06-19

797

sedona读取shp文件中文乱码问题

Hive on Spark：解决hive中文乱码

weixin_55842692的博客

01-10

1338

客户端写入中文，服务端存储中文，客户端查询中文，所以客户端对中文进行编码时，不能乱：（1）必须使用可以支持中文编码的字符集：url参数后面添加 useUnicode=true&characterEncoding=UTF-8 （2）服务端收到中文后，必须用中文存，设置表的字符集： #修改字段注释字符集 alter table COLUMNS_V2 modify column COM...

参与评论您还未登录，请先登录后发表或查看评论

Spark DataFrame 读取 text（文本文件）乱码

a8131357leo的博客

08-07

1777

目前，Spark 2.4.3 读取 text（文本文件）的时候，只支持 UTF-8 编码，如果是其他编码（例如 GBK），返回的 DataFrame 会出现乱码。 import org.apache.spark.sql.functions.{col, decode} spark.read.format("text").load(filePath).select(decode(col("value"), encoding).as("value")) ...

解决spark中文乱码

u012893747的博客

06-02

1万+

由于spark在读取文件时的默认编码格式为utf-8，所以spark在处理gbk格式的文件时会出现乱码问题，以下代码则可以解决这一问题import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.hadoop.io.LongWritable import org.apache.hado

spark中读取txt文本时出现乱码

XIAOMO__的博客

08-23

808

spark中读取txt文本时出现乱码：我的属于第二种文件有问题。 (user03,CompactBuffer((7,(��,user03)))) (user11,CompactBuffer((6,(�Ļ�,user11)))) (user06,CompactBuffer((4,(��,user06)))) (user10,CompactBuffer((16,(�Ļ�,user10)), (6,(��,user10)))) (user02,CompactBuffer((2,(��,us.

parquet文件在spark中的读取

大鱼的博客

07-11

2681

parquet文件本质是json文件的压缩版，这样不仅大幅度减少了其大小，而且是压缩过的，比较安全一点，spark的安装包里面提供了一个例子，在这个路径下有一个parquet文件： spark-2.0.1-bin-hadoop2.7/examples/src/main/resources 我们可以查看一下： [root@hadoop001 resources]# cat users.par...

spark-df读取含有中文的文件显示乱码-easy

自渡

07-18

1171

spark.read.format("parquet").option("encoding","gbk") .option里不是只能("header","true") 它的参数是key和value 就不会只局限于Header true 这些应该官方文档上会有写...虽然...我并没有看... ...

Spark读取HDFS加密区数据乱码问题解决

piduzi的博客

07-16

657

因为项目需求，需要启用hdfs加密区，为了验证对现有程序的影响，我在自己的集群上配置了加密区，并测试spark和java程序读取数据。 spark程序代码如下 System.setProperty("HADOOP_USER_NAME", "user1") val spark = SparkSession .builder() .master("local") .getOrCreate() // val data = spark.read.

spark 读取csv 中文乱码

最新发布

03-24

### Spark读取CSV文件时中文乱码的解决方案当使用Spark读取CSV文件时，如果源数据采用GBK或其他非UTF-8编码格式，则可能会出现中文乱码问题。这是因为`spark.read.textFile()`和`spark.read.csv()`等方法默认以UTF...

hdfs集群txt文件乱码问题，Hadoop文件输出查看中文乱码解决方法

m0_46589413的博客

04-24

6108

hdfs集群txt文件乱码问题，Hadoop文件输出查看中文乱码解决方法

Spark读取日志文件集中文乱码解决方法

11-30

4081

Spark读取日志中文乱码解决方法问题展示 �� 一般来说,这个问题多出现于GBK与UTF-8编码互相转换时。众所周知，GBK编码是windows系统的编码格式,而UTF-8是linux系统的编码格式,而且Git等开源软件也都使用UTF-8编码,所以简单了解这种编码问题就是一件十分必要的事情。乱码切入 “��” “锟斤拷” "手持两把锟斤拷,口中疾呼烫烫烫,脚踏千朵屯屯屯,笑看万物锘锘锘” 先来段梗，娱乐一下，给出百科的解释，给各位科普一下这里先分析下乱码原因，因为spark没有自己读取文

spark环境docker镜像二次开发--解决中文乱码

a18792721831的博客

02-12

518

spark环境docker镜像二次开发0.前言1.准备2.编写dockerfiel3.启动4.异常排查 0.前言官网的spark环境是英文环境，如果我们的spark在国内运行，就会出现中文乱码的问题。所以二次开发可以在官网镜像的基础上，定制一些本地化的修改。本次修改较小，只是解决中文乱码问题。中文乱码问题本质上是请求与返回的中文编码方式不一致的原因造成的。所以本次就是以修改镜像的语言环境...

spark解决text乱码问题

weixin_30314631的博客

04-12

800

package test import org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveConte...

解决scala_spark本地读取csv中文乱码问题