问题描述
初学大数据处理框架 spark ,在读入实验的数据时,遇到了经典的字符编码问题
实验环境:
os:ubuntu 18.04
spark: version 2.4.0
使用spark读入的文件编码是 gbk,大小是10Gb
根据spark的文档介绍,使用的函数是
SparkConf conf = new SparkConf().setAppName("first").setMaster("local");
JavaRDD<String> distFile = sc.textFile("data.txt");
由于这个函数只能固定使用UTF-8编码格式读取文件
然后读到的结果就成