将spark输出到hdfs的文本数据压缩成gzip格式

最新推荐文章于 2022-08-24 16:52:47 发布

字节侠

最新推荐文章于 2022-08-24 16:52:47 发布

阅读量2.6k

点赞数

分类专栏： Spark 大数据

本文链接：https://blog.youkuaiyun.com/u011462328/article/details/105251792

版权

大数据同时被 2 个专栏收录

13 篇文章

订阅专栏

Spark

2 篇文章

订阅专栏

适合Spark SQL和Spark Structured Streaming

直接上代码

SparkSession spark = SparkSession
		             .builder()
		             .appName("spark-job")
		             .getOrCreate();
RuntimeConfig conf = spark.conf();
// text compress
conf.set("mapreduce.output.fileoutputformat.compress", "true");
conf.set("mapreduce.output.fileoutputformat.compress.type", SequenceFile.CompressionType.BLOCK.toString());
conf.set("mapreduce.output.fileoutputformat.compress.codec", "org.apache.hadoop.io.compress.GzipCodec");
conf.set("mapreduce.map.output.compress", "true");
conf.set("mapreduce.map.output.compress.codec", "org.apache.hadoop.io.compress.GzipCodec");

spark
	.read()
	.parquet("hdfs://aaaa")
	.select("abc")
	.write()
    .format("text")
    .mode(SaveMode.Overwrite)
    .save("hdfs://bbbb");