spark处理大量小文件

最新推荐文章于 2024-09-04 09:32:12 发布

转载最新推荐文章于 2024-09-04 09:32:12 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/cjun/blog/681114

文章标签：

#大数据 #python #shell

为什么80%的码农都做不了架构师？>>>

spark core处理小文件

在sparkContext的api中，有HadoopFile相关api，可以定义自己的InputFormat。原理跟MapReduce处理小文件一样，参考之前博客：newAPIHadoopFile。除了复写InputFormat之外，还可以用shell控制文件大小，合并小文件。还可以使用sparkContext的newAPIHadoopFile，如下：

val initRdd = sc.newAPIHadoopFile[LongWritable, Text, CombineTextInputFormat](hdfs_uri + primary_path).map{ line => line._2.toString }

spark sql从hive中读取小文件

spark sql是不会自动合并小文件的（hive会自动合并小文件），小文件越多，产生的task就会越多

当spark sql要从hive中读取表t1，如果使用hive，hive是会对t1表的小文件处理的，但是spark sql不会不会处理小文件，所以我们需要使用间接的方法，首先设置SET spark.sql.shuffle.partitions=20;，然后再执行如下语句：

insert overwrite table splited_tmp select * from splited_tmp_split distribute by rand(123);

最后，新表splited_tmp就是20个文件了。

转载于:https://my.oschina.net/cjun/blog/681114