大文件切分小文件

最新推荐文章于 2025-07-11 17:22:17 发布

原创

最新推荐文章于 2025-07-11 17:22:17 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

这篇博客介绍了一种使用Scala处理大文件的方法，将包含5千万条记录、涉及5000个用户的日志文件，按照用户ID拆分为5000个小文件，每个文件以其对应的用户ID命名。文中提供了相关的Scala代码示例，同时提到尝试通过Spark的压缩格式输出以及调整repartition和grouping来优化，但未观察到显著效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用户日志数量：5千万，用户数目5000

需求：按照用户id将文件拆分成5000个小文件，文件已用户id作为文件名称

scala代码如下：可以快速得出结果

package cn.cslc.sdwd.log_AH  
  
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat  
import org.apache.log4j.{Level, Logger}  
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}  
  
/** 
  * 大文件拆分小文件 
  * 例如：用户行为日志：合计5千万条，用户数量5千，想要拆分为5000个以用户id为名字的文件 
  * @Author :LPJ 
  * @Date 2018/6/22 18:20 
  */  
  
//通过调用saveAsHadoopFile函数并自定义一个OutputFormat类  
class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {  
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String =  
    key.asInstanceOf[String]  
}  
object SplitBigFile {  
  
  def main(args: Array[String]): Unit = {  
    //设置日志打印级别  
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)