Spark通过mapPartitions方式加载Json文件，提高文件加载速度

最新推荐文章于 2023-03-22 21:24:50 发布

Michael_Shentu

最新推荐文章于 2023-03-22 21:24:50 发布

阅读量668

点赞数

分类专栏： Spark 分布式内存计算模型

Spark 分布式内存计算模型专栏收录该内容

38 篇文章

订阅专栏

介绍了使用Spark从HDFS加载JSON文件并将其转换为JSON对象的方法。通过优化，将每秒读取速度从1M提升到100M以上，详细说明了采用mapPartitions方法减少JSON解析器创建次数的技术细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这几天遇到了需要从hdfs加载json字符串，然后转化成json对象的场景。刚开始的实现方式见如下代码：

[java]view plaincopy 
   
 val loginLogRDD = sc.objectFile[String](loginFile, loadLoginFilePartitionNum)  
      .filter(jsonString => {  
      //val loginItem = line.toString().split("\t")  
      //LoginRecord(loginItem(0).toInt, loginItem(1), loginItem(2), loginItem(3).toInt, loginItem(4), loginItem(5), loginItem(6), loginItem(7).toInt, loginItem(8), loginItem(9), loginItem(10), loginItem(11), loginItem(12))  
      val json = JSON.parseFull(jsonString)  
      val resultJson = json match {  
        case Some(map: Map[String, Any])  => if (map.get("ip").getOrElse("").equals("")) false else true  
        case None => false  
      }  
      resultJson  
      }).  

从以上代码可知，每条Json记录，都会创建Json解析器来进行解析。

这种方式加载速度特别慢，1s大概才1M左右，并且CPU也特别忙。因此推测是Spark程序有问题导致的。

为了提高记载速度，决定采用mapPartitions方式加载Json串，也就是每个分区只创建一个Json解析器，代码如下：

[java]view plaincopy 
   
 val loginLogRDD = sc.objectFile[String](loginFile, loadLoginFilePartitionNum)  
       .mapPartitions(jsonStringIter=>{  
       val mapper = new ObjectMapper()  
       mapper.configure(DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES, false)  
       mapper.registerModule(DefaultScalaModule)  
       jsonStringIter.map(record => {  
         try {  
           Some(mapper.readValue(record, classOf[JsonLoginRecord]))  
         } catch {  
           case e: Exception => None  
         }  
   
       })  
     })