spark清洗离线数据

最新推荐文章于 2025-11-02 14:11:05 发布

原创

最新推荐文章于 2025-11-02 14:11:05 发布 · 9.8k 阅读

8 ·

CC 4.0 BY-SA版权

本文介绍了使用Scala和Spark来清洗40多GB的离线数据，以替代Oracle的繁琐操作。通过从HDFS读取json文件，进行URL解码处理特殊字符，然后初始化程序，读取数据库数据并存储到HashMap中，再进行JSON解析和数据清洗，最终组装成新的JSON格式数据。

最近花了半个月时间研究了一哈scala 感觉可以做的东西还是蛮多了。目前工作清洗40多G的数据很费劲（采用oracle做很费事），所有研究了spark来清洗离线数据。

废话不多说开始程序设计：

首先我想到的是输入这里采用HDFS文件。假设我们将oracle的数据采用json格式的形式并且采用urldecode方法转换文本（因为一些特殊字符常常会导致我们的json文件读取异常，所有我这里采用转码的情况来规避这个问题---这里特殊字符和回车换行对我数据来说是合理的）类型的数据。

主函数代码：

def main(args: Array[String]) {
  //输入文件既可以是本地linux系统文件，也可以是其它来源文件，例如HDFS
  
  init() --加载公参数据
  if (args.length == 0) {
    System.err.println("Usage: DateClean <inputfile> <outputfile&g