最近花了半个月时间研究了一哈scala 感觉可以做的东西还是蛮多了。目前工作清洗40多G的数据很费劲(采用oracle做很费事),所有研究了spark来清洗离线数据。
废话不多说开始程序设计:
首先我想到的是输入 这里采用HDFS文件。假设我们将oracle的数据采用json格式的形式并且采用urldecode方法转换文本(因为一些特殊字符常常会导致我们的json文件读取异常,所有我这里采用转码的情况来规避这个问题---这里特殊字符和回车换行对我数据来说是合理的)类型的数据。
主函数代码:
def main(args: Array[String]) { //输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS init() --加载公参数据 if (args.length == 0) { System.err.println("Usage: DateClean <inputfile> <outputfile&g

本文介绍了使用Scala和Spark来清洗40多GB的离线数据,以替代Oracle的繁琐操作。通过从HDFS读取json文件,进行URL解码处理特殊字符,然后初始化程序,读取数据库数据并存储到HashMap中,再进行JSON解析和数据清洗,最终组装成新的JSON格式数据。
最低0.47元/天 解锁文章
5578

被折叠的 条评论
为什么被折叠?



