代码量
计算平均数
使用hadoop的方式

spark方式-RDD

spark方式-DataFrame

spark方式-SQL

综上,很明显使用spark方式的DataFrame或者SQL都可以使代码可读性更好,代码更精简。
读写数据
从json读数据:df = sqlContext.read.format("json").option("samplingRatio", "0.1").load("/home/user1/data.json")
将文件写入json:df.write.format("parquet").mode("append").partitionBy("year").saveAsTable("fasterData")

2667

被折叠的 条评论
为什么被折叠?



