Scala-spark程序案例

最新推荐文章于 2023-03-20 14:58:24 发布

原创最新推荐文章于 2023-03-20 14:58:24 发布 · 527 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#spark

本文详细介绍使用Apache Spark进行数据去重、清洗及剔除空值的步骤与代码实现，通过具体示例展示了如何有效处理大数据集，确保数据质量。

1.数据去重

程序代码

import org.apache.spark.{SparkConf, SparkContext}
//数据去重
object quchong {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("数据去重").setMaster("local")
    val sc=new SparkContext(conf)
    val sj=sc.textFile("数据文件")
    //去除标题行
    val rdd=sj.take(1)
    val text=sj.filter(!rdd.contains(_))
    //数据清洗
    val sj1=text.filter(_.trim().length>0).map(line=>(line.trim,"")).groupByKey().sortByKey().keys.collect()
    sj1.foreach(println)
    sc.stop()
  }
}

剔除空

一行数据有三个空值就丢掉这行数据（并显示剔除多少条数据）

程序代码：

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

object qkz1 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("去.").setMaster("local")
    val sc=new SparkContext(conf)
    val text=sc.textFile("数据文件")
    val rdd=text.take(1)
    val line=text.filter(!rdd.contains(_))
    val lslist=line.collect().toList
    val list=ListBuffer.empty ++=lslist
    var tcs=0 //剔除记录数
    for (char <- list){
      val a=char.split("\t")
      var count=0//临时计数
      for (char1 <- a){
        if(char1.trim==""){
          count=count+1
        }
      }
      if(count>1){
        tcs=tcs+1
        list-=char
      }
    }
    val jieguo=sc.parallelize(list)
    jieguo.foreach(println)
    println("剔除记录数："+tcs.toString)
	sc.stop()
  }
}