【第二天】Spark SQL

本文深入探讨了Apache Spark中DataFrame与RDD的区别,详细讲解了DataFrame的select、filter、groupby等常用API,以及如何通过隐式转换、自定义schema等方式进行DataFrame的创建与操作。同时,介绍了DataFrame的show方法使用技巧,以及如何通过反射机制和自定义schema将RDD转换为DataFrame。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • DataFrame与RDD的区别
    在这里插入图片描述

  • DataFrame select、filter的使用说明

    	//隐式转换必须加上,如果不加,第二种、第三种就会报错
        import spark.implicits._    //这里面的spark是指sparksession而不是引入的包
        //第一种方式
        moviesDF.select("title")
        //第二种方式
        moviesDF.select($"title")
        //第三种方式
        moviesDF.select('title)
        //如果用filter取出相等操作,需要用三个=
    	moviesDF.filter($"age" === 21).show()
    	//使用了groupby之后最好使用agg,而不是直接使用sum,如下面示例
    	agg(Map(
        "salary" -> "avg",
    	"age" -> "max"
    	 ))
    	 //如果想使用下面这种写法,需要引入内置函数
    	 import org.apache.spark.sql.functions._
    	 InfoDF.groupBy("domain").agg(sum("responseSize"))
    
  • DataFrame show的使用说明

    def show(numRows: Int): Unit = show(numRows, truncate = true)
    
      /**
       * Displays the top 20 rows of Dataset in a tabular form. Strings more than 20 characters
       * will be truncated, and all cells will be aligned right.
       *
       * @group action
       * @since 1.6.0
       */
      def show(): Unit = show(20)
      /**
    * Displays the top 20 rows of Dataset in a tabular form.
    *
    * @param truncate Whether truncate long strings. If true, strings more than 20 characters will
    *                 be truncated and all cells will be aligned right
    *
    * @group action
    * @since 1.6.0
    */
    def show(truncate: Boolean): Unit = show(20, truncate)
    

    源码中指出,show默认显示前20行,也可以自己指定显示行数
    truncate = true表示字段的值会截取前20个字符,后面有…来表示,如果想全部显示,需要调用show(false)

  • RDD->DataSet(非常重要)
    下面两种构造DataFrame的方式,自定义schema用的较多,因为用反射机制的前提是已经知道了schema的信息,而很多时候,schema是无法用case class方式定义,比如对于不同的用户需要生成不同的schema,这时候就需要用编程的方式去自定义schema

    • 反射机制
      定义一个case class

      case class People(name:String,age:Int)
      

      将rdd转化成people对象然后直接转化成DF

      	import sparkSession.implicits._
          //创建RDD
          val info = sparkSession.sparkContext.textFile("file:////Users/apple/Desktop/people.txt")
          val df = info.map(line=>line.split(",")).map(attr=>People(attr(0),attr(1).trim.toInt)).toDF
      

      当直接对df执行map操作时

      df.map(x=>x(0)).show()
      
      Error:(24, 11) Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.
       
      df.rdd.map(x=>x(0)).collect().foreach(println) //需要调用rdd
      
      df.rdd.map(x=>x.getAs[String]("name")).collect().foreach(println)  //另一种写法
      
    • 自定义schema*****
      分三个步骤:
      1.从原始RDD创建一个Row类型的RDD

      val rowRDD = info.map(line => line.split(",")).map(attr => Row(attr(0), attr(1).trim.toInt))
      

      2.创建一个StructType类型的schema与rowRDD进行匹配

      //不要采用官网这种写法,因为有的字段可能不是StringType,但是这种写法所有字段都是StringType
      val fields = schemaString.split(" ")
        .map(fieldName => StructField(fieldName, StringType, nullable = true))
      val schema = StructType(fields)
      
      //工作中采用这种方式来定义schema
      val struct = StructType(Array(StructField("name", StringType, true),
            StructField("age", IntegerType, true)
          ))
       val df = sparkSession.createDataFrame(rowRDD,struct)
      
  • df的api方法
    所有的方法都在functions.scala中在这里插入图片描述

  • 自定义UDF函数
    首先定义一个函数

    def parseName(name:String):String={
        "kaola"+name
      }
    

    注册函数

    sparkSession.udf.register("parseName",parseName _)   //_表示默认参数
    或者
    sparkSession.udf.register("parseName",(name:String)=>{
    	"kaola"+name
    }
    

    使用函数

    sparkSession.sql("select parseName(name) as name,age from people").show()
    

    更多UDF,UDAF请跳转到此博客

内容概要:该研究通过在黑龙江省某示范村进行24小时实地测试,比较了燃煤炉具与自动/手动进料生物质炉具的污染物排放特征。结果显示,生物质炉具相比燃煤炉具显著降低了PM2.5、CO和SO2的排放(自动进料分别降低41.2%、54.3%、40.0%;手动进料降低35.3%、22.1%、20.0%),但NOx排放未降低甚至有所增加。研究还发现,经济性和便利性是影响生物质炉具推广的重要因素。该研究不仅提供了实际排放数据支持,还通过Python代码详细复现了排放特征比较、减排效果计算和结果可视化,进一步探讨了燃料性质、动态排放特征、碳平衡计算以及政策建议。 适合人群:从事环境科学研究的学者、政府环保部门工作人员、能源政策制定者、关注农村能源转型的社会人士。 使用场景及目标:①评估生物质炉具在农村地区的推广潜力;②为政策制定者提供科学依据,优化补贴政策;③帮助研究人员深入了解生物质炉具的排放特征和技术改进方向;④为企业研发更高效的生物质炉具提供参考。 其他说明:该研究通过大量数据分析和模拟,揭示了生物质炉具在实际应用中的优点和挑战,特别是NOx排放增加的问题。研究还提出了多项具体的技术改进方向和政策建议,如优化进料方式、提高热效率、建设本地颗粒厂等,为生物质炉具的广泛推广提供了可行路径。此外,研究还开发了一个智能政策建议生成系统,可以根据不同地区的特征定制化生成政策建议,为农村能源转型提供了有力支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值