spark - 小实践（2）dataset实战

最新推荐文章于 2025-06-19 15:48:08 发布

beTree_fc

最新推荐文章于 2025-06-19 15:48:08 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark实践文章标签： spark实战 datset应用

本文链接：https://blog.youkuaiyun.com/u013560925/article/details/79872435

spark实践专栏收录该内容

10 篇文章

订阅专栏

本文通过Spark 2.2版本的API介绍了一系列数据处理技巧，包括JSON数据读取、DataFrame操作、聚合函数使用等，特别关注了版本更新带来的API变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

spark官方example文件夹中提供了people.json的一份测试数据，并结合官方dataset使用方式的介绍，我们可以做一些练习,准备好的数据可以到这里下载：https://download.youkuaiyun.com/download/u013560925/10342251。

数据json读取时候的dataframe格式如下：

people.json:对应用户姓名和年龄

peopleScore.json: 对应用户的姓名和分数

！！之前使用的2.1的api,现在转为了较新的2.2的api，注意！在此说明spark和sql相关版本信息如下，如果版本不一致，api的使用方式会有所出入：

<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>
    <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.0</version>
            <scope>compile</scope>
    </dependency>

正文

本次涉及练习的api方法有：joinwith、groupBy、countDistinct、agg、sample、sort、dropDuplicates、join、mapPartition

dataset是强类型的数据集合，所以在很多时候都需要as[Int]等操作来生命数据类型，这是dataframe所不需要的。

0. 相关初始化和导入准备

初始化：

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()
       //注意要单独引入以下引用包！！！！
      import  spark.implicits._     //隐式转换
      import org.apache.spark.sql.functions._     //agg内置算法

1. joinWith

2.1 spark版本的条件是可以直接用字符串的，比如（$"name"===$"n"）,在2.2版本中就必须列来表示。

personsDS.joinWith(personScoresDS,personsDS("name")===personScoresDS("n")).show

2. groupBy+countDistinct

注意as[Int]、as[String]，注意使用agg(sum) 需要引入之前所说的依赖

personsDS.groupBy("name").agg(sum("age").as[Int],countDistinct("age").as[Int],current_date().as[String]).show()

3. agg

personsDS.groupBy("name").agg(collect_list("name").as[String],collect_set("age").as[Int])

4. sample

运行三次，每一次的随机抽取的数据都不一样

personsDS.sample(false,0.5).show()

5. sort

  personsDS.sort("age").show()

6. dropDuplicates

 personsDS.dropDuplicates("name").show

6. join

personsDS.join(personScoresDS,personsDS("name")===personScoresDS("n")).show

7. mapPartition

def doubleFunc(iter: Iterator[Person]) : Iterator[(String,Long)] = {
      var res = ArrayBuffer[(String,Long)]()
      while (iter.hasNext)
      {
        val cur = iter.next;
        res+=((cur.name,cur.age+1000))
      }
      res.iterator
    }
      personsDS.mapPartitions(doubleFunc)