Spark的Dataset操作(一)-列的选择select

最新推荐文章于 2025-11-05 21:22:23 发布

原创

最新推荐文章于 2025-11-05 21:22:23 发布 · 2.9w 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #dataset #spark-sql

环境说明：

用的版本是Spark 2.1，Dataset操作很丰富，join的支持也蛮好的，比原来用的spark 1.4好用多了。

嗯，Dataset操作，我觉得最重要的是把Column类的用法弄清楚。毕竟，后面的Dataset操作都是在操作列。最好的资料自然是官方文档，Spark的API文档还是挺详细的，而且还细分了Java/Scala/Python。

来个例子边看边说：

scala> val df = spark.createDataset(Seq(
            ("aaa", 1, 2),    ("bbb", 3, 4),    ("ccc", 3, 5),    ("bbb", 4, 6))
        ).toDF("key1","key2","key3")
df: org.apache.spark.sql.DataFrame = [key1: string, key2: int ... 1 more field]

scala> df.printSchema
root
 |-- key1: string (nullable = true)
 |-- key2: integer (nullable = false)
 |-- key3: integer (nullable = false)
scala> df.collect
res34: Array[org.apache.spark.sql.Row] = Array([aaa,1,2], [bbb,3,4], [ccc,3,5], [bbb,4,6])

上面的代码创建了一个DataFrame，有三列，列名分别是key1, key2, key3, 类型对应string, integer, integer。
当前造了4条记录，如上所示。

接下来看看选择列的几种调用方式：