Spark DataFrame选取多列

最新推荐文章于 2025-12-03 22:28:43 发布

原创最新推荐文章于 2025-12-03 22:28:43 发布 · 81 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

博客围绕Spark在大数据领域的应用展开，强调其在分布式处理方面的作用。Spark作为大数据处理工具，能高效处理分布式数据，为大数据分析等工作提供有力支持。

val df = sc.parallelize(Seq(
  (0,"cat26",30.9), 
  (1,"cat67",28.5), 
  (2,"cat56",39.6),
  (3,"cat8",35.6))).toDF("Hour", "Category", "Value")

//或者从文件读取成List
val cols = List("Hour", "Value")

scala> df.select(cols.head, cols.tail: _*).show
+----+----------+
|Hour|Value|
+----+----------+
|   1|      28.5|
|   3|      35.6|
|   2|      39.6|
|   0|      30.9|
+----+----------+