Spark 创建一个简单的DataFrame示例

原创于 2020-12-29 20:22:00 发布 · 38 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

博客围绕Spark在大数据领域的应用展开，强调其在分布式处理方面的作用。Spark作为大数据处理工具，能高效处理分布式数据，为大数据分析等工作提供有力支持。

scala> val df = sc.parallelize(Seq(
     (0,"cat26",30.9), 
     (1,"cat67",28.5), 
     (2,"cat56",39.6),
     (3,"cat8",35.6))).toDF("Hour", "Category", "Value")

scala> df.show
+----+--------+-----+
|Hour|Category|Value|
+----+--------+-----+
|   0|   cat26| 30.9|
|   1|   cat67| 28.5|
|   2|   cat56| 39.6|
|   3|    cat8| 35.6|
+----+--------+-----+