1、在linux环境下,切换到spark下的sbin目录中,输入
./start-all.sh
启动spark集群。同时,切换到spark的bin目录下,通过
./spark-shell
切换到scala下。
2、输入以下指令,导入SparkSession对象
import org.apache.spark.sql.SparkSession
3、输入以下指令,使支持rdds转换为dataframes及后续的sql操作
import spark.implicits._
4、创建sparksession对象
val session=SparkSession.builder().getOrCreate();
5、通过SparkSession对象,读取文件
val stuframe=session.read.json("file:///home/yaozhen/stu.json");
6、调用show()方法,查看所有数据
stuframe.show();
+-------+--------+
|stu_age|stu_name|
+-------+--------+
| 32| zhang|
| 18| wang|
+-------+--------+
7、或者可以使用select()方法,也可以查看部分数据或者所有的数据
stuframe.select(stuframe("stu_name")).show();
+--------+
|stu_name|
+--------+
| zhang|
| wang|
+--------+
本文档介绍了如何在Linux环境下启动Spark集群,并利用Scala交互式shell操作DataFrame。首先,通过`start-all.sh`启动Spark集群,然后使用`spark-shell`进入Scala环境。接着,导入`SparkSession`和隐式转换,创建`SparkSession`对象并读取JSON文件。通过`show()`和`select()`方法展示数据,实现数据的查看和筛选。这是一篇关于Spark集群管理和DataFrame使用的实战教程。
1480

被折叠的 条评论
为什么被折叠?



