使用Linux的shell命令实现SparkSql操作数据库

最新推荐文章于 2024-01-25 09:43:40 发布

原创最新推荐文章于 2024-01-25 09:43:40 发布 · 2.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sql #linux #dataset #数据库

大数据专栏收录该内容

13 篇文章

订阅专栏

本文档介绍了如何在Linux环境下启动Spark集群，并利用Scala交互式shell操作DataFrame。首先，通过`start-all.sh`启动Spark集群，然后使用`spark-shell`进入Scala环境。接着，导入`SparkSession`和隐式转换，创建`SparkSession`对象并读取JSON文件。通过`show()`和`select()`方法展示数据，实现数据的查看和筛选。这是一篇关于Spark集群管理和DataFrame使用的实战教程。

1、在linux环境下，切换到spark下的sbin目录中，输入

./start-all.sh

启动spark集群。同时，切换到spark的bin目录下，通过

./spark-shell

切换到scala下。

2、输入以下指令，导入SparkSession对象

import org.apache.spark.sql.SparkSession

3、输入以下指令，使支持rdds转换为dataframes及后续的sql操作

import spark.implicits._

4、创建sparksession对象

val session=SparkSession.builder().getOrCreate();

5、通过SparkSession对象，读取文件

val stuframe=session.read.json("file:///home/yaozhen/stu.json");

6、调用show（）方法，查看所有数据

stuframe.show();
+-------+--------+
|stu_age|stu_name|
+-------+--------+
|     32|   zhang|
|     18|    wang|
+-------+--------+

7、或者可以使用select（）方法，也可以查看部分数据或者所有的数据

stuframe.select(stuframe("stu_name")).show();
+--------+
|stu_name|
+--------+
|   zhang|
|    wang|
+--------+