【图书介绍】《Spark SQL大数据分析快速上手》-优快云博客
《Spark SQL大数据分析快速上手》【摘要 书评 试读】- 京东图书
Spark本地模式安装_spark3.2.2本地模式安装-优快云博客
DML(Data Manipulation Language,数据操作语言)操作主要用来对数据进行插入、更新和删除操作。本节主要介绍Spark SQL中的DML操作。
Spark SQL提供了一个命令行工具,可以让用户直接通过命令行运行SQL查询。Spark SQL可以兼容Hive,以便Spark SQL支持Hive表访问、UDF(用户自定义函数)以及Hive查询语言(HiveQL/HQL)。
若要使用Spark SQL CLI的方式访问和操作Hive表数据,需要对Spark SQL进行如下所示的环境配置,将Spark SQL连接到一个部署好的Hive上。
(1)将hive-site.xml复制到/home/hadoop/app/spark/conf/目录下。
(2)在/home/hadoop/app/spark/conf/spark-env.sh文件中配置MySQL驱动。
将MySQL驱动复制到所有节点的Spark安装包的jars目录下,并在/home/hadoop/app/spark/ conf/spark-env.sh末尾添加以下内容:
export SPARK_CLASSPATH=/home/hadoop/app/spark/jars/mysl-connector-java-5.1.32.jar
然后,启动MySQL服务。
(3)启动 Hive的metastore服务:hive–service metastore &。
(4)进入/home/hadoop/app/spark/sbin/目录,执行./start-all.sh,启动Spark。
(5)进入/home/hadoop/app/spark/bin目录,执行./spark-sql,开启Spark SQL CLI。
spark-sql本质上是通过spark-submit调用Spark SQL的API,每个spark-sql单独启动一个应用。
一旦进入Spark SQL

最低0.47元/天 解锁文章





