Spark操作Mysql和Hive

最新推荐文章于 2024-10-20 14:18:55 发布

原创

最新推荐文章于 2024-10-20 14:18:55 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #mysql #hive

本文介绍了如何使用Spark SQL通过JDBC从MySQL加载数据，并展示了在Spark Shell中执行查询的步骤，同时注意到连接时可能出现的错误及解决方法。接着，文章讨论了Spark与Hive的集成，包括添加hive-site.xml配置文件到Spark conf以及启动metastore服务的不同方式，以实现SparkSQL与Hive元数据的交互。

1.Mysql

JDBC

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

从MySQL中加载数据（Spark Shell方式）

1.启动Spark Shell，必须指定mysql连接驱动jar包

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \
--master spark://node1.itcast.cn:7077 \
--jars /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar \
--driver-class-path /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar

2.从mysql中加载数据

val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" ->     "jdbc:mysql://localhost:3306/test", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "person",     "user" -> "root", "password" -> "root")).load()