Spark和Hive集成使用时mysql驱动包无法加载解决办法

本文介绍了在使用Spark调用Hive并进行数据分析时遇到的无法找到合适驱动的问题及解决方案。通过调整jar包的加载方式从–jars改为–driver-class-path成功解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们在处理离线数据分析时,一般做法是用正则等处理数据,把最终结果保存到Hive仓库。Spark应用程序调用Hive,用Sprk sql进行查询分析。
第一次集成时,报无法找到合适的驱动错误:

Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true
        at java.sql.DriverManager.getConnection(DriverManager.java:596)
        at java.sql.DriverManager.getConnection(DriverManager.java:187)
        at org.datanucleus.store.rdbms.datasource.dbcp.DriverManagerConnectionFactory.createConnection(DriverManagerConnectionFactory.java:78)
        at org.datanucleus.store.rdbms.datasource.dbcp.PoolableConnectionFactory.makeObject(PoolableConnectionFactory.java:582)
        at org.datanucleus.store.rdbms.datasource.dbcp.pool.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:1158)
        at org.datanucleus.store.rdbms.datasource.dbcp.PoolingDataSource.getConnection(PoolingDataSource.java:108)
        at org.datanucleus.store.rdbms.ConnectionFactoryImpl$ManagedConnectionImpl.getConnection(ConnectionFactoryImpl.java:501)
        at org.datanucleus.store.rdbms.RDBMSStoreManager.<init>(RDBMSStoreManager.java:298)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
        at org.datanucleus.plugin.NonManagedPluginRegistry.createExecutableExtension(NonManagedPluginRegistry.java:631)
        at org.datanucleus.plugin.PluginManager.createExecutableExtension(PluginManager.java:301)
        at org.datanucleus.NucleusContext.createStoreManagerForProperties(NucleusContext.java:1187)
        at org.datanucleus.NucleusContext.initialise(NucleusContext.java:356)
        at org.datanucleus.api.jdo.JDOPersistenceManagerFactory.freezeConfiguration(JDOPersistenceManagerFactory.java:775)

经检查,mysql驱动包已经放到spark目录下,并且使用 –jars参数加载:

bin/spark-shell  --jars  externaljars/mysql-connector-java-5.1.27-bin.jar   --master local[2]

分析原因,可能是–jars没有加载上驱动,改成 –driver-class-path加载:

bin/spark-shell  --jars  externaljars/mysql-connector-java-5.1.27-bin.jar   --master local[2]

问题解决,启动成功。

### Spark 2.4.5 安装与 Hive 集成教程 #### 准备工作 在开始之前,需确认已安装好 Java、Scala Hadoop 的运行环境。此外,还需要准备以下组件版本: - **Java**: 推荐 JDK 8 或更高版本。 - **Hadoop**: 版本应兼容 Spark 2.4.5(推荐 Hadoop 3.x)[^2]。 - **MySQL**: 用于存储 Hive 元数据。 --- #### 环境配置 1. **下载并解压 Spark** 下载 Spark 2.4.5 并将其解压缩到指定目录下。例如 `/opt/module/spark`。 ```bash wget https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /opt/module/ ``` 2. **设置 Spark 环境变量** 修改 `/etc/profile` 文件,添加如下内容: ```bash export SPARK_HOME=/opt/module/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ``` 加载环境变量: ```bash source /etc/profile ``` 3. **配置 MySQL 数据库** 创建数据库 `hive_metastore` 并授权访问权限。执行以下命令创建表结构文件所需的用户密码: ```sql CREATE DATABASE hive_metastore; GRANT ALL PRIVILEGES ON hive_metastore.* TO 'hive'@'%' IDENTIFIED BY 'password'; FLUSH PRIVILEGES; ``` 4. **安装 Hive** 将 Hive 解压至目标路径(如 `/opt/module/hive`),并完成基础配置。编辑 `hive-site.xml` 文件,添加以下内容以连接 MySQL 存储元数据: ```xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive_metastore?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property> ``` 同,在 `$HIVE_HOME/conf/` 中放置 MySQL JDBC 驱动程序(`mysql-connector-java.jar`)。如果未提供该驱动,则需要手动下载并复制到此位置。 5. **初始化 Metastore** 使用以下命令启动 Hive 初始化脚本来构建必要的表结构: ```bash schematool -dbType mysql -initSchema ``` --- #### 配置 Spark 支持 Hive 为了使 Spark 能够读取 Hive 表中的数据,需要调整 Spark 的配置文件以及加载 Hive 的依赖项。 1. **修改 Spark 配置** 编辑 `$SPARK_HOME/conf/spark-defaults.conf` 文件,加入以下参数来启用 Hive 支持: ```properties spark.sql.catalogImplementation=hive spark.hadoop.hive.metastore.uris=thrift://<hostname>:9083 ``` 如果启用了 Kerberos 认证或其他安全机制,请根据实际情况补充更多选项。 2. **将 Hive JAR 包引入 Spark Classpath** 把 Hive 的核心类库拷贝到 Spark 的 lib 目录下或者通过 `--jars` 参数显式传递给应用程序实例化使用。通常情况下,默认已经包含了这些必需的 jar 文件;但如果遇到缺失错误提示,则可以尝试重新导入它们。 3. **验证集成效果** 运行简单的测试查询操作检验两者之间交互是否正常运作。比如打开 shell 终端输入下面语句查看是否有对应的结果返回: ```scala val df = spark.read.table("your_hive_table_name") df.show() ``` --- #### 常见问题排查 - 若发现无法识别某些特定类型的分区字段或是其他异常情况发生,可能是因为版本不匹配引起的问题。建议仔细核对各个软件间的相互依存关系后再做相应升级处理。 - 当前文档仅适用于离线批处理场景下的简单演示用途。对于生产环境中涉及高并发请求负载均衡等方面还有许多额外考量因素待解决。 ```python from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName('TestApp').setMaster('local[*]') sc = SparkContext(conf=conf) sqlCtx = SQLContext(sc) df = sqlCtx.sql("SELECT * FROM your_hive_table LIMIT 10") df.collect() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值